ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Occupancy Network
    Autonomous Driving 2023. 6. 7. 00:54

     

    https://towardsdatascience.com/vision-centric-semantic-occupancy-prediction-for-autonomous-driving-16a46dbd6f65

     

    Vision-centric Semantic Occupancy Prediction for Autonomous Driving

    A literature review of the academic “Occupancy Network” as of 2023H1

    towardsdatascience.com

     

    Tesla 에서 Occupancy Network이라는 것 소개한 후 그냥 궁금해서 조사를 해봤고

    위 사이트가 정리가 잘되어 있길래 번역을 해봤다.

     

    자세한 내용은 위 사이트를 참조하면 됨.

     

    참고로 번역은 chatgpt가 함. 세상 좋아짐.

     

    몇 줄 요약


    lidar Point Cloud에서 부터 시작한 (SCC)Semantic Scene Completion 가 카메라를 이용한 방식 SOP(Semantic Occupancy Prediction)로 확장됨. 처음에는 1개 카메라를 이용했으나 지금 은 멀티 카메라를 이용한 네트워크까지 나온 상황임.

    그러나 아래 페이지를 보면 이 일이 얼마나 힘든 일인지 알수 있음.

    A100으로 290ms 말 다했음. 사용 못한다는 얘기임. 

    출처 : https://github.com/wzzheng/TPVFormer

    Comparisons with Tesla's Occupancy Network
      Tesla's Occupancy Network Our TPVFormer
    Volumetric Occupancy Yes Yes
    Occupancy Semantics Yes Yes
    #Semantics >= 5 16
    Input 8 camera images 6 camera images
    Training Supervision Dense 3D reconstruction Sparse LiDAR semantic labels
    Training Data ~1,440,000,000 frames 28,130 frames
    Arbitrary Resolution Yes Yes
    Video Context Yes Not yet
    Training Time ~100,000 gpu hours ~300 gpu hours
    Inference Time ~10 ms on the Tesla FSD computer ~290 ms on a single A100

     

    Vision-centric Semantic Occupancy Prediction for Autonomous Driving


    자율주행에서 기존의 3D 객체 감지 방법의 중요한 문제점은 일반적으로 간결한 3D 경계 상자를 출력하며 더 세부적인 기하학적 세부 사항을 무시하고 일반적이고 사전에 알려지지 않은 객체를 처리하는 데 어려움을 겪는다는 것입니다. 이러한 문제점은 단안 3D 객체 감지 및 BEV(이동 기저면) 다중 카메라 객체 감지 모두에 존재합니다. 이 문제를 해결하기 위해 CVPR 2022에서 테슬라의 주요 연설에서 처음 소개된 시각 중심의 일반적인 장애물 감지 솔루션인 Occupancy Network가 있으며, 이후 2022 AI Day에서 인기를 얻었습니다. 자세한 내용은 drivable space에 대한 이전 블로그 포스트 시리즈를 참조하세요.


    학계에서 Occupancy Network에 해당하는 인식 트랙은 Semantic Occupancy Prediction (SOP)으로 알려져 있으며, 때로는 Semantic Scene Completion (SSC)으로도 언급되며 두 가지 사이에 약간의 차이가 설명됩니다. 의미론적 점유 예측은 장면의 각 복셀에 점유 상태와 의미적 레이블을 할당합니다. 이는 알려진 클래스의 객체를 설명하기에 충분히 일반적이고 표현력이 있지만 불규칙한 모양을 가진 객체나 알려진 화이트 리스트를 벗어난 객체를 포함합니다. 이 블로그 포스트에서는 2023년 초를 기준으로 의미론적 점유 예측의 최첨단 방법을 검토합니다. 이 분야는 학계에서 강한 관심을 받고 있으며, 주요 학회에 제출된 논문의 폭발적인 증가로 확인할 수 있으며, 올해의 CVPR에서는 점유 예측 도전 과제도 있습니다.

     

    의미적 장면 완성 (SSC) 개념은 SSCNet 논문(CVPR 2017)에서 처음 제안되었으며, 이후 SemanticKITTI(ICCV 2019)에서 공식 데이터셋과 경쟁 트랙을 제공하면서 인기를 얻었습니다. 최근에는 약간 다른 작업인 의미적 점유 예측 (SOP)이 등장했습니다. SSC와 SOP 모두 주어진 공간 위치의 복셀의 점유 상태와 의미적 클래스를 예측하는 것을 목표로 하지만 몇 가지 미묘한 차이점이 있습니다. 첫째, SSC의 입력 형태는 LiDAR 또는 기타 액티브 깊이 센서에 의해 수집된 부분적인 3D 데이터입니다. 따라서 "3D 의미적 장면의 완성"이라는 이름입니다. SOP는 2D 이미지, 가능한 경우에는 다중 카메라와 다중 프레임을 입력으로 사용합니다. 또한, SSC는 일반적으로 정적인 장면에 초점을 맞추고 있으며, SOP는 동적인 객체도 처리할 수 있습니다. 요약하면, SOP가 보다 일반적이고 선호되는 용어로 보이며, 이 기사에서는 Semantic Occupancy Prediction, Semantic Scene Completion, Occupancy Network를 서로 교환하여 사용할 것입니다.

    monoScene의 선도적인 작업은 단안 이미지를 사용하여 SemanticKITTI에서 의미적 점유 예측 작업을 수행합니다. SemanticKITTI는 대부분 정적인 장면을 포함하고 있기 때문에 아직도 이 작업을 SSC라고 언급합니다. 그러나 후속 연구에서는 NuScenes 및 Waymo와 같은 다른 데이터셋을 포함하여 작업을 확장하고 동적 객체도 처리하기 때문에 SOP라는 용어를 선호합니다.

     


    획기적인 연구들에 대한 고수준 요약은 다음과 같습니다. 이곳에서는 지난 한 해 동안의 연구 열풍을 고수준에서 요약하고, 이어서 다양한 기술적 세부사항에 대한 요약을 제공할 것입니다. 아래는 검토할 작업의 전반적인 발전 과정을 요약한 다이어그램입니다. 이 분야는 여전히 급속하게 진화하고 있으며, 보편적으로 인정받는 데이터셋과 평가 지표에 대한 수렴은 아직 이루어지지 않았음을 감안해야 합니다.

     

    의미론적 점유 예측 분야의 개발 타임라인

     

    MonoScene (CVPR 2022), 첫 번째 비전 입력 시도

    MonoScene은 이전 연구에서 사용된 LiDAR 포인트 클라우드와 달리 RGB 이미지만을 입력으로 사용하여 실외 장면을 재구성하는 첫 작업입니다. 이는 단일 카메라 솔루션으로, 주로 전방 카메라만 사용하는 SemanticKITTI 데이터셋에 초점을 맞춥니다.

    MonoScene의 아키텍처 (출처: MonoScene)
    논문에서는 많은 아이디어를 제안했지만, 하나의 설계 선택이 핵심적으로 보입니다 - FLoSP (Feature Line of Sight Projection). 이 아이디어는 시선 방향으로의 특징 전파 아이디어와 유사하며, OFT (BMVC 2019) 또는 Lift-Splat-Shoot (ECCV 2020)에서도 채택되었습니다. 문맥 관계 우선순위나 직접적인 메트릭 최적화에 영감을 받은 독특한 손실과 같은 다른 독창성들은 연구 결과에 따르면 그다지 유용하지 않다고 나타났습니다.

     

     

    VoxFormer (CVPR 2023), monoScene의 큰 개선

    VoxFormer의 주요 통찰력은 SOP/SSC가 동시에 두 가지 문제를 해결해야 한다는 것입니다: 가시 영역에 대한 장면 재구성과 가려진 영역에 대한 장면 환상화. VoxFormer는 재구성 및 밀도화 접근법을 제안합니다. 첫 번째 재구성 단계에서는 논문에서 RGB 픽셀을 모노 깊이 방법을 사용하여 가상의 LiDAR 포인트 클라우드로 변환한 후 초기 쿼리 제안으로 보클라이즈합니다. 두 번째 밀도화 단계에서는 희소한 쿼리들을 이미지 특징과 함께 강화하고, 자기 주의 메커니즘을 사용하여 레이블 전파를 위해 밀집 예측을 생성합니다. VoxFormer는 SemanticKITTI에서 MonoScene을 크게 앞서가며 여전히 단일 카메라 솔루션입니다. 이미지 특징 강화 아키텍처는 BEVFormer의 변형 가능한 어텐션 아이디어를 크게 차용하였습니다.

     

     

    TPVFormer (CVPR 2023), 첫 번째 다중 카메라 시도

    TPVFormer는 3D 의미적 점유 예측을 다중 카메라 설정으로 일반화하는 첫 작업이며, SOP/SSC의 아이디어를 SemanticKITTI에서 NuScenes로 확장합니다.

    TPVFormer의 아키텍처 (출처: TPVFormer)
    TPVFormer는 BEV의 아이디어를 세 개의 직교 축으로 확장합니다. 이를 통해 어떤 축도 억제하지 않고 3D 모델링이 가능하며, 입방체 복잡성을 피할 수 있습니다. 구체적으로 TPVFormer는 TPV 특징을 생성하기 위해 두 단계의 어텐션을 제안합니다. 첫째, 이미지 교차 어텐션 (ICA)을 사용하여 TPV 특징을 얻습니다. 이는 사실상 BEVFormer의 아이디어를 차용하고 다른 두 개의 직교 방향으로 확장하여 TriPlane View 특징을 형성합니다. 그런 다음 교차 보기 하이브리드 어텐션 (CVHA)을 사용하여 각 TPV 특징을 다른 두 개의 특징에 주의를 기울여 강화합니다.

    TPVFormer는 vanilla NuScenes 데이터셋의 희소한 LiDAR 포인트로부터 지도를 활용하며, 다중 프레임의 밀집화나 재구성은 수행하지 않습니다. 모델은 훈련 시에는 희소한 지도를 사용하지만 추론 시에는 모든 복셀에 대해 더 밀집하고 일관성 있는 체적 점유도를 예측할 수 있다고 주장합니다. 그러나 밀집한 예측은 SurroundOcc와 같이 NuScenes 데이터셋을 밀집화하는 후속 연구와 비교할 때 여전히 그렇게 밀집하진 않습니다.

     

    SurroundOcc (Arxiv 2023/03)와 OpenOccupancy (Arxiv 2023/03), 밀집 라벨 지도에 대한 첫 번째 시도

    SurroundOcc는 밀집 예측에는 밀집 라벨이 필요하다고 주장합니다. 이 논문은 SurroundOcc와 같은 이전 방법들의 성능을 거의 3배나 향상시키는 등, 더 밀집한 라벨이 이전 방법들의 성능을 크게 개선할 수 있음을 성공적으로 보여주었습니다. 가장 큰 기여는 비용이 많이 드는 인간 주석이 필요하지 않고도 밀집된 점유 지면 실측을 생성하기 위한 파이프라인입니다.

    SurroundOcc의 밀집 점유 라벨 생성 파이프라인 (출처: SurroundOcc)
    밀집 점유 라벨의 생성은 두 단계로 이루어집니다: 다중 프레임 데이터 집계와 밀집화입니다. 먼저, 동적 객체와 정적 장면의 다중 프레임 LiDAR 포인트가 별도로 연결됩니다. 축적된 데이터는 단일 프레임 측정보다 더 밀집하지만 여전히 많은 구멍이 있으며, 추가적인 밀집화가 필요합니다. 밀집화는 삼각형 망으로의 포아송 표면 재구성 및 라벨을 새롭게 채워진 복셀로 전파하기 위한 Nearest Neighbor (NN)을 통해 수행됩니다.

    OpenOccupancy는 SurroundOcc와 동시에 등장하며, 그 정신과 유사합니다. SurroundOcc와 마찬가지로 OpenOccupancy도 먼저 동적 객체와 정적 장면의 다중 프레임 LiDAR 측정치를 집계하는 파이프라인을 사용합니다. 추가적인 밀집화를 위해 SurroundOcc에서 사용한 포아송 재구성 대신, OpenOccupancy는 Augment-and-Purify (AAP) 접근법을 사용합니다. 구체적으로, 집계된 원시 라벨로 기준 모델을 훈련하고, 그 예측 결과를 원래 라벨과 융합하여 더 밀집한 라벨을 생성합니다 ("augment"라고 함). 이 밀집한 라벨은 대략 2배 밀집하며, 인간 주석 작업자에 의해 수작업으로 정제됩니다 ("purify"라고 함). nuScenes의 라벨 정제를 위해 총 4000시간의 인간 작업이 투입되었으며, 대략 20초 클립 당 4시간의 인간 작업 시간을 소요했습니다.

    SurroundOcc의 아키텍처 (출처: SurroundOcc)

    CONet의 아키텍처 (출처: OpenOccupancy)
    밀집 라벨 생성 파이프라인의 기여에 비해, SurroundOcc와 OpenOccupancy의 네트워크 아키텍처는 혁신적이지 않습니다. SurroundOcc는 대부분 BEVFormer를 기반으로 하며, 3D 특징을 강화하기 위해 고해상도 점유 지도의 과정을 포함합니다. OpenOccupancy는 CONet (cascaded occupancy network)을 제안하는데, 이는 Lift-Splat-Shoot와 유사한 방식을 사용하여 2D 특징을 3D로 변환하고, 그 후에 연속된 방식으로 3D 특징을 강화합니다.

     

    최근 시맨틱 영업 예측 논문들의 기술적 세부사항 및 비교를 종합한 내용입니다. 제공해주신 정보에 기반하여, 다음은 주요 요약 사항입니다:



    네트워크 아키텍처: 대부분의 연구는 BEV 인식을 위한 최첨단 방법들인 BEVFormer와 Lift, Splat, Shoot을 기반으로 합니다. 아키텍처는 일반적으로 2D에서 3D로 특성을 변환하는 단계와 3D 특성을 향상시키는 단계로 구성됩니다. 아키텍처는 대체로 수렴되었으며, 이제 밀집된 점유도 주석 생성 파이프라인과 훈련 중의 밀집된 지도에 초점이 맞추어져 있습니다.

    훈련 손실: 시맨틱 영업 예측 작업은 시맨틱 분할과 매우 유사하며, SOP는 3D 공간의 모든 복셀에 대해 시맨틱 레이블을 예측해야 하는 반면, 시맨틱 분할은 각 측정 지점에 대해 하나의 시맨틱 레이블을 예측해야 합니다(예: 이미지당 픽셀 또는 LiDAR 스캔당 3D 포인트). 시맨틱 분할의 주요 손실 함수는 교차 엔트로피 손실과 Lovasz 손실입니다. Lovasz 확장은 신경망에서 평균 IoU (Intersection-over-Union) 지표를 직접 최적화할 수 있도록 합니다.

    Lovasz에 영감을 받은 monoScene은 평가 지표를 직접 최적화할 수 있는 여러 다른 손실 함수를 제안했습니다. 그러나 이러한 손실 함수는 난해하며, 감소 연구에서 완전히 지원되지 않는 것으로 보입니다.

    평가 지표: 기하학적 점유도 예측 (복셀이 점유되어 있는지 여부)에 대한 기본적인 지표는 IoU이고, 시맨틱 분류 (점유된 복셀이 어떤 클래스에 속하는지)에 대한 평균 IoU (mIoU)입니다. 이러한 지표는 산업 응용에는 부족할 수 있습니다.
    비전 기반 SOP 작업은 산업용으로 성숙해져야 하며, 리다가 대체되는 것입니다. IoU 지표에서 계산되는 것처럼 정밀도와 재현율 둘 다 중요하지만, 운전자가 운전석에 있는 한 팬텀 브레이킹을 피하기 위해 정밀도가 더 중요합니다.

    감지 범위와 해상도: 현재의 트랙은 주변 50미터를 예측합니다. 복셀 해상도는 SemanticKITTI의 경우 0.2m이고, NuScenes와 Waymo 데이터셋의 경우 0.4m 또는 0.5m입니다. 이는 좋은 시작점이지만, 산업 응용에는 여전히 부족할 수 있습니다.
    더 합리적인 해상도와 범위는 50m 내의 범위에 대해 0.2m, 50m에서 100m 사이의 범위에 대해 0.4m일 수 있습니다.

    관련 작업: SOP와 관련된 두 가지 작업은 Surrounding Depth Maps와 LiDAR Semantic Segmentation입니다. 각각 간단히 살펴보겠습니다.
    Surround Depth Map 예측 작업(FSM 및 SurroundDepth 같은 작업)은 단안 깊이 예측을 확장하고, 중첩된 카메라 시야에서의 일관성을 활용하여 성능을 더욱 향상시킵니다. 이 작업은 각 이미지의 픽셀에 깊이 값을 할당함으로써 측정 원천에 더 중점을 둡니다(하향식). SOP는 BEV 공간에서의 응용 대상에 더 중점을 둡니다(상향식). BEV 인식을 위한 Lift-Splat-Shoot와 BEVFormer 사이의 비교와 같은 유사한 유추입니다.

    LiDAR Semantic Segmentation은 각 LiDAR 포인트 클라우드에 시맨틱 클래스 레이블을 할당하는 작업입니다. 3D에서의 실제 센싱은 희소하고 불완전합니다. 종합적인 시맨틱 이해를 위해서는 희소한 측정만 분석하여 보지 않고, 관찰되지 않은 장면 구조를 고려해야 합니다.

    요약:

    시맨틱 영업 예측의 신경망 아키텍처는 크게 수렴된 것으로 보입니다.

    가장 중요한 것은 밀집된 점유도 주석 생성 파이프라인과 훈련 중의 밀집된 지도입니다.
    현재의 감지 범위와 복셀 해상도는 산업 응용에는 부족할 수 있습니다. 

    100m의 감지 범위와 0.2m의 더 세밀한 해상도가 필요할 수 있습니다.
    현재의 평가 지표도 산업 응용에는 부족할 수 있습니다. 

    운전자에게 빈번한 팬텀 브레이킹을 피하기 위해 정밀도가 재현율보다 중요합니다.
    시맨틱 영업 예측의 미래 방향은 장면 흐름 추정을 포함할 수 있습니다. 

    이는 알려지지 않은 장애물의 미래 경로 예측 및 주행 경로 계획 중 충돌 회피에 도움이 될 것입니다.
    참고: 이 블로그 글의 모든 이미지는 저작자에 의해 제작되었거나 공개적으로 이용 가능한 학술 논문에서 가져온 것입니다. 자세한 내용은 캡션을 참조하십시오.

    반응형

    'Autonomous Driving' 카테고리의 다른 글

    Designing Network Design Spaces 논문 번역  (0) 2023.06.21
    Tesla AI Day 2021 Ashok part 번역  (3) 2023.06.19
    Tesla AI Day 2021 Andrej part 번역  (3) 2023.06.19
    Image rectification Layer  (0) 2023.06.16
    BEVFormer 논문 번역  (3) 2023.06.14
Designed by Tistory.