CVPR23 E2EAD | 3D Occupancy Prediction Challenge
새로운 것은 아니고 정리를 잘한것 같아서 번역해봄.
https://youtu.be/kmKRiRYcoRg?list=PL3N9otbGBVLc3jdm6yrPtCWdE7C8AsNAy
Transcript:
(00:02) okay so our next session would be two uh state of Arts solution this presentation on this 3D occupancy predictions so two very uh exciting like uh presentations the first one is from hausma from uh Shanghai lab so this talk will be online and the second is we're from cheating from Nvidia so this refer will be in person right so let's uh welcome to how smart first uh it will be an online talk 20 minute online talk okay so thank you it's away for introducing me so hi everyone my name is I'm from the open drive Lab at Shanghai
(00:02) 좋아, 다음 세션은 두 가지 상태 예술 솔루션에 관한 발표입니다. 이 발표는 3D 점유 예측에 관한 것으로 매우 흥미로운 내용입니다. 첫 번째 발표는 상하이 연구소의 Hausma님의 것이며, 온라인으로 진행될 예정입니다. 두 번째 발표는 Nvidia의 Cheating님의 것으로, 이 발표는 직접 참석하여 진행될 것입니다. 그럼 Hausma님을 환영해주시고, 첫 번째로 온라인 발표를 시작하도록 하겠습니다. 발표는 20분 동안 진행될 예정입니다. 감사합니다. 저를 소개해주신 것에 감사드리며, 안녕하세요 여러분. 저는 상하이의 Open Drive 연구소에서 일하고 있는 [당신의 이름]입니다. |
(00:43) lab so today I would like to talk about also from Bird live view perception to sinus occupancy and overview of camera 3D perceptions done by open Java lab in recent years so uh so let's give us so some brick so background knowledge about why we need 3D perception so um apparently we have three perception in terms of striving to send some to sense the word around and then in the Robotics and body AI we also need the 3D perception to um to find the affordance in the in your in the surrounding environment to get what will win what
(00:43) 오늘은 상하이 Open Java 연구소에서 최근 몇 년간 수행한 Bird Live View 인식부터 사이너스 점유 및 카메라 3D 인식에 대한 개요에 대해 이야기하고자 합니다. 그러니까 3D 인식이 왜 필요한지에 대한 배경 지식을 알려드리겠습니다. 어떤 맥락에서 우리는 주변 세계를 감지하기 위해 몇 가지 인식이 필요합니다. 로봇 공학 및 인공 지능 분야에서도 주변 환경에서의 가능성을 찾고 이를 활용하기 위해 3D 인식이 필요합니다. |
(01:20) you can attach touch or to do the housework and um so why we focus on camera based mappers so um so there are some basic uh for reasons for that so it is low cost it is it is easy to deploy um you can sense long range and also it is rich in semantic appearance and some uh so what is the core issue in camera only 3D perception so we think that it is the accurate depth so this is a brief so if you feel with the accurate depth so we can bridge the gap between the camera brace and the ladder base method so um here is a simple example to
(01:20) 당신은 접촉이나 가사 일에 사용할 수 있으며, 그래서 우리는 왜 카메라 기반의 매퍼에 초점을 맞추는지에 대해 이야기하고 있습니다. 이에는 몇 가지 기본적인 이유가 있습니다. 저렴하고 배치하기 쉽습니다. 장거리 감지가 가능하며 시맨틱한 외관 정보를 제공합니다. 그리고 카메라 기반의 3D 인식에서 핵심적인 문제는 정확한 깊이 정보입니다. 이것이 카메라 기반과 레이더 기반 방법 간의 격차를 좁힐 수 있는 중요한 요소라고 생각합니다. 간단한 예시를 통해 이를 이해해보겠습니다. |
(02:01) help you to understand this so in the monocular 3D detection or tracking by detection if we have a death Arrow you can see here in the previous in the BB per live view so you can see that that's error will cause the big gap between the ground shoes and the prediction burning box but we feel with the uh the correct depth or at the same time so the ground shoes and the prediction will will align well and then how do we solve this accurate depth issues so um there are many tracks to uh to solve this one is called the
(02:01) 모노큘러 3D 검출이나 디텍션을 통한 추적에서 깊이 오차가 있는 경우, 이전의 Bird Live View에서 확인할 수 있는 것처럼 땅의 신발과 예측 경계 상자 사이에 큰 갭이 발생할 수 있습니다. 그러나 정확한 깊이 정보를 가지고 있다면, 땅의 신발과 예측이 정확하게 일치할 것입니다. 그렇다면 정확한 깊이 문제를 어떻게 해결할까요? 이를 해결하기 위해 다양한 방법이 있습니다. 그 중 하나는... |
(02:37) procedural lidar so we can predict so if we don't have the accurate F we can predict the depth to uh form such as pseudo like that things and then it's the center point check here we can um we can detect the heat map in 2D to infer the post in 3D based on the geometric mappings from the 3D space to the 2D perspective we will so the first way is to do the desk training so um we can embed the 3D prior knowledge in the 2D printing Bible such as the work done by the tri the DDA the dd3d works so it is a very successful 3D backbone using many
(02:37) 절차적인 LiDAR를 사용하여 정확한 깊이 정보가 없는 경우에도, 유사한 가짜(depth)를 형성하기 위해 깊이를 예측할 수 있습니다. 그리고 여기에는 중심점 체크(center point check)가 있습니다. 우리는 2D에서 히트맵을 감지하여 3D에서의 위치를 추론할 수 있습니다. 이는 3D 공간에서 2D 시점으로의 기하학적 매핑을 기반으로 합니다. 첫 번째 방법은 데스크 트레이닝을 수행하는 것입니다. 우리는 3D 선행 지식을 2D 표현 방식에 내장시킬 수 있습니다. 이는 Tri- DDA나 DD3D와 같은 작업에서 수행되는 것으로, 많은 성공적인 3D 백본을 사용합니다. |
(03:18) Challenge and many 3D works so the last thing is that we can do the third eye view real transformation so we are transforming the perspective real feature to be featured to um to facilitate the following task so there's a trending trending in the per die view perception in recent years so from 2021 we have hdmemnet which is given the HD map in the upper W coordinate to propose the aggregation feature based on both camera and ladder and then later yes we have the DTR 3D and the preview that we can uh we are
(03:18) 도전과 많은 3D 작업들이 있습니다. 마지막으로, 우리는 세 번째 시점의 실제 변환을 수행할 수 있습니다. 이는 퍼스펙티브 실제 특징을 변환하여 다음 작업을 용이하게 하는 것입니다. 최근 몇 년간 퍼 다이(view) 인식에서 트렌드가 있습니다. 2021년부터는 HD Map을 상단 W 좌표로 제공하여 카메라와 레이더를 기반으로 한 특징의 집합을 제안하는 HD-MemNet이 있습니다. 그리고 그 이후로는 DTR 3D와 미리보기(preview) 등이 있으며, 우리는 이들을 활용하여... |
(03:56) able to fuse the object detection using the animal direction of cameras in BV and then in 2022 we have the reformer performer to explicitly construct the BB representation feature from the camera parameters and then later we have some fusion works the Sensor Fusion works such as the BB Fusion at the fuel tr3d in this time we are fusing the multimodality features in the paper W representation since it is a very convenient to fill the different modalities features so um the core problem here is that how to model The View transformation from
(03:56) 카메라의 시각 방향을 이용하여 객체 검출을 융합할 수 있는 기능을 제공하는 동물 방향을 사용하여 퓨전을 수행할 수 있습니다. 그리고 2022년에는 리포머 퍼포머가 있어, 카메라 매개변수를 통해 명시적으로 BB 표현 특징을 구성할 수 있습니다. 그리고 이후에는 BB 퓨전, 연료 TR3D 등과 같은 센서 퓨전 작업이 있습니다. 이번에는 다양한 특징을 퓨전하기 위해 2D 표현을 활용하며, 서로 다른 모달리티 특징을 채우는 데 매우 편리합니다. 이곳에서 핵심 문제는... |
(04:36) the perspective perspective view to bird eye view more effectively this is the core issue when we do the productivity perception in camera only camera based methods and then let's go into a deep dive into the view transformation so there's basically two ways to do the do the transformation one is the from the 3D space go back into the two to this space so this is basically a camera projection camera protection figures to help you um to help you understand that if we have a 3D if if we have a point in 3D space how
(04:36) 원근(근시)적인 시점에서 새눈 시점으로 더 효과적으로 변환하는 것이 핵심 문제입니다. 이는 카메라만을 기반으로 한 인식 방법에서 생기는 문제입니다. 그럼 시점 변환에 대해 자세히 알아보겠습니다. 시점 변환을 수행하는 데는 기본적으로 두 가지 방법이 있습니다. 하나는 3D 공간에서 2D 공간으로 돌아가는 것입니다. 이는 기본적으로 카메라 투영(camera projection)의 개념으로 설명할 수 있습니다. 이해를 돕기 위해 카메라 투영 그림을 사용하겠습니다. 3D 공간에 한 점이 있다면, 이를 어떻게 2D 이미지 상에 투영할 수 있는지 설명해드리겠습니다. |
(05:11) to project it back to the camera plane so um by doing this there's a problem that um multiple 3D points will hit the same 2D pixels when uh even when the the resolution is very low and then we can also have another way to do that is that we are given the 2D image we can predict the depths per pixels to um to reconstruct the 3D space so um so this is another problem is that the death is unknown for each pixels so it is obvious that both ways has its pros and cons so um so no matter what the W transformation itself is a new
(05:11) 이를 카메라 평면으로 다시 투영합니다. 이를 수행하는 과정에서 문제가 발생하는데, 해상도가 매우 낮아도 여러 개의 3D 점이 동일한 2D 픽셀에 맞닿을 수 있습니다. 또 다른 방법으로는 2D 이미지가 주어졌을 때, 각 픽셀별로 깊이를 예측하여 3D 공간을 재구성할 수 있습니다. 그러나 이 방법에서도 문제점은 각 픽셀마다 깊이가 알려지지 않는다는 것입니다. 두 방법 모두 장단점이 있으며, W 변환 자체가 새로운 문제를 내포하고 있습니다. |
(05:51) post problem so um to address these issues uh there are basically two ways to address the real transformation one is based on the 2D to 3D prior so now that the def is a no we can predict the test itself so this work is uh illustrated by the famous word like the leaf splashes and its development library that will be depth all this work and another line of work is the pseudoleta family so the second way is that from the we based on the 3D to 2D prior is that we index local feature according to the projection from the 3D to 2D so uh one
(05:51) 이러한 문제를 해결하기 위해, 실제 변환에 대한 두 가지 주요 방법이 있습니다. 하나는 2D에서 3D로의 사전 정보에 기반한 방법입니다. 깊이 정보가 없다면 깊이를 예측할 수 있습니다. 이 작업은 유명한 작업인 Leaf Splashes와 그 개발 라이브러리, Depth from All 이라는 작업에 의해 설명되고 있습니다. 또 다른 방법은 가상 레이다(pseudo-LiDAR) 패밀리입니다. 두 번째 방법은 3D에서 2D로의 사전 정보에 기반하여 지역 특징을 색인화하는 것입니다. 3D에서 2D로의 투영에 따라 로컬 특징을 색인화합니다. |
(06:33) one promising work is shown by the detail 3D and it's relevant and then the second work is standby done by some explicitly feature construction such as speed reformer which I built which I will introduce later so the Third Way is uh it is an implicit 3D positional embedding which we can embed the 3D position in back into the 2D coordinate space so now let me let me introduce our work in eccv 2022 W reformer so um the the second is that uh we are given multi camera and the temporary temporal input um we can uh we can construct a BB
(06:33) 한 가지 유망한 작업은 Detail 3D와 관련된 것입니다. 두 번째 작업은 속도 리포머와 같이 명시적인 특징 구성을 통해 수행됩니다. 제가 나중에 소개할 예정입니다. 세 번째 방법은 암묵적인 3D 위치 임베딩입니다. 3D 위치를 2D 좌표 공간에 임베딩할 수 있습니다. 이제 저희의 ECCV 2022 작업인 W Reformer에 대해 소개해 드리겠습니다. 두 번째로, 여러 카메라와 시간적 입력이 주어졌을 때, BB를 구성할 수 있습니다. |
(07:14) feature based on this based on this uh multi-camera and temporal feature to uh by using the deformable attention and then we use a BB query to look up to to um to look out for uh to a current BB feature map so here the BB query has two uh two attention mechanism to do the fusing so first is the spatial cross attention mechanism this is to fuse the multiple camera feature into the same be regret space and the second is the temporal self-attention so this is to aggregate the temporal feature from the history so this figure is
(07:14) 해당 다중 카메라와 시간적 특징을 기반으로 한 피쳐를 사용하여, 변형 가능한 어텐션을 사용하여 BB 쿼리를 이용하여 현재 BB 피쳐 맵을 탐색합니다. 여기에서 BB 쿼리는 두 개의 어텐션 메커니즘을 가지고 있습니다. 첫 번째는 공간적 교차 어텐션 메커니즘으로, 다중 카메라 피쳐를 동일한 BB 특징 공간으로 융합하는 것입니다. 두 번째는 시간적 자기 어텐션으로, 과거의 시간적 특징을 집계하는 것입니다. 이 그림은... |
(07:51) illustrates the idea very well so now we start from the be required we have an eagle car here and now we want to know that what is the what is in here at time time step T so we go two ways here the the first way is to do the temporal self attention we go back to the history BB feature and check checked out what is what was in that Grid in the times that T minus one and then the second way is that we do the special cross perspective wheel on the image and then we sample the feature back into the BB space so this is a
(07:51) 아이디어를 아주 잘 설명하고 있습니다. 이제 BB 쿼리에서 시작하여 여기에 독수리 차가 있습니다. 이제 T 시간 단계에서 여기에 무엇이 있는지 알고 싶습니다. 이를 위해 두 가지 방법을 사용합니다. 첫 번째 방법은 시간적 자기 어텐션을 수행하여 이전 BB 특징에서 T-1 시간에 그 격자 안에 무엇이 있는지 확인합니다. 두 번째 방법은 이미지에서 공간적 교차 시야를 수행하고, 해당 픽셀 특징을 BB 공간으로 샘플링하는 것입니다. 이는... |
(08:28) multi camera images at times step T so that by fusing these two features we can construct uh we think is a very strong and very uh uh expressive baby feature at time step t and here is the the the the B reformer pipeline so uh for more detail you can check out our GitHub report yeah so here is also a visualization result of the review reformer on the new sets data set and then we have a second work called the performer this work is uh is from a similar idea but we are focusing on the 3D landline detection tasks so we are
(07:51) 아이디어를 아주 잘 설명하고 있습니다. 이제 BB 쿼리에서 시작하여 여기에 독수리 차가 있습니다. 이제 T 시간 단계에서 여기에 무엇이 있는지 알고 싶습니다. 이를 위해 두 가지 방법을 사용합니다. 첫 번째 방법은 시간적 자기 어텐션을 수행하여 이전 BB 특징에서 T-1 시간에 그 격자 안에 무엇이 있는지 확인합니다. 두 번째 방법은 이미지에서 공간적 교차 시야를 수행하고, 해당 픽셀 특징을 BB 공간으로 샘플링하는 것입니다. 이는... |
(09:13) instead of using the um the the sampling task we use the IBM based course attention for BB feature the IB the IPM here means the inverse perspective mapping so we um we sample some 3D points in the based on the assumption that the ground is flat and then we sample some point in the 3D space and back protect them into the 2D space so uh both the BB former and Transformer shows that the BB perception is prevailing since the 2022 in Academia and then um we want to ask a question uh in The Next Step State uh what's its
(09:13) 샘플링 작업 대신에, BB 특징에 대해 IBM 기반 코어 어텐션을 사용합니다. 여기서 IBM은 inverse perspective mapping의 약자입니다. 우리는 지면이 평평하다는 가정 하에 3D 공간에서 몇 개의 점을 샘플링하고, 이를 2D 공간으로 다시 투영합니다. BB Reformer와 Transformer는 모두 2022년 이후로 BB 인식이 학계에서 주류로 나타나고 있다는 것을 보여주고 있습니다. 다음 단계에서는 무엇을 할 것인지에 대한 질문을 하고 싶습니다. |
(09:52) problem of current 3D perception representation say Banning box is a very prevalent representation so um Building Blocks free debunking box itself it ignores the detailed geometry of an irregular object say that you have uh you have a regular card here you have the arm out of the bounding box but your bounding boss cannot just depict their arms very well so if instead if we use the 3D occupancy here it can catch the geometry shapes well and also um the mobile eye and Tesla also adore such as recitation as well done just say
(09:52) 현재 3D 인식 표현의 문제점은 Bounding Box가 매우 일반적인 표현이라는 것입니다. Bounding Box 자체는 비정형 객체의 세부 기하학을 무시합니다. 예를 들어, 정상적인 자동차의 경우 Bounding Box 밖에 팔이 있는데, Bounding Box만으로는 팔을 제대로 나타내기 어렵습니다. 그러나 3D 점유도를 사용한다면 기하학적인 모양을 잘 잡을 수 있습니다. 또한 Mobileye와 Tesla 같은 기업들도 이와 같은 표현을 채택하고 있습니다. |
(10:26) that yeah and so um so back to here I would I would like to go over um how does the 3D perception evolve into the 3D occupancy so back in 20 20 000 we have Professor Andrew thisman to write a book about the multiview geometry in 3D computation um it basically tell us how to do the 3D geometry mappings and projection between the 2D and 3D space and then in 20 in 2012 we have a data set release so this sets The Benchmark for the monocular stereo and lighter 3D object detection so after that uh 3D bounding Parts
(10:26) 맞아요. 그래서 여기서 3D 인식이 3D 점유도로 어떻게 진화하는지 알아보겠습니다. 2000년에는 안드루 토머스 교수님이 3D 계산과 다중 뷰 기하학에 관한 책을 쓰셨습니다. 이 책은 2D와 3D 공간 간의 3D 기하 매핑과 투영을 어떻게 수행하는지 알려줍니다. 그리고 2012년에는 데이터셋이 출시되었는데, 이는 단안 스테레오와 라이다 기반의 3D 객체 감지에 대한 벤치마크가 되었습니다. 그 후에는 3D 경계 상자의 부분들이 등장하게 되었습니다. |
(11:05) become the prevailing representation and all the tasks objectives for the for almost every 3D region task so we have many Baseline method at that time to be established and then um those those methods are you know well so so I will read them one by one so what means at the same times we have the nuisance data set and the semantic Kitty released so this introduced two uh two new works two new tasks here in three divisions one is the multiview 3D object detection and the map segmentation and then also introduce the lidar segmentation and
(11:05) 그들은 주류 표현이 되었고 거의 모든 3D 영역 작업의 목표가 되었습니다. 그래서 그때마다 여러 개의 베이스라인 방법이 수립되었습니다. 그러한 방법들은 잘 알려져 있습니다. 그래서 하나씩 읽어보겠습니다. 동시에 뉴턴스 데이터셋과 시맨틱 키티가 출시되었는데, 이는 3D 영역에서 두 가지 새로운 작업을 소개했습니다. 하나는 다중 뷰 3D 객체 감지와 지도 분할이고, 다른 하나는 라이다 분할과 객체 검출입니다. |
(11:42) the semantics in completion and we noted that the semantics link completion is is very close to the idea of 3D occupancy although it in the scene completion task um it actually emphasized the need of um completing the scene based on the lighter input so instead we are here we are starting a camera only based camera only methods to complete the 3D scenes and then later um the people in Academia and Industrial start to address the monocular and lighter infusion tasks and at that time maybe uh very many industrial preferred
(11:42) 의미적인 완성 및 연결은 3D 점유도의 개념과 매우 유사함을 알 수 있었습니다. 하지만 장면 완성 작업에서는 라이다 입력을 기반으로 장면을 완성하는 필요성을 강조합니다. 대신 우리는 여기서 카메라만을 사용하여 3D 장면을 완성하는 방법을 시작합니다. 그리고 그 후에 학계와 산업계에서는 단안 카메라와 라이다 융합 작업에 대해 다루기 시작했습니다. 그 때에는 많은 산업계에서는 카메라 기반의 방법을 선호했습니다. |
(12:22) methods were proposed like the center point like the F call 3DS so um so at that at this time the 3D the 3D Vision tasks are getting advancing and then at that and meanwhile we have uh the penalty nuisance release it is a Lida penalty segmentation and tracking task so that we deprovise the improvised the fundamention of doing 3D occupancy in later years um after after the 2021 so the academic starts to shift attention to um address the BB map and late detection and segmentation so these are I would say these are the static objects on the
(11:42) 의미적인 완성 및 연결은 3D 점유도의 개념과 매우 유사함을 알 수 있었습니다. 하지만 장면 완성 작업에서는 라이다 입력을 기반으로 장면을 완성하는 필요성을 강조합니다. 대신 우리는 여기서 카메라만을 사용하여 3D 장면을 완성하는 방법을 시작합니다. 그리고 그 후에 학계와 산업계에서는 단안 카메라와 라이다 융합 작업에 대해 다루기 시작했습니다. 그 때에는 많은 산업계에서는 카메라 기반의 방법을 선호했습니다. |
(13:06) roads instead of the dynamic objects like cars Trunks and pedestrial so um meanwhile at the data set side we have the remote open data set and the open Lane release which is a large scale a larger scale lighter cameras video detection for the Academy yeah uh so uh since 2022 so the BB perception is prevailing so many um multi view and temporal Crews or players are addressed by these methods and later in this year we can come to and a great attention on their on the on the occupancy checks so uh in all capacity we would like to uh I would
(13:06) 동적 객체인 자동차, 트럭, 보행자 대신 도로와 같은 정적 객체에 초점을 맞추고 있습니다. 한편, 데이터셋 측면에서는 Remote Open Dataset과 Open Lane이 출시되었는데, 이는 학계를 위한 대규모 라이다 및 카메라 비디오 감지를 위한 데이터셋입니다. 2022년 이후로 BB 인식이 주류가 되어, 많은 다중 뷰 및 시간 관련 작업이 이러한 방법들에 의해 다루어지고 있습니다. 이번 해에는 점유도 체크에 큰 관심이 기울어질 것으로 예상됩니다. 전체적으로, 점유도 체크에 대한 주목이 증가하고 있으며, 저는 |
(13:48) like to introduce our our challenge this year um host with the Ching Hua Mars lab and emotional and we have we have done uh we have done a very uh great job in this yeah so let me introduce the 3D occupancy occupancy prediction challenge so um in this class we uh we are in the input is the multiview images and we output the occupancy State and the semantics labels in the 3D scenes so um yes you can see the visualization here this is based on the new sense data set so what is interesting is interesting here so the first thing is that we have
(13:48) 올해 우리의 챌린지를 소개하고 싶습니다. 우리는 청화화페이화페이 마스 연구소와 함께 이 챌린지를 진행하였으며, 매우 좋은 결과를 얻었습니다. 3D 점유도 예측 챌린지를 소개하겠습니다. 이 챌린지에서 우리는 다중 뷰 이미지를 입력으로 받고, 3D 공간에서의 점유 상태와 의미 레이블을 출력합니다. 시각화된 예시를 보실 수 있습니다. 이는 뉴센스 데이터셋을 기반으로 한 것입니다. 흥미로운 점은 다음과 같습니다. 첫째, 점유도 상태와 의미 레이블을 함께 출력한다는 것입니다. 이를 통해 우리는 객체의 존재 여부 뿐만 아니라 그 객체의 의미까지 파악할 수 있습니다. 둘째, 다중 뷰 이미지를 입력으로 사용한다는 것입니다. 이는 다양한 시점에서의 정보를 효과적으로 활용하여 보다 정확한 점유도 예측을 할 수 있게 합니다. 셋째, 이 챌린지를 통해 우리는 머신러닝 및 딥러닝 기술의 발전과 3D 점유도 예측 분야의 연구 진전에 기여하고자 합니다. |
(14:29) the camera only uh it is a camera only General scene perception and the second is that we are working with motional to exclusive generated tests and labels So based on the challenge participation we have seen some Trends in the 3D occupancy the first is that the baby perception that the idea of BB perception is still prevailing many members uh start to reconstruct the 3D occupancy based on the BV perception BBV features or perception results and the second is that we found that the depth supervision matters in many uh many uh
(14:29) 이 챌린지에서는 카메라만을 사용한 일반적인 3D 장면 인식과 모션(Motional)과 함께 생성된 테스트와 레이블을 사용하여 작업하고 있습니다. 챌린지에 참여한 결과를 통해 3D 점유도에 대한 몇 가지 동향을 관찰할 수 있었습니다. 첫째, BB(Bounding Box) 인식이 여전히 주요한 주제로 다루어지고 있으며, 많은 연구자들이 BV(Bird's Eye View) 특징이나 인식 결과를 기반으로 3D 점유도를 재구성하고 있습니다. 둘째, 우리는 깊이 감독이 많은 경우에 중요하다는 것을 발견했습니다. 많은 연구들이 깊이 정보를 활용하여 점유도 예측 정확도를 향상시키고자 하고 있습니다. |
(15:08) very good very good practice participants methods and then we found that the data augmentation and to this supervision also helps the 3D occupancy and then we have some interesting founding that the occupancy is better in depicting depicting the geometry of the scenes while the 3D bounding boss is better in object class prediction and then we found that for the network itself so the bigger bigger people the better performance these law is still still exist so The Benchmark that we here we introduce some data sets desk and the
(15:08) 좋은 결과와 참가자들의 방법을 통해 데이터 증강과 깊이 감독이 3D 점유도에 도움이 된다는 사실을 발견했습니다. 또한, 점유도는 장면의 기하학적 특성을 잘 나타내는 반면, 3D 바운딩 박스는 객체 클래스 예측에 더 우수한 성능을 보였습니다. 네트워크 자체에 대해서는, 크기가 큰 모델이 더 좋은 성능을 보이는 경향이 여전히 존재합니다. 이번에 소개한 벤치마크 데이터셋인 Desk와 Theisland dataset에서 이러한 결과를 확인할 수 있었습니다. |
(15:47) visualization results here so uh if you're familiar with the new sensors it is uh almost the same so for the metrics we are this is uh this is the tricky part for since it is the first mark it is it is the first time we host the 3D occupancy challenge we use a very simple Matrix called the menial view which you are very familiar with the cement semantic segmentation task and then I think that for the metrics part it would be um Much More Much More advancing or much more extract attracting that we can we can
(15:47) 시각화 결과도 있습니다. NewSens에 익숙하다면 거의 비슷합니다. 메트릭에 대해서는, 이번이 3D 점유도 챌린지를 처음으로 개최하는 것이기 때문에 매우 간단한 메트릭인 Mean IoU를 사용합니다. 이는 시멘틱 세그멘테이션 작업에서 매우 익숙한 메트릭이라고 생각합니다. 메트릭 부분은 더 발전된 형태로 더 매력적인 방법을 사용할 수 있다고 생각합니다. |
(16:25) devise more metrics based on the need of the 3D occupancy so here I post a QR code here for you to scan it if you want to learn more about these tracks and there's some challenge stats here so it shows that this is the most fierce contest challenge this year so we have a participant ranging from the academy to the industrial so we have 145 teams participating and the country regions are covering 10 countries and regions and we have more than four 400 value submission so the total performance double from the space that I so we have
(16:25) 3D 점유도에 대한 요구에 기반하여 더 많은 메트릭을 개발할 수 있습니다. 여기에는 QR 코드가 있으며, 이를 스캔하면 이러한 추적에 대해 더 자세히 알 수 있습니다. 또한 여기에 챌린지 통계도 나와 있습니다. 이는 올해 가장 치열한 대회입니다. 학계부터 산업계까지 참가팀이 145개이며, 국가 및 지역은 10개국과 지역을 커버하고 있으며, 400개 이상의 유용한 제출이 있습니다. 총 성능은 이전 대회 대비 약 두 배 증가했습니다. |
(17:02) the Baseline efforts released at 23.7 at miou so finally the sultan members which 54.90 91 9 19 yeah and the Matrix variants at the top three matching variants is all is only 1.4 so it shows that the context is very fiercely so here is uh the challenge leaderboard so the top 10 Elegance here so we have the immediate 10 team as the champ outstanding Champion the 42 Dot from the South Korean have the run out so we also have uh an uh Innovation award to the five the to the fifth place the harbing Institution Institute of Technology they
(17:02) 미세조정 작업으로 Baseline 점수는 miou에서 23.7로 발표되었습니다. 마지막으로, 최고 기록은 Sultan 팀의 54.9091입니다. 상위 세 가지 변형의 매칭 점수는 모두 1.4로 동일하게 나타납니다. 이는 경쟁이 매우 치열하다는 것을 보여줍니다. 여기에 챌린지 리더보드가 있습니다. 상위 10개 팀이 우수한 성과를 내었습니다. 42닷은 대한민국에서 우수한 챔피언으로 등극했습니다. 또한 5위인 Harbing Institute of Technology에는 혁신상을 수여했습니다. |
(17:52) are performing very insightful insightful how to do the 3D occupancy from academics so you can better check them papers so all all of these are leaderboards and their papers can be accessed by our challenge website here so I place a QR code QR code here for you to for you to um visit um okay so it's uh about it's about 20 minutes so I think I should switch to uh switch to the Nvidia team for them to give the gives the their presentation at the of their methods So yeah thank you research scientist at the machine
(17:52) 학계에서 3D 영역의 적재성을 어떻게 다루는지에 대해 매우 통찰력 있는 성과를 보여주고 있습니다. 이들의 논문을 확인하시면 더욱 자세히 알 수 있습니다. 이들은 모두 리더보드에 포함되어 있으며, 논문은 우리 챌린지 웹사이트에서 확인하실 수 있습니다. 여기에 QR 코드를 제공하여 방문하실 수 있도록 하겠습니다. 오케이, 약 20분정도 걸려요. 그러니 이제 Nvidia 팀으로 전환하여 방금 언급한 방법들에 대한 발표를 진행하도록 하겠습니다. 그러니까, 머신 러닝 연구 과학자님께 감사 인사를 드리고 Nvidia 팀으로 전환하겠습니다. |
(18:46) learning research group Nvidia research so before joining Nvidia in 2018 he appointed PhD in EC from Connecticut mellow University so he is the outstanding champion of the 3D occupancy prediction challenge so children's top title is 3D occupancy prediction based on forward backward view transformation so let's welcome Judy do you have feelings yes foreign
(18:46) 머신 러닝 연구 그룹 Nvidia Research의 연구 과학자님께서 발표하실 내용입니다. 2018년에 Nvidia에 합류하기 전에는 커네티컷 멜로 대학에서 전기 및 컴퓨터 공학 분야에서 박사 학위를 받으셨습니다. 그는 3D 영역 예측 챌린지에서 뛰어난 챔피언으로 선정되었습니다. 주제는 "전방-후방 시점 변환을 기반으로 한 3D 영역 예측"입니다. 주디님을 환영합니다. 느낌이 있으신가요? 외국어 번역에 대해 자신감이 있으시다면 이어서 진행해주시면 됩니다. |
(20:54) um okay okay hello everyone Thanks for attending the talk today I will present the uh f o FB OCC 3D occupancy prediction based on forward backward build transformation uh this is a winning solution for the 3D occupancy prediction uh challenge this work is jointly done with uh strategy uh David
(20:54) 음, 좋아요. 안녕하세요 여러분. 오늘 발표에 참석해 주셔서 감사합니다. 저는 오늘 FB OCC에 대한 발표를 할 것입니다. 이는 forward backward view transformation을 기반으로 한 3D 적재성 예측의 우승 솔루션입니다. 이 작업은 David와 함께 공동으로 수행되었습니다. |
(22:00) uh mentioned uh Yan and Jose um yeah so recently uh 3D occupancy prediction emerged as an uh important uh task for AV and um uh compare compared to object detection uh 3D occupancy prediction uh incorporates more uh richer real uh World information and therefore these information are very important for towards uh the planning and prediction uh stack and therefore to towards end-to end driving um so if you look at some of the uh actually uh uh in the Academia people have been thinking about like problems similar problems for example uh semantic
(22:00) 언급된 Yan과 Jose에 대해서 말씀드릴게요. 최근에 3D 적재성 예측은 AV(자율 주행 차량)에 있어서 중요한 과제로 부상하였습니다. 물체 감지와 비교하여 3D 적재성 예측은 더 풍부한 실제 세계 정보를 포함하고 있으며, 따라서 이러한 정보는 계획 및 예측 스택에 매우 중요합니다. 그래서 엔드 투 엔드 주행을 위해 이러한 문제를 고려한 연구들이 학계에서 진행되고 있습니다. 예를 들어 시맨틱 문제와 유사한 문제를 고려하고 있는 사람들이 있습니다. |
(22:50) scene completion which is in in some sense also these semantic occupancy prediction and they are being uh Solutions based on various modalities so for for example uh we we have these uh we have lidar based solution we have uh Solutions based on rgbd camera where you have the additional depth modality and then uh of course there are recently there are works that start to address camera based camera based uh occupancy prediction and obviously camera based occupancy prediction is very uh challenging because you only get 2D
(22:50) 장면 완성(scene completion)과 같은 시맨틱 적재성 예측과 같은 문제들은 어떤 의미에서는 같은 문제들로 간주될 수 있으며, 이러한 문제들에 대한 다양한 모달리티(modality)를 기반으로 한 솔루션들이 제안되고 있습니다. 예를 들어, 라이다 기반의 솔루션, 추가적인 깊이 모달리티를 갖는 RGBD 카메라 기반의 솔루션 등이 있습니다. 물론 최근에는 카메라 기반의 적재성 예측을 다루는 연구들도 등장하고 있습니다. 카메라 기반의 적재성 예측은 매우 도전적인 과제이며, 이는 2D 정보만을 사용하기 때문입니다. |
(23:30) input but you have to Output the 3D without any depth information you actually have to in info from the camera but the good thing of camera based Solutions of course cameras are very uh convenient to gather the data and also achieve your use so this is the advantage so um and when we think about when we think about about uh these 3D occupancy prediction there are there are also highly uh highly correlated with the 3D traditional 3D object detection in a sense they they talk we talk about perception in the Bev space the the
(23:30) 입력으로는 2D 정보만을 사용하지만, 3D를 출력해야 하는 카메라 기반의 적재성 예측은 실제로 카메라에서의 정보만을 기반으로 3D 정보를 얻어내야 하는 과제입니다. 하지만 카메라 기반의 솔루션은 데이터 수집이 매우 편리하고 사용하기도 용이하다는 장점이 있습니다. 또한, 3D 적재성 예측과 전통적인 3D 객체 탐지는 매우 밀접한 관련이 있으며, 둘 다 Bev 공간에서의 인식에 관련되어 있습니다. |
(24:12) difference is mostly we are encouraging uh denser and richer output from the network so therefore uh the network designs of 3D occupancy prediction are very naturally highly correlated with existing Bev perception Solutions so that's why I'm going to give some brief uh uh here because there are many many uh be resolution uh state-of-the-art work so I'm only picking uh two that are closely related to what the solution we built on so the first one is uh BV devs uh actually this one uh is an example of
(24:12) 차이점은 대부분 네트워크로부터 보다 밀집하고 풍부한 출력을 유도하는 것입니다. 따라서 3D 적재성 예측의 네트워크 디자인은 기존의 Bev 인식 솔루션과 매우 밀접하게 관련되어 있습니다. 따라서, 제가 간단히 소개해 드릴 것인데, 다양한 최신 Bev 해상도 솔루션 중에서 관련성이 높은 두 가지만 선택하도록 하겠습니다. 첫 번째로는 "BV devs"입니다. 이는 저희가 개발한 솔루션과 밀접한 관련이 있는 예입니다. |
(24:50) a constructing the Bev features using forward projection the forward projection method they use is a leaf Splash shoot with which is also a method proposed by a video by science team so the way this works is that uh you could leave the uh you you could you use an image encoder to encode the uh to to encode the image features and then what they do is that after lifting uh so so they they use the lidar uh steps to as a depth supervision to actually supervise a depth Network built on top of the image features and these steps
(24:50) BV devs는 전방 투사법을 사용하여 Bev 특성을 구축하는 방식으로 작동합니다. 이들이 사용하는 전방 투사법은 Video-by-Science 팀이 제안한 "Leaf Splash Shoot"입니다. 이 방법은 이미지 인코더를 사용하여 이미지 특성을 인코딩한 후, 투영을 통해 이미지 특성을 변환합니다. 그런 다음, 이들은 리다 스텝을 사용하여 이미지 특성 위에 구축된 깊이 네트워크를 감독하는 깊이 지도로 사용합니다. |
(25:30) supervision turns out to be very very important for the accuracy of the PV perception and you can incorporate these steps information uh into in together with the contacts feature and you build up the BV feature this BB feature now has a good sense of the depth of perception and finally you try to Output the bounding box inside the BV space and note that this work is actually heavily based on uh seals uh but the next work uh that uh I think uh just now it was introduced is a BV former this is also the work done by by chuchi
(25:30) 감독은 PV 인식의 정확도에 매우 중요하다는 것이 밝혀져 있으며, 이 스텝 정보를 콘텍스트 특성과 함께 통합하여 BV 특성을 구축합니다. 이제 이 BB 특성은 깊이 인식의 좋은 감각을 갖게 되었으며, 마지막으로 BV 공간 내에서 바운딩 박스를 출력하려고 합니다. 이 작업은 사실 seals에 크게 의존하는 작업이지만, 방금 소개된 다음 작업은 BV 형태 형성자입니다. 이것 역시 chuchi에 의해 수행된 작업입니다. |
(26:15) um so uh and and other authors from uh from Shanghai air lab and and also so so this one is actually a Transformer based um is a Transformer based uh solution for Bev and this one actually features uh backward projection when we are talking about backward projection we are talking about we can build up learnable queries uh learnable Transformer queries in the beb space and back projecting to the uh back projecting to the 2D camera domain uh using deformable uh uh use using developable attention so so so from this
(26:15) 이 작업은 실제로 상해 항공 연구소와 다른 저자들과 함께 한 작업으로, Bev를 위한 Transformer 기반의 솔루션입니다. 이 솔루션은 역투영(backward projection)을 특징으로 합니다. 역투영이란, Bev 공간에서 학습 가능한 쿼리(learnable queries)를 구성하고, 변형 가능한 어텐션을 사용하여 2D 카메라 도메인으로 역투영하는 것을 의미합니다. 이를 통해 2D 카메라 도메인에서의 백프로젝션을 수행할 수 있습니다. |
(26:57) uh we talk about these two Works mostly because they are very representative works of forward projection and backward projection these are two kinds of projections uh the predominantly use nowaday in the state of the RPV Solutions uh and also there are some interesting works that are related directly related to this uh uh occupancy prediction and if you look at their architecture design it's also highly related to this BB solution so for example this monothing is one of the uh very early works that talk about that
(26:57) 우리는 이 두 가지 작업을 주로 다루었는데, 이는 현재 RPV 솔루션에서 주로 사용되는 두 가지 투영 방법인 전방향 투영과 역투영의 대표적인 작업들이기 때문입니다. 또한, 이 3D occupancy prediction과 직접적으로 관련된 흥미로운 작업들도 있습니다. 이들의 아키텍처 설계도 이 BB 솔루션과 매우 관련이 있습니다. 예를 들어, monothing은 이와 관련된 매우 초기의 작업 중 하나입니다. |
(27:35) start to address camera based uh uh semantic scene completion uh using uh use using neural network and if you look at and basically these this module here is also a 2d to 3D view transformation module uh very similar to to orthogonal feature transform but in a multi-scale manner and then they have some unedge module that after you basically aggregate these features in the PV space you can you you can you can use a unit architecture to process it in the in the BV space and finally output these uh predictions uh the other work uh which
(27:35) monothing은 카메라 기반의 시맨틱 장면 완성을 다루는 데에 초점을 맞춘 초기 작업 중 하나입니다. 신경망을 사용하여 2D에서 3D로의 변환 모듈을 구성하는데, orthogonal feature transform과 매우 유사하지만 다중 스케일로 작동합니다. 그리고 이러한 특성을 PV 공간에서 집계한 후, BV 공간에서 유닛 아키텍처를 사용하여 처리하고 최종적으로 이러한 예측을 출력합니다. 다른 작업은... |
(28:16) uh also we present and we propose this work at Nvidia is a box former and actually this work was uh was is accepted to cvpr this year so we will also present this work uh at cvpr and and and this one uh features a two-stage framework with backward projection it's it's kind of similar to uh What uh to to be reformer and um the the way that it works is that it has two stages in the first stage uh you actually have a depth Network that kind of propose a set of sparse queries in the space the logic and the the intuition behind this is
(28:16) 또한, Nvidia에서 제안한 작업인 BoxFormer를 소개하고자 합니다. 이 작업은 올해 CVPR에 접수되었으며, CVPR에서도 이 작업을 발표할 예정입니다. 이 작업은 backward projection을 사용한 2단계 프레임워크를 특징으로 합니다. 이는 BV Formers와 유사한 접근 방식을 가지고 있습니다. 작업 방식은 다음과 같습니다. 첫 번째 단계에서는, 깊이 네트워크를 사용하여 공간 상에서 희소한 쿼리 세트를 제안합니다. 이에 대한 논리와 직관은... |
(28:56) these visible queries in the 2D domain they are the most uh they contain the most abundant feature they are the most reliable ones so that is why you start to fill in the missing information starting by by prioritizing the featurization of these sparse queries are important because they are the most reliable one then you start to filling and using Maes styled approach in the second stage to fill up the missing pieces in the be space and finally you have a dense output to predict uh to to give you the the occupancy prediction
(28:56) 이러한 2D 도메인에서의 가시적인 쿼리들은 가장 풍부한 특징을 포함하고 있으며, 가장 신뢰할 수 있는 정보를 담고 있습니다. 따라서 이러한 희소한 쿼리들의 특징화를 우선시하여 누락된 정보를 채우기 시작합니다. 이 특징화는 가장 신뢰할 수 있는 것들이기 때문에 중요합니다. 그런 다음, 두 번째 단계에서 Maes 스타일의 접근 방식을 사용하여 Bev 공간의 누락된 부분을 채우며, 마지막으로 밀집한 출력을 생성하여 점유 예측을 수행합니다. |
(29:34) um yeah so so but the one of the uh maybe it's more limitation is that this is a two stage and then um it's not a single architecture and also I will uh soon also talk about the limitations uh with forward and backward projection uh together so the here's the proposed model design so if you think about is uh this is a typical architecture of a camera based uh PV perception solution uh in in the for autonomous vehicles so you have multiple camera input you have image encoder that encodes these camera input and you you
(29:34) 음, 맞습니다. 그러나 이는 두 단계로 구성된 모델이며, 단일 아키텍처가 아닌 점은 제한적일 수 있습니다. 또한, 앞으로 전진 및 후진 투영의 제한 사항에 대해 얘기할 예정입니다. 여기에 제안된 모델 디자인이 있습니다. 자율 주행을 위한 전형적인 카메라 기반 PV 인식 솔루션의 아키텍처입니다. 다중 카메라 입력이 있고, 이미지 인코더가 이러한 카메라 입력을 인코딩하며, |
(30:17) lead and then there is a module that is 2D to 3D view transformation module that leave these uh 2D image features into a BV into your Minecraft world space uh Center at the Eco vehicle and then you have some encoder decoder in the previous base and finally you do the prediction now this view transformation no matter forward projection or backward projection it's very important it's at the core of this BB BV perception pros and cons with a forward projection and back action so when we think about forward projection the good thing is uh
(30:17) 전방 투영 및 역방향 투영을 고려할 때, 2D 이미지 특성을 BV로 변환하는 2D에서 3D로의 뷰 변환 모듈이 있습니다. 이 모듈은 자동차를 중심으로 BV(가상 세계 공간)로 이미지 특성을 투영합니다. 그리고 이전 베이스의 인코더 디코더를 사용하여 예측을 수행하게 됩니다. 이러한 뷰 변환은 전방 투영이든 역방향 투영이든 매우 중요하며 BB BV 인식의 핵심 요소입니다. 전방 투영의 장점은 다음과 같습니다. |
(31:13) we we start from uh camera pixels and we we build up the we project the features into the uh into the uh BB space so a resulting problem is that because you are shooting rates to the Bev that's why the race gets more and more gets sparser and sparser as they go away from the uh from from from the ego ego vehicle so that's that is a problem because ultimately your prediction based on these pev features and if your if the race gets sparse that means the sampling at those locations gets sparse and that creates some problems for the
(31:13) 전방 투영에서는 카메라 픽셀부터 시작하여 특성을 BV 공간으로 투영합니다. 그러나 결과적으로 문제가 발생하는데, 이는 Bev로의 투영 때문에 발생합니다. 거리가 멀어질수록 레이스(rays)가 점점 더 희박해지기 때문입니다. 이것은 문제가 될 수 있습니다. 왜냐하면 최종적으로 이러한 BV 특성에 기반한 예측을 수행하는데, 레이스가 희박해진다는 것은 해당 위치에서의 샘플링이 희박해진다는 것을 의미하며, 이는 일부 문제를 야기할 수 있습니다. |
(31:53) for the for the prediction this is one thing and and but the good thing about the this is for example metal like Leaf Splash rule they can encode The Depths prior information very well so using tabs through training techniques works very well for these forward projection method uh the other way around is a backward projection and the backward projection the representative work of course is a BB former but the problem is as you start from aquarium back project into the camera domain you don't have a sense of the you don't have a sense of
(31:53) 예측에 있어서 이는 한 가지 문제입니다. 그러나 Leaf Splash rule과 같은 방법은 깊이 정보를 잘 인코딩할 수 있으므로 이러한 forward projection 방법에 대해 효과적인 학습 기술을 사용할 수 있습니다. 반대로 backward projection은 BB former와 같은 대표적인 작업입니다. 그러나 문제는 카메라에서 역투영하여 다시 카메라 도메인으로 돌아오면 깊이에 대한 감각이 없다는 것입니다. |
(32:26) these uh depth so so that is why actually you start to see these uh very like Ray like uh heat map these are emerging in the BB features and that causes a problem so when you have an object and you tend to get false positives am multiple duplicate or detections along this rate due to this uh undesired uh activation heat map along the ray so so so is there a way that we can combine uh both uh and this is our uh forward backward uh design solution so so basically uh what we have is that we can use uh OSS like Leaf Splash shoot like a
(32:26) 그래서 실제로 BB 특징에서는 이러한 깊이를 나타내는 레이처럼 보이는 히트맵이 나타납니다. 이로 인해 객체를 감지할 때 레이를 따라 예기치 않게 활성화된 히트맵으로 인해 다중 또는 중복된 감지 결과가 발생하는 문제가 발생합니다. 그래서 우리는 양쪽을 결합할 수 있는 방법이 있는지 여쭤보십시오. 이것이 우리의 전방향-후방향 디자인 솔루션입니다. 우리가 가지고 있는 것은 Leaf Splash Shoot와 같은 OSS를 사용할 수 있습니다. |
(33:14) forward projection to create a a feature to leave the feature into the 3D space while using tabs to supervise that we can collapse those features into a Bev 2D flattened Bev feature and use them as a to initialize the learnable queries in the BV space and and back project the queries back to the image feature so this is this backward projection part is a very similar to Bev former is using deformable uh attention and using and then we can we can also find a way to combine these uh voxel representation from the forward projection and also
(33:56) this BV feature from the uh backward projection fuse them together and then go through an occupancy head to predict the final occupancy so you can think of this architecture at high level is a organic composition of uh PV PV depths and also the uh and and also the uh PV former and and finally in the PV uh in the in the in the BV space once you have these uh Fields occupancy uh one one of the thing we do is that we can reduce the resolution at multiple scales to increase the receptive field and then expand back and also then
(34:41) finally supervised by the occupancy run throughs this is the head design for more details please refer to the report so there are of course we are since we are participating in a challenge so uh besides the model design there are many things that are important for achieving state-of-the art performance so here I'm going to introduce these bag of tricks so so uh talking about scaling up we can we we use the in turn uh image H which contains one p parameters uh for as an encoder for the for the uh image encoder
(35:24) turns out in scaling up uh this scaling data scaling up law applies very well also in the 3D occupancy prediction um and uh but the problem is that once you have 1B parameters uh when you apply the training on the new thing it's very uh it's very small that the the data set contains very little samples so it's basically an in domain data it's not very suitable for for large-scale free training so when you do the pre-training you want to do it on maybe very generalized like web data without lot of
(35:59) diversities so that is why we uh we we deploy these uh uh this this pipeline where we start from image that 22k pre-training and then uh we go we next go to uh 2D detection we basically train the network using the detection 2D detection head on object 365 then we do in domain uh pre-training this in domain free training are depth and the semantic segmentation uh prediction so so for this part actually it's interesting we we use the latest we use the latest work from a segment anything we use segment anything as an auto labeling tool to and
(36:42) treat the bounding boxes and also the point Cloud as uh prompts and use that to Auto label the the new things images so once you've got the segmentation you can actually use this segmentation as a very strong supervision signal to prove when the overfitting and together with the depth map here to do the to supervise the the bad boom as as this is shown on the on the right um and of course post processing I think this part is a little bit less interesting but since this again this is a challenge this is needed so we have
(37:20) um we used a temporal temporal test time augmentation basically you have different kinds of perturbation flips and you Ensemble the matter and also temporal TTA where we consider uh different frames and aggregate the information along the temporal and and then and this will refine your final result uh the other is Ensemble when we Ensemble we have Ensemble from different models and when we are doing The Ensemble we consider the wave from different categories and uh different models for the for the weights from different categories they
(38:00) are determined by the IOU of the the output from different uh from from the different classes this is not hand uh hand hand-picked this is actually is a is determined by the by the method the model is validated uh the weight of the model is actually a is a actually searched on the validation set okay so here are the experiment results so we using using these uh using the bag of chicks and also the model design we were able to push from the very basic uh 23 uh percent IOU all the way to 42 or all these are controlled experiment on the
(38:48) resonant 50 people and we can see from the curve that several things matters that's matters and actually visible mask matters for a lot for training so when you are doing the training don't try to use garbage information only use information from the visible part and this is also quite a coincidence with the philosophy of box former start from the visible part and also temporal also seem to help a lot here so these are the other findings um and we also did some experiment trying to uh scale up the models and our our
(39:27) finally our largest model with the more than 1B uh parameters uh push the performance to uh over 52 uh miou uh and and we also did some study like uh studying this pev representation we have uh we find that both the Bev and the voxel representation they together uh benefit each other uh and give some performance Improvement um and and this is the final result so after using model Ensemble and also uh using all the bag of tricks we are able to get 54.
(40:13) 19 miou on the leaderboard which ranks uh first among all the submissions um here are some comparisons between uh fbocc our final solution compared with the Baseline using starting from VV that you can see that on some regular shaped objects the the prediction gets better and also we noticed some noise in the in the data set itself hopefully can provide a useful case study so that so the inconsistency between the the camera mask and also this uh GT versus our final prediction you could see that the prediction here does a pretty reasonable job but uh evaluated miou on this one is
(40:56) quite low so so I think there are some inherent and here's a video showing these uh uh I think this will be the last one um is showing the the prediction result I think still even though the the numbers uh looks high but I think there are still pretty much space I would say this challenge uh camera based occupancy prediction is a very challenging task and it has a lot more room to to improve so uh that's my take from uh from this um we will release also open source the code and the uh following Ripple uh
(41:45) thank you all for attending the talk okay so uh and also Conquest tutorial for uh we have this uh champions okay so now we all have another five minute talk uh by director of far away Vancouver resist Center Canada yeah so let's welcome um yeah hello everyone
(43:15) uh their speakers and the fellow researchers so my name is Ming Shu Wang and I'm the director of the Huawei Vancouver Research Center so I'm honored to be to stand here uh before you today to represent Hawaii Technologies so our company is proud to be a co-organizer of this event alongside the other esteemed Partners so together we have created an exceptional platform for Global participants to Showcase their their technical progress and advancements in the fields of the autonomous driving so Huawei is a
(43:54) leading Global provider of the ICT infrastructure and smart devices so we are committed to Bringing digital to every person at home an organization for fully connected intelligent world so in the fields of the communication networks I.T smart devices cloud services intelligent Automotive Solutions and digital power so we provide customers competitive secure and reliable products and solutions and services uh so what people interact interact with experiences the pro our products however behind this leading products is a solid
(44:34) foundations or basic research and Technology technological innovation so our ongoing investment into uh into and and exploration of mathematics algorithms chemistry Material Science physics Engineers standards and patents Drive the competitiveness of our products so having investment into r d has and will continue to prevent the huawei's case strategies so what you invested at least 10 percent of the revenue into energy here and or half of our Workforce is dedicated to r d so by the end of the 2022 we had 100 and 14
(45:17) 000 early employees accounting for 55.4 percent of our Workforce so the company has now now has more than 80 foundational uh technology labs and over 170 Johnson Innovation labs around the world that we established a significant contribution to both uh to both the company and the society by innovating in artificial intelligence State money and related fields so many driven by a long-term and big impact projects research in the lab also tries to to advance the status of the art in the field so uh as well as to harness
(46:16) the products and services of the company at each stage of the Innovation process as a world-class research lab we are pushing the frontier or research and development in all areas that we work in so we dare to address both the challenges and opportunities in the Aero Ai and big data to revolutionize these image people think work and live and the ways in which companies to to do business through in intelligent slope in excuse me intensitization of all processes with the slogan of from Big Data to deep knowledge so research areas of the lab
(46:55) mainly include computer vision natural language processing search and recommendation decision and reasoning and air Theory so funded in 2012 the levels has now grown to be a research organization with many significant achievements in both academic and Industry so by benchmarking Industries sorta on research and Innovation over AI academic impact has readily increased the year on year so the amount of the papers accepted to the top conference is increasing so the leading positions are achieved in modern turned International
(47:33) competitions including autonomous driving video under reinforcement learning so autonomous driving is one of the major research and to actually knows Arc lab so with challenge problems as attraction so we explore the frontier and the mixer bricks rules of group crucial components in autonomous driving such as the perception cognition planning and control simulation and determining so all these Innovations will continually support the technical competition and success of the business unit so in addition to our technological
(48:12) expertise so we value collaboration and knowledge sharing so we actually engage with research institutions uh in Industry partners and academic communities to Foster and ecosystems or Innovations so NASA act lab located in 12 cities across across around the world and and it is disconnected to the world's leading Innovation Resources by working together we make tackle the most challenging technical problems and Propel the the industry forward so in conclusion I would like to to express our gratitude to the organizer the
(48:51) partners for providing this remarkable platform so we invite participants to join us in this exciting Journey as we revolutionize the transportation through autonomous driving technology together uh let us create a safer more efficient and sustainable future for thank you hello everyone this is the importance of time remaining this time in this presentation we would like to introduce our solution for our Golden State producing challenge in sudeep will increase the title of my presentation is you know foreign patients
(50:02) to reach us from her to chance of truly features to give free individuals in an occupancy important to produce occupancy producers who proposed several improvements on this month we proposed very exactly personally for passivency a strong part to supervision signal foreign please can I showed sponsorship in the calling to 3D tasks for better occupancy traditional results will address the very balanced problem and finally we employ adults for performance inquiry prospective segmentation provision is not aligned into it will be router
(50:54) in particular we use the [Music] planetamply insured through resnet blocks along our predictor [Music] right [Music] more often the perspective similar supervision put up by each Network component a short time to superficial support we have 20 50 people become easier build [Music] in addition both of us globalization and the Liberty suppression including Fire Organization
(52:00) system the presence of adoption can be released by by protective particle throughout recessment in chemical assistant we need to write 2D not just from images this leads to realization in the European it is the best for objects [Music] classes [Music] to address this problem we imported across into being and passing us we also employ other communities for performance improvements such as health insurance [Music] well I was when I was families with you
(53:08) as an activity as always my attorney before I found we used a 16 GPU i100 to trade our model in about three days here are our experiment results so this is 33.5 the same Mio performance Improvement supervision [Music] classical and last customer architecture please be retweeting I resolution localization includes is oppression and finally is more entitled I'll try the model actually you [Music]
(54:12) and then on this week and we will simply you know of the simulation chart this is the end of my presentation while information is available on the clinical report thank you