sensetime

センスタイム、画期的な認識・判断統合自動運転基盤モデルでCVPR2023最優秀論文賞を受賞

世界有数の人工知能(AI)ソフトウェア企業であるセンスタイムとそのジョイントラボは、コンピュータビジョンとパターン認識に関する世界最大の年次会議である Computer Vision and Pattern Recognition (CVPR) 2023において、そのAI研究が評価されました。12本の受賞候補論文のうち、センスタイムが関係する論文が2本ノミネートされました。その中で、研究論文 “Planning-oriented Autonomous Driving” が最優秀論文賞を受賞しました。

CVPR はコンピュータビジョンと AI の分野で最も権威のある学会で、この分野の先駆的研究者が最先端の研究を発表する場です。CVPR 2023は6月18日から22日までカナダのバンクーバーで開催されました。今年は過去最多となる9,155件の論文が投稿され、2,369件の論文が採択されました。

自動運転における重要なブレークスルーを提示した研究で最優秀論文賞を受賞

自動運転は非常に複雑な技術であり、センサー、機械学習、行動計画など複数の分野の専門知識を必要とします。さらに、信頼性が高く安全な自動運転システムを実現するためには、異なる交通ルールや文化に適応し、他の車両や歩行者と適切に相互作用する必要があります。このような複雑性を有する自動運転技術ですが、関連する研究のほとんどは特定のモジュールに焦点を当てており、フレームワーク研究に関する議論はそれほど行われてきませんでした。

受賞論文 “Planning-oriented Autonomous Driving” は、Unified Autonomous Driving (UniAD)を提案しました。これは、認識 (Perception) タスクにおける物体の検出、追跡、走路のマッピング、予測 (prediction) タスクにおける行動 (Motion) 予測や占有状態 (Occupancy) 予測など、フルスタックの運転タスクを1つのネットワークに統合する包括的な最新のフレームワークです。

UniADは、単純なタスクのスタックではなく、認識と予測における各モジュールの効果を調査し、先行ノードから運転シーンにおける最終の行動計画ノードまでの全体最適化の利点を活用します。すべての認識と予測のモジュールは、各ノードを接続するインターフェースとしてタスククエリを持つ、トランスフォーマーデコーダ構造で設計されています。この革新的なアプローチは、自動運転技術研究における重要なブレークスルーであり、この分野における最初のCVPR最優秀論文賞を受賞しました。

受賞論文は、自動運転フレームワークのさまざまなデザインを比較し、(c.3)で、望ましいシステムは計画指向 (plannning-oriented) であるべきであり、行動計画を容易にするために先行タスクを適切に編成すべきであると論じています。

センスタイムの共同創立者、チーフ・サイエンティスト、インテリジェント・オートモーティブ・グループの総裁である王暁剛教授は、「UniADは、認識から意思決定までの全ノードを全体として統合した業界初のエンド・ツー・エンドの自動運転基盤モデルであり、システム全体の性能の大幅な向上につながり、自動運転開発の今後の方向性を象徴している」と述べました。

幅広い性能分析により、UniADは、あらゆる面で従来のstate-of-the-art(SOTA)を大幅に上回り、その有効性が証明されました。例えば、複数物体追跡の精度はSOTAを20%上回り、車線のオンラインマッピング精度は30%向上し、モーション予測誤差は38%減少し、行動計画の誤差は28%減少しました。

受賞候補論文:AIGC時代におけるリアルな3次元コンテンツ生成の高速化

現実の3次元物体の認識、理解、再構成、生成は、コンピュータビジョンの分野で一貫して顕著な課題です。 “OmniObject3D: Large-Vocabulary 3D Object Dataset for Realistic Perception, Reconstruction and Generation ”と題された受賞候補論文は、OmniObject3Dの大語彙3次元物体データセットを紹介するもので、約200の日常的なカテゴリに属する6,000の高品質な実スキャン3次元物体の大規模なコレクションです。各3次元物体は、2次元と3次元の両方のセンサーでキャプチャされ、正確な形状とリアルな外観を持つ高品質のオブジェクトスキャンを可能にしています。得られたデータには、テクスチャメッシュ、点群、マルチビューレンダリング画像、複数の実写動画が含まれます。

OmniObject3Dは、現在学術界で最大の実世界3次元スキャンモデルデータセットであり、将来の3次元ビジョン研究に膨大なチャンスを提供できます。研究者は、このデータセットを用いて、点群認識、ニューラルレンダリング、表面再構成、3次元生成など、様々な学術的タスクの頑健性と汎化性を探求し、認識から生成分野まで、そのオープンな応用の可能性を検証してきました。OmniObject3Dは、その高品質なスキャンにより、AIGC時代におけるリアルな3次元生成の促進に重要な役割を果たすと期待されています。

さらに、センスタイムは、半教師あり物体検出、3次元 GAN逆変換フレームワーク、拡散モデルなど、様々な分野で大きな進歩を遂げており、コンテンツ生成、3次元再構成、その他のシナリオに広く応用することができます。

AIインフラ+大規模モデルで研究イノベーションをリード

センスタイムの最先端イノベーションにおけるリーダーとしての地位は、自社のAIインフラであるSenseCoreへの投資と大規模モデルの開発、そして産業界・学術界・研究界の共同イノベーションへのコミットメントによって強化されています。

「大規模モデルは、大規模な計算能力とビッグデータに支えられた強力な汎化能力によって、AIに革命を起こす準備が整っています。大規模モデルは、膨大な分野の知識を理解し、学習し、応用するための大きな可能性を提供します。これは我々の研究の視野を広げるだけでなく、新たなイノベーションの起爆剤となります。」と王暁剛教授が述べました。

センスタイムは、4月上旬に「SenseNova」基盤モデルセットをリリースして以来、大規模モデルの開発において大きな進歩を遂げ、天気予報、リモートセンシングの解釈、オープン環境での意思決定などの分野で画期的な成果を上げてきました。

産業界、学術界、研究界のあらゆる部門とともに、大規模モデルによってもたらされる重要な革新を受け入れ、探求し、AIの最前線の探求のための新たな方向性と道筋を切り開くことを期待しています。

新着情報