2025/3/9

人型ロボットを家庭で 動かすのに特化したAI言語モデル 「Helix」をFigureが発表

 
 
 
 
 
 
 
 

 

人型ロボットを家庭で

動かすのに特化したAI言語モデル

「Helix」をFigureが発表

 
 

 

 

 


ロボット企業のFigureが、ヒューマノイド(人型ロボット)の

制御・知覚・言語理解を統合した汎用(はんよう)型の

 

Vision-Language-Action(VLA)モデル

Helix」を発表しました。

 

Helixはわずか500時間の学習データで

ロボットの上半身全体を精密に

制御できる点が特徴的で、

 

家庭用ロボットの実用化に向けた

重要な進展として注目されています。

 



実際にHelixで2体のヒューマノイドが

動作するところが以下のムービー。

 

人間が買い物を渡して食料品を冷蔵庫や

カゴに収納するように指示し、

ロボットがその通りに作業を行います。

 



 

 

工場のような管理された環境とは異なり、

家庭にはガラス製品や衣類、

散らばったおもちゃなど、

予測不可能な形状、サイズ、色、

質感を持つ物体が多数存在します。

 

ロボットが家庭で有用であるためには、

特に見たことのない物体に対して、

オンデマンドで新しい知的な行動を

生成できる能力が必要となります。

 


Figureによれば、

現在のロボット工学では、

家庭環境に対応するためのスケーリングは

困難だとのこと。

 

ロボットに新しい行動を1つ教えるだけでも、

博士レベルの専門家による何時間もの

手作業プログラミングや何千もの

実演データが必要となり、

 

コストは家庭用のロボットとして

非現実なレベルになってしまいます。

 



そこで、

画像や映像を学習できる視覚言語モデルを

応用して直接ロボットの動作に変換することで、

 

これまで無数の実演が必要だった新しい動きを、

自然言語で話しかけるだけで即座に

獲得できるようになるというのがHelixのコンセプトです。

 



実際に、

自然言語による指示にしたがって、

ロボットが指定したアイテムを

拾い上げるところが以下のムービー。

 




 

 

また、以下では動くサボテンのオモチャを

さまざまな表現に言い換えながら、

自然言語による指示でロボットに拾わせています。




 

 


Helixは、ヒューマノイドの上半身全体を

高速かつ器用に制御する初の

「System 1・System 2」型

VLAモデルとして開発されました。

 

VLMは汎用的である一方で速度が遅く、

ロボットの視覚運動制御は高速である

一方で汎用性に欠けるという問題を、

 

Helixは相互に通信する2つの

補完的なシステムを通じて解決しています。

 



System 2はパラメータ数70億の

オープンソース・オープンウェイトVLMをベースとし、

 

単眼ロボット画像とロボットの手首の

姿勢と指の位置を処理します。

 

シーン理解と言語理解を担当し、

物体やコンテキストに対する幅広い

汎用化を可能にします。



一方、System 1はパラメータ800億の

Transformerモデルで、シミュレーションで

事前学習された

完全畳み込み型ニューラルネットワークを使用します。

 

 

S2と同じ入力を受け取りますが、

より応答性の高い制御を実現するため、

より高い頻度で処理を行います。

 


System 2は高レベルの目標についてゆっくり考え、

 

System 1は実時間で動作を実行し

調整する速い思考を行います。

 

たとえば、

他のロボットと協調する動作の際、

System 1はパートナーロボットの変化する

動きに素早く適応し、

System 2が設定した目標を達成します。

 



たとえば上記のデモンストレーションで、

冷蔵庫に近い方のロボットは机の上にある

ケチャップを認識し、

冷蔵庫の棚にしまいます。

 




 

 


また、冷蔵庫に収納するべきではないクッキーを

発見すると、もう1体のロボットに手渡ししました。




 

 


データセットについては、

約500時間の高品質な遠隔操作行動データを

収集しているとのこと。

 

自然言語による条件付けを行うため、

オンボードカメラの映像クリップに対して

自動ラベリングVLMを使用し、

 

「このビデオで見られる動作を実現するために、

ロボットにどのような指示を与えただろうか?」

という形で事後的な指示を生成します。

 



Figureは、Helixは記事作成時点であくまでも

プロジェクトの初期段階であるものの、

 

Figureのヒューマノイドロボットの行動を

スケールさせる上で革新的な一歩となり、

 

日常的な家庭環境でロボットが支援を行う

未来への重要な一歩であると位置付けています。

 

 

<参考:>