VLAの明日 ~ 僕達はテレオペレーションなんてやりたくない！~

はじめに

こんにちは、ABEJAでプロジェクトマネージャーをしている服部です。

この記事はABEJAアドベントカレンダー2025の5日目の記事です。

過去のテックブログでは、ドローン、RAGの運用、合宿レポートとテーマの幅広さには自信があります

直近はもっぱらVLA案件に取り組んでいるので、今回はVLAの現状と今後の展望について書いていきます。

同日に同僚のエンジニアが記事を出すのですが、テレオペの必要性について、主張の違いをお楽しみいただければと思います。（とても仲良しです！）

VLAの現在地

VLAとはVision-Language-Actionの略です。LLM、VLMにはM（モデル）がついているので並べる際には「VLAモデル」と呼ぶのが適切かもしれません

基本的な機能は、「Vision（画像）」や「Language（指示）」をインプットとして、「Action（動作）」を生成することです。動作とは、ロボットで例えると「各関節角度の一連の遷移」とでも呼べばよいでしょうか。VLAの動作原理の詳細は弊社エンジニアが記事にしていますので、ぜひ御覧ください。これによって、「エスプレッソを作って」のような文章指示でロボットを動かすことができます。

そんなVLAですが、現状のレベルは自分や周囲の有識者の意見では「LLMに例えるとGPT-2くらい」という程度の精度です。それっぽい応答（動作）は返ってくるけれど、指示をちゃんと理解していなさそうという所感で、「ブロックを取って」と指示をするとアームが近くを彷徨って空を掴んだり、無力さが可愛くもあります。

精度の壁とデータ不足

VLMによる画像理解でこれだけ精度が出る現代に、動作生成がイマイチな理由は、動作のデータが圧倒的に足りていないことに起因すると考えられます。

LLMやVLMの学習に用いるテキストデータ・画像データは御存知の通り、無数にインターネット上に存在しており、それらを学習に用いるハードルは（著作権などの問題があるとはいえ）非常に低いです。

一方で産業用ロボットの動作ログなどの動作データはテキストデータと比較すると存在量自体も少ないですし、機密性が高く（あるいは汎用性が低く）、存在しても個社単位で管理されている・画像データなどと紐づけされていない、といった事情のものがほとんどです。

既存の解決策「テレオペレーション」と3つの壁

これらデータ不足を補うために、ロボットを実際に操作して模倣学習用のデータを作る「テレオペレーション」という手段があります。テレオペレーションではコントローラーでロボットを遠隔操作し、タスクを実行することでロボット視点の画像・動作のデータを収集します。

コントローラーはリーダーロボットを動かすものから、VRコントローラーなど多岐にわたりますが、操作性や力覚フィードバックの必要性などから選ばれます。

中国では大量にロボット・人員を投入して、動作データを作成するロボット訓練センターが設立され、日本でも株式会社山善などが同様の施設に取り組んでいます。

このようにして集められたデータを学習させることで、世界は今、VLAの精度向上に取り組んでいます。

「テレオペレーションむずい問題」

テレオペレーションは一つの潮流ではあるのですが、一点、やったことがある人なら誰でも感じる問題があります。それが「テレオペレーションむずい問題」です。

上述の動画をご覧いただければわかりますが、自分の手元のリーダーアームを動かしながら、隣りにいる（あるいは遠隔の）ロボットを操作し、ペットボトルを掴んだり、服を畳んだりするのです。

壁① 操作難易度

このTPV（三人称視点）での作業というのは思いの外難しく、自分の視線がロボットアームで遮られてその手元が見えなかったり、可動域が思い通りにならなかったりします。

服を畳むのが上手いからと言って、ロボットを使って服を畳むのが上手いとは限らないのです。

（VRゴーグルでロボット視点を覗いたり、あるいは眼の前にロボットのカメラ映像を映し出すモニターを設置するだけでも擬似的にFPV（一人称視点）にすることができ、工夫の余地はあります）

壁② 人材要件

このことは、上述の訓練施設でデータ収集用の人を雇用する際にも障害になり得ます。小売店でどんなアルバイトでもできていた「品だし」の作業は、その学習用データを作成すべくテレオペレーターを募る際には、品出しの作業ではなく「テレオペレーションが上手い」人材を集める必要があり、人材要件に「ロボットの操作技能」と記載する必要があるかもしれません。

小さい頃からガンダムを操縦することを妄想してきた我々ですが、実際にやらせて御覧なさい。その妄想はまるで役に立たないことがわかるかと思います。例えばペットボトルを掴むという動作についても、誰でも最初からできるわけではありません。見当違いの方向にアームを動かしてしまったり、途中で落としてしまったり、それらのデータは学習の際には破棄されてしまいます。会社によっては、数千時間のテレオペレーション経験をした人材のデータのみ学習に用いる、といった運用をしているそうです。

壁③ スケーラビリティ

また、我々はLLMに使われたであろうテキストデータを作り出す際に、「学習用のデータセットを作ろう」とは思っていなかったはずで、業務などを通じて自然に、文章をインターネットの海に残してきたと思います。

VLAに対しても、できるなら、我々が活動してきた背中を見て勝手に学んでいってほしいですよね。

「学習のためのデータを0から新しく作る」のはあまり効率的ではないですし、現状はGPT-2くらいという話をしましたが、GPT-2からGPT-3へはパラメタ数が100倍程度になっており、学習させるデータ量も同等程度増大していると考えられます。

仮に今から100倍のデータ量が用意できて、GPT-3程度の精度になったとて、その先のGPT-3.5、GPT-4、GPT-4oくらいの性能を目指すのであれば、このテレオペレーションでデータ作成を続けるのはあまり現実的ではありません。

解決アプローチ①：データ収集を「ストレスフリー」にする

テレオペレーション以外に、比較的、特別なオペレーションが必要ないデータ収集方法も考えられます。例えば、「人には品出し作業をそのままやってもらい、ヘッドカメラとモーションキャプチャスーツを用いて動作情報を収集し、ロボットに転用する」ことができれば、ちょっと気恥ずかしいVTuber体験をするだけで、一般の人でも十分データを作ることができます。

あるいは手元の作業動画があれば、そこから手の各関節角度は推定できる可能性もあります。

検証

試しに手元作業動画からボーン推定し、ボーンの3D情報のみビューアに表示するプログラムを作ってみました。

https://github.com/tamon0987/hand-landmark-logger

ぜひpullしてお試しください。使用したのはGoogleのMediaPipeというモデルです。

単眼カメラで撮られた映像だと奥行きの評価が難しいと思うのですが、いい感じにやってくれました。さすがはGoogleですね。

これを使えば、立体的な関節角度がわかるので、手元動画からロボット（ハンド）に出力させたい各関節角度の遷移を出力することも不可能ではなさそうです。

こちらは試していませんが、同社の全身モデルを使えば、ヒューマノイドの模倣学習に必要な上半身の各関節角度も抽出できるのではないでしょうか。

ちなみに、上記Build AI様の手元動画データセットを試しにダウンロードして使ってみたのですが、少し課題の残る結果になりました。ぜひご自身でお試しいただければと思いますが、「視線が大きく変化し、作業スピードも速いため、手の映像がブレる」ことが原因で全体的にボーン（というか手のランドマーク）を推定できていないフレームが多かったです。

これはモデル精度の問題というよりも、素直に、超高速で作業を行う熟練した世界の作業者さん達に拍手を送りたいと思います。

くっきりと手が映る映像に関してはREADMEのサムネイルに貼ったように、しっかりとランドマークを検出できています。

今回の用途に用いるのであれば、カメラは人の頭につけるのではなく、固定して運用するほうが良さそうです。少なくとも視線のブレという要素は排すことができます。

解決アプローチ②：「Action」の定義を再考する

余談ですが、VLAが生成しうるものは決して、ヒューマノイドやアームロボットの関節角度だけではありません。車の自動運転で地図を見ながら、進路を生成するものも、VLAと呼べそうです。下記SimLingoの6分サマリ動画がわかりやすいのでぜひご覧ください。

https://github.com/RenzKa/simlingo

また自分は前職で産業用ロボットに携わってきましたが、これは日本企業が未だに世界的に強い分野です。ソフトウェア面でも、ロボットアーム先端（エンドエフェクター）の始点と終点を指定すれば、（逆運動学を解いて）エンドエフェクターの地面に対する角度は保持したまま、遷移中の線形補間をして、スムーズに移動させてくれます。直接教示と呼ばれますが、コントローラーを使ってアームを移動しながら、始点・終点（ロボットを基準とした空間座標）をセットしていきます。こんなのはロボット企業の方からすると常識でしょう。

一方、人がテレオペレーションをすると、手の震えや間違った経路、途中の迷いなどのノイズも含めて学習してしまいます（あるいはそういったノイズを除去するのは大変です）。

産業用ロボットとヒューマノイドではそもそもサイズが違いますし、求められる精度や応答速度、タスクの多様性も異なりますが、もしかしたら、VLAのAは「始点」「終点」の座標だけにして、あとは既存の軌道生成プログラムに任せる、という世界観もあり得ると思います。

このように考え出すと、下記のような疑問も浮かんできますね。