MolmoAct 2とは?ロボットが言語指示で動く仕組み・競合との違い・注意点を解説

MolmoAct 2とは?ロボットが言語指示で動く仕組み・競合との違い・注意点を解説
  • URLをコピーしました!

Ai2が公開した「MolmoAct 2」は、ロボットに自然言語で指示し、カメラ映像や空間情報をもとに動作を生成するためのオープンなロボット基盤モデルです。注目点は、単に「ロボットが賢くなった」という話ではありません。モデルの重み、データ、コードを研究者が検証しやすい形で公開し、従来より高速に、二腕操作や実世界タスクへ近づけた点にあります。本記事では、MolmoAct 2で何ができるようになるのか、π0.5やOpenVLA-OFTなど既存モデルと何が違うのか、そして実務導入ではどこに注意すべきかを整理します。

目次

MolmoAct 2とは何か

MolmoAct 2は、Allen Institute for AI、通称Ai2が2026年5月5日に発表したロボット制御向けのAction Reasoning Modelです。公式発表では「現実世界で働くロボットのためのオープンな基盤」と位置づけられており、モデル、データセット、コード、評価用ポリシーが研究者向けに公開されています。

大きな特徴は、ロボットがカメラで見た状況を理解し、言語指示を受け取り、空間的な関係を推論したうえで行動を生成することです。一般的なチャットAIが文章を出力するのに対し、MolmoAct 2はロボットアームなどの実機が動くための行動系列を出力する点が異なります。

公式情報では、MolmoAct 2は視覚言語モデルのMolmo 2-ERを土台にし、ロボットの状態と行動を扱う仕組み、さらにflow matchingによる連続的な行動生成を組み合わせています。詳細はAi2の公式ブログと、公式GitHubリポジトリで確認できます。

何が発表されたのか

今回の発表で重要なのは、単体のモデル名だけではありません。Ai2はMolmoAct 2のモデル群、トレーニングに関わるデータ、評価済みのロボットポリシー、そして継続学習やファインチューニングに使えるチェックポイントを公開しています。公式GitHubでは、MolmoAct2を「robot control and real-world deployment」のためのオープンな行動推論モデル群と説明しています。

また、MolmoAct 2-Bimanual YAM datasetという二腕卓上操作向けの大規模データセットも公開されました。Ai2公式ブログでは、700時間を超える二腕操作のデモンストレーションを含むと説明されており、タオルを畳む、テーブルを片付ける、スマートフォンを充電する、といった協調操作タスクが含まれます。

性能面では、前世代のMolmoActより推論が大幅に高速化された点が目立ちます。公式ブログでは、LIBERO環境で1回のアクション呼び出しが、前世代の約6,700ミリ秒に対し、ベースモデルでは約180ミリ秒、適応的な深度推論を使うMolmoAct 2では約790ミリ秒と説明されています。ロボットにとっては、この差が「動くたびに止まる」挙動と、より自然に環境へ反応する挙動の差につながります。

なぜMolmoAct 2が注目されているのか

ロボットAIの難しさは、言語や画像の理解だけでは終わらない点にあります。文章生成AIなら、出力が少し曖昧でも人間が読み替えられます。しかしロボットの場合、数センチの誤差やタイミングのずれが、物体の落下、接触ミス、実験手順の失敗につながります。

これまでのロボット制御では、タスクごとに専用の制御プログラムや模倣学習モデルを作る手法が多く使われてきました。この方法は特定の環境では強い一方で、指示の言い換え、物体位置の変化、異なるロボットへの移植に弱くなりがちです。近年はVision-Language-Action、つまり視覚・言語・行動を統合するVLAモデルが注目されていますが、実世界で安定して使うには、推論速度、データ公開、再現性、ロボット間の転移が課題でした。

MolmoAct 2が注目される理由は、この課題に対して「オープン性」と「実世界評価」を前面に出しているからです。公式論文では、7つの環境ベンチマークにまたがる評価を行い、シミュレーションだけでなく実世界のロボットタスクも含めた検証を示しています。論文はarXiv版の技術レポートとして公開されています。

MolmoAct 2で何ができるようになるのか

MolmoAct 2が目指すのは、人間が自然言語で指示し、ロボットが環境を見ながら具体的な動きに変換することです。たとえば「りんごを皿に置いて」「ピペットをトレイに入れて」「テーブルを拭いて」といった指示に対し、ロボットが対象物、位置関係、動作の順序を推論して実行する方向です。

従来の専用プログラム型のロボットでは、対象物や手順が少し変わるだけで設定変更が必要になることがあります。MolmoAct 2のようなVLAモデルでは、視覚情報と言語指示を組み合わせることで、同じ基本動作を別の物体や配置に応用しやすくすることを狙っています。

もう一つの進歩は、3D行動推論です。MolmoAct 2は、物体が画面内のどこにあるかだけでなく、奥行きや空間的な関係を含めて行動を組み立てようとします。公式発表では、Molmo 2-ERを embodied reasoning、つまり身体性を前提とした推論に特化させ、画像ベースのポインティング、物体検出、抽象的な空間推論、動画ベースの空間QAなどを使って強化したと説明されています。

特に実務上大きいのは、二腕操作への対応です。片腕で物をつかむだけでなく、両腕を協調させてタオルを畳む、トレイを持ち上げる、机上の複数物体を片付けるといった動作は、ロボット活用の幅を広げます。Ai2は、MolmoAct 2では二腕操作能力をベースモデルに組み込んだと説明しており、前世代のようにタスクごとのファインチューニングに頼る範囲を減らす狙いがあります。

仕組みを分解するとどうなっているのか

MolmoAct 2は、ざっくり言えば「見る・理解する部分」と「動くための行動を出す部分」を組み合わせた設計です。見る・理解する部分はMolmo 2-ERで、カメラ画像や言語指示から、物体、位置、空間関係、タスクの意図を読み取ります。

そのうえで、行動生成には専用のaction expertが使われます。公式発表では、MolmoAct 2はVLMとflow matchingによる連続行動生成をKV-cache bridgeでつなぐ構成と説明されています。これは、言語モデル的な推論能力を保ちながら、ロボットの連続的な動作出力に適した専門モジュールへ橋渡しする設計と考えると分かりやすいでしょう。

また、MolmoAct 2-Thinkという派生では、深度知覚トークンを使って、必要なタスクでより深い3D推論を行います。ただし常に深度推論を全開にすると推論負荷が増えるため、Ai2はadaptive-depthという仕組みで、性能向上が期待できる場面に深度予測を振り向けると説明しています。

既存競合との比較

MolmoAct 2を評価するには、単に成功率だけを見るのではなく、公開範囲、使えるロボット、推論速度、実世界での汎用性を分けて見る必要があります。ここでは代表的な比較対象として、Physical Intelligenceのπ0.5、OpenVLA / OpenVLA-OFT、NVIDIA Cosmos Policyを取り上げます。

スクロールできます
比較対象主な特徴強み注意点
MolmoAct 2Ai2によるオープンなAction Reasoning Model。Molmo 2-ERと連続行動生成を組み合わせるモデル・データ・コードの公開範囲が広く、二腕操作や3D推論を重視対応ロボットは主に学習済み環境に依存し、別プラットフォームでは追加学習が必要
π0.5Physical IntelligenceによるVLAモデル。多様なデータを使った実世界汎化を重視家庭内の長時間タスクなど、オープンワールド寄りの実証が示されている公開範囲や再現性の観点では、研究者が内部を検証しにくい部分がある
OpenVLA-OFTOpenVLAを高速・高成功率にファインチューニングする手法LIBEROなどのベンチマークで高い成功率とスループット改善を示す実環境での導入は、対象ロボットとタスクに合わせた調整が前提になりやすい
NVIDIA Cosmos Policy動画・世界モデル系のCosmos Predictをロボット制御へ応用するアプローチ将来状態の予測やモデルベース計画と相性がよいNVIDIAのエコシステムや計算基盤との結びつきが強くなりやすい

π0.5は、ロボットが新しい家庭環境で長時間タスクをこなす方向に強みがあります。arXivの論文では、キッチンや寝室の片付けのような長い工程を含むタスクを、新しい家庭環境で実行することが示されています。一方で、MolmoAct 2はAi2がモデル、データ、コードを公開する姿勢を強調しており、研究者が中身を検証し、改良しやすい点が差別化になります。

OpenVLA-OFTは、既存のOpenVLAを効率よくファインチューニングするための実践的な手法です。論文では、LIBEROの平均成功率を76.5%から97.1%へ引き上げ、行動生成スループットを26倍に改善したと説明されています。MolmoAct 2と比べると、OpenVLA-OFTは「既存VLAをどう実務向けに調整するか」に焦点があり、MolmoAct 2は「推論・データ・行動生成の設計を含むオープン基盤」に近い位置づけです。

NVIDIA Cosmos Policyは、世界モデルや動画予測をロボット制御へ接続する発想が特徴です。NVIDIA Developer Forumsでは、Cosmos Predictをロボットデモでファインチューニングし、行動、未来状態、価値推定を潜在系列に組み込むことで、見る・想像する・決めるを1つのモデルで扱うと説明されています。MolmoAct 2が言語指示と3D行動推論の実装基盤を強調するのに対し、Cosmos Policyはシミュレーション、未来予測、NVIDIAの物理AI基盤との接続が強みです。

比較すると、MolmoAct 2は「オープンに検証できるロボット行動推論モデル」を求める研究者や企業R&Dに向いています。π0.5は、実世界の長時間・多段階タスクへの汎化を見るうえで重要な比較対象です。OpenVLA-OFTは、既存VLAのファインチューニング効率を重視する場合に参考になります。Cosmos Policyは、シミュレーションや世界モデルを含むNVIDIA中心の開発環境を採る場合に検討対象となります。

懸念点・注意点

MolmoAct 2は有望な発表ですが、すぐにあらゆる現場へ投入できる万能ロボットAIではありません。Ai2自身も、公式ブログで弱点を明記しています。重要なのは、現時点の制限を理解したうえで、研究用途、実証実験、限定的な業務自動化のどこに使えるかを見極めることです。

第一の注意点は、連続的に反応する完全なリアルタイム制御ではないことです。公式ブログでは、MolmoAct 2は10〜30手程度の行動をまとめて計画し、その系列を実行すると説明されています。そのため、途中で障害物に当たる、物体が予想外に動く、といった状況では、バッチの途中で即座に推論し直せない可能性があります。

第二に、対応ロボットの制約があります。Ai2は、MolmoAct 2がそのまま動く対象としてSO-100、SO-101、二腕YAM、Frankaなど、強く学習された構成を挙げています。ヒューマノイド、ハンド付きロボット、独自治具を持つ産業ロボットで使うには、そのロボットから得た追加データとファインチューニングが必要になります。

第三に、安全性と責任分界の問題です。ロボットは物理世界で動くため、誤動作はソフトウェア上のミスより影響が大きくなります。研究室内のデモでは成功しても、工場、病院、実験室、店舗のような実環境では、人との接触、物体破損、衛生管理、緊急停止、監査ログなどを設計に含める必要があります。

第四に、コストと運用負荷です。モデルが公開されていても、ロボット本体、カメラ、GPU、データ収集、評価環境、現場での保守にはコストがかかります。導入可否は「モデルが無料かどうか」ではなく、タスクの失敗コスト、再学習の頻度、現場担当者が運用できるかで判断すべきです。

導入メリットを得やすい人・組織

MolmoAct 2のメリットを得やすいのは、すでにロボットや自動化設備を使っており、次の段階として「決まった動作だけでなく、状況に応じた操作」を試したい組織です。特に、研究室、ロボットスタートアップ、製造業のR&D部門、物流や検査の自動化チームには検討価値があります。

たとえば、物体の位置や種類が毎回少し変わる卓上作業、ピッキング、片付け、簡易な実験補助では、従来の固定ルール型制御だけでは調整が増えがちです。MolmoAct 2のようなモデルは、言語指示と視覚情報を使って行動を組み立てるため、タスクのバリエーションが多い現場で研究価値があります。

一方で、現時点では向いていないケースもあります。ミリ秒単位の厳密な制御が必要な高速ライン、強い力制御が必要な重作業、人の近くで常時稼働する安全要求の高い設備、失敗が許されない医療・危険物処理の本番運用では、MolmoAct 2単体で判断すべきではありません。従来の制御、安全PLC、フェイルセーフ、監視システムとの組み合わせが必要です。

また、ロボット用データを収集する体制がない組織にも、すぐの本格導入は難しいでしょう。MolmoAct 2はオープンな基盤として魅力がありますが、現場固有のロボット、カメラ配置、治具、対象物に合わせるには、データ収集と評価のサイクルを回せるチームが必要です。

実務導入を判断する際のポイント

導入検討の最初に確認すべきなのは、「その作業は言語指示と視覚情報で柔軟に扱う価値があるか」です。単純な反復動作で、対象物も位置も固定されているなら、従来の制御プログラムや専用治具の方が安価で安定することがあります。MolmoAct 2が向くのは、変化への対応やタスクの再利用性に価値がある場合です。

次に見るべきは精度と再現性です。公式ベンチマークの成功率は参考になりますが、自社のタスクで同じ成功率が出るとは限りません。対象物の材質、照明、カメラ角度、ロボットアームの可動域、把持具の種類が変わると結果は大きく変わります。試験導入では、代表的な成功例だけでなく、失敗条件のログを取ることが重要です。

処理速度も重要です。MolmoAct 2は前世代より高速化されていますが、ロボットの制御周期や安全停止の要求に合うかは別問題です。特に、人が近くで作業する環境では、AI推論の速さだけでなく、センサー、制御装置、緊急停止系を含めた総合的な応答時間を見る必要があります。

データの取り扱いも見落とせません。カメラ映像には作業者、製品、実験サンプル、機密情報が映る可能性があります。オープンモデルを使う場合でも、学習データを外部サービスに送るのか、社内GPUで処理するのか、ログをどれだけ保存するのかを決めておく必要があります。

試験導入では、いきなり本番ラインに入れるのではなく、限定された卓上タスクから始めるのが現実的です。たとえば、10種類程度の物体、数パターンの配置、明確な成功判定を用意し、従来手法、MolmoAct 2、別のVLAモデルを同じ条件で比較します。そのうえで、失敗時に人間が介入しやすい工程から段階的に広げるべきです。

本格導入を急がなくてよいケースもあります。対象タスクが固定的で、既存の産業ロボットや画像処理で十分な場合、MolmoAct 2を導入する理由は弱くなります。また、ロボットデータを集める余裕がない、GPU環境を維持できない、安全評価の体制がない場合は、まず社内の自動化候補を棚卸しし、ロボットAIで解くべき課題かどうかを見直す方がよいでしょう。

よくある質問

MolmoAct 2は誰でもすぐ使えますか?

モデルやコードは公開されていますが、誰でもすぐ実機ロボットで安定運用できるという意味ではありません。対応するロボット構成、カメラ、GPU環境、データセット、評価手順が必要です。研究者や開発者が検証しやすい基盤ではありますが、現場導入には安全設計とタスク別の調整が欠かせません。

MolmoAct2とMolmoAct 2は同じものですか?

基本的には同じテーマを指しています。公式ブログでは「MolmoAct 2」と表記され、GitHubリポジトリ名や検索上では「molmoact2」「MolmoAct2」と詰めて書かれることもあります。記事や検索では両方の表記が混在しやすいため、正式名称としてはMolmoAct 2、検索キーワードとしてはMolmoAct2も併記すると分かりやすいでしょう。

π0.5よりMolmoAct 2の方が優れているのですか?

一概には言えません。Ai2の評価ではMolmoAct 2がπ0.5を上回る結果が示されていますが、ベンチマーク、ロボット構成、タスク条件によって評価は変わります。MolmoAct 2はオープン性と検証可能性が強みで、π0.5は長時間・実世界タスクへの汎化を示す重要なモデルです。用途に応じて比較する必要があります。

MolmoAct 2は産業ロボットにそのまま使えますか?

そのまま使える可能性があるのは、学習済み環境に近い構成に限られます。一般的な産業ロボット、独自のエンドエフェクタ、特殊な治具、厳密な安全基準を持つ現場では、追加学習、制御系との接続、フェイルセーフ設計が必要です。現時点では、本番利用よりも研究開発や限定的なPoCから始めるのが現実的です。

オープンモデルであることのメリットは何ですか?

オープンであることのメリットは、研究者や企業がモデルの挙動を検証し、データや学習手法を改善しやすい点です。ロボットAIは安全性と再現性が重要なため、ブラックボックスの成功例だけでは導入判断が難しくなります。MolmoAct 2は、公開範囲の広さによって、比較検証や派生研究を進めやすくしている点に価値があります。

ロボットAIはすぐに人手不足を解決しますか?

短期的には、すぐに広範な人手不足を解決する段階ではありません。MolmoAct 2のようなモデルは、柔軟な操作への道を広げていますが、現場では安全、コスト、失敗時対応、保守、データ収集が必要です。まずは研究室、物流、検査、実験補助など、タスク範囲を限定しやすい領域から実証が進むと考えられます。

まとめ

MolmoAct 2は、ロボットが言語指示と視覚情報をもとに、3D空間を推論しながら行動するためのオープンな基盤モデルです。前世代より高速化し、二腕操作や実世界タスクへの対応を強化した点は、ロボットAIの研究開発にとって大きな前進です。

ただし、万能なロボット頭脳と見るのは早計です。対応ロボットの範囲、バッチ実行による反応性の制約、安全設計、追加学習の必要性など、現実的な課題は残っています。導入を考えるなら、公式ベンチマークをそのまま信じるのではなく、自社のタスク、環境、失敗コストに合わせて小さく検証するべきです。

今後注目すべきなのは、MolmoAct 2の公開データや学習コードを使って、どれだけ多様なロボットや現場タスクへ拡張できるかです。ロボットAIはまだ発展途上ですが、MolmoAct 2はその進歩を外から検証し、改良できる土台として重要な発表だと言えます。

参考ソース

MolmoAct 2とは?ロボットが言語指示で動く仕組み・競合との違い・注意点を解説

この記事が気に入ったら
フォローしてね!

よかったらシェアしてね!
  • URLをコピーしました!

コメント

コメントする

CAPTCHA


目次