LLMはテキストの次のトークンを予測する。では、物理空間の「次の状態」を予測するモデルは?AI界の大御所3人が口をそろえて重要性を説く「ワールドモデル」は、LLMが苦手とする物理世界・空間・因果関係の理解を担う次世代技術である。自動運転からロボット、ゲーム、建築まで――その概念と実用化の現在地を整理する。
ワールドモデルとは、「AIエージェントが自律的に意思決定を行い行動するために、自らを取り巻く環境を理解して予測するモデル」である。より厳密には、「環境を知覚して内部表現(状態)に変換し、状態の変化を予測(シミュレート)し、その結果を意思決定・行動に用いる仕組み」である。
ワールドモデルには4つの要素が含まれている。
これまでのLLMが主にテキストやコードの「次のトークン」を予測することで発達してきたのに対し、ワールドモデルは空間的な環境とその時間軸における変化(遷移)を予測する。
| 観点 | LLM中心アプローチ | ワールドモデル中心アプローチ |
|---|---|---|
| 主目的 | 言語・コード・対話 | 世界の状態遷移、行動結果、内部シミュレーション |
| 学習データ | テキスト、コード、Web文書 | 動画、画像、3D、ロボット軌跡、センサ、行動ログ |
| 予測単位 | 次トークン、ツール呼び出し | 潜在状態、次観測、報酬、将来軌跡 |
| 強み | 言語理解、抽象推論、汎用インターフェース | 物理・空間一貫性、因果推論、計画 |
| 弱点 | 物理世界の理解、長い行動連鎖の確実性 | 長期一貫性、厳密物理、実世界精度 |
LLMはテキストトークンの発生確率を予測するモデルであり、高度な知性を模倣できることは証明されたが、「重力」「空間の広がり」「力の伝達」といった物理的現実を本質的には理解していない。ロボット制御や自動運転のような物理世界での応用では、しばしば論理矛盾や不整合(いわば「物理空間におけるハルシネーション」)を発生させる。
概念的な先駆けは古く、トールマン(Tolman)が1948年に「動物は環境の認知地図を形成する」という考えを示したことに遡る。1990年にはサットン(Sutton)が、学習した環境モデルを内部計画に使う「Dynaアーキテクチャ」を提案した。現代のワールドモデルに直接つながるのは2018年、ハ(Ha)氏らが初めてニューラルネットワークで概念を実装し、「現実環境に触れずに仮想世界だけでトレーニングしたエージェントが現実で機能する」ことを示した論文である。
↑ 目次に戻るワールドモデルが昨年から急速に注目されるようになったのは、AI界を代表する3人がその重要性を相次いで説いたためである。
ワールドモデルの実現には以下のような技術が必要となる。
| 要素技術 | 役割 | 代表例 |
|---|---|---|
| 表現学習 | 高次元観測を意味的・圧縮的な潜在表現へ変換 | VAE、I-JEPA、V-JEPA 2 |
| 動画予測・遷移学習 | 潜在状態や観測の時間発展を予測 | MDN-RNN、Dreamer、Sora、Genie |
| 3D・空間知能 | 可探索・永続的な3D世界として表現 | World Labs Marble、HY-World 2.0 |
| 物理・因果推論 | 重力、接触、運動、作用結果を扱う | Genie 2/3、Gemini Omni |
| 強化学習・計画 | 仮想軌跡を使って行動を改善 | DreamerV3、V-JEPA 2-AC |
| マルチモーダル統合 | テキスト・画像・動画・行動・センサを一体化 | Gemini Omni、HY-World 2.0 |
ワールドモデルの実現方式には、これらの技術要素を組み合わせた、さまざまなアプローチが考えられている。
| 方式 | 中核発想 | 代表例 |
|---|---|---|
| 強化学習型 | 潜在世界を学び、その中で方策を改善。データ効率が高いが領域が狭くなりやすい | World Models、DreamerV3 |
| 動画予測型 | 動画生成を拡張して行動可能な世界へ。表現力は高いが物理・長期一貫性が難しい | Sora、Genie、Wan2.1 |
| 3D型 | 可探索・永続な空間資産を生成。編集可能だが厳密物理は未成熟 | Marble、HY-World 2.0 |
| ロボティクス型 | 空間推論を行動・安全制御へ接続。現実タスクに近いが実機データ収集が重い | Gemini Robotics、Cosmos |
| JEPA型 | ピクセルではなく意味表現(埋め込み)を予測。安定した予測が可能だが可視化しにくい | I-JEPA、V-JEPA、AMI構想 |
ワールドモデルの基本構造を理解するうえで、2018年にHa氏らが発表した「World Model」は重要な参照点である。人間の認知プロセス(目で見て、脳で予測し、体で動く)を模した3つのモデルで構成されている。
現代のワールドモデルではこの3要素を継承しつつ、「より高解像度で・より長く・より抽象的な意味を理解しながら」世界をシミュレートする構造へと拡張されている。
前述の3人はいずれも発言にとどまらず、自ら開発に乗り出している。リー氏はWorld Labs社で「Marble」を公開、ルカン氏はAMI Labs社で「LeWorldModel」を開発、ハサビス氏はGoogle DeepMind社で「Genie 3」と「Gemini Omni」を発表した。
| 企業 | ワールドモデルへの姿勢 |
|---|---|
| 最も積極的。Google I/O 2026でGenie 3・Gemini Omniをともにワールドモデル的な位置づけで発表。言語・視覚・空間・行動の統合を先行して推進。 | |
| OpenAI | Soraの技術報告で「汎用シミュレータ」を目標に掲げていたが、2026年時点でSoraの終了を発表。その後の戦略は不明。 |
| Anthropic | ワールドモデルより「信頼できる長時間エージェント」に重点。ワールドモデルへの具体的な取組は現時点では不明。 |
中国企業の取組は大きく二極化している。ファーウェイ・SenseTime・Horizon Robotics・シャオミなどは自動運転・ロボティクス向けの将来状態予測型ワールドモデルに注力している。テンセント・バイトダンス・アリババは3D/4D世界の生成・再構成を主眼に置いたアプローチを取っている。
さらに、清華大学の研究チームは「持続型ワールドモデル(Continual WM)」を提唱し、「EvoAgent」を発表した。新しい環境を学習しても古い知識を忘れない、継続的かつ自己進化型のモデルである。
↑ 目次に戻るワールドモデルの実用化が進むにつれ、幅広い分野での応用が期待されている。
ゲリラ豪雨・飛び出す歩行者などの希少な危険シナリオをシミュレートして学習。安全性向上と開発期間短縮を実現。
物理法則に基づく精密操作、現場レイアウト変更への適応、人とロボットの安全な協働を支える「空間知能」を提供。
ピクセル・3D空間の生成機能により制作工数を大幅削減。シーンを対話しながらリアルタイム編集が可能に。
一貫した舞台背景の自動生成、動画編集の効率化。時間軸にわたる空間的整合性の維持が強み。
実空間の画像から3D環境を構成し、室内・街区を「歩ける3D」で可視化。意思決定の質を向上。
治療前のシナリオ検証(医療)、科学現象の3Dアニメ化(教育)、災害シミュレーションによる防災訓練(公共)に活用。
ワールドモデルとLLMは別々の進化を遂げるのではなく、統合したスーパーモデルへと向かうと考えられる。Googleはすでに「Gemini Omni」と「Gemini Robotics」を通じて、言語・視覚・空間・行動の接続を先行実装している。
これまでの動画生成モデルの競争は映像品質が中心だったが、次の進化の方向性は「長期一貫性」と「行動空間の広さ」の追求になる。単なる映像ではなく、物理的に整合した世界をどこまでシミュレートできるかが評価軸になる。
ワールドモデルが実用化されると、ロボット・自動運転・スマートシティといった「フィジカルAI」分野が急速に発展すると予測される。AIが画面の外、物理世界で直接行動するフェーズへの移行である。
LLMで問題になったハルシネーション・ディープフェイク・権利侵害の問題は、ワールドモデルでも同様に発生しうる。さらに、ワールドモデルが物理世界と接続されれば、人間の身体や財産の安全性を直接脅かすリスクも高まる。仮想空間の誤認識が実機の事故につながる危険は、テキスト生成AIとは次元が異なる。ガバナンス枠組みの構築が必要である。
↑ 目次に戻るAIが人間を目指すなら、言葉だけでなく、物理世界の理解・因果・計画が必要である。マルチモーダル化が進み、3Dオブジェクト・動く物体・物体間の相互作用・時間軸の遷移へと拡張されていく中で、ワールドモデルはその中核を担う技術として位置づけられている。
LLMとワールドモデルが融合したスーパーモデルの実現は、そう遠い話ではないかもしれない。今のうちから「自分の仕事やビジネスのどこにワールドモデルを使えるか」を考え始めることが、次の競争優位につながるかもしれない。