ワールドモデル
――LLMの次に来るAIの「世界観」

LLMはテキストの次のトークンを予測する。では、物理空間の「次の状態」を予測するモデルは?AI界の大御所3人が口をそろえて重要性を説く「ワールドモデル」は、LLMが苦手とする物理世界・空間・因果関係の理解を担う次世代技術である。自動運転からロボット、ゲーム、建築まで――その概念と実用化の現在地を整理する。

01ワールドモデルとは何か

定義と4つの要素

定 義

ワールドモデルとは、「AIエージェントが自律的に意思決定を行い行動するために、自らを取り巻く環境を理解して予測するモデル」である。より厳密には、「環境を知覚して内部表現(状態)に変換し、状態の変化を予測(シミュレート)し、その結果を意思決定・行動に用いる仕組み」である。

ワールドモデルには4つの要素が含まれている。

知覚
予測と記憶
評価
意思決定と実行

LLMとの違い

これまでのLLMが主にテキストやコードの「次のトークン」を予測することで発達してきたのに対し、ワールドモデルは空間的な環境とその時間軸における変化(遷移)を予測する。

観点 LLM中心アプローチ ワールドモデル中心アプローチ
主目的 言語・コード・対話 世界の状態遷移、行動結果、内部シミュレーション
学習データ テキスト、コード、Web文書 動画、画像、3D、ロボット軌跡、センサ、行動ログ
予測単位 次トークン、ツール呼び出し 潜在状態、次観測、報酬、将来軌跡
強み 言語理解、抽象推論、汎用インターフェース 物理・空間一貫性、因果推論、計画
弱点 物理世界の理解、長い行動連鎖の確実性 長期一貫性、厳密物理、実世界精度

登場の背景

LLMはテキストトークンの発生確率を予測するモデルであり、高度な知性を模倣できることは証明されたが、「重力」「空間の広がり」「力の伝達」といった物理的現実を本質的には理解していない。ロボット制御や自動運転のような物理世界での応用では、しばしば論理矛盾や不整合(いわば「物理空間におけるハルシネーション」)を発生させる。

概念的な先駆けは古く、トールマン(Tolman)が1948年に「動物は環境の認知地図を形成する」という考えを示したことに遡る。1990年にはサットン(Sutton)が、学習した環境モデルを内部計画に使う「Dynaアーキテクチャ」を提案した。現代のワールドモデルに直接つながるのは2018年、ハ(Ha)氏らが初めてニューラルネットワークで概念を実装し、「現実環境に触れずに仮想世界だけでトレーニングしたエージェントが現実で機能する」ことを示した論文である。

↑ 目次に戻る

02AI界の大御所3人のメッセージ

ワールドモデルが昨年から急速に注目されるようになったのは、AI界を代表する3人がその重要性を相次いで説いたためである。

👩‍🔬
フェイフェイ・リー(Fei-Fei Li)氏
米スタンフォード大学教授 / 「AIのゴッドマザー」
取組:スタートアップ「World Labs」を創設。2025年、初の商用ワールドモデル「Marble」を公開。1枚の画像・動画・テキストから空間的に破綻のない永続的な3D仮想世界を生成する。
🧠
ヤン・ルカン(Yann LeCun)氏
「ディープラーニングの父」/ Meta AI 元リサーチディレクター
取組:LLM中心路線に懐疑的な立場からJEPA(Joint-Embedding Predictive Architecture)方式を提案。Meta退社後、ワールドモデル特化スタートアップ「AMI Labs」を創設。「LeWorldModel」を開発中。
🏆
デミス・ハサビス(Demis Hassabis)氏
Google DeepMind CEO / 2024年ノーベル化学賞受賞
取組:Genie 3」(テキスト・画像からフォトリアルな3Dインタラクティブ世界を生成)、「Gemini Omni」(重力・流体力学などの物理法則を内部でシミュレート)を開発・発表。
↑ 目次に戻る

03ワールドモデルの実現技術と方式

必要な技術要素

ワールドモデルの実現には以下のような技術が必要となる。

要素技術役割代表例
表現学習高次元観測を意味的・圧縮的な潜在表現へ変換VAE、I-JEPA、V-JEPA 2
動画予測・遷移学習潜在状態や観測の時間発展を予測MDN-RNN、Dreamer、Sora、Genie
3D・空間知能可探索・永続的な3D世界として表現World Labs Marble、HY-World 2.0
物理・因果推論重力、接触、運動、作用結果を扱うGenie 2/3、Gemini Omni
強化学習・計画仮想軌跡を使って行動を改善DreamerV3、V-JEPA 2-AC
マルチモーダル統合テキスト・画像・動画・行動・センサを一体化Gemini Omni、HY-World 2.0

5つの実現方式

ワールドモデルの実現方式には、これらの技術要素を組み合わせた、さまざまなアプローチが考えられている。

方式中核発想代表例
強化学習型 潜在世界を学び、その中で方策を改善。データ効率が高いが領域が狭くなりやすい World Models、DreamerV3
動画予測型 動画生成を拡張して行動可能な世界へ。表現力は高いが物理・長期一貫性が難しい Sora、Genie、Wan2.1
3D型 可探索・永続な空間資産を生成。編集可能だが厳密物理は未成熟 Marble、HY-World 2.0
ロボティクス型 空間推論を行動・安全制御へ接続。現実タスクに近いが実機データ収集が重い Gemini Robotics、Cosmos
JEPA型 ピクセルではなく意味表現(埋め込み)を予測。安定した予測が可能だが可視化しにくい I-JEPA、V-JEPA、AMI構想

基本構造――V・M・Cの3モデル

ワールドモデルの基本構造を理解するうえで、2018年にHa氏らが発表した「World Model」は重要な参照点である。人間の認知プロセス(目で見て、脳で予測し、体で動く)を模した3つのモデルで構成されている。

Vision Model(V):VAE(変分オートエンコーダ)――観測を圧縮した潜在表現に変換
Memory Model(M):MDN-RNN――潜在状態の時系列を予測し記憶
Controller Model(C):シンプルな単層NN――Vの観測とMの状態から行動を決定

現代のワールドモデルではこの3要素を継承しつつ、「より高解像度で・より長く・より抽象的な意味を理解しながら」世界をシミュレートする構造へと拡張されている。

現在の技術的課題:どの方式も共通して、①長期一貫性、②行動空間の狭さ、③物理・因果関係の厳密性、④実空間の忠実な再現、⑤複数エージェントの相互作用、⑥安全な現実接続、⑦データと計算コストなどに未解決の課題を抱えている。
↑ 目次に戻る

04主要プレイヤーの取組

大御所3人の取組(再掲)

前述の3人はいずれも発言にとどまらず、自ら開発に乗り出している。リー氏はWorld Labs社で「Marble」を公開、ルカン氏はAMI Labs社で「LeWorldModel」を開発、ハサビス氏はGoogle DeepMind社で「Genie 3」と「Gemini Omni」を発表した。

AI大手3社の温度差

企業ワールドモデルへの姿勢
Google 最も積極的。Google I/O 2026でGenie 3・Gemini Omniをともにワールドモデル的な位置づけで発表。言語・視覚・空間・行動の統合を先行して推進。
OpenAI Soraの技術報告で「汎用シミュレータ」を目標に掲げていたが、2026年時点でSoraの終了を発表。その後の戦略は不明。
Anthropic ワールドモデルより「信頼できる長時間エージェント」に重点。ワールドモデルへの具体的な取組は現時点では不明。

中国勢の動向

中国企業の取組は大きく二極化している。ファーウェイ・SenseTime・Horizon Robotics・シャオミなどは自動運転・ロボティクス向けの将来状態予測型ワールドモデルに注力している。テンセント・バイトダンス・アリババは3D/4D世界の生成・再構成を主眼に置いたアプローチを取っている。

さらに、清華大学の研究チームは「持続型ワールドモデル(Continual WM)」を提唱し、「EvoAgent」を発表した。新しい環境を学習しても古い知識を忘れない、継続的かつ自己進化型のモデルである。

↑ 目次に戻る

05応用分野

ワールドモデルの実用化が進むにつれ、幅広い分野での応用が期待されている。

🚗 自動運転

ゲリラ豪雨・飛び出す歩行者などの希少な危険シナリオをシミュレートして学習。安全性向上と開発期間短縮を実現。

🦾 ロボット

物理法則に基づく精密操作、現場レイアウト変更への適応、人とロボットの安全な協働を支える「空間知能」を提供。

🎮 ゲーム

ピクセル・3D空間の生成機能により制作工数を大幅削減。シーンを対話しながらリアルタイム編集が可能に。

🎬 映画・映像

一貫した舞台背景の自動生成、動画編集の効率化。時間軸にわたる空間的整合性の維持が強み。

🏛️ 建築・都市設計

実空間の画像から3D環境を構成し、室内・街区を「歩ける3D」で可視化。意思決定の質を向上。

🏥 医療・教育・防災

治療前のシナリオ検証(医療)、科学現象の3Dアニメ化(教育)、災害シミュレーションによる防災訓練(公共)に活用。

↑ 目次に戻る

06今後の展望

LLMとワールドモデルの統合

ワールドモデルとLLMは別々の進化を遂げるのではなく、統合したスーパーモデルへと向かうと考えられる。Googleはすでに「Gemini Omni」と「Gemini Robotics」を通じて、言語・視覚・空間・行動の接続を先行実装している。

動画生成からシミュレータへ

これまでの動画生成モデルの競争は映像品質が中心だったが、次の進化の方向性は「長期一貫性」と「行動空間の広さ」の追求になる。単なる映像ではなく、物理的に整合した世界をどこまでシミュレートできるかが評価軸になる。

フィジカルAIの急成長

ワールドモデルが実用化されると、ロボット・自動運転・スマートシティといった「フィジカルAI」分野が急速に発展すると予測される。AIが画面の外、物理世界で直接行動するフェーズへの移行である。

ガバナンスの課題

LLMで問題になったハルシネーション・ディープフェイク・権利侵害の問題は、ワールドモデルでも同様に発生しうる。さらに、ワールドモデルが物理世界と接続されれば、人間の身体や財産の安全性を直接脅かすリスクも高まる。仮想空間の誤認識が実機の事故につながる危険は、テキスト生成AIとは次元が異なる。ガバナンス枠組みの構築が必要である。

↑ 目次に戻る

おわりに

AIが人間を目指すなら、言葉だけでなく、物理世界の理解・因果・計画が必要である。マルチモーダル化が進み、3Dオブジェクト・動く物体・物体間の相互作用・時間軸の遷移へと拡張されていく中で、ワールドモデルはその中核を担う技術として位置づけられている。

LLMとワールドモデルが融合したスーパーモデルの実現は、そう遠い話ではないかもしれない。今のうちから「自分の仕事やビジネスのどこにワールドモデルを使えるか」を考え始めることが、次の競争優位につながるかもしれない。


↑ 目次に戻る