LLM・次世代AI

ワールドモデル
――LLMの次に来るAIの「世界観」

2026年6月／読了目安：約14分

LLMはテキストの次のトークンを予測する。では、物理空間の「次の状態」を予測するモデルは？AI界の大御所3人が口をそろえて重要性を説く「ワールドモデル」は、LLMが苦手とする物理世界・空間・因果関係の理解を担う次世代技術である。自動運転からロボット、ゲーム、建築まで――その概念と実用化の現在地を整理する。

01ワールドモデルとは何か

定義と4つの要素

定義

ワールドモデルとは、「AIエージェントが自律的に意思決定を行い行動するために、自らを取り巻く環境を理解して予測するモデル」である。より厳密には、「環境を知覚して内部表現（状態）に変換し、状態の変化を予測（シミュレート）し、その結果を意思決定・行動に用いる仕組み」である。

ワールドモデルには4つの要素が含まれている。

①

知覚

②

予測と記憶

③

評価

④

意思決定と実行

LLMとの違い

これまでのLLMが主にテキストやコードの「次のトークン」を予測することで発達してきたのに対し、ワールドモデルは空間的な環境とその時間軸における変化（遷移）を予測する。

観点	LLM中心アプローチ	ワールドモデル中心アプローチ
主目的	言語・コード・対話	世界の状態遷移、行動結果、内部シミュレーション
学習データ	テキスト、コード、Web文書	動画、画像、3D、ロボット軌跡、センサ、行動ログ
予測単位	次トークン、ツール呼び出し	潜在状態、次観測、報酬、将来軌跡
強み	言語理解、抽象推論、汎用インターフェース	物理・空間一貫性、因果推論、計画
弱点	物理世界の理解、長い行動連鎖の確実性	長期一貫性、厳密物理、実世界精度

登場の背景

LLMはテキストトークンの発生確率を予測するモデルであり、高度な知性を模倣できることは証明されたが、「重力」「空間の広がり」「力の伝達」といった物理的現実を本質的には理解していない。ロボット制御や自動運転のような物理世界での応用では、しばしば論理矛盾や不整合（いわば「物理空間におけるハルシネーション」）を発生させる。

概念的な先駆けは古く、トールマン（Tolman）が1948年に「動物は環境の認知地図を形成する」という考えを示したことに遡る。1990年にはサットン（Sutton）が、学習した環境モデルを内部計画に使う「Dynaアーキテクチャ」を提案した。現代のワールドモデルに直接つながるのは2018年、ハ（Ha）氏らが初めてニューラルネットワークで概念を実装し、「現実環境に触れずに仮想世界だけでトレーニングしたエージェントが現実で機能する」ことを示した論文である。

↑ 目次に戻る

02AI界の大御所3人のメッセージ

ワールドモデルが昨年から急速に注目されるようになったのは、AI界を代表する3人がその重要性を相次いで説いたためである。

👩‍🔬

フェイフェイ・リー（Fei-Fei Li）氏

米スタンフォード大学教授／「AIのゴッドマザー」

「AIはテキストベースの学習の限界に近づいており、今後の進歩はワールドモデルにかかっている」

取組：スタートアップ「World Labs」を創設。2025年、初の商用ワールドモデル「Marble」を公開。1枚の画像・動画・テキストから空間的に破綻のない永続的な3D仮想世界を生成する。

🧠

ヤン・ルカン（Yann LeCun）氏

「ディープラーニングの父」／ Meta AI 元リサーチディレクター

「世界モデルを用いることで、一連の行動がもたらす結果を予測できるようになる」

取組：LLM中心路線に懐疑的な立場からJEPA（Joint-Embedding Predictive Architecture）方式を提案。Meta退社後、ワールドモデル特化スタートアップ「AMI Labs」を創設。「LeWorldModel」を開発中。

🏆

デミス・ハサビス（Demis Hassabis）氏

Google DeepMind CEO ／ 2024年ノーベル化学賞受賞

「AGI達成のためにまず、AIが物理と空間を直観的に理解するワールドモデルと、自動化された実験環境の2つを実現する必要がある」

取組：「Genie 3」（テキスト・画像からフォトリアルな3Dインタラクティブ世界を生成）、「Gemini Omni」（重力・流体力学などの物理法則を内部でシミュレート）を開発・発表。

↑ 目次に戻る

03ワールドモデルの実現技術と方式

必要な技術要素

ワールドモデルの実現には以下のような技術が必要となる。

要素技術	役割	代表例
表現学習	高次元観測を意味的・圧縮的な潜在表現へ変換	VAE、I-JEPA、V-JEPA 2
動画予測・遷移学習	潜在状態や観測の時間発展を予測	MDN-RNN、Dreamer、Sora、Genie
3D・空間知能	可探索・永続的な3D世界として表現	World Labs Marble、HY-World 2.0
物理・因果推論	重力、接触、運動、作用結果を扱う	Genie 2/3、Gemini Omni
強化学習・計画	仮想軌跡を使って行動を改善	DreamerV3、V-JEPA 2-AC
マルチモーダル統合	テキスト・画像・動画・行動・センサを一体化	Gemini Omni、HY-World 2.0

5つの実現方式

ワールドモデルの実現方式には、これらの技術要素を組み合わせた、さまざまなアプローチが考えられている。

方式	中核発想	代表例
強化学習型	潜在世界を学び、その中で方策を改善。データ効率が高いが領域が狭くなりやすい	World Models、DreamerV3
動画予測型	動画生成を拡張して行動可能な世界へ。表現力は高いが物理・長期一貫性が難しい	Sora、Genie、Wan2.1
3D型	可探索・永続な空間資産を生成。編集可能だが厳密物理は未成熟	Marble、HY-World 2.0
ロボティクス型	空間推論を行動・安全制御へ接続。現実タスクに近いが実機データ収集が重い	Gemini Robotics、Cosmos
JEPA型	ピクセルではなく意味表現（埋め込み）を予測。安定した予測が可能だが可視化しにくい	I-JEPA、V-JEPA、AMI構想

基本構造――V・M・Cの3モデル

ワールドモデルの基本構造を理解するうえで、2018年にHa氏らが発表した「World Model」は重要な参照点である。人間の認知プロセス（目で見て、脳で予測し、体で動く）を模した3つのモデルで構成されている。

Vision Model（V）：VAE（変分オートエンコーダ）――観測を圧縮した潜在表現に変換
Memory Model（M）：MDN-RNN――潜在状態の時系列を予測し記憶
Controller Model（C）：シンプルな単層NN――Vの観測とMの状態から行動を決定

現代のワールドモデルではこの3要素を継承しつつ、「より高解像度で・より長く・より抽象的な意味を理解しながら」世界をシミュレートする構造へと拡張されている。

現在の技術的課題：どの方式も共通して、①長期一貫性、②行動空間の狭さ、③物理・因果関係の厳密性、④実空間の忠実な再現、⑤複数エージェントの相互作用、⑥安全な現実接続、⑦データと計算コストなどに未解決の課題を抱えている。

↑ 目次に戻る

04主要プレイヤーの取組

大御所3人の取組（再掲）

前述の3人はいずれも発言にとどまらず、自ら開発に乗り出している。リー氏はWorld Labs社で「Marble」を公開、ルカン氏はAMI Labs社で「LeWorldModel」を開発、ハサビス氏はGoogle DeepMind社で「Genie 3」と「Gemini Omni」を発表した。

AI大手3社の温度差

企業	ワールドモデルへの姿勢
Google	最も積極的。Google I/O 2026でGenie 3・Gemini Omniをともにワールドモデル的な位置づけで発表。言語・視覚・空間・行動の統合を先行して推進。
OpenAI	Soraの技術報告で「汎用シミュレータ」を目標に掲げていたが、2026年時点でSoraの終了を発表。その後の戦略は不明。
Anthropic	ワールドモデルより「信頼できる長時間エージェント」に重点。ワールドモデルへの具体的な取組は現時点では不明。

中国勢の動向

中国企業の取組は大きく二極化している。ファーウェイ・SenseTime・Horizon Robotics・シャオミなどは自動運転・ロボティクス向けの将来状態予測型ワールドモデルに注力している。テンセント・バイトダンス・アリババは3D／4D世界の生成・再構成を主眼に置いたアプローチを取っている。

さらに、清華大学の研究チームは「持続型ワールドモデル（Continual WM）」を提唱し、「EvoAgent」を発表した。新しい環境を学習しても古い知識を忘れない、継続的かつ自己進化型のモデルである。

↑ 目次に戻る

05応用分野

ワールドモデルの実用化が進むにつれ、幅広い分野での応用が期待されている。

🚗 自動運転

ゲリラ豪雨・飛び出す歩行者などの希少な危険シナリオをシミュレートして学習。安全性向上と開発期間短縮を実現。

🦾 ロボット

物理法則に基づく精密操作、現場レイアウト変更への適応、人とロボットの安全な協働を支える「空間知能」を提供。

🎮 ゲーム

ピクセル・3D空間の生成機能により制作工数を大幅削減。シーンを対話しながらリアルタイム編集が可能に。

🎬 映画・映像

一貫した舞台背景の自動生成、動画編集の効率化。時間軸にわたる空間的整合性の維持が強み。

🏛️ 建築・都市設計

実空間の画像から3D環境を構成し、室内・街区を「歩ける3D」で可視化。意思決定の質を向上。

🏥 医療・教育・防災

治療前のシナリオ検証（医療）、科学現象の3Dアニメ化（教育）、災害シミュレーションによる防災訓練（公共）に活用。

↑ 目次に戻る

06今後の展望

LLMとワールドモデルの統合

ワールドモデルとLLMは別々の進化を遂げるのではなく、統合したスーパーモデルへと向かうと考えられる。Googleはすでに「Gemini Omni」と「Gemini Robotics」を通じて、言語・視覚・空間・行動の接続を先行実装している。

動画生成からシミュレータへ

これまでの動画生成モデルの競争は映像品質が中心だったが、次の進化の方向性は「長期一貫性」と「行動空間の広さ」の追求になる。単なる映像ではなく、物理的に整合した世界をどこまでシミュレートできるかが評価軸になる。

フィジカルAIの急成長

ワールドモデルが実用化されると、ロボット・自動運転・スマートシティといった「フィジカルAI」分野が急速に発展すると予測される。AIが画面の外、物理世界で直接行動するフェーズへの移行である。

ガバナンスの課題

LLMで問題になったハルシネーション・ディープフェイク・権利侵害の問題は、ワールドモデルでも同様に発生しうる。さらに、ワールドモデルが物理世界と接続されれば、人間の身体や財産の安全性を直接脅かすリスクも高まる。仮想空間の誤認識が実機の事故につながる危険は、テキスト生成AIとは次元が異なる。ガバナンス枠組みの構築が必要である。

↑ 目次に戻る

おわりに

AIが人間を目指すなら、言葉だけでなく、物理世界の理解・因果・計画が必要である。マルチモーダル化が進み、3Dオブジェクト・動く物体・物体間の相互作用・時間軸の遷移へと拡張されていく中で、ワールドモデルはその中核を担う技術として位置づけられている。

LLMとワールドモデルが融合したスーパーモデルの実現は、そう遠い話ではないかもしれない。今のうちから「自分の仕事やビジネスのどこにワールドモデルを使えるか」を考え始めることが、次の競争優位につながるかもしれない。

↑ 目次に戻る