Roblox Hybrid Architecture(ハイブリッドアーキテクチャ)の発表

Roblox Hybrid Architecture(ハイブリッドアーキテクチャ)の発表

~ フォトリアリスティックなマルチプレイヤーゲームを民主化する ~

著者: Anupam Singh(上級副社長 エンジニアリング担当)
公開日: 2026年4月29日

本日、私たちは内部プロジェクト「Roblox Reality」に関する技術的な洞察を共有します。このプロジェクトは、ハイパースケールなマルチプレイヤーゲームフォトリアリズム(極めて現実的なビジュアル)を融合させるものです。

私たちは、これが没入型マルチプレイヤー世界の作成と体験方法における根本的なシフトになると考えています。

Roblox Reality は、今年後半または来年初頭に初期バージョンとして提供される予定です。これは、Robloxの分散型ゲームエンジンの構造化されたシミュレーションと、エッジベースのVideo World Models(ビデオ世界モデル)を組み合わせたハイブリッドアーキテクチャです。

このアーキテクチャにより、規模の大小を問わずクリエイターが、従来の持続性と構造を維持しつつ、前例のない視覚的忠実度と動きを備えたインタラクティブな世界を、開発コストを増大させることなく構築・維持できるようになります。

Roblox Realityとは

Roblox Reality は、Roblox CloudおよびGame Engineの機能と、Video World Modelsのフォトリアリズムを融合させたハイブリッドアーキテクチャです。

(記事にはデモ動画の説明があり、現在Robloxレンダリングエンジンで撮影した映像、3Dデータ、実験室でのアップサンプルモデル、将来ビジョンのモックアップが比較されています。)

Video World Modelsの強みと制約

Video World Modelsは、個々のインタラクションをすべて明示的にシミュレートすることなく、説得力のある高次元な挙動を生成することに優れています。

しかし、ビデオの潜在空間内で動作させる場合、いくつかの技術的制約があります: - 現在はコストが高く、2K解像度・60Hzのような高忠実度・リアルタイム性能の実現は依然として課題です。 - 世界状態がビデオ空間で表現されるため、現時点ではマルチプレイヤーに対応していません。 - 視覚的な説得力とシミュレーションの忠実度の間でトレードオフが発生します。動画で500人が動いているように見えても、それは個別の「脳を持つアバター」であるとは限りません。 - 2時間にわたる複数のプレイヤー間のインタラクションを、Video World Modelだけで確実に管理することは困難です。 - 厳密なルール適用、持続的な状態管理、ユーザー入力の制御、真のマルチプレイヤーエージェントシミュレーションに弱いため、現在のモデルは「導かれた夢」のようなものに近いと言えます。

インタラクティブなビデオモデルは印象的ですが、本質的には「鮮やかな夢」です。見た目は素晴らしいものの、インタラクティビティ、挑戦、報酬、持続性が欠けており、「ゲーム」として成立させる要素が不足しています。

純粋なニューラル世界モデルだけでは、広大で持続的なマルチプレイヤー体験を実現することはできません。

Game Enginesの強みと制約

Roblox CloudとEngineは、Video World Modelsと非常に相補的な関係にあります。
再現可能な精度、セッションをまたいだ一貫した状態、時間を通じた持続性に優れています。

例えば、クリエイターが「F1モナコグランプリ」のゲームを作る場合、正確なスコアリング・ペナルティシステム、道路、群衆、自然環境、そして複数ドライバー間の即時同期をモデル化する必要があります。しかし、この精度には実装コストと実行時のコストが伴います。視覚的忠実度を高めようとすると、重いアセット、複雑なライティング、シミュレーションが必要になります。

今後10年で、高級ゲームエンジンのリアリズムはさらに進化しますが、同時に開発者の高度なスキルと消費者のハードウェア要件も上昇していきます。

業界がこれまで解決できなかった課題は、「ハイパーリアリズムを大規模に提供しつつ、大小さまざまな開発者と一般的な消費者向けハードウェアで利用可能にする」ことです。

Roblox Reality ハイブリッドアーキテクチャ

私たちは、高忠実度のマルチプレイヤーインタラクションフォトリアリスティックな出力を両立させるために、ハイブリッドアプローチが必要だと考えています。それが「Roblox Reality」です。

このアーキテクチャでは、責任を以下のように分離します:

Game Engineが「データモデル(共有され一貫した状態)」を維持し、Video World Modelが「ピクセル(視覚的な夢)」を生成するという役割分担です。