World Model과 RSSM의 등장

World Model이란 무엇인가

월드 모델은 단순히 데이터를 학습하는 모델이 아닙니다.

월드 모델의 핵심 목적은 세계가 어떻게 움직이고 변화하는지를 내부적으로 표현하는 것입니다. 기존의 많은 AI 모델은 입력과 출력 사이의 관계를 학습합니다. 어떤 입력이 주어졌을 때 어떤 결과가 나올 확률이 높은지를 계산하는 방식입니다. 이 접근은 관측된 패턴을 재현하는 데에는 효과적이지만, 세계가 시간에 따라 어떻게 변화하는지를 설명하지는 못합니다. 모델은 과거 데이터를 참고할 수는 있지만, 세계의 내부 상태를 가정하지는 않습니다.

월드 모델은 이 지점에서 출발점이 다릅니다. 먼저 관측 뒤에 존재하는 상태(state)를 가정합니다. 그리고 이 상태가 시간에 따라 어떻게 변화하는지를 모델의 중심에 둡니다. 이 구조에서는 다음과 같은 관계가 형성됩니다.

관측은 상태의 결과
상태는 다음 상태의 원인

즉, 예측이 아니라 상태 전이(state transition)가 모델의 기본 단위가 됩니다.

이 사고 방식의 중요한 특징은 세계를 고정된 데이터의 집합으로 보지 않는다는 점입니다. 세계는 항상 변화하고 있으며, 현재는 과거의 결과이자 미래의 원인이 됩니다. 월드 모델은 이 연속적인 변화를 내부적으로 유지하려는 구조입니다.

여기서 중요한 점은 월드 모델이 현실을 완벽하게 복제하려 하지 않는다는 것입니다. 월드 모델의 목표는 정확한 복제가 아니라 의사결정에 충분한 수준의 근사된 세계를 만드는 것입니다. 모든 세부 사항을 맞히는 것이 아니라 변화의 방향과 가능성을 이해하는 것이 핵심입니다.

또한 월드 모델을 가진 시스템은 실제 행동을 하지 않고도 행동의 결과를 내부적으로 계산할 수 있습니다.이는 AI를 단순히 경험을 소비하는 시스템에서 경험을 상상할 수 있는 시스템으로 변화시킵니다.

World Model의 개념

월드 모델이라는 개념은 2018년 데이비드 하(David Ha)와 위르겐 슈미트후버(Jürgen Schmidhuber)의 연구에서 명확하게 제시되었습니다. 이 연구의 핵심 문제의식은 매우 단순합니다. 현실 세계에서 직접 시행착오를 반복하며 학습하는 것은 비용이 크고 위험할 수 있다는 것입니다.

예를 들어 로봇이 실제 환경에서 계속 실패를 반복하며 학습해야 한다면 다음과 같은 문제가 발생합니다.

학습 속도가 매우 느려진다.
실패 비용이 현실 세계에서 발생한다.
위험한 행동을 반복할 수 있다.

따라서 행동을 실제로 수행하기 전에 그 결과를 내부에서 시험해볼 수 있는 구조가 필요했습니다. 월드 모델은 바로 이 문제를 해결하기 위해 등장했습니다. 핵심 아이디어는 세계의 작동 방식을 내부 표현으로 학습하는 것입니다. 이 내부 표현은 단순한 데이터 저장소가 아니라 다음과 같은 요소를 포함하는 구조입니다.

상태(state)
상태 전이(transition)
관측(observation)

현재 상태가 주어졌을 때 특정 행동이 어떤 다음 상태를 만들고, 그 상태에서 어떤 관측이 나타나는지를 계산할 수 있다면, 그 모델은 내부에 하나의 세계를 가지고 있다고 볼 수 있습니다.

여기서 중요한 점은 완벽한 예측이 목표가 아니라는 것입니다. 월드 모델은 현실을 단순화합니다. 행동의 결과를 판단하는 데 필요한 구조만 남기고 불필요한 세부 사항은 제거합니다. 이러한 접근은 기존의 지도 학습이나 단순한 시퀀스 예측과 근본적으로 다릅니다.

지도 학습은 입력과 출력의 대응 관계를 학습
시퀀스 예측은 다음 값을 맞히는 데 집중
월드 모델은 상태와 전이 규칙을 학습

즉, 월드 모델은 다음에 무엇이 일어날지를 맞히는 것이 아니라, 다음에 무엇이 가능해질지를 이해하는 모델입니다.

“실험하지 않고 실험하는” 구조

월드 모델의 가장 중요한 특징은 실제 행동을 실행하지 않고도 결과를 시험할 수 있다는 것입니다. 현실 세계에서 직접 시행착오를 반복하지 않습니다. 대신 모델 내부에 구축된 가상의 세계에서 수많은 실험을 수행합니다.

기존의 데이터 기반 AI는 과거에 발생했던 행동과 결과를 학습합니다. 따라서 어떤 행동의 결과를 알기 위해서는 실제로 그 행동을 수행해야 합니다.

즉, 실패의 비용은 항상 현실에서 발생합니다. 월드 모델은 이 구조를 바꿉니다.

월드 모델은 세계의 전이 규칙을 학습한 뒤 현재 상태에서 특정 행동을 했을 때 다음 상태가 어떻게 변할지를 내부적으로 생성합니다. 이 구조는 흔히 “실험하지 않고 실험하는 구조”라고 불립니다.

월드 모델 내부에서는 수십 개에서 수천 개의 행동 시나리오가 동시에 시뮬레이션될 수 있습니다. 각 시나리오는 서로 다른 행동을 가정하고 미래 상태를 계산합니다. 이때 중요한 점은 이 과정이 단순한 예측이 아니라 상태 전이를 포함한 시뮬레이션을 수행합니다. 즉 하나의 행동은 다음 상태를 만들고, 그 상태는 다시 다음 선택의 조건이 됩니다. 연쇄 계산을 통해 시스템은 단기 반응이 아니라 장기 결과를 고려한 선택을 할 수 있습니다.

시뮬레이션이 필요한 이유

현실 세계는 되돌릴 수 없습니다. 한 번 실행된 행동은 취소할 수 없으며, 그 결과는 이후의 상태에 누적됩니다. 특히 인간을 상대하는 시스템에서는 이러한 누적 효과가 매우 크게 나타납니다.

예를 들어 다음과 같은 상황을 생각해볼 수 있습니다.

잘못된 추천이 반복되면 사용자의 신뢰가 감소한다.
과도한 콘텐츠 노출은 피로도를 증가시킨다.
부적절한 생성 콘텐츠는 관계를 악화시킬 수 있다.

이러한 변화는 단발성 사건이 아니라 시간에 따라 축적되는 상태 변화입니다. 현실에서 모든 전략을 직접 시험해 보는 것은 매우 비효율적입니다.

시간과 자원이 소모됨
사용자 경험이 손상될 수 있음
실패 비용이 외부에서 발생함

시뮬레이션은 이러한 문제를 해결하기 위한 방법입니다. 시뮬레이션은 행동을 실행하기 전에 그 결과를 내부에서 계산하는 과정입니다. 현재 상태에서 특정 선택을 했을 때 이후 상태가 어떤 방향으로 이동할지를 미리 평가합니다. 이 구조를 통해 시스템은 단기 반응이 아니라 미래 가능성을 기준으로 판단할 수 있습니다.

결국 시뮬레이션의 목적은 더 똑똑해지는 것이 아닙니다.

더 책임 있는 선택을 하기 위해서입니다.

물리 세계의 월드 모델 vs 인간 마음의 월드 모델

월드 모델은 처음에는 물리 세계를 다루는 문제에서 등장했습니다. 로봇 제어, 게임 환경, 자율주행과 같은 영역에서는 세계가 비교적 명확한 규칙을 따릅니다. 힘이 가해지면 움직이고, 동일한 조건에서는 유사한 결과가 반복됩니다. 이러한 세계에서는 상태와 전이 규칙을 비교적 정확하게 모델링할 수 있습니다.

그러나 인간의 마음을 다루는 문제는 완전히 다릅니다. 인간의 마음은 다음과 같은 특성을 가집니다.

동일한 자극이 항상 같은 반응을 만들지 않음
감정과 신뢰는 직접 관측하기 어려움
상태 변화는 매우 비선형적임

따라서 인간 마음의 월드 모델은 정확한 재현보다 방향성의 이해가 중요합니다.

예를 들어 다음과 같은 질문이 중요합니다.

어떤 경험이 사용자의 신뢰를 높이는가
어떤 상호작용이 피로를 누적시키는가
어떤 콘텐츠가 관계를 강화하는가

물리 세계의 월드 모델이 정확성을 중심으로 한다면, 인간 마음의 월드 모델은 변화의 구조와 경향성을 이해하는 것을 목표로 합니다.

또한 인간 마음의 상태는 직접 관측되지 않습니다. 상태는 행동과 반응을 통해 간접적으로 추정됩니다. 이 때문에 인간 마음을 다루는 월드 모델은 관측과 상태를 분리하는 구조를 필수적으로 요구합니다.

결국 두 종류의 월드 모델은 같은 개념에서 출발하지만 전혀 다른 설계 철학을 요구합니다.

물리 세계의 월드 모델 → 정확성과 안정성 중심
인간 마음의 월드 모델 → 불확실성과 변화 중심

이 차이를 이해하지 못하면 인간을 다루는 문제에 물리적 사고를 그대로 적용하게 되고, 그 결과는 반복적인 실패로 이어집니다.

인간 마음의 월드 모델은 세계를 통제하기 위한 도구가 아니라 관계를 유지하기 위한 도구입니다. 그리고 이러한 관점의 전환이 이후 등장하게 되는 순환 상태 공간 모델(Recurrent State Space Model, RSSM)과 애딥의 마인드셋 엔진(Mindset Engine) 설계를 결정하게 됩니다.