Mindset Engine: 인간의 마음을 구조로 만들다

행동을 읽는 AI를 넘어, 상태를 이해하는 AI로

지금까지의 많은 인공지능 시스템은 인간을 행동의 집합으로 이해해 왔습니다. 무엇을 클릭했는지, 얼마나 머물렀는지, 어떤 콘텐츠를 선택했는지와 같은 관측 가능한 반응을 중심으로 사용자를 해석해 온 것입니다. 이러한 방식은 단기 반응을 예측하는 데에는 유효하지만, 인간을 실제로 이해하는 데에는 분명한 한계가 있습니다.

사람은 클릭 하나로 설명되는 존재가 아닙니다. 같은 행동이라도 전혀 다른 마음 상태에서 나타날 수 있고, 반대로 비슷한 마음 상태라도 외부로 드러나는 행동은 다르게 나타날 수 있습니다. 결국 중요한 것은 표면적인 반응이 아니라, 그 반응을 만들어낸 내부 상태입니다.

이 지점에서 등장하는 개념이 바로 마인드셋 엔진(Mindset Engine)입니다. 마인드셋 엔진은 사용자의 행동을 단순히 기록하고 분류하는 구조가 아니라, 행동과 맥락, 시간의 흐름을 바탕으로 사용자의 현재 상태를 추론하고, 그 상태가 앞으로 어떻게 변화할지를 다루는 구조입니다. 다시 말해, 반응을 읽는 시스템이 아니라 상태를 이해하는 시스템입니다.

애딥의 마인드셋 엔진은 이러한 문제를 해결하기 위해 유저 마인드 맵(User Mind Map, UMM), 대규모 마인드 마이닝 모델(Large Mind-mining Model, LMM), 순환 상태 공간 모델(Recurrent State Space Model, RSSM), 그리고 월드 모델(World Model)을 하나의 유기적인 구조로 연결합니다. 이 구조의 목적은 단순히 “다음 행동을 맞히는 것”이 아닙니다. 지금 이 사용자가 어떤 상태에 있는지, 그 상태가 어떤 경험의 누적에서 만들어졌는지, 그리고 앞으로 어떤 변화가 가능할지를 내부적으로 구조화하는 것입니다.

UMM: 사용자 자아의 수학적 표상과 상태 관리

마인드셋 엔진에서 가장 먼저 중요한 것은 사용자의 상태를 어디에, 어떤 형태로 저장할 것인가입니다. 상태를 추론할 수 있다 하더라도 그것이 일회성 계산으로 끝난다면, 시스템은 사용자를 지속적으로 이해할 수 없습니다. 이전의 경험이 다음 해석에 영향을 주고, 과거의 누적이 현재 상태를 규정하려면, 그 흐름을 담아둘 구조가 필요합니다.

이 역할을 수행하는 것이 바로 유저 마인드 맵(User Mind Map, UMM)입니다.

UMM은 단순한 사용자 프로필 저장소가 아닙니다. 이름, 성별, 연령, 관심 카테고리처럼 정적인 정보를 쌓아두는 테이블도 아닙니다. UMM은 사용자의 상태, 성향, 관계, 경험의 흔적을 시간 축 위에서 구조화하여 저장하는 장기 메모리 계층입니다. 다시 말해 사용자를 하나의 고정된 속성 집합으로 저장하는 것이 아니라, 변화하는 존재로서의 자아를 기록하는 지도에 가깝습니다.

이 구조가 중요한 이유는 인간의 마음이 항상 누적적이기 때문입니다. 지금의 반응은 지금 이 순간의 자극만으로 만들어지지 않습니다. 이전 세션의 경험, 장기적으로 형성된 선호, 반복되어 온 관계 패턴, 최근의 감정 변화가 함께 영향을 미칩니다. UMM은 이러한 요소들을 개별 데이터 포인트가 아니라 연결된 상태 구조로 저장합니다.

이때 UMM은 단순한 로그 저장소와 다릅니다. 로그는 무엇이 일어났는지를 기록하지만, UMM은 그것이 사용자 상태에 어떤 의미를 남겼는지를 구조화합니다. 예를 들어 반복적으로 특정 종류의 콘텐츠에 반응했다는 사실은 단순한 이벤트 집합으로 남지 않고, 관심의 강화, 피로의 누적, 특정 맥락에 대한 민감도 변화와 같은 상태 정보로 연결됩니다.

즉, UMM은 “사용자가 무엇을 했는가”를 저장하는 것이 아니라, “그 행동들이 어떤 사람의 상태를 만들어 가고 있는가”를 저장하는 구조입니다. 이 때문에 UMM은 마인드셋 엔진의 기억 장치이자, 다음 추론의 출발점이 됩니다.

LMM: 행동에서 의도를 추출하는 추론 엔진

UMM이 기억의 구조라면, LMM은 그 기억과 현재의 관측을 해석하는 두뇌입니다.

대규모 마인드 마이닝 모델(Large Mind-mining Model, LMM)은 기존의 대규모 언어 모델(Large Language Model, LLM)처럼 텍스트 생성 중심으로 설계된 모델이 아닙니다. LMM의 핵심 목적은 사용자의 행동, 이미지 반응, 콘텐츠 소비 이력, 관계 패턴, 시간 맥락 등 다양한 입력을 바탕으로 사용자의 내적 상태를 추론하는 것입니다.

중요한 점은 LMM이 단순히 관심사를 분류하는 데 머물지 않는다는 것입니다. LMM은 현재 사용자가 무엇을 좋아하는가를 넘어서, 지금 왜 이 행동을 하고 있는지, 어떤 의도와 정서가 그 뒤에 있는지를 해석하려고 합니다.

예를 들어 동일하게 쇼핑 콘텐츠를 본다고 하더라도 그 의미는 다를 수 있습니다. 어떤 경우에는 실제 구매 의도가 강한 상황일 수 있고, 어떤 경우에는 단순한 구경일 수 있으며, 또 어떤 경우에는 스트레스 해소나 감정 전환의 맥락일 수 있습니다. 표면 행동만 보면 모두 비슷해 보이지만, 내부 상태는 전혀 다릅니다. LMM은 바로 이 차이를 포착하려는 구조입니다.

이러한 점에서 LMM은 “무엇을 했는가”를 해석하는 모델이 아니라, “왜 그런 행동이 나타났는가”를 추론하는 모델이라고 볼 수 있습니다. 그리고 그 결과는 단순한 분류 라벨이 아니라, 의도(Intent), 정서(Affect), 관심(Interest), 전반적 마인드셋(Mindset)과 같은 고차원 상태 표현으로 정리됩니다.

결국 LMM의 역할은 행동의 표면을 의미의 층위로 끌어올리는 것입니다. 사용자 행동은 관측일 뿐이고, LMM은 그 관측 뒤에 있는 심리적 구조를 해석합니다. 이때 해석 결과는 다시 UMM에 반영되어 장기 기억의 일부가 되고, 이후의 상태 추론에 다시 활용됩니다. 즉 LMM은 독립적인 추론 모듈이 아니라, 기억과 상태 구조를 끊임없이 순환시키는 엔진입니다.

RSSM: 마인드셋 엔진의 심장

마인드셋 엔진의 중심에는 순환 상태 공간 모델(Recurrent State Space Model, RSSM)이 있습니다. 만약 UMM이 기억을 저장하고, LMM이 그 의미를 해석한다면, RSSM은 시간에 따라 상태를 실제로 유지하고 갱신하는 핵심 구조입니다.

RSSM이 중요한 이유는 인간의 상태가 직접 관측되지 않기 때문입니다. 우리는 사용자의 기분, 의도, 피로, 몰입, 기대를 직접 측정할 수 없습니다. 대신 클릭, 스크롤, 체류 시간, 반응 패턴과 같은 관측 가능한 행동만 볼 수 있습니다. RSSM은 이 불완전한 관측으로부터 보이지 않는 상태를 추론합니다.

이 구조는 크게 두 가지 상태를 함께 유지합니다. 하나는 결정론적 상태(deterministic state)이고, 다른 하나는 확률적 잠재 상태(stochastic latent state)입니다.

결정론적 상태는 시간의 연속성과 문맥의 흐름을 유지합니다. 쉽게 말하면, 이전까지 무엇이 누적되어 왔는지를 기억하는 축입니다. 반면 확률적 잠재 상태는 관측할 수 없는 불확실성과 다양한 가능성을 담습니다. 즉, 지금 사용자가 어떤 상태일지 하나로 단정하기 어려운 부분을 확률적으로 표현하는 축입니다.

이 두 상태를 함께 유지하는 이유는 인간의 마음이 연속성과 불확실성을 동시에 가지기 때문입니다. 사람은 과거의 연속 위에 존재하지만, 동시에 항상 단정할 수 없는 변동성과 모호성을 함께 가집니다. RSSM은 바로 이 두 성질을 동시에 다루는 구조입니다.

애딥의 마인드셋 엔진에서는 RSSM이 단일 층으로 끝나지 않고, 장기 마인드셋 RSSM, 세션 기반 마인드셋 RSSM, 컨텍스트·의사결정 RSSM으로 이어지는 다단 구조로 설계됩니다. 이는 시간 해상도가 다르기 때문입니다. 장기적으로 형성된 성향과 지금 세션에서의 즉각적인 분위기, 그리고 특정 의사결정 직전의 컨텍스트는 모두 다른 시간 스케일을 갖습니다. 이들을 하나의 상태로 뭉개면 인간의 실제 변화를 제대로 다룰 수 없습니다.

월드 모델: AI 내부의 가상 시뮬레이터

RSSM이 현재 상태를 추정하고 갱신하는 구조라면, 월드 모델(World Model)은 그 상태가 앞으로 어떻게 변할지를 내부적으로 시뮬레이션하는 구조입니다.

이 지점에서 마인드셋 엔진은 단순한 해석 시스템을 넘어섭니다. 지금 사용자가 어떤 상태인지를 이해하는 것만으로는 충분하지 않기 때문입니다. 중요한 것은 이 상태에서 어떤 선택을 했을 때 이후에 어떤 변화가 일어날지를 미리 가늠하는 것입니다.

예를 들어 지금 이 사용자에게 어떤 콘텐츠를 보여줄 것인가, 어떤 광고를 노출할 것인가, 어떤 생성 결과를 제안할 것인가는 단기 반응의 문제가 아닙니다. 그 선택은 이후의 신뢰, 피로, 몰입, 관계 유지에 모두 영향을 줄 수 있습니다. 따라서 현재 상태를 아는 것만큼 중요한 것이 미래의 상태 전이를 내부적으로 상상하는 능력입니다.

월드 모델은 이 역할을 수행합니다. 현재 상태를 출발점으로 두고, 여러 가능한 선택이 어떤 다음 상태를 만들지 내부적으로 계산해 보는 것입니다. 실제로 모든 선택을 사용자에게 시험해 볼 수는 없기 때문에, 시스템 내부에 가상의 실험실이 필요합니다. 월드 모델은 바로 그 실험실입니다.

이 구조는 현실을 실험의 장으로 쓰지 않게 해 줍니다. 잘못된 선택이 사용자 경험을 훼손하기 전에, 내부 공간에서 먼저 시뮬레이션할 수 있게 해 주기 때문입니다. 특히 인간의 마음을 다루는 시스템에서는 이 점이 매우 중요합니다. 사람은 잘못된 실험을 반복해서 감내하는 대상이 아니기 때문입니다.

결국 월드 모델은 예측을 잘하기 위한 장치가 아니라, 더 신중하고 더 책임 있는 의사결정을 가능하게 하는 구조입니다. 마인드셋 엔진이 단순한 반응형 시스템을 넘어서기 위해 반드시 필요한 이유도 여기에 있습니다.

Mindset Engine 전체 흐름

이제 마인드셋 엔진의 전체 흐름을 하나로 묶어보면 구조는 비교적 분명해집니다.

먼저 사용자의 행동, 반응, 관계, 맥락 데이터가 입력됩니다. 이 데이터는 단순한 로그로 처리되지 않고, 현재 상태를 추론하기 위한 관측 신호로 해석됩니다. RSSM은 이 관측을 바탕으로 사용자의 현재 상태를 갱신합니다. 이 과정에서 장기 상태, 세션 상태, 컨텍스트 상태가 각기 다른 층위에서 함께 작동합니다.

그 다음 LMM이 이 상태와 멀티모달 입력을 바탕으로 사용자의 의도, 정서, 관심, 전반적 마인드셋을 고수준에서 해석합니다. 이 해석 결과는 다시 UMM에 저장되어, 사용자의 자아 구조와 상태 이력의 일부로 축적됩니다. 즉, 한 번의 추론이 일회성 결과로 끝나지 않고, 다음 추론의 문맥이 됩니다.

이후 월드 모델은 현재 상태를 기반으로 가능한 선택들의 미래 결과를 내부적으로 시뮬레이션합니다. 어떤 선택이 장기적으로 더 바람직한 상태 전이를 만들지, 어떤 선택이 위험하거나 피로를 누적시킬 가능성이 있는지를 가늠합니다.

이 흐름을 거쳐 최종적으로 시스템은 단순히 클릭 가능성이 높은 출력을 내놓는 것이 아니라, 사용자의 상태와 맥락에 더 잘 맞는 선택을 수행하게 됩니다.

즉, 마인드셋 엔진의 전체 흐름은 다음과 같이 요약할 수 있습니다.

관측 수집 → 상태 추론 → 의미 해석 → 기억 구조화 → 미래 시뮬레이션 → 의사결정

이 구조의 핵심은 어느 하나의 모델이 전부를 해결하지 않는다는 점입니다. 기억은 UMM이 담당하고, 해석은 LMM이 수행하며, 상태 갱신은 RSSM이 맡고, 미래 상상은 월드 모델이 담당합니다. 마인드셋 엔진은 이 네 축이 연결되면서 비로소 완성됩니다.

마인드셋 엔진이 의미하는 것

결국 마인드셋 엔진은 인간의 마음을 완벽하게 복제하겠다는 선언이 아닙니다. 오히려 인간의 마음이 직접 보이지 않고, 항상 변화하며, 불확실성을 가진다는 사실을 인정하는 데서 출발한 구조입니다.

기존의 많은 시스템은 인간을 행동 로그로 환원했고, 그 결과 단기 반응은 잘 맞혔지만 장기적 관계와 상태 변화는 다루지 못했습니다. 마인드셋 엔진은 이 한계를 넘어, 인간을 상태를 가진 존재로 다시 정의합니다.

이 관점이 중요한 이유는 추천, 생성, 광고, 커머스가 더 이상 분리된 문제가 아니기 때문입니다. 이 모든 것은 결국 사람의 상태를 어떻게 이해하고, 그 상태에 어떤 선택을 할 것인가의 문제로 연결됩니다. 따라서 마인드셋 엔진은 특정 기능을 위한 부가 모듈이 아니라, 인간 중심 AI 시스템의 핵심 인프라라고 볼 수 있습니다.

AI는 이제 사람의 반응만 계산하는 수준을 넘어, 사람의 상태를 이해하고 그 변화의 흐름을 다루는 방향으로 가야 한다는 것입니다. 그리고 애딥의 마인드셋 엔진은 바로 그 전환을 구조로 구현한 시도입니다.