애딥의 개인화 AI는 단순히 하나의 모델이 아닙니다.
사용자의 장기 성향, 지금 이 순간의 마음, 그리고 콘텐츠·커머스 맥락을 각각 담당하는 세 가지 RSSM(Recurrent State Space Model)이 동시에 돌아가는 구조입니다.
이 세 가지를 묶어주는 심장이 바로 Addeep Mindset Engine입니다.
이 글에서는
- Addeep Mindset Engine의 전체 아키텍처,
- 세 가지 RSSM이 맡고 있는 역할과 연결 구조를 중심으로 설명합니다.
1. Addeep Mindset Engine 개요
Mindset Engine은 간단히 말해 “사용자의 숨겨진 마음 상태 z_t를 시간에 따라 추적하는 뇌”입니다.
이 엔진은 세 단계로 구성됩니다.
- Dual-Timescale Encoders
- Latent RSSM Core
- GPR 서비스 출력 헤드
이 구조를 통해 애딥은 장기 성향과 단기 행동을 동시에 반영하면서도, 과도한 단기 편향이나 파멸적 망각 없이 안정적으로 마인드셋을 추론합니다.
2. Step 1 – Dual-Timescale Encoders: 두 개의 시간축으로 이해하는 사용자
2-1. Long-term Path: SSM으로 장기 성향을 압축하는 구조
Long-term Path는 SSM(State Space Model, 예: Mamba, S4 계열)을 사용해 수개월~수년간의 로그를 처리하는 인코더입니다.
여기에는 시청 이력, 선호 카테고리, 친구·팔로우 그래프와 같은 장기 패턴이 포함됩니다.
- Neo4j, RocksDB 등에서 불러온 장기 로그를 기반으로 “이 사용자는 원래 어떤 사람인가”에 대한 벡터 표현을 만듭니다.
- 이렇게 얻은 결과를 장기 상태 S_long, 또는 z_long으로 정의하고, Session RSSM의 초기값과 강한 prior로 사용합니다.
- 장기 시퀀스 길이가 수천~수만 스텝이 되기 때문에, 계산 복잡도가 선형인 SSM 계열 모델을 사용하는 것이 핵심입니다.
이 경로는 “기본 성격, 가치관, 가격 민감도, 선호 도메인” 같은 정보를 잡아내는 느린 뇌입니다.
2-2. Short-term Path: Transformer로 단기 의도를 포착하는 구조
Short-term Path는 Transformer를 사용하여 최근 5~30분 내의 클릭, 뷰, 스크롤, 검색 같은 세션 로그를 보는 인코더입니다.
- Redis, Kafka 등에서 들어오는 세션 이벤트를 시퀀스로 받아 순간적인 관심사와 의도를 인코딩합니다.
- 텍스트·이미지·영상·시간·디바이스 등의 멀티모달·컨텍스트 신호도 함께 인코딩하여 세션 단위의 h_short를 생성합니다.
이 경로는 “지금 당장 무엇을 하고 싶은가”를 빠르게 포착하는 민감한 안테나 역할을 합니다.
2-3. 왜 굳이 두 개로 나누는가 – Catastrophic Forgetting과 Short-term Bias 문제
사용자 데이터를 하나의 모델에 억지로 다 집어넣으면 두 가지 문제가 발생하기 쉽습니다.
- Catastrophic Forgetting 문제입니다.
새로운 단기 데이터에 맞추기 위해 모델이 학습되다 보면, 과거에 배운 중요한 장기 패턴이 파괴되는 현상이 발생하기 쉽습니다.
예를 들어, 겨울마다 패딩을 사던 사용자를 여름 데이터만 보고 학습하면, 겨울이 다시 왔을 때 패딩 선호를 완전히 잊어버리는 상황이 발생하기 쉽습니다. - Short-term Bias 문제입니다.
최근 몇 분의 행동에만 과도하게 반응해, 오랜 기간 쌓인 진짜 취향을 무시하는 문제입니다.
예를 들어, 스릴러 영화만 보던 사용자가 우연히 유아용 영상을 한 번 클릭했다고 해서, 다음 날 홈 화면이 전부 유아용 콘텐츠로 채워지는 상황입니다.
애딥은 이 문제를 해결하기 위해 SSM(Long-term Path)와 Transformer(Short-term Path)를 물리적으로 분리하고, 이후 단계에서 Gated Fusion으로 두 정보를 통합하는 구조를 채택합니다.
이로써 “오래 쌓인 성향도 존중하면서, 지금 기분도 반영하는” 균형 잡힌 개인화를 구현합니다.
3. Step 2 – Latent RSSM Core: 베이지안 방식으로 마인드셋 z_t를 추론하는 구조
Dual-Timescale Encoder에서 나온 장기 상태와 단기 상태는 Latent RSSM Core로 들어와 최종 마인드셋 z_t로 정리됩니다.
3-1. Prior vs Posterior: 예측과 보정으로 마음을 업데이트하는 구조
RSSM은 시간축을 따라 움직이는 베이지안 추론 엔진입니다.
- Prior Network는 이전 상태 z_{t-1}을 보고 “지금쯤은 이럴 것이다”라는 예측 분포를 만듭니다.
- Posterior Network는 실제 관측된 행동 x_t와 융합 게이트의 출력을 보고 예측을 얼마나 수정할지 결정합니다.
- 그 결과가 현재 마인드셋 z_t입니다.
이 과정은 사람이 상대방의 속마음을 추측하듯이,
“어제는 우울해 보였으니 오늘도 잔잔한 콘텐츠를 찾겠지”라고 예상했다가,
실제 행동을 보고 “생각보다 신나는 음악을 찾고 있구나, 기분 전환 상태구나”라고 수정하는 것과 같습니다.
3-2. Gated Fusion Unit: 장기와 단기의 비중을 상황에 따라 조절하는 구조
Gated Fusion Unit은 S_long과 S_session을 받아 0~1 사이의 게이트 값 g를 계산합니다.
- g가 클수록 단기 상태의 비중을 크게 두고,
- g가 작을수록 장기 상태의 비중을 크게 둡니다.
수식으로는 다음과 같은 형태로 표현할 수 있습니다.
- g = σ(W · [h_long, h_short])
- z_fused = g * h_short + (1 – g) * h_long
이렇게 만들어진 z_fused가 RSSM의 인풋이 되어, 최종 z_t 추론에 활용됩니다.
이 유닛 덕분에 애딥은 특정 상황에서 단기 행동이 매우 의미 있을 때는 단기를, 그렇지 않을 때는 장기를 더 신뢰하는 유연한 결정을 할 수 있습니다.
3-3. Variational Inference와 VAE 구조: z_t를 확률 분포로 다루는 이유
Mindset Engine에서 z_t는 단순한 고정 벡터가 아니라 확률 분포를 통해 정의되는 잠재 상태입니다.
- RSSM은 평균 μ와 분산 σ를 출력하고,
- 그 분포에서 샘플링하여 z_t 벡터를 얻습니다.
이 방식은 다음과 같은 이유로 중요합니다.
- 사용자의 마음 상태는 본질적으로 불확실하기 때문에, 분포 형태로 표현하는 것이 자연스럽습니다.
- Posterior Collapse를 방지하고, 모델이 z_t를 의미 있는 정보로 계속 활용하도록 유도합니다.
- z_t에서 여러 번 샘플링함으로써, 동일한 상황에서도 조금씩 다른 ACT 조건이나 추천을 생성하는 다양성을 확보할 수 있습니다.
결국 Latent RSSM Core는 베이지안 원리를 따르는 VAE 기반 시퀀스 모델로,
장기·단기 인코더에서 온 정보를 바탕으로 시간에 따라 갱신되는 마인드셋 z_t 시퀀스를 만들어냅니다.
4. Step 3 – GPR 서비스 출력: Policy, Prediction, Value 헤드
마지막 단계에서는 확정된 마인드셋 z_t를 바탕으로 GPR 서비스에서 실제로 사용할 출력을 생성합니다.
4-1. Policy Head: 액션과 ACT Condition Pack 생성
Policy Head는 z_t를 입력으로 받아 다음과 같은 정보를 생성합니다.
- 어떤 타입의 콘텐츠를 우선 노출할지에 대한 정책입니다.
- 쇼핑, 오락, 학습 등 목적별 확률 분포입니다.
- ACT 엔진이 사용할 Style Vector, Intent Distribution, Safety Flag 등으로 구성된 Condition Pack입니다.
이를 위해 z_t에서 여러 개의 Fully Connected Layer를 뻗어,
각각 스타일, 의도, 타겟, 제약 조건 등 서로 다른 파라미터를 출력하도록 설계합니다.
이 과정은 “복잡한 마인드셋 벡터를 사람이 이해할 수 있는 서비스 파라미터 공간으로 투영하는 단계”입니다.
4-2. Prediction Head: 다음 행동 예측과 Self-supervised 학습
Prediction Head는 z_t를 이용해 다음 클릭, 다음 시청, 다음 탐색 행동 등을 예측합니다.
- 실제 행동과 예측을 비교하면서, 모델이 스스로 내부 표현을 정교하게 다듬을 수 있도록 돕습니다.
- 이 과정은 레이블이 없어도 가능한 Self-supervised 학습 전략의 핵심입니다.
4-3. Value Head: 보상 기대값 추정
Value Head는 특정 정책과 상태에서 기대되는 체류 시간, 클릭률, 구매 확률, GMV 등의 보상 값을 추정합니다.
- 이 값은 강화학습 기반 정책 최적화나, A/B 테스트 자동화, 캠페인 운영 의사결정에 활용됩니다.
5. 세 가지 RSSM 구조: 역할 분담과 연결 방식
Mindset Engine의 내부 구조를 이해했다면, 이제 애딥이 실제로 운영하려는 세 가지 RSSM 축을 함께 볼 필요가 있습니다.
5-1. Long-horizon Preference RSSM: 장기 성향을 요약하는 느린 뇌
Long-horizon Preference RSSM은 “수개월~수년 단위로 변하는 장기 취향과 성향*을 담당합니다.
- 장기 로그, 관계 그래프, 관심사 그래프를 입력으로 받아 z_long을 추출합니다.
- 이 z_long은
- Session RSSM의 초기 상태(z₀^{sess}, h₀^{sess})로 제공되고,
- 세션 도중에도 prior 신호로 주입되어 단기 편향을 완화하는 역할을 합니다.
- 이 RSSM은 실시간으로 파라미터를 업데이트하지 않고, 주기적인 오프라인 배치 학습으로 천천히 갱신됩니다.
5-2. Session-level Mindset RSSM: 지금 이 순간의 마음 상태를 추적하는 실시간 뇌
Session-level Mindset RSSM은 앞서 설명한 Mindset Engine 구조를 그대로 사용합니다.
- 최근 5~30분의 세션 로그를 기반으로 지금 이 순간의 마인드셋 z_t_session을 추론합니다.
- GPR 추천, 피드 재배열, ACT Condition Pack 생성 등 실시간 정책 결정에 직접 투입됩니다.
- 온라인에서는 h_t, z_t 같은 상태만 업데이트하고, 가중치는 오프라인에서만 학습하는 구조입니다.
Long-horizon RSSM과 Session-level RSSM은 함께 “장기 성향이 세션 뇌를 시작시키고, 세션 뇌가 현재 마음을 실시간으로 추적하는” 2단 구조를 이룹니다.
5-3. ACT / Commerce Control RSSM: 콘텐츠·광고·커머스를 인과적으로 분리하는 뇌
세 번째 축인 ACT / Commerce Control RSSM은 콘텐츠, 광고, 커머스가 결합된 상황에서의 인과 구조를 모델링하는 도메인 특화 RSSM입니다.
- ACT Condition Pack 로그, 상품 정보, 창작자·브랜드 정보, CTR·CVR·구매 등의 피드백을 모두 받아 z_comm 상태를 갱신합니다.
- 이 상태를 다시 z_content와 z_match로 분해하여 인과적으로 분리하는 것이 핵심입니다.
- z_content는 콘텐츠·편집 자체의 매력도입니다.
- z_match는 특정 유저 mind-state와 특정 콘텐츠·상품의 궁합입니다.
- 학습 시에는 같은 콘텐츠에 유저만 바뀌었을 때는 z_match만 변하게, 같은 유저에 콘텐츠만 바뀌었을 때는 z_content만 변하게 학습시켜 디센탱글링을 유도합니다.
이를 통해 애딥은 “우리가 편집을 잘해서 성과가 난 것인지, 타게팅을 잘해서 성과가 난 것인지”를 구분할 수 있으며,
ACT 최적화가 사용자 취향을 왜곡하지 않고 패키징·스타일·편집 효율을 끌어올리는 방향으로 진행되도록 만들 수 있습니다.
6. 세 축의 연결: 하나의 거대한 Mindset–Commerce 하이브리드 엔진
정리하면 애딥의 RSSM 구조는 다음과 같이 연결됩니다.
- Long-horizon RSSM은 Session RSSM에 시작점과 기저 성향을 제공합니다.
- Session-level RSSM은 현재 세션의 마인드셋 z_t를 계산하여 실시간 추천과 정책에 사용합니다.
- ACT / Commerce RSSM은 이 마인드셋과 캠페인·상품·크리에이티브 정보를 결합해 콘텐츠·광고·커머스의 인과 구조를 학습하고 최적화합니다.
이 세 가지가 합쳐져 “사용자의 마음 상태를 실시간으로 추론하면서, 콘텐츠·커머스·ACT 전체 흐름을 동시에 최적화하는 하나의 거대한 하이브리드 엔진”이 완성됩니다.
애딥은 이 Mindset Engine과 세 가지 RSSM 축을 통해 다른 플랫폼이 시도하지 못한 수준의 정교한 개인화와 공정한 보상 구조를 동시에 구현하는 S2E 소셜 미디어 생태계를 만들어가고자 합니다.

Leave a comment