안녕하세요. 오늘은 추천 시스템의 패러다임을 바꾸고 있는 Addeep의 차세대 아키텍처, World Model 기반 강화학습(RL) 시스템에 대해 심층적으로 다루어보고자 합니다.
기존의 추천 시스템이 ‘지금 당장의 클릭’에 집중했다면, Addeep은 ‘사용자의 장기적인 만족과 생애 가치(LTV)’ 를 설계하는 지능형 에이전트로 진화하고 있습니다. 그 핵심 원리와 구조를 정리해 드립니다.
1. Addeep 강화학습의 3단계 구조: 결정부터 보정까지
Addeep 아키텍처 내에서 강화학습은 단순한 기능이 아닌, 의사결정의 전 과정에 깊숙이 관여하고 있습니다. 크게 세 가지 레이어로 분업화되어 작동합니다.
① 행동 결정 (RL Policy Layer)
실제로 사용자에게 무엇을, 어떤 순서로 보여줄지 결정하는 최전선의 의사결정자입니다.
- 역할: 사용자 상태(M_t)를 바탕으로 최적의 슬레이트(추천 목록)와 렌더 모드를 선택합니다.
- 목표: 단순 클릭률(CTR)을 넘어 장기 기대 보상(LTV, Retention)을 최대화하고 피로도 패널티를 최소화합니다.
- 알고리즘: 오프라인 데이터에서 안전하게 학습하기 위한 CQL과 여러 콘텐츠 조합을 최적화하는 SlateQ 등을 활용합니다.
② 품질 평가 및 튜닝 (AI Feedback Layer)
사람의 개입 없이 AI가 AI를 가르치며 모델을 더 똑똑하게 만드는 자동화 루프입니다.
- 기술: AI 평가자가 채점하는 RLAIF, 선호 데이터를 직접 최적화하는 DPO, 그리고 이미지 생성 시 부자연스러운 결과를 억제하는 ORPO 등을 통해 모델의 파라미터를 실시간으로 업데이트합니다.
③ 내부 보정 (LMM Stage 5)
LMM이 사용자의 마인드셋을 추론할 때, 단기적 이득에 치우치지 않도록 균형을 잡는 최후의 보루입니다.
- 효과: 클릭 유도성(Clickbait) 콘텐츠를 걸러내고, 장기 만족도와 정책 최적화 사이의 균형을 맞추어 건강한 콘텐츠 소비를 유도합니다.
2. 왜 지금 ‘월드 모델(World Model)’인가?
과거 10년의 추천 시스템은 지도 학습(Supervised Learning) 기반의 근시안적 최적화에 머물러 있었습니다.
지도 학습의 한계: “사탕만 주면 건강을 해친다”
기존 모델(DIN, DIEN 등)은 “이걸 클릭할 확률”을 맞추는 데는 탁월하지만, 이는 마치 아이에게 사탕만 계속 주는 것과 같습니다. 당장은 좋아 보이지만, 결국 필터 버블(Filter Bubble)과 유저 피로를 유발하여 장기적인 생애 가치(LTV)를 깎아먹게 됩니다.
강화학습의 난관과 월드 모델의 등장
이 문제를 해결하기 위해 강화학습이 등장했으나, 실서비스에서 무작위 탐험(Exploration)을 하는 것은 매출 하락의 위험이 큽니다. 그래서 등장한 것이 바로 월드 모델(World Model)입니다. 실제 유저에게 실험하는 대신, 과거 데이터를 통해 학습된 ‘사용자 시뮬레이터’ 안에서 수만 번의 상상 훈련을 거치는 것입니다.
3. 핵심 엔진: RSSM (Recurrent State-Space Model)
Addeep 월드 모델의 기술적 뼈대는 구글 딥마인드의 Dreamer 시리즈로 유명해진 RSSM입니다.
RSSM의 구조
RSSM은 사용자의 상태를 두 가지로 나누어 관리합니다.
- 결정론적 상태 (h_t, GRU): 지금까지의 모든 행동 이력을 요약한 ‘단단한 기억’입니다.
- 확률론적 상태 (z_t, VAE): 유저의 알 수 없는 잠재 의도와 미래의 불확실성을 담은 ‘유연한 상상’입니다.
4. 편향 극복과 LTV 최적화 전략
오프라인 데이터(과거 로그)만으로 학습할 때 발생하는 고질적인 문제들을 Addeep은 다음과 같이 해결합니다.
DORL (Debiased Offline RL)과 반사실적 탐험
“만약 과거에 인기 아이템 대신 비주류 아이템을 보여줬다면 어땠을까?”라는 반사실적 탐험(Counterfactual Exploration)을 가상 환경에서 수행합니다. 이를 통해 데이터에 없는 행동에 대해서도 AI가 정교한 판단을 내릴 수 있게 됩니다.
매태오 효과(Matthew Effect) 완화
인기 아이템만 계속 추천되는 ‘부익부 빈익빈’ 현상을 막기 위해 엔트로피 기반 페널티를 도입합니다. 너무 뻔한 선택에는 점수를 깎고, 불확실하지만 다양한 선택에는 보상을 주어 롱테일 아이템들이 빛을 볼 수 있는 건강한 생태계를 만듭니다.
5. 결론: 지능형 에이전트로의 진화
Addeep이 지향하는 미래는 명확합니다. 단순한 아이템 매칭 시스템을 넘어, 사용자와 상호작용하며 장기적인 행복을 설계하는 지능형 에이전트가 되는 것입니다.
복잡하고 무거운 특화 모델의 시대는 가고, 통합되고 단순화된 생성형 월드 모델의 시대가 오고 있습니다. Addeep은 이러한 기술적 변곡점에서 RSSM과 강화학습을 통해 서비스의 지속 가능한 성장을 실현해 나갈 것입니다.

Leave a comment