1. 기본 구조(Backbone Architecture)의 진화

딥러닝 모델의 기본 구조는 CNN에서 시작하여 RNN, Transformer, Multimodal Fusion, Mixture-of-Experts(MoE) 방향으로 발전하고 있습니다. 이는 모델이 처리할 수 있는 데이터의 범위가 텍스트 중심에서 이미지·음성·영상·행동 데이터 등으로 확장되면서 자연스럽게 진화한 흐름입니다.

1-1. CNN (Convolutional Neural Network)

CNN은 이미지와 영상 처리에서 출발한 구조이며, 시각적 패턴을 추출하는 데 특화되어 있습니다. 얼굴 인식, 영상 분류, 객체 탐지 등에서 여전히 핵심 백본으로 사용되고 있으며 EfficientNet, ConvNeXt 등으로 발전하고 있습니다. Transformer 기반 구조가 강해지고 있지만, 경량 CNN은 온디바이스 AI(스마트폰, IoT, 웨어러블) 환경에서 다시 중요한 구조로 평가받고 있습니다.

1-2. RNN → LSTM → GRU 계열

RNN 계열은 순차적 데이터를 처리하는 데 특화되어 있으며 텍스트, 음성, 사용자 행동처럼 시간성을 갖는 데이터에서 유용하게 사용되고 있습니다. 다만 장기 의존성 문제 때문에 Transformer가 대부분의 NLP 영역을 대체하고 있습니다. 그럼에도 불구하고 경량 구조와 예측 지연이 짧다는 장점으로 인해 감정 분석, 음성 톤 분석, 사용자 행동 예측 등에서는 여전히 활용되고 있습니다.

1-3. Transformer (2017~현재)

Transformer는 Attention 메커니즘을 중심으로 구성된 구조로, GPT, Gemini, Claude, Llama 등 대부분의 최신 LLM이 Transformer 기반으로 개발되고 있습니다. 또한 Vision Transformer(ViT), Video Transformer 등을 통해 이미지와 영상 영역에도 확장되고 있습니다. 2025년 기준 Transformer는 Self-attention, Cross-attention, Multimodal Fusion을 결합한 구조로 진화하고 있으며, 대부분의 대규모 멀티모달 모델이 이 방향을 따르고 있습니다.

2. 최신 아키텍처 패턴: Multimodal과 Fusion 중심 구조

GPR과 같은 LMM은 단일 언어모델을 넘어서 다양한 modality를 통합하는 멀티모달 구조가 핵심 요소가 되고 있습니다.

2-1. Multimodal Fusion 모델 구조

멀티모달 모델은 텍스트, 이미지, 음성, 행동 로그 등 서로 다른 유형의 데이터를 결합하여 학습하고 있습니다.

Early Fusion

서로 다른 데이터를 하나의 embedding 공간에서 조기에 통합하는 방식입니다. 예를 들어 텍스트와 이미지를 동일한 latent space로 매핑하여 처리하는 구조가 있습니다.

Late Fusion

각 modality encoder를 독립적으로 학습한 뒤, Cross-attention 등을 통해 후기 단계에서 결합하는 방식입니다. 대표적으로 영상 모델과 텍스트 모델을 별도로 학습한 뒤 결합하는 형태가 있습니다.

Hybrid Fusion

최근 대부분의 멀티모달 모델에서 사용되는 방식으로 Cross-attention, Co-attention, Multi-head fusion layer 등을 조합하여 유연한 결합 구조를 사용하는 형태입니다.

대표 사례로 GPT-4o, Gemini 2.0, Meta ImageBind 등이 있으며, 이미지 한 장으로 텍스트, 음향, 비주얼, 공간 정보를 공동 embedding하는 방식이 활용되고 있습니다.

2-2. Retrieval-Augmented Generation (RAG)

RAG는 모델이 필요한 정보를 외부 데이터베이스에서 검색하여 가져오는 구조입니다. 파라미터 수를 늘리지 않고도 지식 확장이 가능하다는 장점이 있습니다. GPR과 LMM에서는 사용자 취향, 콘텐츠 이력, 상호작용 기록 등을 RAG 구조로 불러와 정적 프로필이 아닌 실시간 개인화를 가능하게 하고 있습니다.

3. 최신 모델링 기법: Mixture-of-Experts(MoE)

MoE는 2024~2025년 가장 중요한 아키텍처 변화 중 하나로 평가되고 있습니다.

MoE 구조는 하나의 거대한 모델을 여러 개의 전문가 신경망으로 나누고, 입력 상황에 따라 필요한 전문가만 선택적으로 활성화하여 계산하는 방식입니다. 이를 통해 성능을 유지하면서 비용과 메모리 사용량을 크게 절감할 수 있습니다. 특히 대규모 멀티모달 모델에서 효과적이며 Google GLaM, Gemini, OpenAI 비공개 모델, Mixtral 8x7B, Amazon Nova 등이 대표 모델로 알려져 있습니다.

4. 학습 방식(Training Paradigms)의 발전

4-1. Pretraining(사전학습)

대규모 데이터로 일반 패턴을 학습하는 단계이며, 현재는 Self-supervised learning 방식이 기본이 되고 있습니다. 대표 예로 Masked Language Modeling, Next Token Prediction, Contrastive Learning(CLIP)이 있습니다.

4-2. Fine-tuning(미세 조정)

특정 작업(TTS, 감정 분석, 추천 등)에 맞추어 소규모 데이터를 활용해 모델을 재학습하는 단계입니다. 최근에는 LoRA, QLoRA, PEFT 등 계산량을 줄인 미세 조정 방식이 주로 사용되고 있습니다.

4-3. RLHF(Human Feedback 기반 강화학습)

GPT 계열 모델을 고품질로 만드는 핵심 요소로 사용자의 선호를 기반으로 모델을 강화학습하는 방식입니다. 자연스러운 심리적 반응과 안정성을 확보하는 데 매우 중요한 단계이며, GPR처럼 사용자 감정과 취향을 이해하는 모델에서는 특히 필수적입니다.

4-4. DPO / ORPO / RLAIF(AI Feedback)

AI가 AI를 평가하는 방식으로 인간 피드백을 줄이고 학습 효율을 크게 높이고 있습니다. 다중 심리 반응을 학습하는 데 효과적이며 RLHF의 대안으로 활용되고 있습니다.

5. 현재 가장 중요한 딥러닝 구조 트렌드 7가지

  1. Unified Multimodal Transformer(UMT)
    텍스트, 이미지, 음성, 비디오를 하나의 Transformer 구조에서 처리하고 있습니다. GPT-4o와 Gemini Ultra 2.0이 대표적입니다.
  2. Memory-Augmented Neural Networks
    모델 내부에 장기 메모리를 포함하여 지속적 사용자 맥락을 반영하고 있습니다. GPR의 마인드마이닝 기능에 적합한 구조입니다.
  3. On-device LLMs + Hybrid Cloud
    개인정보 민감성 때문에 일부 프로파일링은 단말기에서 수행하고, 대규모 생성은 클라우드에서 수행하는 방식이 확산되고 있습니다. Apple Intelligence가 대표 사례입니다.
  4. Continual Learning / Lifelong Learning
    사용자 데이터가 지속적으로 축적되며 모델이 매일 개인을 더 깊게 이해하는 방향으로 업데이트되고 있습니다.
  5. Emotional Modeling Network
    감정을 추론하고 이에 적합하게 대응하는 구조가 부상하고 있으며 콜센터, 소셜 서비스, 헬스케어 분야에서 중요하게 활용되고 있습니다.
  6. Video Diffusion Transformer
    디퓨전 모델이 영상 생성의 표준으로 자리 잡고 있으며 ACT의 숏폼 생성 및 변환과 직접적으로 연결되어 있습니다.
  7. Graph Neural Networks(GNN)
    관계 및 취향 그래프를 학습해 개인 취향, 그룹 취향, 콘텐츠 관계를 모델링하는 데 활용되고 있습니다.

2025년 딥러닝 아키텍처는 멀티모달, MoE, 개인화 메모리, 감정 모델링, 온디바이스 하이브리드 방향으로 발전하고 있습니다.

6. Addeep에 적합한 구조 제안

Mixture-of-Experts(MoE) 기반 LMM

MoE 구조는 여러 전문가를 구성해 모델이 상황에 맞는 전문가만 선택하여 계산함으로써 효율을 높이고 있습니다. 감정, 패션, 추천, 콘텐츠 생성 등 다양한 전문가 유닛을 구성하여 응답 품질을 향상시킬 수 있으며, 모델 확장이 쉬워 Addeep의 콘텐츠 다양성에 적합한 구조입니다.

RLHF 기반 강화학습

RLHF는 AI 모델이 인간의 피드백을 통해 행동을 직접 학습하는 기법이며, 고품질 LLM에서 핵심적인 역할을 담당하고 있습니다. 사용자 선호를 기반으로 맞춤형 응답을 생성하고, 자연스러운 감정적 흐름과 안전성을 확보하는 데 중요합니다.

DPO / ORPO / RLAIF 기반 AI Feedback

AI가 AI를 평가하는 방식으로 인간 피드백을 줄이고 학습 속도를 크게 향상시키는 방식입니다. 다중 심리 반응을 학습하는 데 유리하며, 사용자 맞춤형 감정 및 취향 모델을 고도화하는 데 적합한 방향입니다.

Leave a comment

ADDEEP

애딥(Addeep)은 차세대 증강 AI 엔진 ‘GPR(Generative Pre-trained Recommender)’을 중심으로, 사람의 마음을 읽고 콘텐츠를 자동으로 만드는 Web3 기반 S2E(Social to Earn) 소셜 플랫폼입니다.

사용자의 의도와 관심사를 이해하고, 콘텐츠·광고·커머스를 자동으로 결합하여 개인 맞춤형 스마트 콘텐츠를 생성합니다.

이 블로그에서는

  • 애딥의 핵심 기술(GPR·LMM·ACT) 인사이트
  • ZαLPHA세대 트렌드와 크리에이터 문화 연구
  • 스마트 콘텐츠 및 S2E 생태계 분석
  • 애딥 서비스 업데이트 및 운영 스토리
    를 가장 빠르게 전달합니다.


사람과 사람,
그리고 가치가 연결되는 새로운 소셜 시대.
그 중심에 애딥이 있습니다.