Transformer vs SSM(State Space Model / 상태공간모델) 비교 분석

계산 복잡도, 속도, 길이 한계, 대표 모델, 하이브리드 구조, 산업 적용, 애딥(addeep) 관점 전략까지 모두 정리한 2025 버전 기술 리뷰

본 문서는 2025년을 기준으로 Transformer와 SSM(State Space Model) 계열 모델을 계산 복잡도, 속도, GPU 비용 구조, 대표 연구, 하이브리드 아키텍처, 멀티모달 적용, 산업 도입 속도 등 다양한 관점에서 비교한 내용을 정리하고 있습니다. 또한 S4, Hyena, Mamba 계열 모델의 구조적 특성과 발전 과정, IBM과 AI21 Labs의 상용 하이브리드 모델 사례, 비전과 멀티모달에서의 SSM 확장, 게놈·신호·시계열 등 특수 도메인 적용 사례까지 모두 포함하고 있으며, 마지막으로 애딥(addeep)의 GPR·UMM·LMM·PEACE 로봇 구조에 SSM을 어떻게 활용할 수 있는지에 대한 제안과 연구 테마도 함께 담고 있습니다.


1. 트랜스포머 vs SSM: 계산 복잡도 및 실제 성능 구조
1-1. 계산 복잡도 정리

Transformer는 self-attention 구조 때문에 시퀀스 길이가 T일 때 연산량과 메모리 요구량이 O(T²)로 증가하고 있습니다. 길이가 10배 증가하면 비용이 거의 100배 증가하는 특성이 유지되고 있으며, 이로 인해 긴 시퀀스를 다루는 데 구조적 한계를 가지고 있습니다.

SSM(State Space Model) 계열은 내부 상태를 고정적으로 유지한 채 입력을 시간에 따라 순차적으로 흘려보내고 있습니다. 효율적으로 구현할 경우 시퀀스 길이에 대해 O(T) 또는 준선형 복잡도를 달성하고 있으며, S4 및 후속 SSM 연구는 이 선형·준선형 특성을 성능적으로 실현했다고 보고하고 있습니다. 이러한 계산 구조는 시퀀스 길이가 증가할수록 Transformer와 SSM 사이의 비용 격차를 크게 벌어지게 하고 있습니다.

1-2. 짧은 시퀀스에서 Transformer가 더 빠른가에 대한 벤치마크

2025년 발표된 SSM vs Transformer vs Hybrid 비교 논문에 따르면 다음과 같은 특징이 보고되고 있습니다.

짧은 시퀀스(수천 토큰)에서는 Transformer가 약 1.8배 높은 처리량을 보이는 경우가 있습니다. 이는 Transformer 중심으로 구축된 하드웨어·소프트웨어 최적화 환경 때문입니다. FlashAttention과 같은 고성능 커널, Transformer에 맞춘 프레임워크 최적화 등이 수년간 누적되어 있기 때문입니다.

매우 긴 시퀀스(수만~수십만 토큰)에서는 SSM 계열 모델이 Transformer보다 최대 약 4배 빠른 처리량을 기록하고 있습니다. 또한 24GB 소비자 GPU에서 약 220K 토큰까지 처리 가능했다는 보고가 있습니다. 이는 유사한 모델 크기의 Transformer에 비해 약 4배 더 긴 시퀀스를 처리할 수 있음을 의미하고 있습니다.

정리하면, 짧은 길이 영역에서는 Transformer가 여전히 빠르고 익숙하지만, 긴 시퀀스 영역에서는 SSM이 명확하게 우위를 보이고 있습니다.

1-3. 비용(메모리와 GPU 자원) 측면

SSM 벤치마크는 긴 시퀀스 영역에서 Transformer 대비 약 4배 더 긴 문맥을 동일한 GPU 메모리 내에서 처리할 수 있다고 보고하고 있습니다. Mamba의 원 논문 또한 긴 시퀀스에서 5배 이상의 처리량 향상과 선형 스케일링을 강조하고 있습니다.

따라서 일반적 4K~8K 컨텍스트 기반의 LLM 업무에서는 Transformer가 최적일 수 있지만, 50K~200K 이상의 초장기 시퀀스를 상시 처리하는 구조에서는 SSM·Mamba 계열이 속도와 비용에서 실질적인 이점을 가지고 있습니다.


2. SSM의 본질: 연속 신호 처리 관점이 왜 중요한가

2-1. 연속 시간 상태공간 모델의 직관적 이해

연속 시간 SSM은 다음과 같이 정의되고 있습니다.

x’(t) = A x(t) + B u(t)
y(t) = C x(t) + D u(t)

상태 x(t)는 그 시점까지의 입력 이력을 압축한 형태로 저장하고 있습니다. 입력 u(t)를 시간 순서대로 흘려보내면서 상태가 업데이트되고 있으며, 출력 y(t)는 현재 상태와 입력을 기반으로 결과를 생성하고 있습니다.

Transformer가 모든 토큰을 서로 비교하는 구조라면, SSM은 음악이나 파형을 필터에 통과시키며 처리하는 방식에 가깝습니다. 즉, 시퀀스를 연속 신호처럼 인식하고 필터링하여 특징을 추출하는 관점이 적절하게 적용되고 있습니다.

2-2. S4가 실전 딥러닝에서 SSM을 가능하게 한 방식

S4 논문은 기존 SSM의 실용적 문제(계산량과 비효율성)를 해결하기 위해 다음을 수행하고 있습니다.

  1. 상태 행렬 A를 구조적 형태(정규 행렬 + 저랭크 행렬)로 재파라미터화하고 있습니다.
  2. 주파수 영역에서 연산을 수행하고 있습니다.
  3. SSM 계산을 특정 커널 기반의 1D convolution 방식으로 변환하고 있습니다.

이 과정은 긴 시퀀스를 효율적으로 처리하면서도 높은 성능을 유지하는 데 핵심 역할을 하고 있습니다.


3. 대표 SSM 계열 모델

3-1. S4

S4는 SSM 모델을 실제 딥러닝에서 사용할 수 있도록 설계된 1세대 혁신 모델로 평가되고 있습니다. 긴 시퀀스 벤치마크(LRA)에서 SOTA를 달성했으며, 기존 모델이 해결하지 못하던 Path-X(16K 길이) 문제를 해결하고 있습니다. 다만 구현 복잡도가 높고, 대형 언어모델 분야에서는 Transformer만큼의 대규모 스케일 적용 사례는 많지 않은 편입니다.

3-2. Hyena

Hyena는 긴 컨볼루션과 게이팅 구조를 기반으로 attention을 대체하려는 접근을 하고 있습니다. 긴 시퀀스에서 높은 성능을 보이며 DNA 시퀀스 등 특수 도메인에서 강점을 보이고 있습니다. 다만 일반 LLM 백본으로는 아직 범용성이 제한적입니다.

3-3. Mamba

Mamba는 선택적 상태공간(Selective SSM) 구조를 통해 선형 스케일링과 하드웨어 최적화를 함께 달성하고 있으며, 텍스트, 오디오, 게놈, 시계열 등 다양한 모달에서도 성능을 보이고 있습니다. 긴 시퀀스에서 Transformer보다 최대 5배 처리량을 보였다는 점, 실제 산업 수준 채택이 빠르게 증가하고 있다는 점에서 현재 가장 영향력 있는 SSM 모델로 평가되고 있습니다.


4. Transformer + SSM 하이브리드 구조 연구 사례

4-1. AI21 Labs – Jamba

Jamba는 Transformer 층과 Mamba 층, MoE(Mixture-of-Experts)를 혼합한 하이브리드 아키텍처를 채택하고 있습니다. 256K 컨텍스트를 지원하며, 비슷한 규모의 Mixtral 대비 긴 시퀀스에서 약 3배 높은 처리량을 보고하고 있습니다. GPU 80GB 단일 장비에서도 140K 토큰을 활용할 수 있었다는 사례가 존재하고 있습니다. 이는 하이브리드 구조가 상용 LLM 레벨까지 성공적으로 확장되었음을 보여주고 있습니다.

4-2. IBM Granite 4.0

IBM은 Granite 4.0에서 Mamba와 Transformer를 함께 사용하는 하이브리드 구조를 도입하고 있습니다. 메모리 사용량을 최대 70% 줄이면서 성능을 유지 또는 향상하고 있으며, 온프렘 및 엔터프라이즈 환경에 적합한 모델로 설계되고 있습니다. Nano 버전처럼 저자원 환경용 모델도 함께 출시하고 있어 산업 적용 범위가 넓어지고 있습니다.


5. 긴 시퀀스·멀티모달·온디바이스 관점에서 정리

5-1. Transformer-only가 유리한 경우

4K~8K 수준의 일반 LLM 인퍼런스와 같이 짧은 컨텍스트 중심의 업무에서는 Transformer가 가장 검증된 선택지입니다. 최적화된 환경과 높은 처리량을 고려하면 즉시 적용 가능한 구조가 되고 있습니다.

5-2. SSM/Mamba가 전략적 선택지인 경우

긴 시퀀스를 연속적으로 다루는 사용자 행동 로그, 오디오·비디오 타임라인, 센서·시계열 스트림, 온디바이스 모델 등이 대표적입니다. 이 영역은 Transformer의 O(T²) 비용 구조로는 감당하기 어려운 경우가 많으며, SSM이 실질적으로 더 효율적인 선택이 되고 있습니다.


6. 애딥(addeep) 관점에서 본 SSM 활용 전략

6-1. UMM(초장기 시퀀스) 활용

사용자의 장기 행동 기록을 단일 시퀀스로 다루는 UMM은 Transformer로 처리하기 어려운 작업입니다. 이 영역에서는 SSM 기반 UMM을 설계하고, LMM과 결합해 장기 세계관 및 취향 구조를 모델링하는 방식이 실용적입니다.

6-2. LMM(실시간 반응) 활용

실시간 대화와 단기 맥락 해석은 Transformer가 여전히 강점을 갖고 있습니다. UMM과 LMM을 결합한 하이브리드 구조가 자연스럽고 현실적입니다.

6-3. PEACE 로봇

로봇은 지연, 안정성, 저사양 디바이스 실행이 핵심입니다. SSM은 스트리밍 기반 입력을 선형 시간으로 처리할 수 있기 때문에 로봇 제어 및 실시간 의도 추론에 매우 유리합니다.

6-4. 즉시 개인화

스와이프, 시청 구간, 체류 시간 등은 본질적으로 긴 시계열 데이터입니다. Mamba 기반 UMM이 이 흐름을 상태로 유지하고, LMM과 추천 시스템이 이를 활용하여 즉각적인 개인화를 제공하는 구조가 효율적입니다.

6-5. 멀티모달 통합

긴 비디오·오디오·텍스트를 통합하는 멀티모달 모델에서는 전체 타임라인을 효율적으로 encode하는 SSM 백본이 적합합니다. 비전·오디오·텍스트를 cross-attention으로 연결하는 구조가 최근 연구에서 자주 등장하고 있습니다.


7. 리스크 및 실무 고려사항

SSM 생태계는 빠르게 성장 중이지만 Transformer만큼 안정적이지는 않습니다. 디버깅 도구, 서빙 프레임워크, 멀티모달 하이브리드 구조 관련 레퍼런스가 Transformer 중심 생태계에 비해 부족한 편입니다. 또한 긴 시퀀스에서의 수치 안정성 문제나 하이퍼파라미터에 대한 민감성이 존재하고 있습니다. 따라서 단계적으로 도입하여 안정성과 비용, 성능을 검증하는 방식이 필요합니다.


8. 현재 연구 중인 SSM 관련 과제

8-a. 전체 분위기

SSM은 Transformer의 대체재라기보다 긴 시퀀스·시계열·온디바이스에 특화된 백본으로 빠르게 자리 잡고 있습니다. SSM 서베이(Mamba-360)에서는 S4, Hyena, Mamba를 포함한 다양한 SSM 모델을 비교하며 실제 적용 가능성과 한계를 체계적으로 정리하고 있습니다.

8-b. LLM 백본으로서의 SSM (Mamba / Mamba-2)

Mamba-2는 state-space duality 개념을 도입하여 attention·conv 등 다양한 연산을 하나의 통일된 관점으로 바라보는 시도를 하고 있습니다. 안정성, 초기화, 스케일링 법칙 등 다양한 측면에서 연구가 활발합니다.

8-c. Hybrid Transformer–SSM 아키텍처

Jamba, TransMamba, MTMM, MotionHMT 등에서 Transformer와 SSM을 어떤 비율·순서로 조합하느냐에 따라 성능과 비용이 달라지는 연구가 이어지고 있습니다. NVIDIA NeMo 또한 Hyena, Mamba 등 SSM을 Transformer와 결합해 사용할 수 있도록 프레임워크 단에서 지원하고 있습니다.

8-d. 비전·멀티모달(VLM) 분야에서의 SSM

MambaVision, MHS-ViT, MaTVLM 등 다양한 비전 및 멀티모달 모델에서 SSM 기반 백본을 적용하는 연구가 증가하고 있습니다. 이벤트 카메라, 스타일 트랜스퍼, 고해상도 비디오 모델 등 시간 해상도가 중요한 영역에서 SSM이 강점을 보이고 있습니다.

8-e. 도메인 특화 SSM 연구

DNA·게놈(HyenaDNA 등), 메트로 교통 예측(TransMamba, MTMM), 나노포어 신호 분석, 멀티모달 감성 분석 등 다양한 분야에서 긴 시퀀스와 노이즈가 많은 시계열 데이터를 처리하는 데 SSM이 적합한 구조로 채택되고 있습니다.

8-f. 이론 및 분석 연구

SSM의 이론적 기반, 안정성, 범용성을 분석하는 연구가 증가하고 있으며, SSM을 ODE·SDE와 결합하여 더 포괄적인 수학적 프레임워크로 다루는 시도도 등장하고 있습니다.


9. 최종 정리

Transformer는 짧은 시퀀스 처리에 매우 강하고 생태계가 성숙해 있습니다. 그러나 긴 시퀀스·시계열·온디바이스 컨텍스트에서는 SSM·Mamba가 구조적으로 더 우수한 확장성을 보이고 있습니다. Jamba와 Granite 4.0 같은 상용 모델은 이미 Transformer+SSM 하이브리드 구조를 도입하고 있으며, 이는 SSM 모델이 실험 단계를 넘어 산업적 채택 단계로 진입했음을 보여주고 있습니다.

Leave a comment

ADDEEP

애딥(Addeep)은 차세대 증강 AI 엔진 ‘GPR(Generative Pre-trained Recommender)’을 중심으로, 사람의 마음을 읽고 콘텐츠를 자동으로 만드는 Web3 기반 S2E(Social to Earn) 소셜 플랫폼입니다.

사용자의 의도와 관심사를 이해하고, 콘텐츠·광고·커머스를 자동으로 결합하여 개인 맞춤형 스마트 콘텐츠를 생성합니다.

이 블로그에서는

  • 애딥의 핵심 기술(GPR·LMM·ACT) 인사이트
  • ZαLPHA세대 트렌드와 크리에이터 문화 연구
  • 스마트 콘텐츠 및 S2E 생태계 분석
  • 애딥 서비스 업데이트 및 운영 스토리
    를 가장 빠르게 전달합니다.


사람과 사람,
그리고 가치가 연결되는 새로운 소셜 시대.
그 중심에 애딥이 있습니다.