WjExplor Story

위클리 페이퍼 진행_2026.01.19 본문

AI 엔지니어 부트캠프/자연어 처리와 대규모 언어모델

위클리 페이퍼 진행_2026.01.19

더블유제이플로어 2026. 1. 19. 09:05

BERT와 GPT, 그리고 현대 사전학습 모델에 대한 종합 분석

1. BERT와 GPT의 주요 차이점

1.1 기본 구조의 차이

RNN에서 Transformer로의 진화

  • 순차 처리의 한계 극복: RNN은 단어를 하나씩 처리해야 했으나, 트랜스포머는 문장 전체를 한꺼번에 처리하는 병렬 연산(Parallelization)을 실현했습니다.
  • 위치 인코딩(Positional Encoding): 병렬 처리로 인해 사라진 단어의 순서 정보를 수학적 함수(Sine, Cosine)를 이용해 데이터에 직접 주입했습니다.
  • 셀프 어텐션(Self-Attention): 문장 내 모든 단어 간의 상관관계를 계산하여, 대명사가 가리키는 대상이나 다의어의 의미를 정확히 파악합니다.

BERT (Bidirectional Encoder Representations from Transformers)

  • 2018년 구글에서 발표한 인코더 전용 모델입니다
  • 양방향 트랜스포머 인코더 구조를 사용하여, 문장의 앞뒤 문맥을 동시에 고려합니다
  • 입력 텍스트 전체를 한 번에 처리하여 각 단어의 문맥적 표현을 학습합니다

GPT (Generative Pre-trained Transformer)

  • OpenAI에서 개발한 디코더 전용 모델입니다
  • 단방향 자기회귀 구조로, 왼쪽에서 오른쪽으로 순차적으로 텍스트를 처리합니다
  • 다음 단어를 예측하는 방식으로 작동합니다

1.2 사전학습 방식

BERT의 사전학습

  • Masked Language Modeling (MLM): 입력 텍스트의 15%를 무작위로 마스킹하고 이를 예측합니다
  • Next Sentence Prediction (NSP): 두 문장이 연속된 문장인지 판별합니다
  • 양방향 컨텍스트를 학습하여 깊은 언어 이해가 가능합니다

GPT의 사전학습

  • Causal Language Modeling: 이전 토큰들을 기반으로 다음 토큰을 예측합니다
  • 단방향 처리로 텍스트 생성에 최적화되어 있습니다
  • GPT-3는 175억 개의 파라미터와 45TB 데이터로 학습되었습니다

1.3 적합한 응용 분야

BERT가 적합한 작업

  • 감정 분석 (Sentiment Analysis)
  • 개체명 인식 (Named Entity Recognition)
  • 질의응답 (Question Answering)
  • 텍스트 분류 (Text Classification)
  • 문장 유사도 측정
  • 자연어 이해가 필요한 모든 작업

GPT가 적합한 작업

  • 텍스트 생성 (Text Generation)
  • 대화형 챗봇
  • 코드 생성
  • 창작 글쓰기
  • 텍스트 요약
  • 번역

2. Hugging Face Transformers 라이브러리

2.1 핵심 개념

Hugging Face Transformers는 현대 NLP의 표준 라이브러리로, 2018년 이후 트랜스포머 모델 생태계의 중심이 되었습니다. 100만 개 이상의 사전학습 모델을 제공하며, PyTorch, TensorFlow, JAX를 지원합니다.

2.2 주요 기능

모델 허브 및 접근성

  • 100만 개 이상의 사전학습 모델 제공
  • 텍스트, 비전, 오디오, 멀티모달 작업 지원
  • 간단한 API로 모델 다운로드 및 사용 가능

Pipeline API

from transformers import pipeline

# 감정 분석 예시
classifier = pipeline("sentiment-analysis")
result = classifier("I love Hugging Face!")

# 텍스트 생성 예시
generator = pipeline("text-generation", model="gpt2")
output = generator("Once upon a time")

Auto 클래스

  • AutoModel, AutoTokenizer 등으로 자동으로 적절한 모델 선택
  • 모델 전환이 용이하여 다양한 실험 가능

Fine-tuning 지원

  • Trainer API로 간편한 파인튜닝
  • 사용자 정의 데이터셋으로 모델 최적화 가능
  • 분산 학습, 혼합 정밀도 등 고급 기능 지원

3. BERT와 GPT 이후 주요 사전학습 모델

3.1 BERT 계열 개선 모델

RoBERTa (2019)

  • Facebook AI에서 개발한 최적화된 BERT 버전입니다
  • NSP 목표 제거, 더 큰 배치 크기, 더 많은 데이터(160GB)로 학습했습니다
  • 동적 마스킹을 적용하여 BERT 대비 2-20% 성능 향상을 달성했습니다

ALBERT (2019)

  • 파라미터 공유를 통한 경량화 모델입니다
  • 12개 레이어에서 파라미터를 공유하여 메모리 효율성을 크게 개선했습니다
  • BERT와 유사한 성능을 훨씬 적은 파라미터로 달성했습니다

XLNet (2019)

  • Permutation Language Modeling을 도입했습니다
  • 자기회귀와 자동인코딩의 장점을 결합하여 양방향 학습을 수행합니다
  • BERT의 사전학습-파인튜닝 불일치 문제를 해결했습니다

ELECTRA (2020)

  • Generator-Discriminator 구조를 사용합니다
  • 마스킹된 토큰 대신 모든 토큰에 대해 학습하여 효율성이 4배 향상되었습니다
  • 작은 모델로도 GPT보다 뛰어난 GLUE 점수를 달성했습니다

DeBERTa (2021)

  • Disentangled Attention 메커니즘을 도입했습니다
  • 상대적 위치 인코딩과 절대적 위치 인코딩을 분리했습니다
  • 동일한 모델 크기에서 RoBERTa, XLNet을 능가하는 성능을 보였습니다

3.2 인코더-디코더 모델

T5 (2019)

  • "Text-to-Text Transfer Transformer"의 약자입니다
  • 모든 NLP 작업을 텍스트-투-텍스트 형식으로 통일했습니다
  • C4 데이터셋(750GB)으로 학습되었으며, 5가지 크기로 제공됩니다
  • Small(6천만), Base(2.2억), Large(7.7억), 3B, 11B 파라미터 버전이 있습니다

BART (2019)

  • 인코더-디코더 구조를 활용합니다
  • 텍스트 손상 복구 방식으로 사전학습되어 요약, 번역에 강점을 보입니다
  • 생성과 이해 작업 모두에 적합합니다

3.3 대규모 언어 모델 (LLM) 시대

GPT-3 (2020)

  • 1,750억 개의 파라미터로 규모의 중요성을 입증했습니다
  • Few-shot, Zero-shot 학습 능력을 보여주었습니다
  • In-context learning의 가능성을 열었습니다

최신 모델들 (2024-2025)

GPT-4.5 & GPT-5 (OpenAI)

  • GPT-5는 통합 라우팅 시스템으로 작업 복잡도에 따라 추론 깊이를 자동 조정합니다
  • 환각 현상이 GPT-4 대비 80% 감소했습니다
  • 멀티모달 기능이 강화되었습니다

Claude 4.5 (Anthropic)

  • 안전성과 설명 가능성에 중점을 둡니다
  • 다단계 추론, 코딩, 에이전트 기반 작업에서 우수한 성능을 보입니다
  • Sonnet과 Opus 버전이 각각 다른 사용 사례에 최적화되어 있습니다

Gemini 3 (Google)

  • 2025년 11월 출시, Pro 티어가 Ultra를 대체했습니다
  • Deep Think 추론 기능을 탑재했습니다
  • ARC-AGI-2, 수학적 추론, 멀티모달 과학 분야에서 강점을 보입니다

LLaMA 4 (Meta, 2025)

  • Mixture-of-Experts 아키텍처를 최초로 도입했습니다
  • Scout 버전: 1,000만 토큰의 컨텍스트 윈도우를 지원합니다
  • Maverick 버전: 100만 토큰 컨텍스트 윈도우를 제공합니다
  • 오픈소스로 제공되어 커스터마이징이 용이합니다

Mistral Large 3 (Mistral AI)

  • 675B 파라미터의 대형 모델입니다
  • 128K 토큰 컨텍스트 윈도우를 지원합니다
  • 코드 생성, 수학, 추론에서 뛰어난 성능을 보입니다
  • Ministral 3 (3B, 8B, 14B)는 엣지/모바일 배포에 적합합니다

DeepSeek-V3 (2024)

  • 6,710억 개의 파라미터를 가진 MoE 모델입니다
  • 토큰당 370억 개가 활성화됩니다
  • Multi-head Latent Attention을 도입했습니다
  • 비용 효율적인 과학/기술 추론에 탁월합니다

Qwen3 (Alibaba Cloud)

  • 235B 파라미터 모델을 제공합니다
  • Apache 2.0 라이선스로 상업적 사용이 자유롭습니다
  • MoE 아키텍처로 효율성과 성능을 동시에 달성했습니다

3.4 특수 목적 모델

DistilBERT

  • BERT의 지식 증류 버전으로 크기를 40% 감소시켰습니다
  • 속도는 60% 향상되었으며 성능은 97% 유지합니다

SentenceTransformers (2019)

  • 문장 임베딩에 특화되어 의미적 유사도 계산에 최적화되었습니다

Longformer, BigBird

  • 긴 문서 처리를 위한 sparse attention 메커니즘을 사용합니다

4. 트렌드와 미래 방향

4.1 2025년 주요 트렌드

멀티모달 통합

  • 텍스트, 이미지, 오디오, 비디오를 동시에 처리하는 능력이 표준화되고 있습니다

출처 : 8 best large language models for 2026

초장문 컨텍스트

  • LLaMA 4 Scout (2025년 4월 출시): 1,000만 토큰의 컨텍스트 윈도우를 지원하며, 초장문 처리 능력이 비약적으로 확장되었습니다.

출처 : Hugging Face Llam-4-Scout

효율성 최적화

  • MoE 아키텍처로 큰 모델을 효율적으로 실행할 수 있게 되었습니다
  • 양자화, 프루닝 등 경량화 기술이 발전했습니다

출처: 2025 LLM Review: A Technical Map of GPT‑5.2, Gemini 3, Claude 4.5, DeepSeek‑V3.2, Qwen3 and More

오픈소스 혁명

  • LLaMA, Mistral, Qwen 등이 상업용 오픈소스로 제공됩니다
  • 폐쇄형 모델과 비슷한 성능을 달성했습니다

출처 : A list of large language models