WjExplor Story

위클리 페이퍼 진행_2026.01.26 본문

AI 엔지니어 부트캠프/자연어 처리와 대규모 언어모델

위클리 페이퍼 진행_2026.01.26

더블유제이플로어 2026. 1. 26. 10:42

LLM 핵심 개념: 할루시네이션, 스케일링 법칙, PEFT

목차

  1. [Q1.LLM이 생성한 텍스트에서 할루시네이션(Hallucination)이란 무엇이고, 왜 문제가 되나요? 여러 LLM 서비스들은 할루시네이션 문제를 어떻게 극복하려고 시도 중일까요?]
  2. [Q2. 모델 크기를 키우는 것만으로는 성능이 일정 시점 이후 둔화되는 이유는 무엇일까요?]
  3. [Q3. PEFT가 필요한 이유는 무엇이며, 어떤 상황에서 특히 효과적인가요?]

Q1. LLM 할루시네이션

할루시네이션이란 무엇인가?

정의: LLM이 그럴듯하지만 사실과 다르거나 검증되지 않은 정보를 자신있게 생성하는 현상입니다.

발생 원인:

  • LLM은 훈련 데이터의 통계적 패턴을 학습하여 "다음 토큰"을 예측하는 방식으로 작동
  • 사실 여부를 판단하는 내재적 메커니즘이 없음
  • 훈련 데이터에 포함된 오류나 편향이 그대로 반영될 수 있음
  • 지식 공백이 있을 때 그럴듯한 문장으로 "추측"하여 채우는 경향

출처: Red Hat (2024), "When LLMs day dream: Hallucinations and how to prevent them"

왜 문제가 되는가?

  1. 고위험 분야의 심각한 결과
    • 의료: 잘못된 진단이나 치료 제안
    • 법률: 존재하지 않는 판례 인용
    • 금융: 부정확한 투자 정보 제공
  2. 사용자 신뢰도 저하
    • 브랜드 이미지 손상
    • 법적 책임 문제 발생 가능
  3. 실제 사례
    • '세종대왕이 맥북프로를 던졌다' 라는 밈이 나올 정도로 유명한 할루시네이션.

출처:
송하주의 AI 톡_ 인공지능은 왜 거짓말을 하는가

여러 LLM 서비스들의 할루시네이션 극복 방법

1. RAG (Retrieval-Augmented Generation)

작동 방식:

  • 사용자 쿼리를 받으면 먼저 외부 검증된 데이터베이스/문서에서 관련 정보를 검색
  • 검색된 컨텍스트와 함께 쿼리를 LLM에 전달
  • LLM이 검색된 실제 데이터를 기반으로 응답 생성

효과:

  • Stanford 2024년 연구: RAG, RLHF, Guardrails를 결합했을 때 96% 할루시네이션 감소
  • 의료 분야 MEGA-RAG 프레임워크: 기존 대비 40% 이상 할루시네이션 감소

주요 서비스 사례:

  • Thomson Reuters의 Westlaw AI: RAG를 통해 법률 문서 검색 및 응답 생성
  • LexisNexis: "권위 있는 콘텐츠의 폐쇄된 환경"에서 RAG 활용

출처:

  • Voiceflow (2024), Stanford Study
  • PMC (2024), "MEGA-RAG: a retrieval-augmented generation framework"
  • Journal of Empirical Legal Studies (2025)

2. Chain-of-Thought (CoT) Prompting

작동 방식:

  • LLM에게 최종 답변 전에 단계별 추론 과정을 명시하도록 요구
  • "단계별로 생각해보세요" 같은 프롬프트 사용

효과:

  • 복잡한 추론 작업(수학 문제, 다단계 질문)에서 논리적 일관성 향상
  • 모델이 자신의 추론 과정을 "검증"할 기회 제공

3. RLHF (Reinforcement Learning from Human Feedback)

작동 방식:

  • 인간 평가자가 모델의 여러 응답을 평가
  • 평가를 기반으로 보상 모델(reward model) 훈련
  • 보상 모델을 활용한 강화학습으로 LLM 미세조정

효과:

  • 잘못된 정보 생성 패턴을 학습하여 개선
  • 응답 품질과 정확도 향상

4. Constitutional AI / Guardrails

작동 방식:

  • 모델에게 명확한 행동 규칙을 프로그래밍
  • "모르면 모른다고 답하라"는 원칙 구현
  • 확신이 없을 때 추측 대신 불확실성 표현

철학:

  • 거짓 정보를 제공하는 것보다 정직한 불확실성 표현이 더 나음
  • 사용자가 더 많은 맥락을 제공하도록 유도

출처: AWS Machine Learning Blog (2024), "Detect hallucinations for RAG-based systems"


Q2. 모델 크기 스케일링의 한계

스케일링 법칙이란?

정의: LLM의 성능이 모델 크기(파라미터 수), 데이터셋 크기(훈련 토큰), 컴퓨팅 파워(FLOPs)와 어떤 관계를 갖는지를 설명하는 경험적 법칙

핵심 발견 (OpenAI, 2020):

  • 이 세 가지 요소는 Power Law(멱법칙) 관계로 성능과 연결됨
  • 로그 스케일에서는 선형적으로 증가하지만, 실제로는 지수 감소 곡선

출처: Kaplan et al. (2020), "Scaling Laws for Neural Language Models"

왜 모델 크기만 키우면 안 되는가?

1. Power Law의 함정: 수확체감

문제:

  • 10배의 컴퓨팅 리소스를 투입해도 성능은 그에 비례하여 증가하지 않음
  • 일반 스케일에서 보면 지수 감소 곡선(exponential decay)을 그림
  • 즉, 점점 더 많은 리소스를 투입해야 같은 수준의 성능 향상을 얻을 수 있음

실증 연구:

  • PNAS (2025) 연구: 정치적 설득력 측면에서 Claude-3-Opus와 GPT-4-Turbo가 10배 이상 작은 Qwen1.5-7B와 유의미한 차이가 없었음
  • 더 큰 모델이 미래에 얻을 수 있는 성능 향상은 1 퍼센트 포인트 미만으로 추정

출처:

  • Cameron R. Wolfe (2025), "Scaling Laws for LLMs: From GPT-3 to o3"
  • PNAS (2025), "Scaling language model size yields diminishing returns"

2. 데이터 부족 문제

현실:

  • 고품질 웹 데이터는 약 510T 토큰으로 제한적 (EpochAI 추정)
  • 현재 최대 데이터셋은 약 18T 토큰 (Qwen2.5)
  • 인터넷은 하나뿐이므로 완전히 새로운 대규모 고품질 데이터 소스 발견이 어려움

Ilya Sutskever의 주장 (NeurIPS 2024):

  • "우리는 피크 데이터에 도달했다"
  • "사전학습(pretraining)은 우리가 아는 형태로는 끝날 것"
  • 컴퓨트는 빠르게 성장하지만 데이터는 웹 스크래핑에 의존하므로 성장하지 않음

출처:

  • Cameron R. Wolfe (2025), Jon Vet (2024)
  • Ilya Sutskever, NeurIPS'24 Test of Time Award Speech

3. 불균형 스케일링의 병목 현상

Kaplan Laws (2020)의 권장:

  • 컴퓨트 예산이 10배 증가하면
    • 모델 크기: 5.5배 증가
    • 데이터: 1.8배 증가

문제점:

  • 모델만 크게 키우고 데이터는 충분히 늘리지 않으면 데이터 부족으로 성능 병목
  • 한 요소만 증가시키면 다른 요소가 제약이 되어 전체 성능 향상이 제한됨

4. Chinchilla Scaling Laws의 발견 (2022)

DeepMind의 발견:

  • 모델 크기와 훈련 데이터를 동등하게 증가시켜야 최적 성능
  • 70B 파라미터의 Chinchilla가 4배 많은 데이터로 훈련되어 280B 파라미터의 Gopher를 능가

시사점:

  • 단순히 모델을 크게 만드는 것보다 컴퓨트-최적(compute-optimal) 비율이 중요
  • 작은 모델 + 더 많은 데이터 = 큰 모델 + 적은 데이터보다 효율적

출처:

  • Hoffmann et al. (2022), "Training Compute-Optimal Large Language Models"
  • Medium - Rania Hossam (2023), "Chinchilla Scaling Laws for LLMs"

5. 데이터 품질과 서브스케일링 현상

최근 연구 (ACL 2025):

  • 동일한 컴퓨트 예산으로도 데이터 품질(density)에 따라 성능이 크게 달라짐
  • 고밀도(중복이 많고 다양성 낮음) 데이터셋은 서브스케일링(sub-scaling) 현상 발생
  • LLaMA 3가 고급 훈련 전략을 사용했음에도 LLaMA 2보다 스케일링 효율이 떨어지는 경우 관찰됨

출처: ACL (2025), "Revisiting Scaling Laws for Language Models: The Role of Data Quality"

핵심 요약

모델 크기를 키우는 것만으로는 일정 시점 이후 성능이 둔화되는 이유:

  1. Power Law 수확체감: 지수 함수처럼 보이지만 실제로는 점점 더 큰 투자 대비 작은 수익
  2. 데이터 한계: 고품질 웹 데이터가 고갈되어 가고 있음
  3. 불균형 스케일링: 모델·데이터·컴퓨트를 균형있게 증가시켜야 최적
  4. 데이터 품질: 단순한 양보다 품질과 다양성이 중요

Q3. PEFT의 필요성

PEFT란 무엇인가?

정의: Parameter-Efficient Fine-Tuning의 약자로, 전체 모델을 재훈련하지 않고 소수의 파라미터만 추가/조정하여 특정 작업에 맞게 LLM을 효율적으로 적응시키는 기법

핵심 아이디어:

  • 원본 모델의 대부분 가중치는 동결(freeze)
  • 작은 어댑터(adapter) 모듈만 학습
  • 원본 모델의 지식은 보존하면서 새 작업에 특화

출처: IBM Think (2024), "What is parameter-efficient fine-tuning (PEFT)?"

전통적 Fine-tuning의 문제점

  1. 막대한 컴퓨팅 비용
    • 모든 파라미터를 업데이트하려면 전체 모델을 메모리에 로드
    • GPT-3 175B 파인튜닝: 수백 GB GPU 메모리 필요
  2. 저장 공간 문제
    • 각 작업마다 전체 모델의 복사본 저장 필요
    • 175B 모델 = 수백 GB × 작업 수
  3. 에너지와 시간
    • 훈련 시간이 길고 에너지 소비 증가
    • 환경적·경제적 비용

출처: IBM Think (2024), Runpod (2024)

PEFT가 필요한 이유

효율성 측면

메모리 절감:

  • 일반적으로 전체 파인튜닝 대비 메모리 사용량 50-70% 절감
  • 예: 30GB 필요한 작업이 10GB 미만으로 가능

훈련 파라미터 감소:

  • 전체 파라미터의 1% 미만만 훈련
  • 대부분의 PEFT 방법에서 90% 이상 파라미터 감소

저장 공간:

  • 어댑터 크기: 수십 MB (원본 모델: 수 GB)
  • 여러 작업 어댑터를 효율적으로 저장 및 관리 가능

출처: Hugging Face PEFT (2024), Runpod (2024)

성능 측면

놀라운 발견:

  • PEFT로 파인튜닝한 모델이 전체 파인튜닝과 동등한 성능 달성
  • 일부 경우 약간의 성능 차이는 있지만 효율성 대비 무시할 수 있는 수준

추론 지연시간:

  • 어댑터를 원본 모델에 병합(merge) 가능
  • 병합 후에는 추론 시 지연시간 증가 없음

출처: Hugging Face Smol Course (2024), "LoRA and PEFT: Efficient Fine-Tuning"

주요 PEFT 방법: LoRA와 QLoRA

LoRA (Low-Rank Adaptation)

작동 원리:

기존 가중치 행렬 W → W + BA (저랭크 분해)
- B, A는 훨씬 작은 행렬 (r << min(d_in, d_out))
- W는 동결, B와 A만 학습

성능 사례 (GPT-3 175B 적용):

  • 훈련 파라미터: 10,000배 감소
  • GPU 메모리: 3배 감소
  • 성능: Full fine-tuning과 동등

수학적 배경:

  • 파인튜닝 시 가중치 변화량이 본질적으로 저차원(low-rank) 구조를 가진다는 가설
  • Rank r을 8, 16 정도로 설정해도 충분한 표현력

출처:

  • Hu et al. (2021), "LoRA: Low-Rank Adaptation of Large Language Models"
  • Hugging Face LoRA Documentation (2024)

QLoRA (Quantized LoRA)

추가 최적화:

  • 원본 모델을 4-bit 양자화로 로드 (기존 32-bit → 4-bit)
  • 4-bit NormalFloat4 데이터 타입 사용
  • 메모리 사용량 추가 75% 절감

혁신적 결과:

  • 48GB GPU 한 대에서 65B 파라미터 모델 훈련 가능
  • 과거에는 불가능했던 대형 모델의 민주화

3가지 핵심 최적화:

  1. 4-bit NormalFloat4 양자화
  2. 이중 양자화(Double Quantization)
  3. 페이징 옵티마이저(Paged Optimizers)

출처:

  • Databricks (2024), "Efficient Fine-Tuning with LoRA"
  • Medium - A B Vijay Kumar (2023), "Fine Tuning LLM: PEFT — LoRA & QLoRA"

PEFT가 특히 효과적인 상황

1. 도메인 특화 작업

사례:

  • 의료: 일반 LLM을 의학 문헌과 임상 노트로 파인튜닝
  • 법률: 법률 문서와 판례 분석
  • 금융: 재무 보고서와 시장 분석

이유:

  • 도메인 특화 데이터는 상대적으로 적지만 매우 전문적
  • 전체 재훈련은 과도하고 PEFT로 충분

2. 리소스 제한 환경

적용 가능 환경:

  • 단일 소비자급 GPU (RTX 4090, A100 단일 카드 등)
  • 엣지 디바이스
  • 클라우드 비용 최소화가 필요한 스타트업

3. 여러 작업에 동일 베이스 모델 재사용

장점:

  • 하나의 큰 베이스 모델 유지
  • 작업별로 작은 어댑터만 저장
  • 동적으로 어댑터 스왑하여 다양한 작업 수행

NVIDIA NIM 사례:

  • 동시에 여러 LoRA 어댑터를 배치
  • 배치 내 각 요청이 다른 어댑터 사용 가능
  • Batched GEMM으로 효율적 처리

출처:

  • IBM Think (2024)
  • NVIDIA NIM Documentation (2024)
  • Raquel Vaz (2025), "Efficient LLM Fine-Tuning with LoRA"

다른 기법과의 결합

양자화(Quantization):

  • PEFT + 4-bit/8-bit 양자화 = 추가 메모리 절감
  • QLoRA가 대표적 사례

지식 증류(Knowledge Distillation):

  • PEFT로 파인튜닝 후 작은 모델로 증류
  • 배포 효율성 극대화

프루닝(Pruning):

  • PEFT와 결합하여 불필요한 가중치 제거
  • 아직 연구 단계지만 가능성 있음

출처: Runpod (2024), "LLM Fine-Tuning on a Budget"

핵심 요약

PEFT(특히 LoRA/QLoRA)가 필요한 이유:

  1. 효율성: 훈련 파라미터 90% 감소, 메모리 70% 절감
  2. 성능: Full fine-tuning과 동등한 품질
  3. 경제성: 리소스 제한 환경에서도 대형 모델 활용 가능
  4. 유연성: 하나의 베이스 모델 + 여러 어댑터로 다양한 작업 수행
  5. 배포 편의성: 추론 시 지연시간 증가 없이 병합 가능

출처 정리

할루시네이션 관련

  1. Red Hat (2024), "When LLMs day dream: Hallucinations and how to prevent them"
  2. Voiceflow (2024), "How to Prevent LLM Hallucinations: 5 Proven Strategies"
  3. AWS Machine Learning Blog (2024), "Detect hallucinations for RAG-based systems"
  4. PMC (2024), "MEGA-RAG: a retrieval-augmented generation framework"
  5. Journal of Empirical Legal Studies (2025), RAG Hallucinations in Legal Research
  6. Vectara (2024), "Correcting Hallucinations in Large Language Models"

스케일링 법칙 관련

  1. Kaplan et al. (2020), "Scaling Laws for Neural Language Models"
  2. Hoffmann et al. (2022), "Training Compute-Optimal Large Language Models" (Chinchilla)
  3. Cameron R. Wolfe (2025), "Scaling Laws for LLMs: From GPT-3 to o3"
  4. Jon Vet (2024), "A brief history of LLM Scaling Laws"
  5. PNAS (2025), "Scaling language model size yields diminishing returns"
  6. ACL (2025), "Revisiting Scaling Laws for Language Models: The Role of Data Quality"
  7. Nature Machine Intelligence (2024), "Densing law of LLMs"
  8. Medium - Rania Hossam (2023), "Chinchilla Scaling Laws for LLMs"

PEFT 관련

  1. Hu et al. (2021), "LoRA: Low-Rank Adaptation of Large Language Models"
  2. IBM Think (2024), "What is parameter-efficient fine-tuning (PEFT)?"
  3. Hugging Face PEFT Documentation (2024)
  4. Hugging Face Smol Course (2024), "LoRA and PEFT: Efficient Fine-Tuning"
  5. Databricks (2024), "Efficient Fine-Tuning with LoRA"
  6. Runpod (2024), "LLM Fine-Tuning on a Budget"
  7. NVIDIA NIM Documentation (2024), "Parameter-Efficient Fine-Tuning with NVIDIA NIM"
  8. Medium - A B Vijay Kumar (2023), "Fine Tuning LLM: PEFT — LoRA & QLoRA"
  9. Medium - Raquel Vaz (2025), "Efficient LLM Fine-Tuning with LoRA"