| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | |||||
| 3 | 4 | 5 | 6 | 7 | 8 | 9 |
| 10 | 11 | 12 | 13 | 14 | 15 | 16 |
| 17 | 18 | 19 | 20 | 21 | 22 | 23 |
| 24 | 25 | 26 | 27 | 28 | 29 | 30 |
| 31 |
- 프로그래머스lv2
- 연산자오버로딩
- C++
- c++코딩테스트합격자되기
- 기본클래스
- 데이터사이언스
- 백준
- 점프투파이썬
- OOP
- 인프런
- 얕은복사
- 11382번
- 참조자
- 상속
- OpenCV
- STL
- 코드잇
- list comprehension
- 제네릭프로그래밍
- 람다식
- 코딩테스트
- python
- 포인터
- 주피터
- 다형성
- 멤버함수로구현
- 스택
- 유도클래스
- 동적바인딩
- 깊은복사
- Today
- Total
WjExplor Story
위클리 페이퍼 진행_2026.01.26 본문
LLM 핵심 개념: 할루시네이션, 스케일링 법칙, PEFT
목차
- [Q1.LLM이 생성한 텍스트에서 할루시네이션(Hallucination)이란 무엇이고, 왜 문제가 되나요? 여러 LLM 서비스들은 할루시네이션 문제를 어떻게 극복하려고 시도 중일까요?]
- [Q2. 모델 크기를 키우는 것만으로는 성능이 일정 시점 이후 둔화되는 이유는 무엇일까요?]
- [Q3. PEFT가 필요한 이유는 무엇이며, 어떤 상황에서 특히 효과적인가요?]
Q1. LLM 할루시네이션
할루시네이션이란 무엇인가?
정의: LLM이 그럴듯하지만 사실과 다르거나 검증되지 않은 정보를 자신있게 생성하는 현상입니다.
발생 원인:
- LLM은 훈련 데이터의 통계적 패턴을 학습하여 "다음 토큰"을 예측하는 방식으로 작동
- 사실 여부를 판단하는 내재적 메커니즘이 없음
- 훈련 데이터에 포함된 오류나 편향이 그대로 반영될 수 있음
- 지식 공백이 있을 때 그럴듯한 문장으로 "추측"하여 채우는 경향
출처: Red Hat (2024), "When LLMs day dream: Hallucinations and how to prevent them"
왜 문제가 되는가?
- 고위험 분야의 심각한 결과
- 의료: 잘못된 진단이나 치료 제안
- 법률: 존재하지 않는 판례 인용
- 금융: 부정확한 투자 정보 제공
- 사용자 신뢰도 저하
- 브랜드 이미지 손상
- 법적 책임 문제 발생 가능
- 실제 사례
- '세종대왕이 맥북프로를 던졌다' 라는 밈이 나올 정도로 유명한 할루시네이션.
여러 LLM 서비스들의 할루시네이션 극복 방법
1. RAG (Retrieval-Augmented Generation)
작동 방식:
- 사용자 쿼리를 받으면 먼저 외부 검증된 데이터베이스/문서에서 관련 정보를 검색
- 검색된 컨텍스트와 함께 쿼리를 LLM에 전달
- LLM이 검색된 실제 데이터를 기반으로 응답 생성
효과:
- Stanford 2024년 연구: RAG, RLHF, Guardrails를 결합했을 때 96% 할루시네이션 감소
- 의료 분야 MEGA-RAG 프레임워크: 기존 대비 40% 이상 할루시네이션 감소
주요 서비스 사례:
- Thomson Reuters의 Westlaw AI: RAG를 통해 법률 문서 검색 및 응답 생성
- LexisNexis: "권위 있는 콘텐츠의 폐쇄된 환경"에서 RAG 활용
출처:
- Voiceflow (2024), Stanford Study
- PMC (2024), "MEGA-RAG: a retrieval-augmented generation framework"
- Journal of Empirical Legal Studies (2025)
2. Chain-of-Thought (CoT) Prompting
작동 방식:
- LLM에게 최종 답변 전에 단계별 추론 과정을 명시하도록 요구
- "단계별로 생각해보세요" 같은 프롬프트 사용
효과:
- 복잡한 추론 작업(수학 문제, 다단계 질문)에서 논리적 일관성 향상
- 모델이 자신의 추론 과정을 "검증"할 기회 제공
3. RLHF (Reinforcement Learning from Human Feedback)
작동 방식:
- 인간 평가자가 모델의 여러 응답을 평가
- 평가를 기반으로 보상 모델(reward model) 훈련
- 보상 모델을 활용한 강화학습으로 LLM 미세조정
효과:
- 잘못된 정보 생성 패턴을 학습하여 개선
- 응답 품질과 정확도 향상
4. Constitutional AI / Guardrails
작동 방식:
- 모델에게 명확한 행동 규칙을 프로그래밍
- "모르면 모른다고 답하라"는 원칙 구현
- 확신이 없을 때 추측 대신 불확실성 표현
철학:
- 거짓 정보를 제공하는 것보다 정직한 불확실성 표현이 더 나음
- 사용자가 더 많은 맥락을 제공하도록 유도
출처: AWS Machine Learning Blog (2024), "Detect hallucinations for RAG-based systems"
Q2. 모델 크기 스케일링의 한계
스케일링 법칙이란?
정의: LLM의 성능이 모델 크기(파라미터 수), 데이터셋 크기(훈련 토큰), 컴퓨팅 파워(FLOPs)와 어떤 관계를 갖는지를 설명하는 경험적 법칙
핵심 발견 (OpenAI, 2020):
- 이 세 가지 요소는 Power Law(멱법칙) 관계로 성능과 연결됨
- 로그 스케일에서는 선형적으로 증가하지만, 실제로는 지수 감소 곡선
출처: Kaplan et al. (2020), "Scaling Laws for Neural Language Models"
왜 모델 크기만 키우면 안 되는가?
1. Power Law의 함정: 수확체감
문제:
- 10배의 컴퓨팅 리소스를 투입해도 성능은 그에 비례하여 증가하지 않음
- 일반 스케일에서 보면 지수 감소 곡선(exponential decay)을 그림
- 즉, 점점 더 많은 리소스를 투입해야 같은 수준의 성능 향상을 얻을 수 있음
실증 연구:
- PNAS (2025) 연구: 정치적 설득력 측면에서 Claude-3-Opus와 GPT-4-Turbo가 10배 이상 작은 Qwen1.5-7B와 유의미한 차이가 없었음
- 더 큰 모델이 미래에 얻을 수 있는 성능 향상은 1 퍼센트 포인트 미만으로 추정
출처:
- Cameron R. Wolfe (2025), "Scaling Laws for LLMs: From GPT-3 to o3"
- PNAS (2025), "Scaling language model size yields diminishing returns"
2. 데이터 부족 문제
현실:
- 고품질 웹 데이터는 약 510T 토큰으로 제한적 (EpochAI 추정)
- 현재 최대 데이터셋은 약 18T 토큰 (Qwen2.5)
- 인터넷은 하나뿐이므로 완전히 새로운 대규모 고품질 데이터 소스 발견이 어려움
Ilya Sutskever의 주장 (NeurIPS 2024):
- "우리는 피크 데이터에 도달했다"
- "사전학습(pretraining)은 우리가 아는 형태로는 끝날 것"
- 컴퓨트는 빠르게 성장하지만 데이터는 웹 스크래핑에 의존하므로 성장하지 않음
출처:
- Cameron R. Wolfe (2025), Jon Vet (2024)
- Ilya Sutskever, NeurIPS'24 Test of Time Award Speech
3. 불균형 스케일링의 병목 현상
Kaplan Laws (2020)의 권장:
- 컴퓨트 예산이 10배 증가하면
- 모델 크기: 5.5배 증가
- 데이터: 1.8배 증가
문제점:
- 모델만 크게 키우고 데이터는 충분히 늘리지 않으면 데이터 부족으로 성능 병목
- 한 요소만 증가시키면 다른 요소가 제약이 되어 전체 성능 향상이 제한됨
4. Chinchilla Scaling Laws의 발견 (2022)
DeepMind의 발견:
- 모델 크기와 훈련 데이터를 동등하게 증가시켜야 최적 성능
- 70B 파라미터의 Chinchilla가 4배 많은 데이터로 훈련되어 280B 파라미터의 Gopher를 능가
시사점:
- 단순히 모델을 크게 만드는 것보다 컴퓨트-최적(compute-optimal) 비율이 중요
- 작은 모델 + 더 많은 데이터 = 큰 모델 + 적은 데이터보다 효율적
출처:
- Hoffmann et al. (2022), "Training Compute-Optimal Large Language Models"
- Medium - Rania Hossam (2023), "Chinchilla Scaling Laws for LLMs"
5. 데이터 품질과 서브스케일링 현상
최근 연구 (ACL 2025):
- 동일한 컴퓨트 예산으로도 데이터 품질(density)에 따라 성능이 크게 달라짐
- 고밀도(중복이 많고 다양성 낮음) 데이터셋은 서브스케일링(sub-scaling) 현상 발생
- LLaMA 3가 고급 훈련 전략을 사용했음에도 LLaMA 2보다 스케일링 효율이 떨어지는 경우 관찰됨
출처: ACL (2025), "Revisiting Scaling Laws for Language Models: The Role of Data Quality"
핵심 요약
모델 크기를 키우는 것만으로는 일정 시점 이후 성능이 둔화되는 이유:
- Power Law 수확체감: 지수 함수처럼 보이지만 실제로는 점점 더 큰 투자 대비 작은 수익
- 데이터 한계: 고품질 웹 데이터가 고갈되어 가고 있음
- 불균형 스케일링: 모델·데이터·컴퓨트를 균형있게 증가시켜야 최적
- 데이터 품질: 단순한 양보다 품질과 다양성이 중요
Q3. PEFT의 필요성
PEFT란 무엇인가?
정의: Parameter-Efficient Fine-Tuning의 약자로, 전체 모델을 재훈련하지 않고 소수의 파라미터만 추가/조정하여 특정 작업에 맞게 LLM을 효율적으로 적응시키는 기법
핵심 아이디어:
- 원본 모델의 대부분 가중치는 동결(freeze)
- 작은 어댑터(adapter) 모듈만 학습
- 원본 모델의 지식은 보존하면서 새 작업에 특화
출처: IBM Think (2024), "What is parameter-efficient fine-tuning (PEFT)?"
전통적 Fine-tuning의 문제점
- 막대한 컴퓨팅 비용
- 모든 파라미터를 업데이트하려면 전체 모델을 메모리에 로드
- GPT-3 175B 파인튜닝: 수백 GB GPU 메모리 필요
- 저장 공간 문제
- 각 작업마다 전체 모델의 복사본 저장 필요
- 175B 모델 = 수백 GB × 작업 수
- 에너지와 시간
- 훈련 시간이 길고 에너지 소비 증가
- 환경적·경제적 비용
출처: IBM Think (2024), Runpod (2024)
PEFT가 필요한 이유
효율성 측면
메모리 절감:
- 일반적으로 전체 파인튜닝 대비 메모리 사용량 50-70% 절감
- 예: 30GB 필요한 작업이 10GB 미만으로 가능
훈련 파라미터 감소:
- 전체 파라미터의 1% 미만만 훈련
- 대부분의 PEFT 방법에서 90% 이상 파라미터 감소
저장 공간:
- 어댑터 크기: 수십 MB (원본 모델: 수 GB)
- 여러 작업 어댑터를 효율적으로 저장 및 관리 가능
출처: Hugging Face PEFT (2024), Runpod (2024)
성능 측면
놀라운 발견:
- PEFT로 파인튜닝한 모델이 전체 파인튜닝과 동등한 성능 달성
- 일부 경우 약간의 성능 차이는 있지만 효율성 대비 무시할 수 있는 수준
추론 지연시간:
- 어댑터를 원본 모델에 병합(merge) 가능
- 병합 후에는 추론 시 지연시간 증가 없음
출처: Hugging Face Smol Course (2024), "LoRA and PEFT: Efficient Fine-Tuning"
주요 PEFT 방법: LoRA와 QLoRA
LoRA (Low-Rank Adaptation)
작동 원리:
기존 가중치 행렬 W → W + BA (저랭크 분해)
- B, A는 훨씬 작은 행렬 (r << min(d_in, d_out))
- W는 동결, B와 A만 학습
성능 사례 (GPT-3 175B 적용):
- 훈련 파라미터: 10,000배 감소
- GPU 메모리: 3배 감소
- 성능: Full fine-tuning과 동등
수학적 배경:
- 파인튜닝 시 가중치 변화량이 본질적으로 저차원(low-rank) 구조를 가진다는 가설
- Rank r을 8, 16 정도로 설정해도 충분한 표현력
출처:
- Hu et al. (2021), "LoRA: Low-Rank Adaptation of Large Language Models"
- Hugging Face LoRA Documentation (2024)
QLoRA (Quantized LoRA)
추가 최적화:
- 원본 모델을 4-bit 양자화로 로드 (기존 32-bit → 4-bit)
- 4-bit NormalFloat4 데이터 타입 사용
- 메모리 사용량 추가 75% 절감
혁신적 결과:
- 48GB GPU 한 대에서 65B 파라미터 모델 훈련 가능
- 과거에는 불가능했던 대형 모델의 민주화
3가지 핵심 최적화:
- 4-bit NormalFloat4 양자화
- 이중 양자화(Double Quantization)
- 페이징 옵티마이저(Paged Optimizers)
출처:
- Databricks (2024), "Efficient Fine-Tuning with LoRA"
- Medium - A B Vijay Kumar (2023), "Fine Tuning LLM: PEFT — LoRA & QLoRA"
PEFT가 특히 효과적인 상황
1. 도메인 특화 작업
사례:
- 의료: 일반 LLM을 의학 문헌과 임상 노트로 파인튜닝
- 법률: 법률 문서와 판례 분석
- 금융: 재무 보고서와 시장 분석
이유:
- 도메인 특화 데이터는 상대적으로 적지만 매우 전문적
- 전체 재훈련은 과도하고 PEFT로 충분
2. 리소스 제한 환경
적용 가능 환경:
- 단일 소비자급 GPU (RTX 4090, A100 단일 카드 등)
- 엣지 디바이스
- 클라우드 비용 최소화가 필요한 스타트업
3. 여러 작업에 동일 베이스 모델 재사용
장점:
- 하나의 큰 베이스 모델 유지
- 작업별로 작은 어댑터만 저장
- 동적으로 어댑터 스왑하여 다양한 작업 수행
NVIDIA NIM 사례:
- 동시에 여러 LoRA 어댑터를 배치
- 배치 내 각 요청이 다른 어댑터 사용 가능
- Batched GEMM으로 효율적 처리
출처:
- IBM Think (2024)
- NVIDIA NIM Documentation (2024)
- Raquel Vaz (2025), "Efficient LLM Fine-Tuning with LoRA"
다른 기법과의 결합
양자화(Quantization):
- PEFT + 4-bit/8-bit 양자화 = 추가 메모리 절감
- QLoRA가 대표적 사례
지식 증류(Knowledge Distillation):
- PEFT로 파인튜닝 후 작은 모델로 증류
- 배포 효율성 극대화
프루닝(Pruning):
- PEFT와 결합하여 불필요한 가중치 제거
- 아직 연구 단계지만 가능성 있음
출처: Runpod (2024), "LLM Fine-Tuning on a Budget"
핵심 요약
PEFT(특히 LoRA/QLoRA)가 필요한 이유:
- 효율성: 훈련 파라미터 90% 감소, 메모리 70% 절감
- 성능: Full fine-tuning과 동등한 품질
- 경제성: 리소스 제한 환경에서도 대형 모델 활용 가능
- 유연성: 하나의 베이스 모델 + 여러 어댑터로 다양한 작업 수행
- 배포 편의성: 추론 시 지연시간 증가 없이 병합 가능
출처 정리
할루시네이션 관련
- Red Hat (2024), "When LLMs day dream: Hallucinations and how to prevent them"
- Voiceflow (2024), "How to Prevent LLM Hallucinations: 5 Proven Strategies"
- AWS Machine Learning Blog (2024), "Detect hallucinations for RAG-based systems"
- PMC (2024), "MEGA-RAG: a retrieval-augmented generation framework"
- Journal of Empirical Legal Studies (2025), RAG Hallucinations in Legal Research
- Vectara (2024), "Correcting Hallucinations in Large Language Models"
스케일링 법칙 관련
- Kaplan et al. (2020), "Scaling Laws for Neural Language Models"
- Hoffmann et al. (2022), "Training Compute-Optimal Large Language Models" (Chinchilla)
- Cameron R. Wolfe (2025), "Scaling Laws for LLMs: From GPT-3 to o3"
- Jon Vet (2024), "A brief history of LLM Scaling Laws"
- PNAS (2025), "Scaling language model size yields diminishing returns"
- ACL (2025), "Revisiting Scaling Laws for Language Models: The Role of Data Quality"
- Nature Machine Intelligence (2024), "Densing law of LLMs"
- Medium - Rania Hossam (2023), "Chinchilla Scaling Laws for LLMs"
PEFT 관련
- Hu et al. (2021), "LoRA: Low-Rank Adaptation of Large Language Models"
- IBM Think (2024), "What is parameter-efficient fine-tuning (PEFT)?"
- Hugging Face PEFT Documentation (2024)
- Hugging Face Smol Course (2024), "LoRA and PEFT: Efficient Fine-Tuning"
- Databricks (2024), "Efficient Fine-Tuning with LoRA"
- Runpod (2024), "LLM Fine-Tuning on a Budget"
- NVIDIA NIM Documentation (2024), "Parameter-Efficient Fine-Tuning with NVIDIA NIM"
- Medium - A B Vijay Kumar (2023), "Fine Tuning LLM: PEFT — LoRA & QLoRA"
- Medium - Raquel Vaz (2025), "Efficient LLM Fine-Tuning with LoRA"
'AI 엔지니어 부트캠프 > 자연어 처리와 대규모 언어모델' 카테고리의 다른 글
| 위클리페이퍼_2026.02.01 (0) | 2026.02.01 |
|---|---|
| 위클리 페이퍼 진행_2026.01.19 (0) | 2026.01.19 |
| 위클리 페이퍼 진행_2026.01.05 (0) | 2026.01.05 |