| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
- 유도클래스
- STL
- 참조자
- 다형성
- c++코딩테스트합격자되기
- 11382번
- 연산자오버로딩
- 인프런
- 포인터
- C++
- 멤버함수로구현
- 백준
- 코딩테스트
- 람다식
- 프로그래머스lv2
- OpenCV
- 주피터
- OOP
- 기본클래스
- 깊은복사
- 데이터사이언스
- 스택
- list comprehension
- 얕은복사
- 코드잇
- python
- 제네릭프로그래밍
- 점프투파이썬
- 동적바인딩
- 상속
- Today
- Total
WjExplor Story
위클리 페이퍼 진행_2025.10.27 본문
Q.결정 트리의 장점과 단점은 무엇인가요?
결정 트리는 스무고개처럼 연속적인 질문으로 답을 찾는 알고리즘입니다. 루트 노드에서 시작해 분기 노드를 거쳐 리프 노드에서 최종 결과를 도출하며, 데이터를 가장 잘 나누는 피처를 반복적으로 선택하여 분할합니다.
장점은 해석이 쉽고 의사결정 과정을 역추적할 수 있어 딥러닝 대비 투명하다는 점입니다. 비전문가도 트리 구조를 보면 '왜 이런 예측을 했는지' 이해할 수 있습니다.
단점은 트리가 깊어질수록 과적합이 쉽게 발생한다는 것입니다. 질문이 많아지면 훈련 데이터의 노이즈까지 외워버려 새로운 데이터에 대한 성능이 떨어집니다. 또한 데이터가 조금만 바뀌어도 트리 구조가 크게 변하는 불안정성이 있습니다. 이러한 단점을 보완하기 위해 실무에서는 랜덤 포레스트나 부스팅 같은 앙상블 기법을 주로 사용합니다.
Q. 부스팅은 어떤 특징을 가진 앙상블 기법인가요? 토픽에서 배운 AdaBoost 이외의 부스팅 모델에는 무엇이 있는지에 대해 구글 등을 활용하여 직접 리서치해보고, 각 부스팅 모델의 특징, 장단점에 대해 말해주세요.
부스팅은 약한 학습기(매우 간단한 분류기)들을 순차적으로 학습시켜, 이전 모델이 틀린 데이터에 집중하도록 만드는 앙상블 기법입니다.
AdaBoost( Adaptive Boost )는 1995년에 나온 부스팅의 원조로, 틀린 샘플의 가중치를 크게 증가시켜 다음 모델이 그 샘플들에 집중하도록 합니다. 간단하지만 이상치에 민감하다는 단점이 있습니다.
Gradient Boosting은 잔차(실제값-예측값)를 직접 학습하며, XGBoost는 이를 병렬 처리와 규제로 극대화하여 캐글 대회에서 압도적 성능을 보입니다. LightGBM은 2017년 Microsoft가 개발했으며, Leaf-wise 트리 성장과 히스토그램 기법으로 XGBoost보다 훨씬 빠르고 메모리 효율적이지만, 작은 데이터에서는 과적합 위험이 있습니다.
CatBoost는 같은 해 Yandex가 개발했으며, 범주형 변수를 자동으로 처리하는 것이 특징입니다. 원-핫 인코딩 없이도 범주형 데이터를 직접 학습할 수 있어 전처리가 거의 필요 없습니다.
최신 모델로는 Scikit-learn의 HistGradientBoosting(2019), 불확실성까지 예측하는 NGBoost(2020) 등이 있습니다.
Q. 차원 축소 기법인 주성분 분석과 요인 분석의 차이는 무엇인지 설명해 주세요.
"차원 축소가 필요한 이유는 고차원 데이터가 시각화가 불가능하고, 계산량이 많으며, 차원의 저주로 인해 데이터가 희소해져 모델 학습이 어렵기 때문입니다.
PCA는 데이터의 분산을 최대한 보존하면서 차원을 줄이는 기법입니다. '데이터를 가장 잘 설명하는 새로운 방향(주성분)을 찾아, 그 축만 남기고 나머지는 버린다'는 개념입니다. 실제 측정한 변수들을 수학적으로 조합하여 새로운 축을 만들기 때문에 구현이 간단하고 빠르지만, 주성분이 무엇을 의미하는지 해석하기 어렵다는 단점이 있습니다.
반면 요인 분석은 관측된 변수들 뒤에 숨어있는 잠재적 요인을 찾는 기법입니다. '여러 변수가 사실은 몇 개의 보이지 않는 공통 요인에 의해 설명된다'는 가정 하에, 그 요인을 발견하는 것이 목적입니다. 예를 들어 여러 설문 문항의 답변이 '성실성'이나 '외향성' 같은 성격 요인으로 설명되는 것처럼요.
핵심 차이는 방향성입니다. PCA는 관측 변수에서 주성분으로 가는 데이터 압축이고, 요인 분석은 잠재 요인이 관측 변수를 설명한다는 구조 발견입니다. PCA는 전처리나 시각화에, 요인 분석은 심리학이나 사회과학에서 이론을 검증하는 데 주로 사용됩니다."
'AI 엔지니어 부트캠프 > 파이썬 데이터 분석 기초와 머신 러닝 기초' 카테고리의 다른 글
| 위클리 페이퍼 진행_2025.10.20 (0) | 2025.10.20 |
|---|---|
| 1-8. 머신러닝 기본기(2)_2025.10.15 (0) | 2025.10.15 |
| 1-8. 머신러닝 기본기_2025.10.14 (1) | 2025.10.14 |
| 위클리 페이퍼 진행_2025.10.13 (0) | 2025.10.13 |
| 펭귄 데이터셋 EDA_데이터분석.ipynb (0) | 2025.10.02 |