펭귄 데이터셋 EDA_데이터분석.ipynb

Notice

Recent Posts

Tags more

Archives

관리 메뉴

WjExplor Story

AI 엔지니어 부트캠프/파이썬 데이터 분석 기초와 머신 러닝 기초

더블유제이플로어 2025. 10. 2. 22:12

정리해야 하는 부분

1) 표준편차 등의 데이터 분석을 위한 그래프 표기는 허점이 있을 수 있다.

2) 논리적으로 허점이 없는 데이터를 그려준다.

진행해야 하는 순서 (아직 미 완성)

단계	당신의 판단/질문	논리적 연결성
1단계: 검증 (부리)	Culmen Length와 Culmen Depth의 연관성은 없다고 판단된다.	(훌륭) 상관계수나 산점도를 통해 두 변수 간의 관계가 약함을 파악했음을 의미합니다. 관계가 약한 변수는 추가 분석을 미루고 다음 변수로 넘어가는 것이 맞습니다.
2단계: 다음 탐색	표준편차가 큰 Flipper Length와 Body Mass는 어떨까?	(매우 좋음) 변동성(표준편차)이 크다는 것은 종별 차이가 클 가능성이 높다는 의미입니다. 중요 변수를 다음 분석 대상으로 선택하는 것은 가장 효율적인 전략입니다.
3단계: 데이터 품질 확인	Body Mass (g)는 이상치가 있는지 박스 플롯으로 표기해보자.	(필수적) Body Mass를 분석하기 전에, 박스 플롯으로 데이터의 분포, 중앙값, 이상치(Outlier)를 먼저 확인하는 것은 통계 분석의 기본 절차입니다. 이상치가 있다면 평균 등의 통계치가 왜곡될 수 있으므로, 이를 먼저 확인하는 것은 완벽한 순서입니다.

🔍 추가 분석에 대한 제안 (발표 자료 강화)

이 흐름에 추가하여, 다음 단계의 분석을 더욱 강력하게 만들어줄 부분을 제안합니다.

Flipper Length와 Body Mass의 상관성 확인: 박스 플롯을 보기 전에, 이 두 변수가 얼마나 연관되어 있는지 상관계수를 확인해 보세요.
이상치 처리 후 종별 비교: 박스 플롯으로 이상치를 확인했다면, 이상치를 제거하거나 무시한 상태에서 Body Mass (g)를 종(Species)별로 박스 플롯으로 비교해 보세요.

'AI 엔지니어 부트캠프/파이썬 데이터 분석 기초와 머신 러닝 기초' Related Articles