WjExplor Story

펭귄 데이터셋 EDA_데이터분석.ipynb 본문

AI 엔지니어 부트캠프/파이썬 데이터 분석 기초와 머신 러닝 기초

펭귄 데이터셋 EDA_데이터분석.ipynb

더블유제이플로어 2025. 10. 2. 22:12

펭귄 데이터셋 EDA_데이터분석.ipynb
0.33MB

정리해야 하는 부분

1) 표준편차 등의 데이터 분석을 위한 그래프 표기는 허점이 있을 수 있다.

2) 논리적으로 허점이 없는 데이터를 그려준다.

진행해야 하는 순서 (아직 미 완성)

단계 당신의 판단/질문 논리적 연결성
1단계: 검증 (부리) Culmen Length Culmen Depth 연관성은 없다고 판단된다. (훌륭) 상관계수나 산점도를 통해 변수 간의 관계가 약함을 파악했음을 의미합니다. 관계가 약한 변수는 추가 분석을 미루고 다음 변수로 넘어가는 것이 맞습니다.
2단계: 다음 탐색 표준편차가 Flipper Length Body Mass 어떨까? (매우 좋음) 변동성(표준편차) 크다는 것은 종별 차이가 가능성 높다는 의미입니다. 중요 변수를 다음 분석 대상으로 선택하는 것은 가장 효율적인 전략입니다.
3단계: 데이터 품질 확인 Body Mass (g) 이상치 있는지 박스 플롯으로 표기해보자. (필수적) Body Mass 분석하기 전에, 박스 플롯으로 **데이터의 분포, 중앙값, 이상치(Outlier)** 먼저 확인하는 것은 통계 분석의 기본 절차입니다. 이상치가 있다면 평균 등의 통계치가 왜곡될 있으므로, 이를 먼저 확인하는 것은 완벽한 순서입니다.

🔍 추가 분석에 대한 제안 (발표 자료 강화)

이 흐름에 추가하여, 다음 단계의 분석을 더욱 강력하게 만들어줄 부분을 제안합니다.

  1. Flipper Length Body Mass 상관성 확인: 박스 플롯을 보기 전에, 변수가 얼마나 연관되어 있는지 상관계수 확인해 보세요.
  2. 이상치 처리 종별 비교: 박스 플롯으로 이상치를 확인했다면, 이상치를 제거하거나 무시한 상태에서 Body Mass (g) (Species)별로 박스 플롯으로 비교 보세요.