Notice
Recent Posts
Recent Comments
Link
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
Tags
- 데이터사이언스
- c++코딩테스트합격자되기
- 동적바인딩
- OOP
- 백준
- 프로그래머스lv2
- 얕은복사
- 포인터
- 멤버함수로구현
- python
- 코드잇
- 다형성
- 인프런
- STL
- 점프투파이썬
- 유도클래스
- 11382번
- 주피터
- C++
- 상속
- 람다식
- 참조자
- 코딩테스트
- OpenCV
- 연산자오버로딩
- 스택
- list comprehension
- 깊은복사
- 기본클래스
- 제네릭프로그래밍
Archives
- Today
- Total
WjExplor Story
펭귄 데이터셋 EDA_데이터분석.ipynb 본문
펭귄 데이터셋 EDA_데이터분석.ipynb
0.33MB
정리해야 하는 부분
1) 표준편차 등의 데이터 분석을 위한 그래프 표기는 허점이 있을 수 있다.
2) 논리적으로 허점이 없는 데이터를 그려준다.
진행해야 하는 순서 (아직 미 완성)
| 단계 | 당신의 판단/질문 | 논리적 연결성 |
| 1단계: 검증 (부리) | Culmen Length와 Culmen Depth의 연관성은 없다고 판단된다. | (훌륭) 상관계수나 산점도를 통해 두 변수 간의 관계가 약함을 파악했음을 의미합니다. 관계가 약한 변수는 추가 분석을 미루고 다음 변수로 넘어가는 것이 맞습니다. |
| 2단계: 다음 탐색 | 표준편차가 큰 Flipper Length와 Body Mass는 어떨까? | (매우 좋음) 변동성(표준편차)이 크다는 것은 종별 차이가 클 가능성이 높다는 의미입니다. 중요 변수를 다음 분석 대상으로 선택하는 것은 가장 효율적인 전략입니다. |
| 3단계: 데이터 품질 확인 | Body Mass (g)는 이상치가 있는지 박스 플롯으로 표기해보자. | (필수적) Body Mass를 분석하기 전에, 박스 플롯으로 **데이터의 분포, 중앙값, 이상치(Outlier)**를 먼저 확인하는 것은 통계 분석의 기본 절차입니다. 이상치가 있다면 평균 등의 통계치가 왜곡될 수 있으므로, 이를 먼저 확인하는 것은 완벽한 순서입니다. |
🔍 추가 분석에 대한 제안 (발표 자료 강화)
이 흐름에 추가하여, 다음 단계의 분석을 더욱 강력하게 만들어줄 부분을 제안합니다.
- Flipper Length와 Body Mass의 상관성 확인: 박스 플롯을 보기 전에, 이 두 변수가 얼마나 연관되어 있는지 상관계수를 확인해 보세요.
- 이상치 처리 후 종별 비교: 박스 플롯으로 이상치를 확인했다면, 이상치를 제거하거나 무시한 상태에서 Body Mass (g)를 종(Species)별로 박스 플롯으로 비교해 보세요.
'AI 엔지니어 부트캠프 > 파이썬 데이터 분석 기초와 머신 러닝 기초' 카테고리의 다른 글
| 1-8. 머신러닝 기본기_2025.10.14 (1) | 2025.10.14 |
|---|---|
| 위클리 페이퍼 진행_2025.10.13 (0) | 2025.10.13 |
| DataFrame 마스터하기 (0) | 2025.10.01 |
| 기초 통계와 데이터 시각화 (2) | 2025.10.01 |
| 데이터 사이언스 Toolkit (0) | 2025.09.30 |