| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
- 유도클래스
- OOP
- 참조자
- STL
- 데이터사이언스
- 기본클래스
- 백준
- C++
- OpenCV
- 11382번
- 인프런
- list comprehension
- 연산자오버로딩
- 코드잇
- python
- 상속
- 깊은복사
- 코딩테스트
- 점프투파이썬
- 제네릭프로그래밍
- 다형성
- 스택
- 주피터
- 동적바인딩
- 얕은복사
- 멤버함수로구현
- 람다식
- c++코딩테스트합격자되기
- 포인터
- 프로그래머스lv2
- Today
- Total
WjExplor Story
기초 통계와 데이터 시각화 본문
데이터의 종류
1. 수치형 데이터 (Numerical Data)
- 숫자로 표현되며, 양적인 크기를 나타내는 데이터입니다.
1-1. 이산형 데이터 (Discrete Data)
- 정의: 값이 하나씩 떨어져 있어 셀 수 있는 데이터 (주로 정수).
- 특징: 값과 값 사이에 다른 값이 존재할 수 없음.
- 예시: 사람의 수 (0.5명은 없음), 주사위 눈금, 자동차 사고 건수
- 시각화: 막대그래프
1-2. 연속형 데이터 (Continuous Data)
- 정의: 특정 범위 안에서 어떤 값이든 가질 수 있는 데이터 (주로 실수).
- 특징: 값과 값 사이에 무한히 많은 다른 값이 존재할 수 있음.
- 예시: 키, 몸무게, 온도, 시간 (e.g., 키 171cm는 실제로는 171.042... cm일 수 있음)
- 시각화: 히스토그램, 분포 그래프 (모자 모양 그래프)
2. 범주형 데이터 (Categorical Data)
- 몇 개의 범주나 그룹으로 분류할 수 있는 데이터입니다.
2-1. 순서형 데이터 (Ordinal Data)
- 정의: 범주 사이에 명확한 순서나 서열이 존재하는 데이터.
- 예시: 학점 (A > B > C), 만족도 (좋음, 보통, 나쁨), 군대 계급
- 특징: 순서는 있지만, 각 순서 사이의 간격이 일정하지는 않을 수 있음.
2-2. 명목형 데이터 (Nominal Data)
- 정의: 범주 사이에 순서나 서열이 없는 단순 분류 데이터.
- 예시: 혈액형 (A, B, O, AB), 성별 (남, 여), 국가
- 특징: 각 범주는 동등한 관계임.
히스토그램(Histogram)과 정규분포(Normal Distribution)
히스토그램 (Histogram)
- 정의: 수치형 데이터(특히 연속형 데이터)의 분포를 시각적으로 표현하는 막대그래프의 한 종류입니다.
- 작동 방식: 데이터의 전체 범위를 여러 개의 작은 구간(bins)으로 나눕니다. 그리고 각 구간에 속하는 데이터가 몇 개인지 세어서, 그 개수를 막대의 높이로 나타냅니다.
- 목적: 데이터가 어디에 집중되어 있는지, 어떻게 퍼져 있는지, 대칭적인지 등 데이터의 전체적인 형태를 파악하는 데 사용됩니다.
정규분포 (Normal Distribution) - "종 모양 그래프"
정의: 히스토그램을 그렸을 때, 데이터가 평균값을 중심으로 좌우 대칭적인 종(bell) 모양을 이루는 분포를 말합니다. 통계학에서 가장 중요하고 흔하게 발견되는 분포 형태입니다.
특징:
- 대칭성: 평균(mean)을 기준으로 완벽한 좌우 대칭을 이룹니다.
- 중심 집중: 데이터의 대부분이 평균값 근처에 몰려 있습니다.
- 평균 = 중앙값 = 최빈값: 분포의 정중앙에 평균, 중앙값(데이터를 순서대로 나열했을 때 가운데 값), 최빈값(가장 자주 나오는 값)이 모두 위치합니다.
"자연에서 흔히 발견되는 이유":
- 많은 자연 현상이나 사회 현상들은 서로 독립적인 여러 가지 무작위 요인들의 합으로 나타나는 경우가 많기 때문입니다.
- 예시:
- 사람들의 키: 유전, 영양, 환경 등 수많은 요인들이 복합적으로 작용한 결과, 대부분의 사람들은 평균 키 주변에 분포하고, 아주 크거나 작은 사람은 드뭅니다.
- 제품의 무게: 생산 공정에서 발생하는 미세한 오차들이 더해져, 대부분의 제품은 평균 무게를 가지게 됩니다.
- 시험 성적: 학생들의 지능, 노력, 컨디션 등 여러 요인이 합쳐져 성적이 매겨지면, 보통 평균 점수대에 가장 많은 학생이 몰립니다.
박스 플롯 (Box Plot) - 상자 수염 그림
정의: 데이터의 분포를 시각적으로 요약하여 보여주는 그래프. 데이터의 5가지 주요 수치(Five-number summary)를 사용하여 데이터의 중심, 퍼진 정도, 이상치 등을 한눈에 파악할 수 있게 해 줍니다.
박스 플롯의 구성 요소:
- 중앙값 (Median, 제2사분위수 Q2):
- 상자 안의 선. 전체 데이터를 순서대로 나열했을 때 정확히 가운데에 위치하는 값 (50% 지점).
- 상자 (Box):
- 아래쪽 경계 (제1사분위수 Q1): 데이터의 25% 지점.
- 위쪽 경계 (제3사분위수 Q3): 데이터의 75% 지점.
- 상자의 높이 (IQR, Interquartile Range): Q3 - Q1. 데이터의 중간 50%가 이 상자 안에 포함되며, 데이터가 얼마나 퍼져있는지를 나타내는 중요한 척도.
- 수염 (Whiskers):
- 상자 위아래로 뻗어 나가는 선. 일반적으로 데이터의 전체적인 범위를 보여줌.
- 보통
Q1 - 1.5 * IQR와Q3 + 1.5 * IQR범위 내에 있는 값들을 나타냄.
- 이상치 (Outliers):
- 수염의 범위를 벗어나는 점들. 다른 데이터에 비해 유난히 크거나 작은 값들을 의미하며, 분석 시 특별한 주의가 필요할 수 있음.
- 중앙값 (Median, 제2사분위수 Q2):
박스 플롯이 중요한 이유:
- 데이터 요약: 평균, 중앙값, 분산 등 여러 통계량을 하나의 그래프로 압축해서 보여주므로 데이터의 특징을 빠르게 파악할 수 있다.
- 그룹 간 비교에 탁월:
sns.boxplot(x="Sex", y="Age", data=titanic)예시처럼, 여러 그룹(남성/여성)의 데이터 분포를 나란히 놓고 쉽게 비교할 수 있다. 각 그룹의 중앙값, 퍼진 정도, 이상치 차이를 한눈에 볼 수 있다. - 이상치 탐지: 어떤 값이 일반적인 범위를 벗어나는지 명확하게 보여준다.
IQR (Interquartile Range, 사분위수 범위) 심화 설명
정의: IQR은 '사분위수 범위'를 의미하며, 제3사분위수(Q3)에서 제1사분위수(Q1)를 뺀 값입니다.
IQR = Q3 - Q1
의미: 데이터의 중간 50%가 얼마나 넓게 퍼져 있는지를 나타내는 '퍼짐의 정도'에 대한 핵심 지표입니다. 즉, 박스 플롯에서 상자의 높이 그 자체입니다.
- IQR이 크다: 데이터의 중간 50%가 넓게 퍼져있다. (값들의 편차가 크다)
- IQR이 작다: 데이터의 중간 50%가 중앙값을 중심으로 좁게 모여있다. (값들의 편차가 작다)
IQR이 중요한 이유 (특히 전체 범위(Range)나 표준편차와 비교했을 때):
이상치(Outlier)에 강하다 (Robust to Outliers):
- 데이터의 전체 범위(최댓값 - 최솟값)는 이상치가 하나만 있어도 그 값이 극단적으로 커지거나 작아질 수 있습니다.
- 하지만 IQR은 데이터의 양 끝 25%를 제외하고 오직 중앙의 50% 데이터만을 사용하기 때문에, 극단적인 이상치가 있어도 값에 거의 영향을 받지 않습니다.
- 따라서 데이터의 '일반적인' 퍼짐 정도를 더 안정적으로 나타낼 수 있습니다.
이상치를 정의하는 기준이 됨:
- 박스 플롯에서 어디까지를 정상 범위로 보고, 어디부터를 이상치로 판단할지 결정하는 데 IQR이 사용됩니다.
- 일반적으로
Q1 - 1.5 * IQR보다 작거나Q3 + 1.5 * IQR보다 큰 값들을 이상치로 간주합니다.
KDE Plot (Kernel Density Estimate) - 확률 밀도 함수
정의: 히스토그램을 부드러운 곡선으로 표현한 그래프로, 연속적인 데이터의 확률 밀도(Probability Density)를 추정하여 보여줍니다.
작동 원리 (간단한 비유):
- 각각의 데이터 포인트 위에 작은 언덕(Kernel)을 하나씩 놓는다고 상상합니다.
- 이 모든 언덕들을 합쳐서 전체적인 산맥의 능선(부드러운 곡선)을 그립니다.
- 데이터가 밀집된 곳은 언덕이 많이 겹쳐져 높은 산맥이 되고, 데이터가 드문드문 있는 곳은 낮은 언덕이 됩니다.
히스토그램과의 차이점:
- 히스토그램: 데이터를 특정 구간(bin)으로 나누어 계단 형태로 표현. 구간을 어떻게 나누느냐에 따라 모양이 달라질 수 있음.
- KDE 플롯: 구간(bin)의 개념 없이, 데이터의 분포를 매끄러운 곡선으로 표현하여 더 직관적이고 부드러운 분포 형태를 보여줌.
그래프 해석:
- X축: 데이터의 값.
- Y축: 확률 밀도 (주의: 개수나 확률이 아님). 곡선 아래의 면적이 해당 구간에 데이터가 포함될 확률을 의미합니다. (전체 면적의 합은 1)
- 그래프의 높은 곳 (Peak): 데이터가 가장 많이 몰려있는 구간.
Seaborn 라이브러리 FutureWarning 관련
- 경고 메시지:
FutureWarning: shade is now deprecated in favor of fill; setting fill=True. - 의미: Seaborn 시각화 라이브러리(보통
sns로 사용)에서 KDE 플롯 등을 그릴 때, 곡선 아래 영역을 색칠하던shade라는 파라미터의 이름이fill로 변경되었습니다. - 현재:
shade=True를 써도 경고만 뜨고 작동은 되지만, 이는 구버전 방식입니다. - 미래: Seaborn 0.14.0 버전부터는
shade를 사용하면 아예 오류가 발생할 것입니다. - 해결책: 코드에서
shade=True부분을fill=True로 수정해야 합니다.- (X) 이전 코드:
sns.kdeplot(data=df['Age'], shade=True) - (O) 수정 코드:
sns.kdeplot(data=df['Age'], fill=True)
- (X) 이전 코드:
sns.histplot으로 그룹별 분포 비교하기
코드 예시:
sns.histplot(data=titanic, x="Age", hue="Sex", bins=20, kde=True)목적: 히스토그램을 사용하여 특정 그룹(예: 성별)에 따라 데이터(예: 나이)의 분포가 어떻게 다른지 비교합니다.
주요 파라미터 설명:
data=titanic: 사용할 데이터프레임을 지정합니다.x="Age": 분포를 확인할 데이터 열(x축)을 지정합니다.hue="Sex": 비교하고 싶은 그룹(범주형) 열을 지정합니다. 이 옵션을 사용하면 'Sex'의 각 값('male', 'female')에 대해 별도의 색상으로 구분된 히스토그램이 그려집니다.bins=20: 히스토그램의 막대(구간) 개수를 20개로 설정합니다.kde=True: 히스토그램 위에 KDE(확률 밀도 곡선)를 함께 그려 분포의 형태를 더 부드럽게 파악할 수 있도록 돕습니다.
"종 모양" vs "뒤집어진 종 모양" 분포 설명
- 중요: "종을 뒤집은 모양"은 정규분포가 아닙니다. 두 분포는 데이터가 집중된 위치가 정반대입니다.
1. 정규분포 (Normal Distribution) = "종 모양"
- 모양: 일반적인 종(Bell) 모양의 그래프입니다.
- 의미: 데이터가 평균(중앙)에 가장 많이 몰려 있고, 양쪽 끝으로 갈수록 데이터의 수가 적어지는 분포입니다.
- 예시: 사람들의 키, 시험 성적 등 (대부분 평균에 가깝고, 아주 크거나 작은 경우는 드묾)
2. U자형 분포 (U-shaped Distribution) = "뒤집어진 종 모양"
- 모양: 종을 뒤집어 놓은 것 같은 U자 형태의 그래프입니다. (양쪽 끝이 높고 가운데가 낮은 모양)
- 의미: 데이터가 양쪽 극단적인 값에 많이 몰려 있고, 오히려 평균(중앙)에 해당하는 데이터는 적은 분포입니다. '양극화'된 데이터에서 주로 나타납니다.
- 예시:
- 고객 만족도 점수: "아주 만족" 또는 "아주 불만족"에 응답이 쏠리고, "보통"이라는 응답은 적은 경우.
- 게임 플레이 시간: 잠깐만 즐기는 라이트 유저와 아주 오래 즐기는 헤비 유저로 나뉘고, 중간 시간대 유저는 적은 경우.
dropna() 함수: 결측치 제거
정의:
dropna()는 데이터프레임에서 결측치(비어있는 값, NaN - Not a Number)가 포함된 행(row) 또는 열(column)을 제거하는 함수입니다.사용 이유: 데이터 분석이나 시각화를 할 때, 비어있는 값은 계산 오류를 일으키거나 그래프를 제대로 그릴 수 없게 만드는 원인이 될 수 있습니다. 따라서 분석 전에 미리 제거하거나 다른 값으로 채우는 전처리 과정이 필요합니다.
코드 분석:
titanic.dropna(subset=["Age"]).dropna(): 결측치를 제거하라는 명령어입니다.subset=["Age"]: 특정 열을 기준으로 결측치를 검사하도록 범위를 한정하는 옵션입니다.- 즉, "다른 열(ex: Cabin)에 결측치가 있더라도 상관하지 말고, 오직 'Age' 열의 값이 비어있는 행만 찾아서 제거하라"는 의미입니다.
전체 코드 해석:
sns.boxplot(x="Sex", y="Age", data=titanic.dropna(subset=["Age"]))- 타이타닉 데이터셋에서 'Age' 정보가 없는 승객 데이터를 전부 제외하고, 나이 정보가 있는 승객들의 데이터만을 사용하여 성별에 따른 나이 분포를 박스 플롯으로 그립니다.
데이터 분석 예시: 월별 평균 자전거 대여량 분석
- 분석 목표: 자전거 대여 데이터를 사용하여, 월별 평균 대여량을 계산하고 막대그래프로 시각화하여 계절에 따른 수요 변화를 파악합니다.
groupby() 함수의 이해
- 정의:
groupby()는 데이터를 특정 기준(예: 월별)으로 묶어서 그룹으로 만드는 함수입니다. - 목적: 각 그룹별로 합계, 평균, 개수 등과 같은 통계치를 계산할 때 매우 유용합니다. 엑셀의 '피벗 테이블' 기능과 유사한 역할을 합니다.
- 작동 방식:
데이터.groupby("기준열")["계산할열"].계산함수()bike.groupby("month"): 데이터를 'month' 열의 값(1월, 2월,...)에 따라 여러 그룹으로 묶습니다.["count"]: 각 그룹 내에서 'count'(대여량) 열을 선택합니다..mean(): 선택된 'count' 열의 평균을 그룹별로 계산합니다.
코드 단계별 설명
날짜 데이터 전처리:
bike["month"] = pd.to_datetime(bike ["datetime"]). dt.month- 'datetime' 문자열을 날짜/시간 데이터 타입으로 변환한 후,
.dt.month를 사용해 '월' 정보만 추출하여 새로운 'month' 열을 만듭니다.
월별 평균 대여량 계산:
monthly_mean = bike.groupby("month")["count"].mean()groupby를 사용해 1월부터 12월까지 각 월별로 'count' 데이터의 평균을 계산합니다.
시각화:
monthly_mean.plot(kind="bar")- 위에서 계산한 월별 평균 대여량 데이터를 막대그래프(
bar) 형태로 그립니다.
계절에 따른 수요 차이 (결과 해석 예시)
- 이 그래프를 통해 일반적으로 다음과 같은 경향을 예상하고 확인할 수 있습니다.
- 봄(3-5월), 가을(9-11월): 날씨가 온화하여 자전거 타기에 좋기 때문에 대여량이 높게 나타나는 경향이 있습니다.
- 여름(6-8월): 날씨가 너무 덥거나 장마가 있을 경우, 대여량이 봄/가을보다 다소 감소할 수 있습니다.
- 겨울(12-2월): 날씨가 춥고 눈이 올 수 있어 야외 활동이 줄어들기 때문에 대여량이 가장 낮게 나타나는 경향이 있습니다.
데이터프레임 내용 확인하기: .head()
문제 상황:
DataFrame.show()코드를 실행했을 때AttributeError오류가 발생하는 경우.- 원인: Pandas 데이터프레임에는
. show()라는 기능이 없습니다. 이는 다른 데이터 분석 도구(예: Spark)에서 사용하는 명령어로, 혼동하기 쉽습니다.
- 원인: Pandas 데이터프레임에는
해결책: Pandas에서는 데이터의 내용을 확인하기 위해 다음과 같은 함수들을 사용합니다.
.head(n)(가장 중요하고 많이 사용)- 데이터프레임의 앞부분
n개의 행을 보여줍니다. n을 생략하면 기본값으로 5개의 행을 보여줍니다.- 사용 예:
bike.head()
- 데이터프레임의 앞부분
.tail(n)- 데이터프레임의 뒷부분
n개의 행을 보여줍니다. - 데이터가 잘 불러와졌는지 마지막 부분을 확인할 때 유용합니다.
- 사용 예:
bike.tail()
- 데이터프레임의 뒷부분
.sample(n)- 데이터프레임에서 무작위로
n개의 행을 샘플링하여 보여줍니다. - 데이터의 전반적인 구성을 편향 없이 훑어보고 싶을 때 유용합니다.
- 사용 예:
bike.sample(5)
- 데이터프레임에서 무작위로
중심 경향성 분석: 평균, 중앙값, 최빈값
정의
- 평균 (Mean): 모든 값을 더한 후 값의 개수로 나눈 값. 모든 데이터가 계산에 포함되므로, 아주 크거나 작은 값(이상치)에 영향을 많이 받습니다.
- 중앙값 (Median): 데이터를 크기순으로 정렬했을 때 정확히 가운데에 위치하는 값. 이상치의 영향을 거의 받지 않아 데이터의 중심을 안정적으로 나타낼 때 좋습니다.
- 최빈값 (Mode): 데이터에서 가장 자주 나타나는 값.
평균, 중앙값, 최빈값이 다른 이유: 분포의 비대칭성(왜도, Skewness)
- 데이터의 분포가 어느 한쪽으로 치우쳐 있으면 세 값은 달라집니다. 이 관계를 통해 데이터의 분포 모양을 짐작할 수 있습니다.
- 1. 좌우 대칭 분포 (예: 정규분포):
평균 ≈ 중앙값 ≈ 최빈값 - 2. 오른쪽 꼬리 분포 (소수의 큰 값 존재):
최빈값 < 중앙값 < 평균. 소수의 큰 값(이상치)이 평균을 오른쪽으로 끌어당깁니다. (예: 연봉, 소득 분포) - 3. 왼쪽 꼬리 분포 (소수의 작은 값 존재):
평균 < 중앙값 < 최빈값. 소수의 작은 값이 평균을 왼쪽으로 끌어당깁니다. (예: 조기 은퇴자가 포함된 은퇴 연령 분포)
.mode()함수 심화- Q: 최빈값이 여러 개일 수 있나요?
- A: 네, 가능합니다. 데이터에서 가장 높은 빈도를 가진 값이 여러 개일 수 있습니다. (예:
[1, 2, 2, 3, 3, 4]의 최빈값은 2와 3)
- A: 네, 가능합니다. 데이터에서 가장 높은 빈도를 가진 값이 여러 개일 수 있습니다. (예:
- Q:
.mode()는 왜 Series를 반환하나요?- A: 이처럼 최빈값이 여러 개일 수 있기 때문에, Pandas는 단일 값이 아닌 여러 값을 담을 수 있는
Series형태로 결과를 반환합니다.
- A: 이처럼 최빈값이 여러 개일 수 있기 때문에, Pandas는 단일 값이 아닌 여러 값을 담을 수 있는
- Q:
list(mode_age.values)는 무엇인가요?- A:
.mode()의 결과인 Series에서 실제 값들만(values) 꺼내어, 보기 쉬운 파이썬 리스트(list)로 변환하는 코드입니다.
- A:
- Q: 최빈값이 여러 개일 수 있나요?
시각화 오류: AttributeError (오타 주의)
- 문제 상황:
plt.xlable("count")와 같은 코드를 실행했을 때AttributeError: module 'matplotlib.pyplot' has no attribute 'xlable'오류가 발생하는 경우.- 원인: 단순 오타입니다.
matplotlib.pyplot에는xlable이나ylable이라는 함수가 없습니다. - 해결책: 정확한 함수명인
xlabel과ylabel로 수정해야 합니다.plt.xlable()(X) ->plt.xlabel()(O)plt.ylable()(X) ->plt.ylabel()(O)
- 원인: 단순 오타입니다.
히스토그램 vs. KDE Plot
- KDE Plot의 장점
- 부드러운 표현: 히스토그램의 각진 막대보다 부드러운 곡선으로 데이터의 전체적인 분포 모양을 더 직관적으로 파악할 수 있습니다.
- 구간(bin) 설정 불필요: 히스토그램은
bins값에 따라 모양이 크게 달라지지만, KDE는bins설정이 필요 없어 더 일관된 분포를 보여줍니다.
심화 분석: 객실 등급별 생존율 분석
- 분석 목표: 타이타닉호의 객실 등급(
Pclass)이 생존율(Survived)에 어떤 영향을 미쳤는지 계산하고 시각화합니다.
groupby().mean()을 이용한 비율 계산 Tip
- 'Survived' 열처럼 성공(1)과 실패(0)로 이루어진 데이터에서
mean()(평균)을 계산하면, 그 결과는 성공(1)의 비율과 같습니다. - 예를 들어, 5명 중 2명이 생존한 그룹
[1, 1, 0, 0, 0]의 평균은(1+1+0+0+0)/5 = 0.4이며, 이는 생존율 40%와 동일합니다. - 따라서
titanic.groupby("Pclass")["Survived"].mean()코드는 Pclass 그룹별로 생존율을 매우 효율적으로 계산합니다.
plt.ylim() 함수
- 정의: Y축(y-axis)의 표시 범위(limit)를 직접 지정하는 함수입니다.
- 사용 예:
plt.ylim(0, 1)은 Y축의 범위를 0부터 1까지로 고정합니다. - 사용 이유: 생존율, 만족도 등과 같이 비율을 나타내는 데이터는 항상 0과 1(또는 0%와 100%) 사이의 값을 가집니다. 축 범위를
(0, 1)로 고정하면, 보는 사람이 해당 값을 비율로 더 명확하게 인식할 수 있고, 자동 축 설정으로 인한 왜곡을 방지할 수 있습니다.
결과 해석
- 어떤 등급일수록 생존율이 높았는가?
- 그래프를 보면 1등급(Pclass=1) 객실의 생존율이 가장 높고, 2등급, 3등급 순으로 생존율이 낮아지는 것을 확인할 수 있습니다.
- 이는 비상 상황에서 1등급 승객들이 구명보트에 접근하기 더 용이했음을 시사하는, 타이타닉 데이터 분석에서 가장 대표적인 발견 중 하나입니다.
Jupyter Notebook 유용한 단축키: 함수 설명 보기
- 단축키:
Shift + Tab(Windows, Mac 공통) - 사용법:
- 설명을 보고 싶은 함수의 괄호
()안에 마우스 커서를 위치시킵니다. Shift + Tab키를 누릅니다.
- 설명을 보고 싶은 함수의 괄호
- 추가 팁:
- 한 번 누르기: 간략한 설명
- 두 번 누르기: 자세한 설명
- 네 번 누르기: 화면 하단에 고정된 설명창 표시 (매우 유용)
- 원리: 이 기능은 함수에 내장된 공식 설명서(Docstring)를 보여주는 것으로,
kdeplot의fill파라미터처럼 함수의 모든 기능과 옵션을 확인할 수 있습니다.
'AI 엔지니어 부트캠프 > 파이썬 데이터 분석 기초와 머신 러닝 기초' 카테고리의 다른 글
| 펭귄 데이터셋 EDA_데이터분석.ipynb (0) | 2025.10.02 |
|---|---|
| DataFrame 마스터하기 (0) | 2025.10.01 |
| 데이터 사이언스 Toolkit (0) | 2025.09.30 |
| 문자열 압축 게임 (0) | 2025.09.26 |
| 2025.09.26(화) - 1주 2일차 강의 복습 (3) - 객체와 클래스 (0) | 2025.09.26 |