Notice

Recent Posts

Recent Comments

Link

« 2026/04 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

WjExplor Story

기초 통계와 데이터 시각화 본문

AI 엔지니어 부트캠프/파이썬 데이터 분석 기초와 머신 러닝 기초

기초 통계와 데이터 시각화

더블유제이플로어 2025. 10. 1. 19:03

데이터의 종류

1. 수치형 데이터 (Numerical Data)

숫자로 표현되며, 양적인 크기를 나타내는 데이터입니다.

1-1. 이산형 데이터 (Discrete Data)

정의: 값이 하나씩 떨어져 있어 셀 수 있는 데이터 (주로 정수).
특징: 값과 값 사이에 다른 값이 존재할 수 없음.
예시: 사람의 수 (0.5명은 없음), 주사위 눈금, 자동차 사고 건수
시각화: 막대그래프

1-2. 연속형 데이터 (Continuous Data)

정의: 특정 범위 안에서 어떤 값이든 가질 수 있는 데이터 (주로 실수).
특징: 값과 값 사이에 무한히 많은 다른 값이 존재할 수 있음.
예시: 키, 몸무게, 온도, 시간 (e.g., 키 171cm는 실제로는 171.042... cm일 수 있음)
시각화: 히스토그램, 분포 그래프 (모자 모양 그래프)

2. 범주형 데이터 (Categorical Data)

몇 개의 범주나 그룹으로 분류할 수 있는 데이터입니다.

2-1. 순서형 데이터 (Ordinal Data)

정의: 범주 사이에 명확한 순서나 서열이 존재하는 데이터.
예시: 학점 (A > B > C), 만족도 (좋음, 보통, 나쁨), 군대 계급
특징: 순서는 있지만, 각 순서 사이의 간격이 일정하지는 않을 수 있음.

2-2. 명목형 데이터 (Nominal Data)

정의: 범주 사이에 순서나 서열이 없는 단순 분류 데이터.
예시: 혈액형 (A, B, O, AB), 성별 (남, 여), 국가
특징: 각 범주는 동등한 관계임.

히스토그램(Histogram)과 정규분포(Normal Distribution)

히스토그램 (Histogram)

정의: 수치형 데이터(특히 연속형 데이터)의 분포를 시각적으로 표현하는 막대그래프의 한 종류입니다.
작동 방식: 데이터의 전체 범위를 여러 개의 작은 구간(bins)으로 나눕니다. 그리고 각 구간에 속하는 데이터가 몇 개인지 세어서, 그 개수를 막대의 높이로 나타냅니다.
목적: 데이터가 어디에 집중되어 있는지, 어떻게 퍼져 있는지, 대칭적인지 등 데이터의 전체적인 형태를 파악하는 데 사용됩니다.

정규분포 (Normal Distribution) - "종 모양 그래프"

정의: 히스토그램을 그렸을 때, 데이터가 평균값을 중심으로 좌우 대칭적인 종(bell) 모양을 이루는 분포를 말합니다. 통계학에서 가장 중요하고 흔하게 발견되는 분포 형태입니다.
특징:
1. 대칭성: 평균(mean)을 기준으로 완벽한 좌우 대칭을 이룹니다.
2. 중심 집중: 데이터의 대부분이 평균값 근처에 몰려 있습니다.
3. 평균 = 중앙값 = 최빈값: 분포의 정중앙에 평균, 중앙값(데이터를 순서대로 나열했을 때 가운데 값), 최빈값(가장 자주 나오는 값)이 모두 위치합니다.
"자연에서 흔히 발견되는 이유":
- 많은 자연 현상이나 사회 현상들은 서로 독립적인 여러 가지 무작위 요인들의 합으로 나타나는 경우가 많기 때문입니다.
- 예시:
  - 사람들의 키: 유전, 영양, 환경 등 수많은 요인들이 복합적으로 작용한 결과, 대부분의 사람들은 평균 키 주변에 분포하고, 아주 크거나 작은 사람은 드뭅니다.
  - 제품의 무게: 생산 공정에서 발생하는 미세한 오차들이 더해져, 대부분의 제품은 평균 무게를 가지게 됩니다.
  - 시험 성적: 학생들의 지능, 노력, 컨디션 등 여러 요인이 합쳐져 성적이 매겨지면, 보통 평균 점수대에 가장 많은 학생이 몰립니다.

박스 플롯 (Box Plot) - 상자 수염 그림

정의: 데이터의 분포를 시각적으로 요약하여 보여주는 그래프. 데이터의 5가지 주요 수치(Five-number summary)를 사용하여 데이터의 중심, 퍼진 정도, 이상치 등을 한눈에 파악할 수 있게 해 줍니다.
박스 플롯의 구성 요소:
1. 중앙값 (Median, 제2사분위수 Q2):
  - 상자 안의 선. 전체 데이터를 순서대로 나열했을 때 정확히 가운데에 위치하는 값 (50% 지점).
2. 상자 (Box):
  - 아래쪽 경계 (제1사분위수 Q1): 데이터의 25% 지점.
  - 위쪽 경계 (제3사분위수 Q3): 데이터의 75% 지점.
  - 상자의 높이 (IQR, Interquartile Range): Q3 - Q1. 데이터의 중간 50%가 이 상자 안에 포함되며, 데이터가 얼마나 퍼져있는지를 나타내는 중요한 척도.
3. 수염 (Whiskers):
  - 상자 위아래로 뻗어 나가는 선. 일반적으로 데이터의 전체적인 범위를 보여줌.
  - 보통 Q1 - 1.5 * IQR 와 Q3 + 1.5 * IQR 범위 내에 있는 값들을 나타냄.
4. 이상치 (Outliers):
  - 수염의 범위를 벗어나는 점들. 다른 데이터에 비해 유난히 크거나 작은 값들을 의미하며, 분석 시 특별한 주의가 필요할 수 있음.
박스 플롯이 중요한 이유:
1. 데이터 요약: 평균, 중앙값, 분산 등 여러 통계량을 하나의 그래프로 압축해서 보여주므로 데이터의 특징을 빠르게 파악할 수 있다.
2. 그룹 간 비교에 탁월: sns.boxplot(x="Sex", y="Age", data=titanic) 예시처럼, 여러 그룹(남성/여성)의 데이터 분포를 나란히 놓고 쉽게 비교할 수 있다. 각 그룹의 중앙값, 퍼진 정도, 이상치 차이를 한눈에 볼 수 있다.
3. 이상치 탐지: 어떤 값이 일반적인 범위를 벗어나는지 명확하게 보여준다.

IQR (Interquartile Range, 사분위수 범위) 심화 설명

정의: IQR은 '사분위수 범위'를 의미하며, 제3사분위수(Q3)에서 제1사분위수(Q1)를 뺀 값입니다.
- IQR = Q3 - Q1
의미: 데이터의 중간 50%가 얼마나 넓게 퍼져 있는지를 나타내는 '퍼짐의 정도'에 대한 핵심 지표입니다. 즉, 박스 플롯에서 상자의 높이 그 자체입니다.
- IQR이 크다: 데이터의 중간 50%가 넓게 퍼져있다. (값들의 편차가 크다)
- IQR이 작다: 데이터의 중간 50%가 중앙값을 중심으로 좁게 모여있다. (값들의 편차가 작다)
IQR이 중요한 이유 (특히 전체 범위(Range)나 표준편차와 비교했을 때):
1. 이상치(Outlier)에 강하다 (Robust to Outliers):
  - 데이터의 전체 범위(최댓값 - 최솟값)는 이상치가 하나만 있어도 그 값이 극단적으로 커지거나 작아질 수 있습니다.
  - 하지만 IQR은 데이터의 양 끝 25%를 제외하고 오직 중앙의 50% 데이터만을 사용하기 때문에, 극단적인 이상치가 있어도 값에 거의 영향을 받지 않습니다.
  - 따라서 데이터의 '일반적인' 퍼짐 정도를 더 안정적으로 나타낼 수 있습니다.
2. 이상치를 정의하는 기준이 됨:
  - 박스 플롯에서 어디까지를 정상 범위로 보고, 어디부터를 이상치로 판단할지 결정하는 데 IQR이 사용됩니다.
  - 일반적으로 Q1 - 1.5 * IQR 보다 작거나 Q3 + 1.5 * IQR 보다 큰 값들을 이상치로 간주합니다.

KDE Plot (Kernel Density Estimate) - 확률 밀도 함수

정의: 히스토그램을 부드러운 곡선으로 표현한 그래프로, 연속적인 데이터의 확률 밀도(Probability Density)를 추정하여 보여줍니다.
작동 원리 (간단한 비유):
1. 각각의 데이터 포인트 위에 작은 언덕(Kernel)을 하나씩 놓는다고 상상합니다.
2. 이 모든 언덕들을 합쳐서 전체적인 산맥의 능선(부드러운 곡선)을 그립니다.
3. 데이터가 밀집된 곳은 언덕이 많이 겹쳐져 높은 산맥이 되고, 데이터가 드문드문 있는 곳은 낮은 언덕이 됩니다.
히스토그램과의 차이점:
- 히스토그램: 데이터를 특정 구간(bin)으로 나누어 계단 형태로 표현. 구간을 어떻게 나누느냐에 따라 모양이 달라질 수 있음.
- KDE 플롯: 구간(bin)의 개념 없이, 데이터의 분포를 매끄러운 곡선으로 표현하여 더 직관적이고 부드러운 분포 형태를 보여줌.
그래프 해석:
- X축: 데이터의 값.
- Y축: 확률 밀도 (주의: 개수나 확률이 아님). 곡선 아래의 면적이 해당 구간에 데이터가 포함될 확률을 의미합니다. (전체 면적의 합은 1)
- 그래프의 높은 곳 (Peak): 데이터가 가장 많이 몰려있는 구간.

Seaborn 라이브러리 `FutureWarning` 관련

경고 메시지: FutureWarning: shade is now deprecated in favor of fill; setting fill=True.
의미: Seaborn 시각화 라이브러리(보통 sns로 사용)에서 KDE 플롯 등을 그릴 때, 곡선 아래 영역을 색칠하던 shade라는 파라미터의 이름이 fill로 변경되었습니다.
현재: shade=True를 써도 경고만 뜨고 작동은 되지만, 이는 구버전 방식입니다.
미래: Seaborn 0.14.0 버전부터는 shade를 사용하면 아예 오류가 발생할 것입니다.
해결책: 코드에서 shade=True 부분을 fill=True로 수정해야 합니다.
- (X) 이전 코드: sns.kdeplot(data=df['Age'], shade=True)
- (O) 수정 코드: sns.kdeplot(data=df['Age'], fill=True)

`sns.histplot`으로 그룹별 분포 비교하기

코드 예시: sns.histplot(data=titanic, x="Age", hue="Sex", bins=20, kde=True)
목적: 히스토그램을 사용하여 특정 그룹(예: 성별)에 따라 데이터(예: 나이)의 분포가 어떻게 다른지 비교합니다.
주요 파라미터 설명:
- data=titanic: 사용할 데이터프레임을 지정합니다.
- x="Age": 분포를 확인할 데이터 열(x축)을 지정합니다.
- hue="Sex": 비교하고 싶은 그룹(범주형) 열을 지정합니다. 이 옵션을 사용하면 'Sex'의 각 값('male', 'female')에 대해 별도의 색상으로 구분된 히스토그램이 그려집니다.
- bins=20: 히스토그램의 막대(구간) 개수를 20개로 설정합니다.
- kde=True: 히스토그램 위에 KDE(확률 밀도 곡선)를 함께 그려 분포의 형태를 더 부드럽게 파악할 수 있도록 돕습니다.

"종 모양" vs "뒤집어진 종 모양" 분포 설명

중요: "종을 뒤집은 모양"은 정규분포가 아닙니다. 두 분포는 데이터가 집중된 위치가 정반대입니다.

1. 정규분포 (Normal Distribution) = "종 모양"

모양: 일반적인 종(Bell) 모양의 그래프입니다.
의미: 데이터가 평균(중앙)에 가장 많이 몰려 있고, 양쪽 끝으로 갈수록 데이터의 수가 적어지는 분포입니다.
예시: 사람들의 키, 시험 성적 등 (대부분 평균에 가깝고, 아주 크거나 작은 경우는 드묾)

2. U자형 분포 (U-shaped Distribution) = "뒤집어진 종 모양"

모양: 종을 뒤집어 놓은 것 같은 U자 형태의 그래프입니다. (양쪽 끝이 높고 가운데가 낮은 모양)
의미: 데이터가 양쪽 극단적인 값에 많이 몰려 있고, 오히려 평균(중앙)에 해당하는 데이터는 적은 분포입니다. '양극화'된 데이터에서 주로 나타납니다.
예시:
- 고객 만족도 점수: "아주 만족" 또는 "아주 불만족"에 응답이 쏠리고, "보통"이라는 응답은 적은 경우.
- 게임 플레이 시간: 잠깐만 즐기는 라이트 유저와 아주 오래 즐기는 헤비 유저로 나뉘고, 중간 시간대 유저는 적은 경우.

`dropna()` 함수: 결측치 제거

정의: dropna()는 데이터프레임에서 결측치(비어있는 값, NaN - Not a Number)가 포함된 행(row) 또는 열(column)을 제거하는 함수입니다.
사용 이유: 데이터 분석이나 시각화를 할 때, 비어있는 값은 계산 오류를 일으키거나 그래프를 제대로 그릴 수 없게 만드는 원인이 될 수 있습니다. 따라서 분석 전에 미리 제거하거나 다른 값으로 채우는 전처리 과정이 필요합니다.
코드 분석: titanic.dropna(subset=["Age"])
- .dropna(): 결측치를 제거하라는 명령어입니다.
- subset=["Age"]: 특정 열을 기준으로 결측치를 검사하도록 범위를 한정하는 옵션입니다.
  - 즉, "다른 열(ex: Cabin)에 결측치가 있더라도 상관하지 말고, 오직 'Age' 열의 값이 비어있는 행만 찾아서 제거하라"는 의미입니다.
전체 코드 해석: sns.boxplot(x="Sex", y="Age", data=titanic.dropna(subset=["Age"]))
- 타이타닉 데이터셋에서 'Age' 정보가 없는 승객 데이터를 전부 제외하고, 나이 정보가 있는 승객들의 데이터만을 사용하여 성별에 따른 나이 분포를 박스 플롯으로 그립니다.

데이터 분석 예시: 월별 평균 자전거 대여량 분석

분석 목표: 자전거 대여 데이터를 사용하여, 월별 평균 대여량을 계산하고 막대그래프로 시각화하여 계절에 따른 수요 변화를 파악합니다.

`groupby()` 함수의 이해

정의: groupby()는 데이터를 특정 기준(예: 월별)으로 묶어서 그룹으로 만드는 함수입니다.
목적: 각 그룹별로 합계, 평균, 개수 등과 같은 통계치를 계산할 때 매우 유용합니다. 엑셀의 '피벗 테이블' 기능과 유사한 역할을 합니다.
작동 방식: 데이터.groupby("기준열")["계산할열"].계산함수()
- bike.groupby("month"): 데이터를 'month' 열의 값(1월, 2월,...)에 따라 여러 그룹으로 묶습니다.
- ["count"]: 각 그룹 내에서 'count'(대여량) 열을 선택합니다.
- .mean(): 선택된 'count' 열의 평균을 그룹별로 계산합니다.

코드 단계별 설명

날짜 데이터 전처리:
- bike["month"] = pd.to_datetime(bike ["datetime"]). dt.month
- 'datetime' 문자열을 날짜/시간 데이터 타입으로 변환한 후, .dt.month를 사용해 '월' 정보만 추출하여 새로운 'month' 열을 만듭니다.
월별 평균 대여량 계산:
- monthly_mean = bike.groupby("month")["count"].mean()
- groupby를 사용해 1월부터 12월까지 각 월별로 'count' 데이터의 평균을 계산합니다.
시각화:
- monthly_mean.plot(kind="bar")
- 위에서 계산한 월별 평균 대여량 데이터를 막대그래프(bar) 형태로 그립니다.

계절에 따른 수요 차이 (결과 해석 예시)

이 그래프를 통해 일반적으로 다음과 같은 경향을 예상하고 확인할 수 있습니다.
- 봄(3-5월), 가을(9-11월): 날씨가 온화하여 자전거 타기에 좋기 때문에 대여량이 높게 나타나는 경향이 있습니다.
- 여름(6-8월): 날씨가 너무 덥거나 장마가 있을 경우, 대여량이 봄/가을보다 다소 감소할 수 있습니다.
- 겨울(12-2월): 날씨가 춥고 눈이 올 수 있어 야외 활동이 줄어들기 때문에 대여량이 가장 낮게 나타나는 경향이 있습니다.

데이터프레임 내용 확인하기: `.head()`

문제 상황: DataFrame.show() 코드를 실행했을 때 AttributeError 오류가 발생하는 경우.
- 원인: Pandas 데이터프레임에는 . show()라는 기능이 없습니다. 이는 다른 데이터 분석 도구(예: Spark)에서 사용하는 명령어로, 혼동하기 쉽습니다.
해결책: Pandas에서는 데이터의 내용을 확인하기 위해 다음과 같은 함수들을 사용합니다.
1. .head(n) (가장 중요하고 많이 사용)
  - 데이터프레임의 앞부분 n개의 행을 보여줍니다.
  - n을 생략하면 기본값으로 5개의 행을 보여줍니다.
  - 사용 예: bike.head()
2. .tail(n)
  - 데이터프레임의 뒷부분 n개의 행을 보여줍니다.
  - 데이터가 잘 불러와졌는지 마지막 부분을 확인할 때 유용합니다.
  - 사용 예: bike.tail()
3. .sample(n)
  - 데이터프레임에서 무작위로 n개의 행을 샘플링하여 보여줍니다.
  - 데이터의 전반적인 구성을 편향 없이 훑어보고 싶을 때 유용합니다.
  - 사용 예: bike.sample(5)

중심 경향성 분석: 평균, 중앙값, 최빈값

정의
- 평균 (Mean): 모든 값을 더한 후 값의 개수로 나눈 값. 모든 데이터가 계산에 포함되므로, 아주 크거나 작은 값(이상치)에 영향을 많이 받습니다.
- 중앙값 (Median): 데이터를 크기순으로 정렬했을 때 정확히 가운데에 위치하는 값. 이상치의 영향을 거의 받지 않아 데이터의 중심을 안정적으로 나타낼 때 좋습니다.
- 최빈값 (Mode): 데이터에서 가장 자주 나타나는 값.
평균, 중앙값, 최빈값이 다른 이유: 분포의 비대칭성(왜도, Skewness)
- 데이터의 분포가 어느 한쪽으로 치우쳐 있으면 세 값은 달라집니다. 이 관계를 통해 데이터의 분포 모양을 짐작할 수 있습니다.
- 1. 좌우 대칭 분포 (예: 정규분포): 평균 ≈ 중앙값 ≈ 최빈값
- 2. 오른쪽 꼬리 분포 (소수의 큰 값 존재): 최빈값 < 중앙값 < 평균. 소수의 큰 값(이상치)이 평균을 오른쪽으로 끌어당깁니다. (예: 연봉, 소득 분포)
- 3. 왼쪽 꼬리 분포 (소수의 작은 값 존재): 평균 < 중앙값 < 최빈값. 소수의 작은 값이 평균을 왼쪽으로 끌어당깁니다. (예: 조기 은퇴자가 포함된 은퇴 연령 분포)
.mode() 함수 심화
- Q: 최빈값이 여러 개일 수 있나요?
  - A: 네, 가능합니다. 데이터에서 가장 높은 빈도를 가진 값이 여러 개일 수 있습니다. (예: [1, 2, 2, 3, 3, 4]의 최빈값은 2와 3)
- Q: .mode()는 왜 Series를 반환하나요?
  - A: 이처럼 최빈값이 여러 개일 수 있기 때문에, Pandas는 단일 값이 아닌 여러 값을 담을 수 있는 Series 형태로 결과를 반환합니다.
- Q: list(mode_age.values)는 무엇인가요?
  - A: .mode()의 결과인 Series에서 실제 값들만(values) 꺼내어, 보기 쉬운 파이썬 리스트(list)로 변환하는 코드입니다.

시각화 오류: `AttributeError` (오타 주의)

문제 상황: plt.xlable("count")와 같은 코드를 실행했을 때 AttributeError: module 'matplotlib.pyplot' has no attribute 'xlable' 오류가 발생하는 경우.
- 원인: 단순 오타입니다. matplotlib.pyplot에는 xlable이나 ylable이라는 함수가 없습니다.
- 해결책: 정확한 함수명인 xlabel과 ylabel로 수정해야 합니다.
  - plt.xlable() (X) -> plt.xlabel() (O)
  - plt.ylable() (X) -> plt.ylabel() (O)

히스토그램 vs. KDE Plot

KDE Plot의 장점
1. 부드러운 표현: 히스토그램의 각진 막대보다 부드러운 곡선으로 데이터의 전체적인 분포 모양을 더 직관적으로 파악할 수 있습니다.
2. 구간(bin) 설정 불필요: 히스토그램은 bins 값에 따라 모양이 크게 달라지지만, KDE는 bins 설정이 필요 없어 더 일관된 분포를 보여줍니다.

심화 분석: 객실 등급별 생존율 분석

분석 목표: 타이타닉호의 객실 등급(Pclass)이 생존율(Survived)에 어떤 영향을 미쳤는지 계산하고 시각화합니다.

`groupby().mean()`을 이용한 비율 계산 Tip

'Survived' 열처럼 성공(1)과 실패(0)로 이루어진 데이터에서 mean()(평균)을 계산하면, 그 결과는 성공(1)의 비율과 같습니다.
예를 들어, 5명 중 2명이 생존한 그룹 [1, 1, 0, 0, 0]의 평균은 (1+1+0+0+0)/5 = 0.4이며, 이는 생존율 40%와 동일합니다.
따라서 titanic.groupby("Pclass")["Survived"].mean() 코드는 Pclass 그룹별로 생존율을 매우 효율적으로 계산합니다.

`plt.ylim()` 함수

정의: Y축(y-axis)의 표시 범위(limit)를 직접 지정하는 함수입니다.
사용 예: plt.ylim(0, 1)은 Y축의 범위를 0부터 1까지로 고정합니다.
사용 이유: 생존율, 만족도 등과 같이 비율을 나타내는 데이터는 항상 0과 1(또는 0%와 100%) 사이의 값을 가집니다. 축 범위를 (0, 1)로 고정하면, 보는 사람이 해당 값을 비율로 더 명확하게 인식할 수 있고, 자동 축 설정으로 인한 왜곡을 방지할 수 있습니다.

결과 해석

어떤 등급일수록 생존율이 높았는가?
- 그래프를 보면 1등급(Pclass=1) 객실의 생존율이 가장 높고, 2등급, 3등급 순으로 생존율이 낮아지는 것을 확인할 수 있습니다.
- 이는 비상 상황에서 1등급 승객들이 구명보트에 접근하기 더 용이했음을 시사하는, 타이타닉 데이터 분석에서 가장 대표적인 발견 중 하나입니다.

Jupyter Notebook 유용한 단축키: 함수 설명 보기

단축키: Shift + Tab (Windows, Mac 공통)
사용법:
1. 설명을 보고 싶은 함수의 괄호 () 안에 마우스 커서를 위치시킵니다.
2. Shift + Tab 키를 누릅니다.
추가 팁:
- 한 번 누르기: 간략한 설명
- 두 번 누르기: 자세한 설명
- 네 번 누르기: 화면 하단에 고정된 설명창 표시 (매우 유용)
원리: 이 기능은 함수에 내장된 공식 설명서(Docstring)를 보여주는 것으로, kdeplot의 fill 파라미터처럼 함수의 모든 기능과 옵션을 확인할 수 있습니다.

'AI 엔지니어 부트캠프 > 파이썬 데이터 분석 기초와 머신 러닝 기초' 카테고리의 다른 글

펭귄 데이터셋 EDA_데이터분석.ipynb (0)	2025.10.02
DataFrame 마스터하기 (0)	2025.10.01
데이터 사이언스 Toolkit (0)	2025.09.30
문자열 압축 게임 (0)	2025.09.26
2025.09.26(화) - 1주 2일차 강의 복습 (3) - 객체와 클래스 (0)	2025.09.26

'AI 엔지니어 부트캠프/파이썬 데이터 분석 기초와 머신 러닝 기초' Related Articles