WjExplor Story

위클리 페이퍼 진행_2025.10.13 본문

AI 엔지니어 부트캠프/파이썬 데이터 분석 기초와 머신 러닝 기초

위클리 페이퍼 진행_2025.10.13

더블유제이플로어 2025. 10. 13. 00:44

Q. 선형대수학이란 어떤 학문이며, 왜 머신러닝에 필요한지 설명해 보세요.

선형대수학은 벡터 공간과 벡터 공간 사이의 선형 변환을 연구하는 수학 분야입니다.

벡터, 행렬 그리고 연산을 통해 데이터 구조와 관계를 분석합니다.

 

벡터와 행렬은 각각 숫자의 나열 혹은 숫자의 묶음이라고 할 수 있습니다.

- 벡터는 크기와 방향을 가진 양으로 숫자가 가로나, 세로로 나열되어 있습니다. 1차원 배열이라고 부릅니다.

- 행렬은 벡터들이 묶여있는 직사각형 형태로 배열되어 있습니다. 2차원 배열이라고 부릅니다.

 

- 선형대수학에서는 두 가지 연산 기능을 가장 중요하게 여깁니다. 덧셈 그리고 스케일링(Scaling)

스케일링은 곱하기와 유사하지만 다른 점이 있다. 스케일링은 스칼라 곱으로 스칼라(숫자)와 벡터/행렬을 곱합니다.

벡터/행렬의 크기만 조절이 되며 방향은 그대로입니다.

기존 연산의 곱하기는 벡터와 벡터를 곱해서 새로운 스칼라(숫자)가 나오는 형태입니다.

 

머신러닝은 데이터를 수학적으로 표현하고 분석하는 과정입니다. 데이터는 벡터, 행렬, 텐서(다차원 배열) 형태로 표현됩니다.

머신러닝의 새로운 모델을 설계하거나 기존 모델을 최적화하기 위해서는 선형대수학을 알면 편리합니다.

 

 Q. EDA(Exploaratory Data Analysis) 란 무엇인가요?

EDA 탐색적 분석은 기존 통계학이 정보 추출에서 가설 검정들에 치우쳐 자료가 가지고 있는 본연의 의미를 찾는데 어려움이 있기에

이를 보완하고자 여러 가지 탐색적 자료 분석 방법을 개발입니다.

EDA 주요 목표는 데이터의 분포나 값을 확인하여 분석을 기반을 잡는 역할을 합니다.

시각화도 중요한 역할을 하며 히스토그램, 막대그래프, 박스플롯 등을 통해 데이터의 분포도, 중심 경향, 이상치를 시작적으로 확인합니다.

 

Q. 대표적인 데이터 전처리 방법인 결측값, 중복값, 이상치 처리에 대해 각각 설명해 주세요.

데이터 분석을 위한 깔끔한 데이터가 필요하기 위해서 데이터 전처리를 시작해야 합니다.

결측값 (missing values) : 데이터가 입력되지 않는 빈 값을 의미합니다.

중복값(duplicates) : 동일한 데이터가 여러 번 기록되었는지 확인합니다.

이상점(outliers): 다른 값들과 동떨어진 극단적인 값을 확인합니다.

데이터 분석단계에서 분석의 목적과 변수가 무엇인지 확인하고 최적의 방법은 무엇인지 포함되어야 합니다.


결측치, 중복값, 이상치를 어떻게 처리할까?

결측치를 처리하기 위해서는 EDA 를 확인해서 결정해야한다.

초등학교 교실 등 나이를 확인할때 그룹별 나이가 파악이 된다면 평균치를 놔도 괜찮은 방안이다.

결측치는 크게 중요하지 않는 데이터면 버려도 되고,  아니면 채워서

행을 버리는 경우, 열을 버리는 경우

중복 데이터는 제거하는게 좋다. pandas 에서 duplication

이상치는 박스플롯을 그려 이상치로 표시되는 것들을 제거할 수 있다.

초등학교 교실에서 나이를 확인할때 담임선생님 나이는 이상치가 나온다.

하지만 담임선생님이 이상치는 아니다. 유의미한 데이터이다.

농산물에서 이상치는 kg , t(톤) 단위는 단위 복구를 해서 이상치를 해결 될 수 있다.

이상치나 결측값은 어떻게 해야할지 정해진 방법은 없기에 데이터를 정확하게 분석하여 진행하는게 좋다.