목차
1. 개요
2. 정규분포(Normal Distribution)
3. 왜도(Skewness)
4. 첨도(Kurtosis)
1. 개요
데이터 분석에는 데이터의 중심 경향(평균, 중앙값, 최빈값) 뿐만 아니라, 데이터가 어떤 형태의 분포인지 이해하는 것이 중요하다.
데이터 분포는 데이터가 어떤 형태로 퍼져 있는지를 나타내며, 대표적으로 정규분포(Normal Distribution)가 있다.
또한, 데이터가 특정 방향으로 치우쳐 있는 정도를 나타내는 왜도(Skewness), 데이터 분포의 뾰족한 정도를 나타내는 첨도(Kurtosis)를 통해 데이터의 분포 특성을 보다 자세히 분석할 수 있다.
머신러닝에서는 데이터 분포가 모델의 성능에 큰 영향을 미치기 때문에, 데이터 분포를 이해하고 적절한 전처리를 수행하는 것이 중요하다.
2. 정규분포(Normal Distribution)
정규분포는 통계학에서 가장 중요한 확률 분포 중 하나로, 그래프 형태가 종 모양(Bell Shape)을 나타내는 것이 특징이다.
데이터가 평균을 중심으로 좌우 대칭을 이루는 종 모양의 분포이다.
정규분포의 그래프는 다음과 같은 특징을 가진다.
- 데이터가 평균을 중심으로 좌우 대칭을 이룬다.
- 평균, 중앙값, 최빈값이 모두 동일한 위치에 존재한다.
- 평균을 중심으로 데이터가 가장 많이 분포한다.
정규분포의 68-95-99.7 법칙은 다음과 같다.
- 데이터의 68%는 평균 ±1 표준편차 내에 있다.
- 데이터의 95%는 평균 ±2 표준편차 내에 있다.
- 데이터의 99.7%는 평균 ±3 표준편차 내에 존재한다.
정규분포는 자연현상, 시험 점수, 키와 몸무게 등 많은 실제 데이터에서 자주 나타나는 분포 형태이다.
또한, 머신러닝에서도 많은 알고리즘이 데이터가 정규분포를 따른다는 가정을 기반으로 동작한다.
따라서 데이터를 정규분포에 가깝게 만드는 전처리가 중요하다.
3. 왜도(Skewness)
왜도는 데이터 분포가 한쪽 방향으로 얼마나 치우쳐 있는지를 나타내는 지표이다.
즉, 데이터가 좌우 대칭인지, 특정 방향으로 기울어져 있는지를 나타낸다.
왜도는 크게 두 가지 형태로 나뉜다.
- 양의 왜도(Positive Skewness)
- 음의 왜도(Negative Skewness)
양의 왜도는 데이터 분포가 오른쪽으로 길게 늘어진 형태를 의미한다.
이 경우, 대부분 데이터는 작은 값에 위치하고, 큰 값이 일부 존재하여 분포가 오른쪽으로 길게 늘어진다.
양의 왜도에서는 다음과 같은 관계가 나타난다.
- 평균 > 중앙값 > 최빈값
음의 왜도는 데이터 분포는 왼쪽으로 길게 늘어진 형태를 의미한다.
이 경우 대부분의 데이터는 큰 값에 위치하고, 작은 값이 일부 존재하여 분포가 왼쪽으로 길게 늘어진다.
음의 왜도에서는 다음과 같 관계가 나타난다.
- 평균 < 중앙값 < 최빈값

데이터가 크게 치우친 분포를 가지는 경우 특정 구간의 데이터가 매우 적어질 수 있다.
이 경우 머신러닝 모델이 해당 구간의 데이터를 충분히 학습하지 못하여 예측 성능이 낮아질 수 있다.
따라서, 데이터 분포를 정규분포에 가깝게 변환하는 전처리 과정이 필요할 수 있다.
- 로그 변환(Log Transformation)
- 표준화(Standardization)
- 정규화(Normalization)
이러한 전처리를 통해 데이터 분포보다 안정적인 형태로 만들 수 있다.
4. 첨도(Kurtosis)
첨도는 데이터 분포의 뾰족한 정도를 나타내는 지표이다.
즉, 데이터가 평균 주변에 얼마나 집중되어 있는지를 나타낸다.
첨도의 값에 따라 데이터 분포는 다음과 같은 특징을 가진다.
- 첨도가 높은 경우 : 데이터가 평균 주변에 많이 집중되어 있으며, 분포가 뾰족하다.
- 첨도가 낮은 경우 : 데이터가 넓게 퍼져 있으며, 분포가 평평한 형태를 가진다.
정규분포의 첨도는 일반적으로 3으로 정의된다.
즉, 첨도가 3보다 크면 정규분포보다 더 뾰족한 분포이며, 3보다 작으면 정규분포보다 더 평평한 분포라고 볼 수 있다.
데이터 분석에서는 첨도를 통해 이상치의 존재 여부나 데이터 분포의 형태를 파악할 수 있다.
'머신러닝&딥러닝' 카테고리의 다른 글
| 머신러닝 & 딥러닝 기초 14편 | Seaborn, 히트맵, 박스플롯, 바이올린플롯 (1) | 2026.03.14 |
|---|---|
| 머신러닝 & 딥러닝 기초 13편 | Matplotlib, 선 그래프, 막대 그래프, 히스토그램 (0) | 2026.03.14 |
| 머신러닝 & 딥러닝 기초 11편 | 분산, 표준편차, 사분위수 (0) | 2026.03.14 |
| 머신러닝 & 딥러닝 기초 10편 | 평균, 중앙값, 최빈값 (statistics, pandas) (0) | 2026.03.14 |
| 머신러닝 & 딥러닝 기초 9편 | 데이터 통합, 조인(merge, concat) (0) | 2026.03.13 |