목차
1. 개요(데이터의 분산성)
2. 분산(Variance)
3. 표준편차(Standard Deviation)
4. 사분위수(Quartiles)
1. 개요(데이터의 분산성)
데이터 분석에서는 단순히 대푯값(평균, 중앙값, 최빈값)만으로 데이터 특성을 완전히 알기 어렵다.
예를 들어, 두 데이터 집합의 평균이 같더라도 데이터의 '흩어짐 정도(분포)'는 완전히 다를 수 있다.
이처럼 데이터가 평균을 기준으로 얼마나 퍼져 있는지를 나타내는 성질을 데이터 분산성이라고 한다.
데이터의 분산성을 측정하는 대표적인 지표는 다음과 같다.
- 분산(Variance)
- 표준편차(Standard Deviation)
- 사분위수(Quartiles)
이러한 지표를 통해 데이터가 얼마나 넓게 퍼져 있는지, 또는 특정 범위에 집중되어 있는지를 파악할 수 있다.
머신러닝에서도 데이터의 분산성은 매우 중요한 개념이며, 데이터 분포를 이해하고 이상치를 파악하는 데 활용된다.
2. 분산(Variance)
분산이란 데이터가 평균을 기준으로 얼마나 퍼져 있는지를 나타내는 값이다.
각 데이터 값이 평균에서 얼마나 떨어져 있는지를 계산한 후, 그 값을 제곱한 후 평균을 구한 값이 분산이다.
일반적으로 분산은 다음과 같이 계산된다.

분산은 편차의 크기를 기반으로 데이터의 퍼짐 정도를 측정한다.
여기서 편차(Deviation)란 각 데이터 값과 평균의 차이를 의미한다.
편차가 작을수록 데이터가 평균 주변에 모여 있음을 의미하고,
편차가 클수록 데이터가 평균에서 멀리 퍼져 있음을 의미한다.
3. 표준 편차(Standard Deviation)
표준편차는 분산의 제곱근으로 계산되는 값이다.
분산은 편차를 제곱하여 계산하기 때문에, 값의 단위가 원래 데이터 단위와 달라지는 특징이 있다.
따라서, 데이터의 실제 단위와 동일한 값으로 분산을 표현하기 위해 분산의 제곱근을 사용한 값이 표준편차이다.
표준편차의 크기는 데이터의 흩어짐 정도를 의미한다.
표준편차가 작을수록 데이터가 평균 근처에 밀집되어 있음을 의미하고,
표준편차가 클수록 데이터가 넓게 져 있음을 의미한다.
4. 사분위수(Quartiles)
사분위수는 데이터를 크기 순으로 정렬한 후 네 구간으로 나누는 기준 값이다.
데이터를 네 부분으로 나누는 세 개의 기준 값을 다음과 같이 정의한다.
| 사분위수 | 의미 |
| 제1사분위수(Q1) | 데이터의 25% 지점 |
| 제2사분위수(Q2) | 데이터의 50% 지점(중앙값) |
| 제3사분위수(Q3) | 데이터의 75% 지점 |
사분위수 범위(IQR, Interquartile Range)는 Q3 - Q1로 계산된다.
사분위수를 이용하면 데이터가 어떤 범위에 집중되어 있는지를 쉽게 파악할 수 있다.
또한, 사분위수를 이용하여 이상치(outlier)를 탐지하는 방법도 많이 사용된다.
이상치는 일반적으로 Q1 - 1.5×IQR보다 작거나, Q3 + 1.5×IQR보다 큰 값을 의미한다.
'머신러닝&딥러닝' 카테고리의 다른 글
| 머신러닝 & 딥러닝 기초 13편 | Matplotlib, 선 그래프, 막대 그래프, 히스토그램 (0) | 2026.03.14 |
|---|---|
| 머신러닝 & 딥러닝 기초 12편 | 정규분포, 왜도, 첨도 (0) | 2026.03.14 |
| 머신러닝 & 딥러닝 기초 10편 | 평균, 중앙값, 최빈값 (statistics, pandas) (0) | 2026.03.14 |
| 머신러닝 & 딥러닝 기초 9편 | 데이터 통합, 조인(merge, concat) (0) | 2026.03.13 |
| 머신러닝 & 딥러닝 기초 8편 | 데이터 변환 및 스케일링 (0) | 2026.03.13 |