목차
1. 머신러닝(Machine Learning)이란
2. 입력(Features)과 출력(Target)
3. 학습 데이터와 테스트 데이터
4. 지도학습(Supervised Learning)
4-1 회귀(Regression)
4-2 분류(Classification)
5. 비지도학습(Unsupervised Learning)
5-1 클러스터링(Clustering)
5-2 연관 규칙(Association Rule Mining)
5-3 차원 축소(Dimensionality Reduction)
5-4 이상치 탐지(Anomaly Detection)
6. 모델 평가와 과적합(Overfitting)
7. 오탐(False Positive)과 미탐(False Negative)
1. 머신러닝(Machine Learning)이란
머신러닝은 컴퓨터가 스스로 데이터에서 패턴을 학습하고 예측을 수행할 수 있도록 만드는 기술이다.
- 과거에는 사람이 직접 규칙과 알고리즘을 설계하여 문제를 해결했다.
- 머신러닝은 컴퓨터가 데이터를 통해 규칙을 찾아내는 방식이다.
- 딥러닝(Deep Learning)은 머신러닝의 한 종류로, 인공신경망을 활용하여 복잡한 패턴과 고차원 데이터를 학습하는 기술이다.
머신러닝은 크게 세 가지 유형으로 나뉜다.
- 지도학습(Supervised Learning) : 입력과 정답이 있는 데이터를 학습한다.
- 비지도학습(Unsupervised Learning) : 정답 없이 데이터의 패턴을 학습한다.
- 강화학습(Reinforement Learning) : 행동과 보상을 기반으로 학습한다.
추가로 다음과 같은 방식도 연구되고 있다.
- 기지도학습(Self-supervised Learning)
- 준지도학습(Semi-supervised Learning)
2. 입력(Features)과 출력(Target)
입력(Features)
입력은 모델이 학습할 때 사용하는 데이터의 특성을 의미한다.
예를 들어, 이메일 스팸 분류 문제에서는 다음과 같은 정보가 입력될 수 있다.
- 이메일 본문
- 발신자 주소
- 이메일 제목
- 첨부파일 여부
이러한 입력 데이터들을 특성(Feature)이라고 한다.
출력(Target)
출력은 모델이 예측해야 하는 결과 값을 의미한다.
즉, 머신러닝 모델은 '입력 → 모델 → 출력'의 구조로 동작한다.
3. 학습 데이터와 테스트 데이터
머신러닝 모델의 성능을 평가하기 위해 데이터는 학습용과 테스트용으로 나눈다.
- 학습 데이터(Training Data) : 모델이 학습에 사용하는 데이터
- 테스트 데이터(Test Data) : 학습이 끝난 후 모델 성능을 평가하는 데이터
일반적인 분할 비율은 80% 학습용 / 20% 테스트용이다.
데이터 분할 시 주의 할점은 다음과 같다.
- 데이터를 무작위(randomized)로 섞는다.
- 입력 데이터와 출력 데이터를 먼저 분리한다.
학습 데이터와 테스트 데이터를 분리하는 이유는 다음과 같다.
- 과적합(Overfitting) 방지 : 모델이 학습 데이터에 지나치게 맞춰지면, 새로운 데이터에 대해 성능이 떨어질 수 있다.
- 모델의 일반화 능력 평가 : 모델이 학습하지 않은 새로운 데이터에 대해 얼마나 정확하게 예측할 수 있는지 평가할 수 있다.
4. 지도학습(Supervised Learning)
지도학습은 정답(Label)이 있는 데이터를 기반으로 모델을 학습하는 방법이다.
모델은 예측 후 실제 정답과 비교하여 오차를 줄이는 방향으로 학습한다.
🧐 지도학습의 목표
입력 데이터와 정답 간의 관계를 학습하여, 이전에 본 적 없는 데이터를 정확히 예측하는 것
지도 학습의 주요 특징은 다음과 같다.
- 입력 데이터와 정답(Label)이 함께 제공된다.
- 데이터를 학습하여 예측 모델을 생성한다.
- 모델의 성능을 정확도, 오차 등으로 평가할 수 있다.
4-1 회귀(Regression)
회귀란 데이터를 연속적인 값으로 예측하는 문제이다.
예를 들어, 집 가격 예측을 생각해보자.
| 집 크기 | 집 가격 |
| 50㎡ | 2억 |
| 70㎡ | 3억 |
이 경우 집 크기를 이용하여 집 가격을 예측할 수 있다.
회귀 문제의 특징은 예측 결과가 연속적인 숫자 값이라는 것이다.
대표 알고리즘은 다음과 같다.
- 선형 회귀(Linear Regression) : 입력 변수와 출력 변수 사이의 직선 관계를 모델링 하는 방법
- 다중 회귀(Multiple Regression) : 여러 개의 입력 변수를 사용하여 예측하는 회귀 모델
4-2 분류(Classification)
분류란 데이터를 특정 범주(class)로 분류하는 문제이다.
예를 들어, 스팸 분류 문제를 생각해보자.
| 이메일 | 결과 |
| 광고 메일 | 스팸 |
| 회사 메일 | 정상 |
분류 문제의 특징은 예측 결과가 범주(Label)라는 것이다.
대표 알고리즘은 다음과 같다.
- 로지스틱 회귀(Logistic Regression) : 출력값을 확률로 변환하여 두 개 이상의 클래스 중 하나로 분류
- 서포트 벡터 머신(SVM) : 데이터의 사이의 '최적의 경계선(Decision Boundary)을 찾아 분류
- K-최근접 이웃(KNN) : 새로운 데이터가 주변 데이터 중 어떤 클래스에 가까운지 비교하여 분류
5. 비지도학습(Unsupervised Learning)
비지도학습은 정답이 없는 데이터를 분석하여 숨겨진 패턴이나 그룹을 찾아내는 방법이다.
즉, 모델이 데이터의 구조나 패턴을 스스로 발견하도록 학습한다.
🧐 비지도학습의 목표
데이터 속에 숨어 있는 구조나 패턴을 발견하는 것
비지도 학습의 특징은 다음과 같다.
- 정답(Label)이 존재하지 않는다.
- 데이터의 구조나 패턴을 발견하는 데 사용된다.
- 데이터 탐색 및 군집 분석에 활용된다.
5-1 클러스터링(Clustering, 군집화)
클러스터링은 유사한 데이터를 같은 그룹으로 묶는 방법이다.
예시) 고객 세분화, 사용자 행동 분석, 문서 그룹화 등
대표 알고리즘
- K-Means
- 데이터를 미리 정한 K개의 그룹으로 나누고, 각 데이터가 가장 가까운 중심점을 기준으로 군집을 형성하는 알고리즘
- Hierarchical Clustering
- 데이터 간 거리를 기준으로 계층적인 트리 구조를 만들어 군집을 형성하는 알고리즘
- DBSCAN(Density-Based Spatial Clustering of Applications with Noise)
- 데이터 밀도를 기준으로 밀집된 데이터 영역을 하나의 군집으로 묶고 노이즈 데이터를 자동으로 구분하는 알고리즘
5-2 연관 규칙 마이닝(Assocation Rule Mining)
연관 규칙 마이닝은 데이터 간의 연관성을 발견하는 방법이다.
예를 들어, '빵을 구매한 고객은 우유도 함께 구매할 확률이 높다'와 같은 데이터 간 패턴을 찾는 방법이다.
대표 알고리즘
- Apriori Algorithm
- 데이터에서 자주 함께 등장하는 항목 집합을 찾고 이를 기반으로 연관 규칙을 생성하는 알고리즘
- FP-Growth
- 데이터를 FP-three 구조로 압축하여 Apriori 보다 빠르게 빈번한 항목 집합을 찾는 알고리즘
5-3 차원 축소(Dimensionality Reduction)
차원 축소는 데이터의 특성(Feature)을 줄이면서 중요한 정보는 유지하는 방법이다.
데이터의 차원이 너무 많으면, 계산량 증가/모델 성능 저하 등의 문제가 발생할 수 있다.
차원 축소는 이러한 문제를 해결하는 데 사용된다.
활용 목적
- 데이터 시각화
- 계산 효율 개선
- 모델 성능 향상
대표 알고리즘
- PCA(Prinicipal Component Analysis)
- 데이터의 분산이 가장 큰 방향을 기준으로 새로운 축을 만들어 차원을 줄이는 알고리즘
- t-SNE(t-Distributed Stochastic Neighbor Embedding)
- 고차원 데이터를 저차원 공간으로 변환하면서 데이터 간의 유사한 구조를 유지하도록 시각화하는 알고리즘
- UMAP(Uniform Manifold Approximation and Projection)
- 데이터의 전체 구조와 지역 구조를 동시에 유지하면서 고차원 데이터를 저차원으로 변환하는 차원 축소 알고리즘
5-4 이상치 탐지(Anomaly Detection)
이상치 탐지는 데이터의 일반적인 패턴에서 벗어난 값(비정상적 데이터)을 탕지하는 방법이다.
데이터 분석 과정에서 이상치는 오류 데이터일 수도 있고, 실제로 중요한 사건을 의미할 수도 있다.
예를 들어, 금융 사기 탐지, 네트워크 침입 탐지, 시스템 장애 탐지 등에 활용된다.
활용 목적
- 데이터 오류 탐지 및 정제
- 보안 침입 탐지(네트워크 이상 트래픽 등)
- 금융 사기 탐지
- 시스템 이상 상태 탐지
대표 알고리즘
- Isolation Forest
- 데이터를 무작위로 분할하여 이상치가 정상 데이터보다 더빠르게 분리되는 특성을 이용해 이상치를 탐지하는 알고리즘
- 이상치는 다른 데이터와 멀리 떨어져 있기 때문에 적은 분할 단계로 쉽게 격리(Isolation)된다.
- LOF(Local Outlier Factor)
- 각 데이터 포인트의 주변 밀도(Local Density)를 계산하여 주변 데이터보다 밀도가 낮은 데이터를 이상치로 판단하는 알고리즘
- Autoencoder
- 신경망 기반 이상치 탐지 방법
- 입력 데이터를 압축했다가 다시 복원한다.
- 정상 데이터로 학습하면 정상 데이터는 잘 복원되지만, 이상 데이터는 복원 오차가 크게 발생한다.
- 이 복원 오차가 큰 데이터를 이상치로 판단한다.
6. 모델 평가와 과적합(Overfitting)
머신러닝 모델은 학습 후 반드시 성능 평가를 수행해야 한다.
6-1 과소적합(Underfitting)
모델이 데이터를 충분히 학습하지 못한 상태이다.
특징
- 학습 데이터 성능 ↓
- 테스트 데이터 성능 ↓
6-2 과적합(Overfitting)
모델이 학습 데이터에 너무 특화된 상태이다.
특징
- 학습 데이터 성능 ↑
- 테스트 데이터 성능 ↓
즉, 새로운 데이터에 대해 성능이 떨어진다.
7. 오탐(False Positive)과 미탐(False Negative)
머신러닝 모델 평가에서는 다음 개념도 중요하다.
7-1 오탐(False Positive)
정상 데이터를 잘못된 클래스로 예측
7-2 미탐(false Negative)
실제로는 문제인 데이터를 정상으로 판단
예를 들어, 스팸메일 탐지에서는 '미탐 최소화'가 중요하다.
미탐은 실제로 스팸 메일인데 정상 메일로 판단하여 스팸을 놓치는 경우를 의미한다.
이 경우 악성 링크나 피싱 메일이 그대로 전달될 수 있기 때문에 보안 문제가 발생할 수 있다.
반면, 오탐은 정상 메일을 스팸으로 잘못 분류하는 경우이다.
이 경우 사용자가 메일을 다시 확인하면 해결할 수 있기 때문에 일정 수준의 오탐은 허용 가능한 경우가 많다.
따라서, 스팸 메일 탐지와 같은 보안 분야에서는 오탐보다 미탐을 줄이는 것이 더 중요한 목표가 된다.
'머신러닝&딥러닝' 카테고리의 다른 글
| 머신러닝 & 딥러닝 기초 21편 | 지도 학습 - 분류, 로지스틱 회귀, 성능 평가 (0) | 2026.03.17 |
|---|---|
| 머신러닝 & 딥러닝 기초 20편 | 지도 학습 - 선형 회귀, 성능 평가 (0) | 2026.03.17 |
| 머신러닝 & 딥러닝 기초 18편 | 상관관계와 회귀 분석 (0) | 2026.03.16 |
| 머신러닝 & 딥러닝 기초 17편 | 데이터 그룹화와 집계(Groupby, Pivot Table) (1) | 2026.03.16 |
| 머신러닝 & 딥러닝 기초 16편 | EDA(탐색적 데이터 분석) (0) | 2026.03.15 |