목차
1. AI 학습 전체 과정
2. 데이터 수집
3. 데이터 전처리
4. 기초 통계(EDA)
5. 머신러닝
5-1 지도학습(Supervised Learning)
5-2 비지도학습(Unsupervised Learning)
6. 딥러닝 기초
7. 딥러닝 확장 모델
8. Hugging Face와 파인튜닝
9. 모델 기반 애플리케이션 개발
10. AI API 활용
이번 글에서는 머신러닝과 딥러닝을 공부하기 전에 AI 모델이 만들어지는 전체 흐름을 먼저 정리해 보려고 한다.
1. AI 학습 전체 과정
AI 개발 과정은 일반적으로 다음과 같은 단계로 진행된다.
- 데이터 수집
- 데이터 전처리
- 기초 통계 (EDA)
- 머신러닝 기초 – 지도학습
- 머신러닝 기초 – 비지도학습
- 딥러닝 기초
- 딥러닝 확장 모델
즉, 인공지능 개발은 단순히 알고리즘을 사용하는 것이 아니라 데이터를 기반으로 패턴을 찾고 모델을 만드는 전체 과정이라고 볼 수 있다.
2. 데이터 수집 (Data Collection)
AI 모델을 만들기 위해서는 먼저 데이터가 필요하다.
데이터는 다양한 방법으로 수집할 수 있다.
- 공공데이터 활용
- 웹 스크래핑
- API 활용
- 센서 데이터 등
예를 들어, 시험 점수를 예측하는 모델을 만든다고 가정하면, 다음과 같은 데이터가 필요하다.
| 공부시간 | 수면시간 | 시험점수 |
| 2시간 | 6시간 | 60 |
| 4시간 | 7시간 | 75 |
| 6시간 | 5시간 | 90 |
이처럼 AI 모델은 데이터를 기반으로 학습하기 때문에 데이터의 양과 품질이 매우 중요하다.
3. 데이터 전처리(Data Preprocessing)
수집한 데이터는 바로 사용할 수 없는 경우가 많다.
그 이유는 다음과 같은 것들이 있다.
- 결측값(비어있는 데이터)
- 이상값(비정상적인 데이터)
- 서로 다른 데이터 형식 등
따라서 데이터를 분석하기 전에 데이터를 정리하고 가공하는 과정이 필요하다.
대표적인 전처리 작업은 다음과 같다.
- 결측값 처리
- 이상값 제거
- 데이터 정규화
- 범주형 데이터 인코딩 등
이 과정은 AI 모델 성능에 매우 큰 영향을 미치기 때문에 데이터 전처리는 머신러닝에서 매우 중요한 단계이다.
4. 기초 통계 분석(EDA)
EDA는 Exploratory Data Analysis의 약자로, 탐색적 데이터 분석을 의미한다.
EDA의 목적은 데이터 속에서 패턴과 관계를 찾는 것이다.
예를 들어, 다음과 같은 가설을 세울 수 있다.
공부 시간이 많아질수록 시험 점수가 높아질 것이다.
이를 데이터로 표현하면 다음과 같다.
- 입력(Input) → 공부시간
- 출력(Output) → 시험점수
데이터 분석을 통해 입력과 출력 사이의 관계를 찾을 수 있다.
이 관계를 수학적인 함수로 표현할 수 있다.
4-1 모델 = 함수
머신 러닝을 이해할 때 가장 중요한 개념은 다음과 같다.
모델(Model) = 함수(Function)
예를 들어, 공부 시간을 입력으로 받아 점수를 예측하는 함수가 있다고 가정해 보자.
점수 = f(공부 시간)
기존 프로그램은 사람이 직접 규칙을 만든다.
예를 들어 “공부시간이 5시간보다 많으면 점수를 높게 준다”와 같은 규칙을 개발자가 직접 작성한다
if 공부시간 > 5:
점수 = 90
하지만 인공지능은 다르다.
데이터 → 패턴 학습 → 함수 생성
즉, 컴퓨터가 데이터를 분석하고 최적의 함수를 찾아내는 것이 머신러닝이다.
4-2 확률
AI 모델은 항상 확률적인 결과를 제공한다.
예를 들어,
이 학생의 점수는 85점이다.
라고 확정적으로 말하지 않고, 다음과 같이 '예측'한다.
이 학생이 85점을 받을 확률이 높다.
이는 AI가 데이터 분포를 기반으로 패턴을 학습하기 때문이다.
4-3 특성(Feature)
데이터에는 여러 요소가 존재한다.
예를 들어 다음과 같은 데이터가 있다고 가정해 보자.
이때 공부시간, 수면시간과 같은 요소를 특성(Feature)이라고 한다.
특성은 모델의 입력값으로 사용되며, 예측하려는 정답값은 보통 라벨(Label)이라고 한다.
머신러닝에서는 어떤 특성이 결과에 영향을 주는지 찾는 과정이 매우 중요하며, 이를 특성 선택(Feature Selection)이라고 한다.
| 공부시간 | 수면시간 | 시험점수 |
| 2시간 | 6시간 | 60 |
| 4시간 | 7시간 | 75 |
| 6시간 | 5시간 | 90 |
5. 머신러닝
머신러닝은 데이터를 통해 패턴을 학습하고 함수를 찾는 과정이다.
머신러닝은 학습 방식에 따라 크게 지도 학습과 비지도 학습으로 나뉜다.
5-1 지도 학습(Supervised Learning)
지도 학습은 정답이 있는 데이터로 학습하는 방식이다.
예를 들어, '공부시간에 따른 시험점수' 값을 주고, '공부시간 → 시험점수' 간의 관계를 학습하게 된다.
대표적인 문제 유형은 다음과 같다.
- 회귀 (Regression)
- 분류 (Classification)
5-2 비지도 학습(Unsupervised Learning)
비지도 학습은 정답이 없는 데이터로 학습하는 방식이다.
대표적인 예는 클러스터링(Clustering)이다.
클러스터링은 데이터를 분석하여 비슷한 데이터끼리 그룹을 만드는 방법이다.
예를 들어, 고객 데이터를 분석하면 다음과 같이 분류할 수 있다.
- 구매 빈도가 높은 고객 그룹
- 구매 빈도가 낮은 고객 그룹
이처럼 데이터의 숨겨진 구조를 찾는 것이 비지도 학습의 목적이다.
6. 딥러닝(Deep Learning)
딥러닝은 머신러닝의 한 종류이다.
신경망(Neural Network) 구조를 사용하며, 신경망의 기본 구조는 퍼셉트론(Perceptron)이다.
퍼셉트론을 여러 층으로 쌓으면 딥러닝 모델이 된다.
딥러닝은 다음과 같은 분야에서 매우 많이 사용된다.
- 이미지 인식
- 자연어 처리
- 음성 인식
- 영상 분석 등
7. 딥러닝 확장 모델
딥러닝은 다양한 분야에 특화된 모델이 존재한다.
예)
| 구분 | 예 |
| 이미지 처리 | CNN(Convolutional Neural Network) |
| 자연어 처리 | BERT, GPT |
| 영상 분석 | Video AI |
이러한 모델들은 연산량이 매우 많기 때문에 GPU 환경이 필요하다.
하지만 개인 노트북에는 고성능 GPU가 없거나 성능이 부족한 경우가 많다.
그래서 필요한 만큼 GPU 서버를 빌려 쓸 수 있는 클라우드 서비스(AWS, Google Cloud, Azure)를 많이 활용한다.
8. Hugging Face와 파인튜닝
딥러닝 모델을 직접 처음부터 학습시키는 것은 어려운 일이다.
그래서 보통 이미 학습된 모델을 활용한다.
대표적인 플랫폼이 Hugging Face이다.
Hugging Face는 다양한 사전학습 모델(Pre-trained Model)과 데이터셋을 제공하는 대표적인 AI 플랫폼으로, 개발자는 이곳에 공개된 모델을 그대로 사용하거나 자신의 데이터에 맞게 추가 학습하여 활용할 수 있다.
이처럼 기존 모델을 바탕으로 추가 학습을 수행하는 과정을 Fine-tuning(파인튜닝)이라고 한다.
9. 모델 기반 애플리케이션 개발
머신러닝 모델을 학습하면 파일 형태로 저장할 수 있다.
예시
- model.pkl
- model.joblib
- model.pt
이후 프로그램에서 모델을 불러와 사용할 수 있다.
모델 로드 → 데이터 입력 → 예측 결과 출력
이 과정을 통해 AI 기반 애플리케이션을 만들 수 있다.
- 챗봇
- 추천 시스템
- 보안 탐지 시스템 등
10. AI API 활용
최근에는 이렇게 학습된 모델을 파일로 직접 불러와 사용하는 방식뿐 아니라, API 형태로 호출해 활용하는 방식도 많이 사용된다.
대표적인 예가 OpenAI API이다.
API는 보통 다음과 같은 방식으로 요청한다.
HTTP Request
즉, AI 서비스는 웹 기술, 네트워크, API, 보안 등 기술과 밀접한 연관이 있다.
'머신러닝&딥러닝' 카테고리의 다른 글
| 머신러닝 & 딥러닝 기초 6편 | 데이터 전처리 (0) | 2026.03.12 |
|---|---|
| 머신러닝 & 딥러닝 기초 5편 | 데이터 저장 방법 (CSV, Excel, JSON, SQLite) (0) | 2026.03.12 |
| 머신러닝 & 딥러닝 기초 4편 | API를 활용한 데이터 수집 (REST API) (1) | 2026.03.11 |
| 머신러닝 & 딥러닝 기초 3편 | 웹 스크래핑 기초: HTML, BeautifulSoup (0) | 2026.03.11 |
| 머신러닝 & 딥러닝 기초 2편 | 데이터 수집과 HTTP 요청 이해 (0) | 2026.03.11 |