머신러닝 & 딥러닝 기초 30편 | 딥러닝 완전 정리 (개념부터 구조, 학습까지)

머신러닝&딥러닝

머신러닝 & 딥러닝 기초 30편 | 딥러닝 완전 정리 (개념부터 구조, 학습까지)

SecLogs YJ 2026. 3. 20. 21:03

목차

1. 딥러닝(Deep Learning)이란
2. 인공신경망(ANN)
3. 퍼셉트론(Perceptron)
4. 다층 퍼셉트론(MLP)
5. 활성화 함수
6. 딥러닝의 학습 과정
7. 딥러닝 활용 분야
8. 머신러닝 vs 딥러닝
9. 인공지능(AI)

1. 딥러닝(Deep Learning)이란

딥러닝(Deep Learning)은 머신러닝의 한 분야로, 사람의 뇌 구조를 모방한 인공신경망(Artificial Neural Network)을 기반으로 데이터를 학습하는 기술이다.

기존의 머신러닝은 사람이 데이터를 분석하여 중요한 특징(feature)을 직접 추출해야 했다.

하지만 딥러닝은 다르다.

딥러닝은 데이터를 그대로 입력하면 모델이 스스로 feature을 찾아 학습한다.

즉, 딥러닝은 데이터로부터 스스로 패턴을 학습하는 기술이다.

2. 인공 신경망(Artificial Neural Network, ANN)

딥러닝은 사람의 뇌에서 정보를 처리하는 방식을 모방하려는 시도에서 출발했다.

사람의 뇌는 뉴런(Neuron)이라는 작은 세포들이 서로 연결되어 신호를 주고받으며 정보를 처리한다.

인공신경망도 이와 비슷하게 여러 노드(Node, 가상의 뉴런)가 연결되어 정보를 처리한다.

뉴런	역할	딥러닝
가지돌기(Dendrite)	입력 신호를 받는다.	입력(Input)
신경세포체(Cell Body 또는 Soma)	신호를 처리한다.	계산(가중치 + 합산)
축삭돌기(Axon)	신호를 다음 뉴런으로 전달한다.	출력(Output)

3. 퍼셉트론(Perceptron)

퍼셉트론은 인공신경망의 가장 기본 단위로, 1957년 프랭크 로젠블랫(Frank Rosenblatt)이 제안한 모델이다.

여러 입력을 받아 하나의 출력을 만든다.

3-1 퍼셉트론의 요소

입력(Input)	- 여러 개의 입력 값(이미지 픽셀, 숫자 등)을 받는다.
가중치(Weights)	- 각 입력 값에 가중치가 부여된다. - 가중치는 입력 값의 중요도에 따라 각 입력값에 다르게 부여된다.
편향(Bias)	- 계산 결과에 더해지는 추가 값
합산기(Sum)	- 각 입력에 가중치를 곱한 후 모두 더하고, 편향 값을 추가한다. - S = (x1×w1) + (x2×w2) + (x3×w3) +b
활성화 함수(Activation Function)	- 합산된 값(S)가 특정 임계값을 넘는지 확인한다. - IF S > 임계값, 출력=1, IF S ≤ 임계값, 출력 =0 - 0과 1, 스위치와 같은 동작
출력(Output)	- 최종적으로 0 또는 1의 값을 출력한다. - 퍼셉트론의 최종 판단 결과이다.

3- 2 퍼셉트론의 학습과정

퍼셉트론은 주어진 데이터에 대해 가중치와 편향을 조정하면서, 점점 더 정확한 결과를 내도록 학습한다.

학습 과정은 다음과 같다.

가중치와 편향을 임의 값으로 초기화
입력 데이터를 넣어 예측값 계산
실제 값과 비교하여 오차 계산
오차를 줄이도록 가중치와 편향 수정
위 과정을 반복

3-3 퍼셉트론의 한계

퍼셉트론은 간단한 선형적으로 구분 가능한 문제는 잘 해결하지만, 복잡한 문제는 잘 해결하지 못한다.

대표적으로 XOR 문제는 해결할 수 없다.

XOR 문제는 입력이 서로 다를 때만 1을 출력하는 연산으로, 하나의 직선으로 데이터를 구분할 수 없는 선형 분리가 불가능한 문제이다.

이를 극복하기 위해 다층 퍼셉트론(MLP, Multi-Layer Perceptron)과 같은 복잡한 구조가 개발되었다.

다층 퍼셉트론은 퍼셉트론과 달리 입력층과 출력층 사이에 하나 이상의 은닉층(Hidden Layer)을 포함하는 구조이다.

은닉층이 추가되면서 여러 단계의 계산이 가능해지고, 각 뉴런에서 활성화 함수가 적용되기 때문에 비선형 변환이 가능해진다.

이를 통해 복잡한 패턴을 학습할 수 있으며, XOR과 같은 비선형 문제도 해결할 수 있다.

4. MLP(Multi-Layer Perceptron)

MLP는 퍼셉트론을 여러 층으로 확장한 구조로, 딥러닝에서 가장 기본이 되는 인공신경망 모델이다.

기존의 퍼셉트론은 입력과 출력만으로 구성된 단순한 구조이기 때문에, 복잡한 문제를 해결하는 데 한계가 있었다.

이를 해결하기 위해 은닉층(HIdden Layer)을 추가한 구조가 바로 MLP이다.

4-1 MLP의 구조

각 층은 여러 개의 노드(뉴런)로 구성되며, 각 노드는 퍼셉트론과 같은 방식으로 동작한다.

각 층의 뉴런은 입력값에 가중치를 곱하고 편향을 더한 뒤, 활성화 함수를 적용하여 다음 층으로 전달한다.

이러한 연산이 여러 층에서 반복되면서 데이터는 점점 더 복잡한 형태로 변환되고, 단순한 입력도 고차원적인 패턴으로 해석할 수 있게 된다.

입력층(Input Layer)	- 데이터를 입력받는 층(Layer) - 각 Feature은 하나의 뉴런에 대응됨 - ex. 이미지 데이터 (28x28 pixel) → 입력층 뉴런 수 : 784개
하나 이상의 은닉층 (Hidden Layer)	- 신경망에서 실제 학습이 이루어지는 층 - 입력데이터로부터 패턴과 특징을 추출하는 역할을 수행함 - 완전 연결 구조(Fully connected) : 각 은닉의 뉴런은 이전 층의 뉴런과 연결됨 - 심층 신경망(Deep Neural Network, DNN) : 다층 구조의 은닉층을 가진 신경망
출력층(OutputLayer)	- 모델의 최종 예측 결과를 출력하는 층 - 문제 유형에 따라 뉴런 수와 활성화 함수가 다름 - 회귀 : 출력 뉴런 1개, 선형 활성화 함수 - 이진 분류 문제 : 출력 뉴런 1개, Sigmoid 활성화 함수 - 다중 분류 문제 : 출력 뉴런은 클래스 수, Softmax 활성화 함수

4-2 MLP의 특징

복잡한 패턴 학습이 가능하다.
비선형 문제를 해결할 수 있다.
XOR 문제를 해결할 수 있다.

5. 활성화 함수(Activation Function)

활성화 함수는 MLP에서 각 층(Layer) 사이의 계산 결과를 비선형(non-linear)으로 변환하여 전달하는 아주 중요한 요소다.

활성화 함수가 없다면, Layer을 여러개 쌓아도 전체 모델은 하나의 선형 모델과 동일해진다.

즉, 복잡한 패턴을 학습할 수 없으므로 딥러닝에서 활성화 함수는 필수적인 요소이다.

대표적인 활성화 함수

ReLU: 0 이하(음수)는 0으로 꺼버리고, 양수는 그대로 통과 (가장 많이 사용)
Sigmoid: 결과를 0~1 사이로 만들 때 사용 (이진 분류때 사용)
Softmax: 여러 클래스 중 각 클래스에 대한 확률 분포를 생성 (다중 분류때 사용)

퍼셉트론에서의 활성화 함수 vs MLP에서의 활성화 함수

	ReLU	Sigmoid	Softmax
수식	f(x) = max(0, x)	f(x) = 1 / (1 + e^(-x))	f(x_i) = exp(x_i) / Σ_j exp(x_j)
특징	대부분 은닉층에서 기본적으로 사용	이진 분류 문제에서 자주 사용	다중 클래스 분류 문제에서 사용
장점	계산이 빠르고 학습 속도가 빠르다. 기울기 소실 문제를 줄여준다.	출력 값이 제한되어 있다. (안정성)	출력 값이 확률 분포를 가져 직관적이다.
단점	입력 값이 항상 0 이하라면, 학습이 불가능하다.	기울기 소실 문제가 발생할 수 있다. 입력 값이 너무 크거나 작으면 학습이 어렵다. 계산이 상대적으로 느리다.	계산이 복잡하다. 클래스 수가 많으면 느려질 수 있다.

* 기울기 소실(Vanishing Gradient) : 신경망을 학습하는 과정에서 역전파 시 기울기가 점점 작아져 0에 가까워지는 현상

6. MLP의 학습 과정

MLP는 다음 과정을 반복하며 학습한다.

순전파(Forward Propagation) - 예측
손실 계산
역전파(Backpropagation) -기울기 계산
옵티마이저(Optimizer)를 통한 가중치 업데이트

6-1 순전파(Forward Propagation)

입력 데이터가 신경망을 통과하면서 예측값을 계산하는 과정이다.

각 뉴런의 계산 과정은 다음과 같다.

입력값과 가중치를 곱하여 합산한다.
편향 값을 더한다.
활성화 함수를 적용한다.
다음 층으로 전달한다.

6-2 손실 함수(Loss Function)

모델의 예측값과 실제값의 차이를 계산하여 모델의 오차를 수치적으로 표현하는 함수이다.

모델은 이 손실 값을 최소화하는 방향으로 학습된다.

손실 함수의 역할은 다음과 같다.

모델의 성능을 평가한다.
학습 방향을 결정한다.
경사 하강법(Gradient Descent)을 통해 가중치 업데이트 기준이 된다.

대표적인 손실 함수는 다음과 같다.

MSE (Mean Squared Error) : 예측 값과 실 값의 차이를 제곱하여 평균을 구한 값
Cross-Entropy Loss : 분류 문제에서 모델이 출력한 확률 분포와 실제 레이블의 차이를 측정

구분	MSE	Cross-Entropy
사용 문제	회귀 문제	분류 문제
입력 값	실수 값	확률 값 (0~1)
의미	실제값과 예측값의 거리	실제 분포와 예측 확률 분포 차이
특징	큰 오차에 민감 (제곱)	잘못된 확률에 매우 큰 패널티
이상치 영향	큼	상대적으로 적음
대표 사용 모델	선형회귀	로지스틱 회귀, 신경망

6-3 역전파(Backpropagation)

모델의 오차를 기반으로 가중치를 어떻게 수정할지 결정하는 과정이다.

순전파를 통해 예측값과 손실이 계산되면, 모델은 '어디를 얼마나 수정해야 하는지'를 알아야 한다.

이때 사용하는 것이 바로 역전파이다.

역전파의 핵심 개념

출력층에서 계산된 오차를 시작으로 각 층을 거꾸로 따라가며, 가중치에 대한 기울기를 계산한다.
즉, 이 가중치가 결과에 얼마나 영향을 줬는지 계산한다.

역전파 과정

순방향 전달
손실 함수로 오차 계산
체인 룰(chain rule)을 이용해 이전 층으로 전달
모든 층의 가중치에 대한 기울기 계산 완료

6-4 옵티마이저(Optimizer)

옵티마이저는 계산된 기울기를 이용해 실제로 가중치를 업데이트하는 알고리즘이다.

즉, 역전파는 '얼마나 수정할지' 계산하고, 옵티마이저는 '실제로 수정'하는 역할이다.

대표적인 옵티마이저

Gradient Descent(경사하강법) :전체 데이터를 사용해 손실을 최소화하는 방향으로 가중치를 조금씩 업데이트하는 기본 최적화 방법
SGD(Stochastic Gradient Descent, 확률적 경사하강법) :데이터를 일부(또는 하나씩) 사용해 빠르게 가중치를 업데이트하는 방법
Adam : 가장 많이 사용되는 알고리즘. 학습률을 자동으로 조절하면서 빠르고 안정적으로 학습하는 대표적인 최적화 알고리즘

7. 딥러닝 활용 분야

이미지 처리 (Computer Vision) : 객체 탐지, 얼굴 인식, 자율 주행 등
자연어 처리(NLP) : 번역, 텍스트 요약, 챗봇 등
음성 인식 : 음성 비서(Siri, Bixby), STT/TTS 등
추천 시스템 : 사용자 맞춤 추천(유튜브, 넷플릭스 등)
금융 : 사기 탐지, 금융 시장 예측 등

8. 머신러닝 vs 딥러닝

구분	머신러닝	딥러닝
특징 추출	사람이 직접	모델이 자동
데이터 양	적어도 가능	많을수록 성능 ↑
모델 구조	비교적 단순	매우 복잡 (다층 구조)
학습 속도	빠름	느림 (연산량 많음)
성능	제한적	매우 강력
대표 모델	SVM, Decision Tree	CNN, RNN, Transformer

9. 인공지능(AI)

인공지능은 사람처럼 사고하고 학습하며 문제를 해결할 수 있도록 만든 기술을 의미한다.
현재 우리가 사용하는 대부분의 AI는 특정 문제를 해결하는 데 초점을 맞추고 있다.

9-1 약 인공지능 (Weak AI)

약 인공지능은 특정한 하나의 작업만 잘 수행하도록 설계된 인공지능이다.

즉, 정해진 범위 내에서만 작동하며 인간처럼 범용적인 사고는 하지 못한다.

특징

특정 문제 해결에 특화됨
학습된 범위를 벗어나면 성능이 급격히 떨어짐
현재 우리가 사용하는 대부분의 AI가 여기에 해당

예시

음성 인식 (Siri, Bixby)
추천 시스템 (유튜브, 넷플릭스)
이미지 분류 모델
챗봇 (대화는 가능하지만 ‘이해’는 제한적)

9-2 강 인공지능 (Strong AI)

강 인공지능은 사람처럼 사고하고 다양한 문제를 스스로 해결할 수 있는 인공지능이다.

단순한 작업 수행이 아니라, 이해·추론·판단까지 가능한 수준을 의미한다.

특징

인간 수준의 지능 보유
다양한 분야의 문제를 스스로 해결 가능
자율적인 학습과 판단 가능

현재 상태

아직 실현되지 않음 (이론적 개념)
연구 단계에 있음

마무리말

딥러닝은 다양한 구성 요소들이 유기적으로 결합된 학습 시스템이며, 이 구조를 이해하는 것이 이후 CNN, RNN, Transformer를 학습하는 기반이 된다.

결국 딥러닝의 핵심은 ‘데이터로부터 스스로 특징을 학습하는 것’이며, 이 구조를 이해하면 어떤 모델(CNN, RNN, Transformer)이든 쉽게 확장해서 이해할 수 있다.

👉 머신러닝 & 딥러닝 기초 31편 | 딥러닝 실습 완전 정리 (이진 분류, 다중 분류, MNIST)

저작자표시 비영리 변경금지 (새창열림)

'머신러닝&딥러닝' 카테고리의 다른 글

머신러닝 & 딥러닝 기초 32편 \| 딥러닝 - CNN, RNN, Transformer (0)	2026.03.20
머신러닝 & 딥러닝 기초 31편 \| 딥러닝 실습 완전 정리 (이진 분류, 다중 분류, MNIST) (0)	2026.03.20
머신러닝 & 딥러닝 기초 29편 \| t-SNE(t-distributed Stochastic Neighbor Embedding) (0)	2026.03.19
머신러닝 & 딥러닝 기초 28편 \| PCA(Principal Component Analysis, 주성분 분석) (0)	2026.03.19
머신러닝 & 딥러닝 기초 27편 \| 차원축소(Dimensionality Reduction) (1)	2026.03.19

현재글머신러닝 & 딥러닝 기초 30편 | 딥러닝 완전 정리 (개념부터 구조, 학습까지)

security-logs 님의 블로그

보안을 공부하는 사람의 실습 기록과 IT 학습 노트

파이썬, 머신러닝, 코딩테스트, GIT, 머신러닝기초, AI개발, baekjoon, 비지도학습, 딥러닝, git기초, 인공지능, 네트워크기초, 백준, python, 파이썬기초, 네트워크, openAI, 딥러닝기초, 보안공부기록, 네트워크보안,

Today :
Yesterday :

일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

security-logs 님의 블로그