머신러닝 & 딥러닝 기초 18편 | 상관관계와 회귀 분석

머신러닝&딥러닝

머신러닝 & 딥러닝 기초 18편 | 상관관계와 회귀 분석

SecLogs YJ 2026. 3. 16. 00:44

목차

1. 변수 간 관계 분석
2. 상관계수(Correlation)
3. 상관행렬(Correlation Matrix)
4. 단순 회귀 분석(Simple Linear Regression)
5. 회귀 분석 주요 개념
6. 상관관계와 인과관계

1. 변수 간 관계 분석

데이터 분석에서는 두 변수 사이의 관계를 이해하는 것이 주요하다.

예를 들어, 다음과 같은 질문을 생각해 볼 수 있다.

공부 시간이 늘어나면 시험 점수가 늘어날까?

이 처럼 한 변수의 변화가 다른 변수의 어떤 관계가 있는지를 분석하는 과정을 변수 간 관계 분석이라고 한다.

대표적인 방법은 다음과 같다.

상관계수
상관행렬
회귀 분석
산점도

2. 상관계수(Correlation)

상관계수는 두 변수 사이의 선형 관계의 강도와 방향을 나타내는 값이다.

상관계수의 값의 범위는 다음과 같다.

1 : 완전한 양의 상관관계
0 : 관계 없음
-1 : 완전한 음의 상관관계

상관관계 에시

예시 ) 스마트폰 사용 시간과 수면 시간

스마트폰 사용 시간이 증가하면 수면 시간이 줄어들 수 있다.

스마트폰을 사용하면, 수면시간이 줄어든다.

이는 음의 상관관계를 의미한다.

예를 들어, 상관계수가 -0.65라면, 이는 중간정도의 음의 관계를 의미한다.

3. 상관행렬(Correlation Matrix)

상관행렬은 여러 변수 간의 상관관계를 표 형태로 정리한 것이다.

예를 들어, 다음과 같은 학생 데이터를 생각해보자

변수

공부 시간
시험 점수
운동 시간
게임 시간

상관행렬 예시

	공부시간	시험점수	운동시간	게임시간
공부시간	1.0	0.82	0.30	-0.60
시험점수	0.82	1.0	0.25	-0.55
운동시간	0.30	0.25	1.0	-0.20
게임시간	-0.60	-0.55	-0.20	1.0

해석 예시

공부시간과 시험점수 : 양의 관계
공부시간과 게임시간 : 음의 관계

Python 예제 - pandas의 corr() 함수

corr() 함수는 상관계수을 계산하는 함수이다.

import pandas as pd

data = {
    'Study_Time':[2,3,4,5,6],
    'Score':[60,65,70,75,80],
    'Exercise':[1,1,2,2,3],
    'Game_Time':[4,3,3,2,1]
}

df = pd.DataFrame(data)

print(df.corr())

4. 단순 회귀 분석(Simple Linear Regression)

회귀 분석은 한 변수(X)를 이용하여 다른 변수(Y)를 예측하는 방법이다.

단순 회귀 분석은 하나의 독립 변수와 하나의 종속 변수를 사용하는 모델이다.

수식은 다음과 같다.

Y = aX + b

X : 독립 기후
Y : 종속 변수
a : 기울기
b : 절편

Python 코드 예제

Seaborn의 regplot() : 산점도와 회귀선을 동시에 그린다.

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

day1 = datetime.date(2026,1,25)
day2 = datetime.date(2026,1,1)

# 예제 데이터
data = {
    'Exercise_Time':[10,20,30,40,50,60],
    'Calories_Burned':[80,150,210,260,320,400]
}

df = pd.DataFrame(data)

# 산점도 + 회귀선
sns.regplot(
    x='Exercise_Time',
    y='Calories_Burned',
    data=df
)

plt.title("운동 시간과 칼로리 소비량 관계")
plt.xlabel("운동 시간 (분)")
plt.ylabel("칼로리 소비량")

plt.show()

예시 출력 결과

5. 회귀 분석 주요 개념

잔차(Residual)
- 실제 값과 예측 값의 차이
최소제곱법(Least Squares)
- 잔차의 제곱합이 최소가 되도록 회귀선을 찾는 방법
결정계수(R²)
- 회귀 모델이 데이터를 얼마나 잘 설명하는지를 나타내는 값
- 값 범위 : 0~1 (1에 가까울수록 데이터를 잘 설명한다는 의미이다.)

6. 상관관계와 인과관계

데이터 분석에서 매우 중요한 개념은 다음과 같다.

상관관계 ≠ 인과관계

즉, 두 변수 사이에 상관관계가 있다고 해서, 반드시 한 변수가 다른 변수의 원인이라고 할 수 없다.

상관관계는 두 변수의 함께 변하는 패턴을 의미하고,
인과관계는 한 변수가 다른 변수의 원인이 되는 관계를 의미한다.

👉 머신러닝 & 딥러닝 기초 19편 | 지도 학습 vs 비지도 학습 정리

저작자표시 비영리 변경금지 (새창열림)

'머신러닝&딥러닝' 카테고리의 다른 글

머신러닝 & 딥러닝 기초 20편 \| 지도 학습 - 선형 회귀, 성능 평가 (0)	2026.03.17
머신러닝 & 딥러닝 기초 19편 \| 지도 학습 vs 비지도 학습 정리 (0)	2026.03.16
머신러닝 & 딥러닝 기초 17편 \| 데이터 그룹화와 집계(Groupby, Pivot Table) (1)	2026.03.16
머신러닝 & 딥러닝 기초 16편 \| EDA(탐색적 데이터 분석) (0)	2026.03.15
머신러닝 & 딥러닝 기초 15편 \| EDA(탐색적 데이터 분석)와 주요 시각화 기법 (1)	2026.03.15

현재글머신러닝 & 딥러닝 기초 18편 | 상관관계와 회귀 분석

security-logs 님의 블로그

보안을 공부하는 사람의 실습 기록과 IT 학습 노트

머신러닝, 네트워크보안, 머신러닝기초, AI개발, 딥러닝, 비지도학습, 인공지능, 코딩테스트, 네트워크, git기초, 네트워크기초, openAI, 딥러닝기초, 파이썬기초, python, 백준, 보안공부기록, 파이썬, GIT, baekjoon,

Today :
Yesterday :

security-logs 님의 블로그