최소제곱법과 선형회귀 Cost Function 정리 ::: Sevity Blog

최소제곱법과 선형회귀 Cost Function 정리

2026. 5. 16. 13:40

최소제곱법은 모델의 예측값과 관측값의 차이를 제곱해 합산하고, 그 값이 가장 작아지는 모델을 찾는 방법이다. 선형회귀의 cost function을 이해하는 기본 출발점이 된다.

이 글은 최소제곱법, 선형회귀, residual, 확률변수, 확률질량함수, 확률밀도함수, 정규분포, 기대값, 분산, 표본조사를 한 번에 정리한 통계 학습 메모다.

핵심 정리

최소제곱법에서는 관측 데이터와 모델 예측 사이의 차이를 오차나 잔차로 보고, 그 차이를 제곱해 더한 값을 줄이는 방향으로 모델을 맞춘다. 제곱을 쓰면 양수와 음수가 상쇄되지 않고, 큰 차이에 더 큰 벌점을 줄 수 있다. 선형회귀에서는 직선 모델이 데이터를 얼마나 잘 설명하는지 이 cost function으로 판단한다. 원문은 여기서 확률변수와 분포 개념으로 이어지는데, 확률변수는 결과가 고정되어 있지 않고 확률적으로 달라지는 값이며, 확률질량함수와 확률밀도함수는 각각 이산형과 연속형 확률변수를 설명하는 도구다. 정규분포, 기대값, 분산은 데이터의 중심과 퍼짐을 이해하는 기본 개념이고, 표본조사는 전체를 모두 볼 수 없을 때 일부 데이터로 전체를 추정하는 방법이다.

최소제곱법은 예측값과 관측값의 차이를 제곱해 합산한다.
제곱을 쓰면 양수와 음수 차이가 서로 상쇄되지 않는다.
큰 오차에는 더 큰 벌점이 주어진다.
선형회귀에서는 직선 모델이 데이터를 얼마나 잘 맞추는지 cost function으로 본다.
residual은 관측값과 모델 예측값 사이의 남은 차이로 이해할 수 있다.
확률변수는 결과가 확률적으로 달라지는 값을 뜻한다.
기대값은 확률적 값의 평균적인 중심을 나타낸다.
분산은 값들이 평균 주변에서 얼마나 퍼져 있는지 나타낸다.

원문은 최소제곱법에서 시작해 확률변수와 분포, 기대값, 분산, 표본조사까지 이어지는 넓은 통계 메모입니다. 보강문에서는 최소제곱법과 선형회귀 cost function을 앞에 세우고, 뒤쪽 확률 개념은 왜 필요한 배경인지 정리했습니다. 수식보다 먼저 잔차를 줄이는 모델 맞춤 과정으로 이해하면 선형회귀가 더 자연스럽게 보입니다.

이어서 볼 글

Cost Function과 Loss Function 개념: 제곱 손실과 Cross Entropy - 제곱 손실에서 cross entropy까지 손실 함수 선택을 확장해 볼 수 있다.

최소제곱법

자료를 잘 표현할 수 있는 다항식을 예측

이 다항식과 실제 샘플간의 차이를 제곱해서 더한 다음 이값이 최소가 되도록 하는 방법

$y_i$는 Sample 또는 Observation 또는 정답

• 정답이라고 했지만 True Value는 아닐 수 있음에 주의

• True Value는 관찰되지 않지만 존재할 수 있으며 이경우 yi는 error(오차)가 아닌 residual(잔차)이라고 부름

$ax_i + b$는 모델이자 예측

제곱안하면 안되나

절대값을 써도 상관은 없지만 미분 불가능 한 점 때문에 에러를 줄여가면서 정답 찾기가 힘들어짐

회귀분석 할때 쓰임

딥러닝에서도 쓰임

확률변수

어떤 값 X가 정해진게 아니라 (물리적 랜덤성, 조사대상 등에 의해서) 확률적인 값을 가질 때, X를 확률변수라고 한다.

• 예를 들어 X := 주사위를 굴려서 나온 숫자 라고 정의해보자.

• X는 정해진게 아니라 확률에 따라서 1이상 6이하의 값을 가지게 된다.

• 따라서 X는 (상수가 아니라) 확률변수라고 말할 수 있다.

• 샘플이라고 생각해도 된다.

확률질량함수

이산 확률 변수에서 특정 값에 대한 확률을 나타내는 함수

확률변수를 X축에 그 확률을 Y축에 놓고 Plot하면 알기 쉬움

그 합은 1이 되어야 함

> 확률변수 X = '주사위 2개를 던졌을때 나오는 눈의 합' 으로 정의했을때 확률질량함수

확률밀도함수

확률변수가 연속적인 값을 가질때 확률 변수의 분포를 나타내는 함수

정규분포

확률밀도함수 중의 하나

확률변수 x의 확률밀도 함수가 다음과 같을 때 정규분포를 이룬다고 표현한다.

복잡해 보이지만, 사실 가우시안 함수 $ y = e^{-x^2}의 변형$

수집된 자료의 분포를 근사하는 데에 자주 사용되며,

이것은 중심극한정리에 의하여 독립적인 확률변수들의 평균은 정규분포에 가까워지는 성질이 있기 때문이다.

중심극한정리(中心極限定理, 영어: central limit theorem, 약자 CLT)는 동일한 확률분포를 가진 독립 확률 변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워진다는 정리

정규분포는 2개의 매개 변수 평균 $\mu$ 과 표준편차 $\sigma$ 에 대해 모양이 결정되고,

이때의 분포를 ${\mathrm {N}}(\mu ,\sigma ^{2})$로 표기한다.

특히, 평균이 0이고 표준편차가 1인 정규분포 ${\mathrm {N}}(0,1)$을 표준정규분포라고 한다.

> 주의할점

확률변수들이 주어질때

항상 평균, 분산, 표준편차를 계산할 수 있지만

반드시 모든 확률변수들이 정규분포를 따르는 것은 아니다.

기대값

확률이 균등한 경우는 단순 평균

• 예를 들어 주사위 한개 눈의 기대값은 $ E(X) = (1 + 2 + 3 + 4 + 5 + 6) / 6 = 3.5$

확률이 균등하지 않은 경우 weighted average

• 예를 들어 주사위 두 개 눈의 합에 대한 기대값은

분산

확률이 균등한 경우는 각 샘플(확률변수)과 평균의 차이를 제곱한 것에 대한 평균

${{(1-3.5)^2 + (2 - 3.5)^2 + (3 - 3.5)^2 + (4 - 3.5)^2 + (5 - 3.5)^2 + (6 - 3.5)^2} \over 6} = 2.917$

확률이 균등하지 않은 경우, 차이의 제곱에 대한 기대값

분산과 최소제곱법의 차이

분산은 평균과 샘플(확률변수)의 차이에 대한 산포도

최소제곱법에서는 모델과 샘플(확률변수)간의 차이에 대한 산포도

평균은 상수이지만 모델은 다항식등 상수가 아니라는 차이점.

표본조사

http://blog.naver.com/PostView.nhn?blogId=dalsapcho&logNo=20147545698&categoryNo=11&viewDate=

전수 조사가 불가능한 경우가 있으며 이경우는 표본조사가 필수적

> 예를들어 자동차 파괴검사, 전화 여론 조사등

회귀분석

Test Functions

https://en.wikipedia.org/wiki/Test_functions_for_optimization

저작자표시 (새창열림)

'Programming' 카테고리의 다른 글

Pandas tutorial: DataFrame 기본 사용법 정리 (0)	2026.05.17
Python decorator class와 type 개념 정리 (0)	2026.05.16
Python unittest 사용법: TestCase와 test_ 메서드 (0)	2026.05.16
DQN Experience Replay 개념 정리 (0)	2026.05.16
Python metaclass와 decorator 동작 원리 정리 (0)	2026.05.16

Sevity Blog