반응형

회귀는 일반 단어로는 되돌아간다는 뜻이지만, 회귀분석에서는 변수 사이의 관계를 모델로 표현하고 그 모델로 값을 예측하는 분석 방법을 뜻한다. 회귀테스트의 회귀와 통계의 회귀분석은 같은 단어를 쓰지만 의미가 다르다.

이 글은 회귀라는 단어의 뜻, 소프트웨어 회귀테스트, 통계 회귀분석, 선형회귀, 로지스틱 회귀를 한 번에 구분하기 위한 메모다.

 

핵심 정리

회귀분석은 독립변수와 종속변수 사이의 관계를 식이나 모델로 나타내고, 그 모델이 데이터를 얼마나 잘 설명하는지 확인하는 방법이다. 독립변수가 하나이면 단순회귀, 여러 개이면 다중회귀로 볼 수 있고, 관계를 직선으로 놓으면 선형회귀, 그렇지 않으면 비선형 회귀로 나눌 수 있다. 선형회귀에서는 예측값과 실제값의 차이를 줄이는 방향으로 모델을 맞춘다. 로지스틱 회귀는 이름에 회귀가 들어가지만 결과가 두 범주나 여러 범주 중 하나인 분류 문제에 자주 쓰인다. 특히 이항 로지스틱 회귀는 결과를 0과 1 사이의 확률처럼 해석할 수 있게 만드는 점이 중요하다.

  • 회귀라는 일반 단어는 되돌아간다는 뜻을 가진다.
  • 회귀테스트는 기존에 고친 오류가 다시 생겼는지 확인하는 소프트웨어 테스트다.
  • 회귀분석은 변수 사이의 관계를 모델로 표현하고 예측에 활용하는 분석 방법이다.
  • 독립변수가 하나이면 단순회귀, 여러 개이면 다중회귀로 볼 수 있다.
  • 선형회귀는 변수 관계를 직선 형태로 가정한다.
  • 비선형 회귀는 직선 하나로 설명하기 어려운 관계를 다룬다.
  • 로지스틱 회귀는 분류 문제에서 결과를 확률처럼 해석할 때 자주 쓰인다.
  • 회귀분석을 볼 때는 변수, 모델, 오차, 예측 목적을 함께 확인해야 한다.

원문은 회귀라는 단어의 의미에서 시작해 선형회귀와 로지스틱 회귀까지 이어지는 학습 메모입니다. 보강문에서는 소프트웨어 회귀테스트와 통계 회귀분석을 먼저 분리하고, 회귀분석 내부의 분류 기준을 정리했습니다. 제목처럼 여러 개념이 한 글에 들어 있으므로 처음 읽는 사람은 용어 구분부터 잡는 것이 좋습니다.

이어서 볼 글

 

단어 뜻

* 회귀..퇴행, 퇴보 돌아가는 것..

* ex> This can cause regression in a pupil's learning process.

회귀테스트

* 회귀버그: 이전에 제대로 작동하던 소프트웨어 기능에 문제가 생기는 것

* 회귀테스트: 회귀버그가 있는지 이전의 실행 테스트를 재 실행하며 이전에 고쳐졌던 오류가 재발되는지 검사하는 방법

회귀분석

* 두 변수 사이의 모형(수식)을 구한 뒤 적합도를 측정해 내는 분석 방법

* 그 모형을 가설(Hypothesis)라고 부르고, 이 모형을 통해 임의의 인풋에 대한 아웃풋을 예측하는데 쓰임

* 두개의 변수가 있음.. 하나는 독립변수X고 다른 하나는 종속변수 Y..

* 그러면 2차원 상에 plot을 시킬 수 있음..(아래 그림에서 빨간점)

*

* 이 때 X와 Y의 관계를 식으로 나타내 봄(파란색)

* Y = AX + B형태로 선형으로 나타내 보면 선형 회귀고

* 선형으로 나타내는게 아니면 비선형 회귀

* 독립변수 X가 하나이면 단순회귀분석, 여러개면 다중회귀분석이라고 한다.

*

* 주의할점: 회귀테스트와는 전혀의미가 다르다

* 의미: 두 변수 사이의 모형을 구한 뒤 적합도를 측정해 내는 분석 방법

* (역사적으로)회귀분석에 "회귀"라는 용어가 사용된 이유

* <WRAP prewrap info>

회귀(영어: regress 리그레스[*])의 원래 의미는 옛날 상태로 돌아가는 것을 의미한다. 영국의 유전학자 프랜시스 골턴은 부모의 키와 아이들의 키 사이의 연관 관계를 연구하면서 부모와 자녀의 키사이에는 선형적인 관계가 있고 키가 커지거나 작아지는 것보다는 전체 키 평균으로 돌아가려는 경향이 있다는 가설을 세웠으며 이를 분석하는 방법을 "회귀분석"이라고 하였다. 이러한 경험적 연구 이후, 칼 피어슨은 아버지와 아들의 키를 조사한 결과를 바탕으로 함수 관계를 도출하여 회귀분석 이론을 수학적으로 정립하였다.

아빠키가 큰데.. 아들도 큰게 아니라 아들은 평균키로 회귀하는걸로 측정이 됨.. 아빠키가 큰게 유전자적인 요소보다 우연적이 요소가 컸다는 것.. </WRAP>

선형회귀

* 위에 회귀분석 항목에서 설명했듯이, 독립변수와 종속변수 간의 관계를 선형으로 놓고 분석 하는것

*

* 위는 cost function 이고 최소제곱법을 사용했음

* y텀이 정답, a,b텀쪽이 모델(가설)

로지스틱 회귀

* 선형회귀의 일종인데 종속변수 Y가 다양한 값을 가지는게 아니라 두 개(이항)이거나 몇개(다항)인 경우

* 일종의 classification 기법으로 볼 수 있다

이항 로지스틱 회귀

* 이항의 경우 종속 변수 Y의 결과는 0과 1, 두 개의 경우만 존재하는데 반해, 선형회귀를 적용하면 범위[0,1]를 벗어나는 결과가 나오기 때문에 예측의 정확도만 떨어뜨리게된다(직선이 나올텐데.. X값이 커지거나 작아지면 Y값도 [0,1]바운더리를 초과하겠지)

* 따라서 이를 해결하기 위해 로지스틱 회귀는 Y의 범위를 [0, 1]로 제한하면서 연속인 연속 함수 g(x)를 제안하였다.

* 이 g(x)는 다양하지만 대표적인 두 개는 아래와 같다.

*

로지스틱 함수

* 위의 로지스틱 모형의 함수를 의미

*

* 독립변수가 어떤 값이든 종속변수는 항상 [0, 1]사이에 있도록 한다.

반응형

+ Recent posts