'분류 전체보기' 카테고리의 글 목록 (24 Page) ::: Sevity Blog

수정주가

기업에 증자, 액면분할 등 이벤트가 발생하면 주식수와 함께 주가에 변화가 생긴다.

이때 현재 주가의 수준을 과거와 비교 가능하게 하기위해 과거 주가도 함께 수정하는데, 이것이 수정주가.

예를들어 1주에 1000원짜리 10주가 발행되어 시가총액인 10,000원이었는데,

무상증자가 되어 10주에서 100주가 되었다고 하자.

그러면 시가총액을 10,000원으로 동일하게 맞추려면 주가가 100원으로 떨어져야

100원 x 100주 = 10,000원이 된다.

근데 이럴 경우, 주가만 보면 1,000원에서 100원으로 1/10 감소하는데, 일별수익률을 계산하면 큰폭으로 하락한걸로 계산되지만 실제로는 증자만 되었을뿐, 기업의 가치인 시가총액은 변함이 없다.

따라서 이경우 변경후인 100원을 수정주가라 하고, 이전 주가도 현재주가인 100원 기준으로 다 변경해주고 나면 일별수익률을 계산했을때 1.0으로 변동이 없게 된다.

한가지 의문은 수정주가 작업을 통해서 과거 주가는 변경을 해주었는데, 과거 거래량을 같이 변경해주지 않으면, 거래금액(=거래량 x 거래가격)에 오차가 발생하지 않겠느냐 하는 부분.

배당금

개인의 수익률 관점 : 올라간다.

현금배당이 있는 경우 실질수익률이 주가만 따졌을 경우의 수익률 보다 크다.

예를 들어 삼성전자 보통주를 2000년 1월 2일에 투자해 2010년 11월 말까지 그대로 보유한 경우 주가만으로는 214.3%의 수익률을 나타내지만 현금배당을 포함한 실질적인 수익률은 260.1%에 달한다. 단순 주가만을 반영한 수익률보다 45.8%포인트나 높은 셈이다.

배당금과 배당락에 대한 좋은글

주식 자체의 수익률 관점 : 떨어진다.

배당일이 지나면 반드시 주가가 떨어지는데, 위에서 무상증자로 인한 주가 감소와 유사하다.

이경우 수정주가를 적용하지 않으면 주식 자체의 일별수익률 역시 감소한다.

따라서 배당에 대한 수정주가를 지원하는 HTS등의 경우 배당전의 주가를 배당후의 주가 기준으로 일괄변경하는 수정주가가 적용되고,

이럴경우 수정주가 적용후 일별 수익률은 1.0으로 맞춰진다.

저작자표시 (새창열림)

'재무 금융' 카테고리의 다른 글

마이데이터 관점에서 본 OAuth2.0 (0)	2020.09.23
공인인증서와 전자서명 (0)	2020.07.30
CAPM(Capital Asset Pricing Model, 자본자산가격결정모형) (0)	2019.01.17
Risk Parity 전략 (0)	2018.01.30
위험조정수익률(risk-adjusted return) (0)	2018.01.26

먼저 보고올 개념

확률변수(random variable)

분산

정의

확률변수 X에 대한

기대값 $\mu = E(X)$

분산 $Var(X) = E((X-\mu)^2)$

즉 평균에서 얼마나 떨어졌는지를 나타내는 편차의 제곱을 평균낸것

의미

평균에서 표본들이 얼마나 떨어져있는지의 정도를 나타낸다고 보면 된다. 분산이 크면 말그대로 평균에서 멀리 멀리 떨어져들 있어서 변동성이 심한 것

공분산

공분산은 식은 매우 간단한 편이고, 의미를 이해하는데 난이도가 있다.

여기 링크 좋다.

정의

확률변수가 이번엔 두개 등장.. X와 Y

각각의 평균에 해당하는 기대값은 다음과 같다.

$$E(X) = \mu, E(Y) = \nu$$

뒤에 v처럼 생긴건 뉴라고 읽는다.

이때 공분산은 다음과 같이 나타낼 수 있다.

$$Cov(X, Y) = E((X-\mu)(Y-\nu))$$

분산과 비교해보면 분산에서는 하나의 확률변수에 대한 표본과 평균의 차이를 제곱하는데($E((X-\mu)^2)$)

공분산에서는 대신에 두개의 확률변수에 대한 표본과 평균의 차이를 곱해준 형태이다.

다르게 표현하자면 공분산은 X의 편차와 Y의 편차를 곱한것의 평균이 된다.

여기서 반드시 가져야할 의문은, 위처럼 하면 왜 X와 Y의 관계를 나타내주는가 하는 점과

X와 Y의 관계를 나타내는데 있어서는 위의 식이 아니라 다른 형태의 식으로도 가능한거 아니야?

라는 질문이 반드시 나와야 한다.

학자들이 결론낸걸 외우기만 해서는 아무 의미가 없다.

그냥 공분산이 아~ 저런식이고 저런의미를 갖는구나~ 하고 인정하고 넘어가지말고

분산에서 공분산으로 넘어가는 과정에서 왜 반드시 위의 식이 유일한 솔루션이 되었는가를 파해치는게 중요하다.

식을 전개해보면 다음과 같이 된다.

$$Cov(X,Y)=E((X-\mu)(Y-\nu))=E(XY)-\mu\nu$$

X와 Y가 독립이라면 공분산은 0이된다.

(독립사건과 독립시행이 있는데 여기서는 독립사건으로 해석해야할 듯 하다.)

이산확률변수에 대해서 기대값을 제거한 식을 써보면 다음과 같다.

$$Cov(X,Y) = {{1\over n} \sum_{i=1}^n{(x_i-E(X))(y_i-E(Y))}}$$

분산에서와 마찬가지로 표본공분산을 구할때는 n이 아니라 n-1로 나눠줘야 한다.

의미

두 변수 사이의 관계를 나타냄

$Cov(X, Y) > 0$ X가 증가 할 때 Y도 증가한다.

$Cov(X, Y) < 0 $ X가 증가 할 때 Y는 감소한다.

$Cov(X, Y) = 0 $ X와 Y는 서로 독립

위 그림을 보고 식과 연관지어 생각해보자. 어떤 샘플이 $\mu$에 대해서도 양의 편차를 가지고 $\nu$에 대해서도 양의 편차를 가지면 위 그래프에서 1사분면에 점이 찍히게 된다.

평균은 어차피 중간쯤으로 정해져 있지만 X가 양의 편차일때 Y도 양의 편차, X가 음의 편차일때 Y도 음의편차를 가지는 식이 되면 공분산이 커진다는 것

상관계수

위 공분산의 문제점은 원본데이터의 평균이나 편차에 대해서 정규화가 안된 값이다 보니 서로 비교하기가 어렵다는 점이다.

따라서 공분산을 그 크기(?)로 나눠주는 식으로 정규화(?)하면 그것이 바로 상관계수가 되고 그 식은 다음과 같다.

(아래식은 피어슨 상관계수 (Pearson correlation coefficient)이며 다르게 정의된 상관계수도 있다.)

공분산을 각자의 표준편차의 곱으로 나눠주면 된다.

$$\rho_{X,Y}= \frac{\operatorname{cov}(X,Y)}{\sigma_X \sigma_Y}$$

주요 성질은 다음과 같다.

1. 상관계수의 절대값은 1을 넘을 수 없다.

2. 확률변수 X, Y가 독립이라면 상관계수는 0이다.

3. X와 Y가 선형적 관계라면 상관계수는 1 혹은 -1이다.

공분산과 개념적으로는 같고 수치만 절대값 1이내로 정규화됐다고 보면 될 것 같다.

공분산의 성질

내적과 유사하다

이거 전에 어디서 봤는데.. 다시 찾아서 정리하자.

여기였구나. 공분산이 아니라 상관관계구나

저작자표시 (새창열림)

'수학' 카테고리의 다른 글

베이즈 추론(Bayesian inference) (0)	2019.06.27
Bootstrap Sampling(부트스트랩 샘플링) (0)	2019.02.08
확률변수(random variable) (0)	2019.01.18
직교행렬(orthogonal matrix) (0)	2019.01.09
고유값, 고유벡터(eigenvalue and eigenvector) (1)	2019.01.09

직관

주사위를 굴렸을 때 짝수가 나올 확률에 관심이 있다고 해보자.

직관적으로 $P(짝수)=1/2, P(홀수)=1/2$ 이란것을 우리는 알고 있다.

이를 확률변수X를 사용해서 표현하면 다음처럼 된다. $$P(X=짝수)=1/2, P(X=홀수)=1/2$$

위를 보면 확률변수가 어떤것인지 대략적으로 감이 올것이다.

좀 더 세밀한 이해를 위해, 표본공간 부터 시작해서 썰을 풀어보자.

표본공간(sample space)

주사위를 굴렸을때는 우리가 관심있는 짝수나 홀수라는 이벤트가 직접적으로 나온다기 보다는

1,2,3,4,5,6이라는 숫자가 나오고 이를 우리가 짝수, 또는 홀수로 해석한다고 말할 수 있다.

여기서 1,2,3,4,5,6이라는 raw하게 관측되는 low-level 정보를 모아서 표본공간이라고 이야기 하고 $S$또는 $\Omega$로 표기한다.

주사위를 던지는 실험에서 표본공간 $\Omega = \{1,2,3,4,5,6\}$이 되고,

동전을 던지는 실험에서의 표본공간 $\Omega = \{앞면, 뒷면\}$이 된다.

동전을 두 번 던지는 실험에서의 표본공간 $\Omega = \{앞앞, 뒤뒤, 앞뒤, 뒤앞\}$이 된다.

주사위는 1,2,3,4,5,6이외에 다른것이 나올 수 없으므로 $P(\Omega)=1.0$이 된다.

사건공간(event space)

우리가 실제적으로 관심이 있는 확률은 주사위의 눈이 1일 확률, 2일 확률 이런 raw하고 low-level인 정보가 아니라, 짝수냐 홀수냐고 하는 좀더 high-level 정보이다.

(짝수/홀수가 아닌 prime number냐 아니냐로 설정할수도 있고 관심사에 따라 다양하다)

따라서 우리가 관심이 있는 짝수, 홀수등을 사건으로 정의하고 확률변수 X등을 붙인다.

(표본이 아닌 사건에 확률변수를 붙임에 주의, 물론 표본자체가 관심사이면 표본=사건이 될 수도 있다.)

여기서 정의역이 표본공간인 {1,2,3,4,5,6}이고 치역이 {짝수,홀수}인 함수를 생각해보면 표본에서 사건으로 매핑되는 테이블이 하나 나오는데,

이 때문에 확률변수를 함수로 해석한다는 개념이 나오지만 중요하진 않으므로 넘어가자.

각 사건들은 이런개념에서는 치역이 되지만, P(짝수)=1/2처럼 확률에 대해서는 정의역이 됨에 주의(여기서 치역의 범위는 [0, 1]인 실수)

사건공간은 필드라고도 하며 F로 표기하는데,

필드라는 용어는 표본공간의 부분집합을 모아놓은 집합이면서, 원소끼리 합집합,교집합,여집합을 해도 닫혀있으면 필드라고 한다.

즉 표본공간이 {1,2,3,4,5,6}일때 사건공간 F = {{1,2,3},{4,5,6}} 이렇게 짝수, 홀수로만 해놓으면 합집합등에 대해 닫혀있지 않기 때문에 다음처럼 공집합과 전체집합을 포함해야 완전해지고 필드가 된다.

$$\Omega = \{1,2,3,4,5,6\}$$

$$F = \{\emptyset, \Omega, 짝수, 홀수\}$$

사건공간의 각 사건에 대해서 확률을 표시하면 다음과 같다.

$$P(\emptyset)=0, P(\Omega)=1, P(짝수)=1/2, P(홀수)=1/2$$

확률공간(probability space)

위의 $\Omega, F, P$를 모아서 확률공간이라 한다.

확률공간 ($\Omega, F, P$)

$\Omega$: 표본공간

$F$: $\Omega$의 부분집합으로 이루어진 사건들을 모아놓은 집합. 표본공간의 치역이면서 동시에 아래 확률 함수의 정의역

$P$: $F$에 정의된 각 사건에 대한 확률 함수.. 즉 $F$의 치역이 되며 범위는 [0, 1]이다.

주사위 짝수/홀수 실험에서는 다음과 같다.

$\Omega = \{1,2,3,4,5,6\}$

$F = \{\emptyset, \Omega, 짝수, 홀수\}$

$P(\emptyset)=0, P(\Omega)=1, P(짝수)=1/2, P(홀수)=1/2$

확률변수(random variable)

확률공간에서 각 사건별 확률이 있을때 확률변수 X를 써서 다음처럼 표기

$$P(X=사건)=확률$$

위의 주사위 짝수/홀수 실험에서는 다음처럼 된다.

$$P(X=짝수)=1/2, P(X=홀수)=1/2$$

확률변수는 이처럼 각 사건에 대응되고, 반복실험을 할때마다 발생하는 사건이 확률에 따라 달라지므로,

확률변수 X를 실험의 관측사건으로 해석하면 편한경우도 있다.

관측사건으로 해석하면 다음처럼 기대값을 구할때 확률변수를 쓰는것도 자연스럽게 이해가 된다.

$$E(X) = \sum x_ip_i$$

저작자표시 (새창열림)

'수학' 카테고리의 다른 글

Bootstrap Sampling(부트스트랩 샘플링) (0)	2019.02.08
공분산(Covariance)과 상관계수(Correlation Coefficient) (0)	2019.01.18
직교행렬(orthogonal matrix) (0)	2019.01.09
고유값, 고유벡터(eigenvalue and eigenvector) (1)	2019.01.09
3D그래픽스 - 회전(Rotation) (0)	2019.01.09

정의

특정 상품의 예상수익률을 의미.

가치를 판단할때 사용

이 영상이 직관적으로 이해하는데 도움이 많이 됐다.

$R$ = expected return = Time value + Risk

투자자들은 기본이자(시간에따른가치) + 위험을감수한보상(리스크) 만큼 수익을 올리고 싶어 한다는 것

Time value = $R_f$ = risk-free rate (무위험 수익률)

기본이자니까 배당율이나 무위험 수익률을 사용해줌

$\beta$ = volatility (흔히 얘기하는 베타)

$r_m$ = expected market return (시장수익률; S&P500같은 BM의 수익률을 의미하는 것 같다.)

Risk = $\beta(r_m - r_f)$

리스크는 베타 민감도에다가 무위험수익률을 고려한 시장수익률을 곱해줌

합치면 다음과 같다.

$R = R_f + \beta(r_m - r_f)$

예제

어떤 주식이 $100 짜리이고 연간배당금이 3%라고 하자(이게 무위험 수익률이 된다는 개념같다)

그리고 베타는 1.3으로 측정되었다고 하자(베타 측정은 과거 패턴을 기반으로 추정한다)

1.3이란 뜻은 시장보다 리스크가 크다는 걸의미(기울기가 더 가파르니까)

그리고 시장수익률은 8%로 측정되었다고 하자(마찬가지로 추정의 영역)

그럼 이 주식의 CAPM에 의한 기대수익률 R = $9.5\% = 3\% + 1.3(8\% - 3\%)$가 된다.

시사점

여기서 말하는 Risk, 베타 이런것들은 모두 변동성..즉 표준편차를 기준으로 계산된다.

다시말해서 CAPM은 변동성을 가지고 가치를 판단하는 지표라고 러프하게 말할 수 있다. (변동성이 클수록 기대수익률이 커진다고 하는..)

그런데 표준편차를 사용하려면 정규분포를 형성해야하는데 알겠지만 주식시장에서 일어나는 대부분의 현상은 정규분포를 이루지 않는다(CAPM모델의 한계)

저작자표시 (새창열림)

'재무 금융' 카테고리의 다른 글

공인인증서와 전자서명 (0)	2020.07.30
배당금과 수정주가 (0)	2019.01.28
Risk Parity 전략 (0)	2018.01.30
위험조정수익률(risk-adjusted return) (0)	2018.01.26
z-score, Sharpe's ratio(샤프 비율) (0)	2018.01.25

자신의 전치행렬(transpose)이 역행렬과 같은 정방행렬

$$A^{-1}=A^{T}$$

$$AA^{T}=E$$

단순히 대각선으로 뒤집으면 역행렬이 구해지는 편리한 성질이 있다.

또한, 직교행렬은 그 열벡터, 행벡터가 모두 서로 정규직교(orthonormal)하는 성질이 있다.

즉 열벡터들은 모두 단위벡터이면서 서로 수직인 성질을 갖는다.

$$||v_i||=1$$

$$v_i \cdot v_j =0, i \neq j$$

저작자표시 (새창열림)

'수학' 카테고리의 다른 글

공분산(Covariance)과 상관계수(Correlation Coefficient) (0)	2019.01.18
확률변수(random variable) (0)	2019.01.18
고유값, 고유벡터(eigenvalue and eigenvector) (1)	2019.01.09
3D그래픽스 - 회전(Rotation) (0)	2019.01.09
likelihood(가능도 = 우도) (0)	2018.10.02

선형변환이 일어난 후에도 크기는 변하더라도 방향이 변하지 않는 벡터를 고유벡터라 하고, 그때 변하는 크기의 양을 고유값이라고 한다.

특정 선형변환은 특히 행렬로 표시하면 간단한 경우가 많고, 고유값, 고유벡터는 이행렬의 특징을 나타내게 된다.

고유값, 고유벡터는 정방행렬에 대해서만 정의된다.

위 정의에 따라 어떤 행렬 A에 대해서 $Av=\lambda v$를 만족하는 $\lambda, v$가 있을때 이를 각각 고유값, 고유벡터라 한다.

어떤 숫자의 본질적인 특성을 나타내는게 prime number라고 할 수 있듯이,

어떤 행렬(선형변환)의 본질적인 특성을 나타내는게 고유벡터, 고유값이라고 말할 수 있다.

PCA(주성분 분석)에 쓰이는 모습을 보면 그런점을 명확하게 더 파악할 수 있다고 본다.

전반적인 개념을 잡는데는 이 링크가 아주 좋다.

한글 문서중에는 이 링크가 좋다.

존재여부에 대해서는 어떤행렬은 고유값, 고유벡터가 없을수도 있고 하나만 존재하거나 최대 n개까지 존재할 수 있다.

직관

여기서 첫번째 답변이 다항식의 근에 비유한 표현과, 그 밑에 답변에서 hinge(경첩)에 비유한 표현이 좋은거 같다.

왜냐면 방향이 변하지 않는 부분이기 때문에 일종의 말뚝을 박아놓은 부분이라 전체적인 변환의 특성을 표현하기 좋기 때문인거 같애

다항식의 근이 그렇듯이 (다항식의 근을 보면 대충 어떻게 생긴지 앎.. 왜냐면 근은 y=0 축에다가 못 움직이게 말뚝을 박아놓은 형태기 때문에 )

고유벡터 예제

1. 모나리자

2. 자전운동

자전운동은 회전변환인데 이 변환에 의해 변하지 않는 고유벡터는 회전축(자전축)벡터일 것이고 그 고유값은 1이 될 것이다(스케일이 변하지 않으므로)

고유벡터 활용예

1. 고유값 분해(eigendecomposition, =대각화?)

이건 마치 prime factorization과 비슷한 느낌이다.

요건 별도 문서로 정리하자

2. 특이값분해(SVD)

3. 주성분분석(PCA)

고유벡터 문제풀이 예제

외부링크

https://math.stackexchange.com/questions/243533/how-to-intuitively-understand-eigenvalue-and-eigenvector

visualization

저작자표시 (새창열림)

'수학' 카테고리의 다른 글

확률변수(random variable) (0)	2019.01.18
직교행렬(orthogonal matrix) (0)	2019.01.09
3D그래픽스 - 회전(Rotation) (0)	2019.01.09
likelihood(가능도 = 우도) (0)	2018.10.02
MLE, 최대우도추정(Maximum Likelihood Estimation) (0)	2018.09.27

좌표계

직교좌표계(Cartesian coordinate system)

(x,y,z) 뻔한거

구면좌표계(spherical coordinate system)

반지름, 위도, 경도 $(r,\theta ,\phi )$

Rotation

Euler angle(오일러각)

3차원 벡터의 방향을 세 개의 각으로 표시한 것

위에서 물체 M이 놓인 방향을 (α, β, γ) 또는 (ψ, θ, φ)로 표현

x,y,z축에 대해서 회전하는 쉬운 개념이 tait-bryan angle이고 proper Euler angle은 좀 어렵다 x,y,z가 아니라 z,x,z 이런식으로 회전한다는데 정확히 이해 못함

또한 Intrinsic vs Extrinsic rotations 개념이 있다.

전자는 회전축이 변경되는거고 후자는 고정.

처음회전은 둘다동일한데 다음회전을 다른축에 대해서 할때 전자는 첫번째 회전에 의해 이동된 축을 기준으로 회전하고 후자는 원래부터 고정된 월드회전축 기준으로 회전함

Axis-angle representation

Rotation matrix

2차원일때

$R={\begin{bmatrix}\cos \theta &-\sin \theta \\\sin \theta &\cos \theta \\\end{bmatrix}}$

원점(0,0)을 기준으로 반시계방향(오른손 좌표계)으로 회전하는 행렬은 위와 같다.

특정한 픽셀의 좌표가 컬럼벡터 v로 표현될때 해당 필셀을 회전한 후의 좌표는 형렬연산으로 Rv 가 된다.

${\begin{bmatrix}x'\\y'\\\end{bmatrix}}={\begin{bmatrix}\cos \theta &-\sin \theta \\\sin \theta &\cos \theta \\\end{bmatrix}}{\begin{bmatrix}x\\y\\\end{bmatrix}}$

3차원일때

2차원 회전에서는 회전축이 가상의 z축 하나라면 3차원 회전에서는 회전에 대해 고를 수 있는 축이 3개가 된다(x축, y축, z축)

각각에 대해서 오른손 좌표계(축을 오른손 엄지로 놓았을때 나머지 네 손가락이 쥐어지는 방향..반시계) 기준으로 회전행렬은 다음과 같다.

${\begin{alignedat}{1}R_{x}(\theta )&={\begin{bmatrix}1&0&0\\0&\cos \theta &-\sin \theta \\[3pt]0&\sin \theta &\cos \theta \\[3pt]\end{bmatrix}}\\[6pt]R_{y}(\theta )&={\begin{bmatrix}\cos \theta &0&\sin \theta \\[3pt]0&1&0\\[3pt]-\sin \theta &0&\cos \theta \\\end{bmatrix}}\\[6pt]R_{z}(\theta )&={\begin{bmatrix}\cos \theta &-\sin \theta &0\\[3pt]\sin \theta &\cos \theta &0\\[3pt]0&0&1\\\end{bmatrix}}\end{alignedat}}$

2차원 회전행렬과 상당히 비슷한걸 볼 수 있다.

재밌는점은

저작자표시 (새창열림)

'수학' 카테고리의 다른 글

직교행렬(orthogonal matrix) (0)	2019.01.09
고유값, 고유벡터(eigenvalue and eigenvector) (1)	2019.01.09
likelihood(가능도 = 우도) (0)	2018.10.02
MLE, 최대우도추정(Maximum Likelihood Estimation) (0)	2018.09.27
베이즈 정리(Bayes' theorem) (0)	2018.09.27

clipping = clamping = winsorizing

extreme value에 대해서 범위내 값으로 치환하는 것(버리진 않음)

trimming

extreme value에 대해서 버리는 것

저작자표시 (새창열림)

'AI, ML > ML' 카테고리의 다른 글

1D CNN (0)	2019.02.26
의사결정나무(Decision Tree) (0)	2019.02.07
Standardization vs normalization (0)	2019.01.04
Gym (0)	2018.11.07
크로스엔트로피 손실함수 (0)	2018.10.02

아래 글은 주로 여기와 여기에서 가져왔음을 밝힘니다.

Normalization

Normalization은 모든 실수 데이터들 [0,1] range로 변환하는 걸 의미한다.

예를 들면 다음과 같다.

Standardization(=z-transform)

Standardization은 반면 평균을 0으로 만들고 unit variance를 같도록 표준편차로 나누는 작업을 의미한다(z-score)

(결국 평균은0이고 표준편차는 1이되도록 바뀐다)

Normalization의 단점은 outlier가 있어서 매우 크게 튀는 값이 있으면 모든 값을 [0,1]사이에 넣는 속성 때문에 다른 정상(?)값들이 작은 범위에 들어가게 된다는 점이다.

Standardization의 경우는 Normalization과 다르게 [0,1]등 특정 범위에 bound되지는 않는다.

따라서 대부분의 경우는 Normalization보다 Standardization이 좀 더 추천됨

표준편차로 나누는 대신 IQR을 사용하는 방법도 있다. 여기 참조

표준편차는 +-시그마 범위가 68.27%라서 이를 50%로 사용하고 자 할 때 사용(전체 데이터를 4등분해서 outlier여부를 체크하는 등)

또는 10등분해서 상하위 10%를 outlier로 체크하는 방법도 가능(outlier면 범위안으로 값을 바꾼다던지 = clipping = clamping또는 Winsorizing)

Log transformation

값들이 10배수 이상씩 차이가 크다면 log를 씌워서 간격을 줄일 수 있다.

하지만 log는 양수에만 씌울 수 있어서 값에 0이나 음수가 있다면 좀 더 고민이 필요하다.(아래 그래프 참조)

저작자표시 (새창열림)

'AI, ML > ML' 카테고리의 다른 글

의사결정나무(Decision Tree) (0)	2019.02.07
[데이터 전처리] clipping vs trimming (1)	2019.01.04
Gym (0)	2018.11.07
크로스엔트로피 손실함수 (0)	2018.10.02
credit assignment problem (0)	2018.09.27

https://www.youtube.com/channel/UC5itaBFwmWC4UitYTojyqcQ

안녕하세요, 유튜브에 코딩관련 채널을 개설했습니다. 많은 방문 부탁드립니다^^ !

저작자표시 (새창열림)