소스코드는 여기서 확인가능(macOS에서 동작확인함)

convolution 자체에 대한 좋은 튜토리얼은 여기

일반적인 CNN에 대해서 좋은 튜토리얼 여기(1D CNN포함)

CNN기초

원본 데이터를 2차원으로 놓고 필터(또는 feature detector)라는 사각형 윈도우를 씌운다음에 움직이면서 새로운 값을 만들어 낸다.
이때 움직이는 과정을 convolution이라고 하고, 필터가 움직이는 방향이 한 방향이면 1D-CNN이고 두 방향이면 2D-CNN이다.
위의 그림에서 보듯이 1차원 CNN이라 하더라도 필터의 사각형이 반드시 1차원인건 아니다. 움직이는 콘볼루션 방향및 결과로 나오는 배열이 1차원인지 2차원인지 따지는 것

1D CNN

센서 데이터로 부터 정해진 구간(예를 들면 2초)에 대해서 classification을 하려고 할때 1D-CNN을 쓰면 좋다.
1D CNN이 필요한 경우에 대해서는 여기를 참조하자.
여기 자료 좋다.

A 1D CNN is very effective when you expect to derive interesting features from shorter (fixed-length) segments of the overall data set and where the location of the feature within the segment is not of high relevance.

짧은 구간에 대해서 흥미로운 패턴을 인식하고 싶고, location에 상관없을 때 좋다고 한다. 2D이미지로 따지자면 고양이가 이미지 상에서 어느 location에 있던지 상관없어야 하니 맞는말인듯 하다. 주식에 대입해보면 어떨까? 아쉽게도 주식은 trend 및 seasonality가 존재하기 때문에 location에 영향을 받는다고 해야할 것 같다. 상승 패턴이라고 하더라도 방금전에 나온것과 한달전에 나온것은 다르기 때문이다.



여기 개념 잘 봐두자.


[첫번째 conv layer]

센서x,y,z를 width로 둔다 따라서 값은 3

feature detector 또는 필터의 경우 가로3, 세로 10의 사이즈를 가진다.

이 필터를 아래쪽으로 height만큼 슬라이딩 한다. (80-10+1 = 71)

필터 하나당 숫자 하나가 나와서 결과적으로 71개의 숫자가 나오고 필터 개수가 100개면  71x100개의 아웃풋이 나온다.

(위의 그림의 경우 height라고 표시하고 개념은 커널사이즈인걸로 보여서 헷갈린다. 문서 뒷부분에 보면 height랑 kernel size를 같은거라고 또 적어놨다 -_-)

아래그림에서 height는 인풋에 들어가는 개수라고 설명되어 있다. 최근 80개의 센서값이 네트웍 인풋으로 들어간다는 듯


[두번째 conv layer]

비슷한 작업을 한차례 더한다. (71-10+1 = 62)

해서 62 x 100 사이즈의 아웃풋이 나온다.


[pooling]

3개당 하나씩 풀링해서 62x100을 20x100으로 만든다 (왜 21이 아니고 20일까?)


그 이후는 트리비얼 한듯





































반응형

'AI, ML > ML' 카테고리의 다른 글

Word2Vec  (0) 2019.04.24
weka  (0) 2019.02.28
의사결정나무(Decision Tree)  (0) 2019.02.07
[데이터 전처리] clipping vs trimming  (0) 2019.01.04
Standardization vs normalization  (0) 2019.01.04

여기여기를 참조했음을 밝힙니다.


정의

어떤 배열이 있을때 중복을 허용하여 n개를 sampling할 때 이를 sampling with repliacement라고 하며, 이때 생성된 sampling 배열을 bootstrap이라고 한다.


예를 들어 [A, B, C, D, E]란 배열이 있고 중복을 허용하여 7개를 sampling 한다고 하면

[A, C, D, A, E, E, B] 와 같은 배열이 만들어 질것이고 이 배열을 bootstrap이라고 한다는 것


활용도

통계적으로는 평균의 신뢰도구간등을 측정하는 등의 용도로 쓸 수 있고,

ML측면에서는 모델 개수를 늘려서 오버피팅을 피하는 앙상블을 하기 좋다는 측면이 있다.



반응형

'수학' 카테고리의 다른 글

모듈러연산  (0) 2020.04.04
베이즈 추론(Bayesian inference)  (0) 2019.06.27
공분산(Covariance)과 상관계수(Correlation Coefficient)  (0) 2019.01.18
확률변수(random variable)  (0) 2019.01.18
직교행렬(orthogonal matrix)  (0) 2019.01.09

Decision Tree가 무엇인지는 아래 그림보면 한 번에 이해가 됨(출처)

 

일반적으로 위의 Play, Don't Play예시처럼 classification에 적합하지만, 평균값을 취하는 등의 방법을 통해 실수값을 예측하는 regression문제에도 쓸 수 있다고 한다.
 
문제는 어떻게 위의 분기문을 만들것인지 인데,
 

엔트로피 개념

여기서 엔트로피개념이 등장함
엔트로피는 보통 무질서도 또는 불확실성의 개념으로 정의하며, 고전적으로는 열역학에서 정의되고 정보이론으로 확장되었다.
정보이론에서의 엔트로피는 한 메시지에 들어갈 수 있는 정보량의 크기(비트 수)를 의미하며..또는 메시지를 평균적으로 전송하기 위해 필요한 비트수라는 표현이 더 이해하기 쉬울 수도 있겠다., 희귀한 확률을 가진 정보일수록 정보량은 커진다.
여기서 헷갈릴 수 있는 점은 엔트로피는 커지는것만 가능한데 시간이 지날수록 정보량이 점점 커진다는 개념이 이해하기에 약간 어색하다는 점이다.(시간이 지날수록 자연적으로 정보가 풍부해진다니?..하지만 이것은 정보가 풍부해진다기 보다 무작위성이 늘어나, 정보를 전달하기 위해 필요한 비트수가 늘어난다는 관점에서 보면 이해하기 편해진다. 예를 들어 단색인 이미지를 전송할때는 rgb값 하나면 충분하지만, 랜덤한 이미지를 전송하려면 그만큼 필요한 정보가 늘어남이 당연할 것이다.)
이는 순도가 높은 정보일수록 정보량이 작아 전송이 쉽고 불순한 정보가 섞일수록 정보량이 커져서 전송이 어렵다는 관점에서 생각해보면 좋다.
 

엔트로피 계산

먼저 엔트로피의 식을 이해하기 위해 여기를 보고 오자.
예를 들어, 어떤 이벤트가 반드시 발생한다면(순도가 높다) 엔트로피는 0이 된다.$E[-\log p(x)] = - \sum_x {{\log_2 p(x)}p(x)} = -({log_2 1.0})(1.0) = 0$ 
그런데 해당이벤트가 절반확률로만 발생한다면 엔트로피는 1이 된다$E[-\log p(x)] = - \sum_x {{\log_2 p(x)}p(x)} = -(({log_2 1/2})(1/2) + ({log_2 1/2})(1/2)) = 1\times 0.5 + 1 \times 0.5 = 1$
즉 무질서해짐에 따라 정보의 순도가 떨어져서 항상 같은 확률로 무언가 일어나기 보다는 무질서한 확률로 발생하게 되며, 이는 엔트로피를 높인다고 할 수 있겠다.
(이 설명이 완벽하지는 않다. 순도가 높은 경우에 비해 무작위해진 경우에 엔트로피가 높은 것 만을 설명하며, 정말 희귀한 정보가 들어갔을때 시뮬레이션을 내가 다 해본건 아니다. 여전히 의문점들은 있는 상황..예를들어 무작위한 경우보다 더 높은 엔트로피를 가진 경우가 존재하는지 궁금하다..위의 이미지 전송의 경우에 말이지)
 

엔트로피를 decision tree에 적용하기

자 이제 엔트로피의 기본 개념은 익혔다고 한다면 decision tree와의 상관관계에 대해서 알아보자.
주황색 상자안에 빨간공 10개와 파란공 6개가 있다. 무작위하게 공하나를 꺼낸다면 10/16의 확률로 빨간공이 나올 것이고 6/16의 확률로 파란공이 나올 것이다.
이를 엔트로피로 계산하면 아래처럼 된다. $$entropy = E[-\log p(x)] = - \sum_x {{\log_2 p(x)}p(x)} = (10/16)\times 0.68 + (6/16) \times 1.42 \approx 0.95$$ 
이는 위에서 예를 든 1/2확률로 갈리는 경우에 나오는 1.0 엔트로피 값보다 약간 낮고, 완전히 한쪽으로 쏠린 경우에 나오는 0.0엔트로피보다는 큰 수치임을 알 수 있다.
 
이제 주황색 상자안에서 빨간색 점선을 잘 그어서 양쪽으로 classification을 잘 했을 경우에 엔트로피가 어떻게 변화하는지 살펴보자.
위에서 빨간점선을 기준으로 양쪽에 있는 공들을 살펴보면.. 완벽하지는 않지만 대략적으로 빨간공들은 위쪽에.. 파란공들은 아래쪽에 위치하여 나름 분류를 잘 했음을 볼 수 있다.
그리고 나눠진 두 상자 기준으로 각각 엔트로피를 구해보면 순도가 높아졌으므로 좀 더 0.0에 가까워질거라는 예측을 할 수 있다.
실제로 위쪽 부분의 엔트로피를 계산해보면 다음과 같다. $$entropy = E[-\log p(x)] = - \sum_x {{\log_2 p(x)}p(x)} = (7/8)\times 0.19 + (1/8) \times 3 \approx 0.54$$
재밌는점은 파란공이란 정보는 1/8로 뽑히게 된 만큼 희귀해져서 정보량이 3.0으로 크게 증가했지만.. 발생확률은 1/8로 더크게 감소하여 기대값인  엔트로피는 오히려 0.95에서 0.54로 큰폭으로 감소했음을 볼 수 있다. 정보의 개념과 엔트로피의 개념이 서로 달라지는 재밌는 포인트이다.
 
이제 아래쪽 부분의 엔트로피를 계산해보면 다음과 같다.$$entropy = E[-\log p(x)] = - \sum_x {{\log_2 p(x)}p(x)} = (3/8)\times 1.42 + (5/8) \times 0.68 \approx 0.95$$
아래쪽 엔트로피는 원래 엔트로피에서 변동이 없음을 볼 수 있다. 
 
양쪽을 합한 엔트로피는 비율합산을 하면 되는데 위아래 공의 개수가 동일하게 8개 이므로 단순평균을 취해주면 되고 계산해보면 약 0.75의 값이 나온다.
 
즉 처음 0.95와 비교했을때 빨간 점선으로 나눈 이후의 엔트로피가 0.75가 되었으므로, 엔트로피 감소분인 0.2가 information gain(정보이득)이 되고,
무작위성 감소, 불확실성 감소, 순도 증가가 되었으며,
직관적으로 보아도, 구획을 정리해서 각 구획별 순도를 높이는 과정이므로 classification에 좋은쪽으로 구획을 나누는 과정임을 알 수 있다.
즉, 위의 예로 살펴 볼때, decisiton tree에서 총 entropy를 낮추는 방향으로 구획을 나눠주게 되면 결국은 좋은 classification model이 됨을 알 수 있다.
 
따라서, 실제 decision tree에서 분기점을 찾는 방법은..
모든 feature에 대해서 구획을 brute-force로 나눠보고 이때 생기는 entropy의 변화를 보면서 결정한다고 보면 된다.
 

decision tree의 문제점

잘 생각해보면 결국 방을 지속적으로 계속해서 나누다보면 순도100%를 달성할 수 있으며 entropy를 0으로 만드는게 trivial하게 쉽다는점을 발견할 수 있다.
하지만 이는 오버피팅이며, 이를 해결하기 위해서 너무 많은 방을 생성할 수 없도록 패널티 항을 만들어서 cost function을 설계하게 된다.
이렇게, 너무 많은 분기를 생성하지 않도록 하는 작업을 가지치기(pruning)이라고 하며, 이를 통해 오버피팅을 피하고 일반화된 성능을 기대할 수 있다.
 
또한 변수단위 설명력은 우수하지만 선형으로 나눠지는 특징때문에 비선형 데이터 분류에 취약한 문제가 있다.
이를 극복하기위해 나온게 바로 랜덤포레스트(random forest)
 
 
 
 

 

반응형

'AI, ML > ML' 카테고리의 다른 글

weka  (0) 2019.02.28
1D CNN  (0) 2019.02.26
[데이터 전처리] clipping vs trimming  (0) 2019.01.04
Standardization vs normalization  (0) 2019.01.04
Gym  (0) 2018.11.07

수정주가

기업에 증자, 액면분할 등 이벤트가 발생하면 주식수와 함께 주가에 변화가 생긴다.

이때 현재 주가의 수준을 과거와 비교 가능하게 하기위해 과거 주가도 함께 수정하는데, 이것이 수정주가.


예를들어 1주에 1000원짜리 10주가 발행되어 시가총액인 10,000원이었는데,

무상증자가 되어 10주에서 100주가 되었다고 하자.

그러면 시가총액을 10,000원으로 동일하게 맞추려면 주가가 100원으로 떨어져야 

100원 x 100주 = 10,000원이 된다.

근데 이럴 경우, 주가만 보면 1,000원에서 100원으로 1/10 감소하는데, 일별수익률을 계산하면 큰폭으로 하락한걸로 계산되지만 실제로는 증자만 되었을뿐, 기업의 가치인 시가총액은 변함이 없다.

따라서 이경우 변경후인 100원을 수정주가라 하고, 이전 주가도 현재주가인 100원 기준으로 다 변경해주고 나면 일별수익률을 계산했을때 1.0으로 변동이 없게 된다.


한가지 의문은 수정주가 작업을 통해서 과거 주가는 변경을 해주었는데, 과거 거래량을 같이 변경해주지 않으면, 거래금액(=거래량 x 거래가격)에 오차가 발생하지 않겠느냐 하는 부분.



배당금

개인의 수익률 관점 : 올라간다.

현금배당이 있는 경우 실질수익률이 주가만 따졌을 경우의 수익률 보다 크다.

예를 들어 삼성전자 보통주를 2000년 1월 2일에 투자해 2010년 11월 말까지 그대로 보유한 경우 주가만으로는 214.3%의 수익률을 나타내지만 현금배당을 포함한 실질적인 수익률은 260.1%에 달한다. 단순 주가만을 반영한 수익률보다 45.8%포인트나 높은 셈이다.


배당금과 배당락에 대한 좋은글


주식 자체의 수익률 관점 : 떨어진다.

배당일이 지나면 반드시 주가가 떨어지는데, 위에서 무상증자로 인한 주가 감소와 유사하다.

이경우 수정주가를 적용하지 않으면 주식 자체의 일별수익률 역시 감소한다.

따라서 배당에 대한 수정주가를 지원하는 HTS등의 경우 배당전의 주가를 배당후의 주가 기준으로 일괄변경하는 수정주가가 적용되고,

이럴경우 수정주가 적용후 일별 수익률은 1.0으로 맞춰진다.

반응형

먼저 보고올 개념

확률변수(random variable)


분산

정의

확률변수 X에 대한 

기대값 $\mu = E(X)$

분산 $Var(X) = E((X-\mu)^2)$ 

즉 평균에서 얼마나 떨어졌는지를 나타내는 편차의 제곱을 평균낸것

의미

평균에서 표본들이 얼마나 떨어져있는지의 정도를 나타낸다고 보면 된다. 분산이 크면 말그대로 평균에서 멀리 멀리 떨어져들 있어서 변동성이 심한 것



공분산

공분산은 식은 매우 간단한 편이고, 의미를 이해하는데 난이도가 있다.

여기 링크 좋다.


정의

확률변수가 이번엔 두개 등장.. X와 Y

각각의 평균에 해당하는 기대값은 다음과 같다.

$$E(X) = \mu, E(Y) = \nu$$

뒤에 v처럼 생긴건 라고 읽는다.


이때 공분산은 다음과 같이 나타낼 수 있다.

$$Cov(X, Y) = E((X-\mu)(Y-\nu))$$

분산과 비교해보면 분산에서는 하나의 확률변수에 대한 표본과 평균의 차이를 제곱하는데($E((X-\mu)^2)$)

공분산에서는 대신에 두개의 확률변수에 대한 표본과 평균의 차이를 곱해준 형태이다.

다르게 표현하자면 공분산은 X의 편차와 Y의 편차를 곱한것의 평균이 된다.

여기서 반드시 가져야할 의문은, 위처럼 하면 왜 X와 Y의 관계를 나타내주는가 하는 점과

X와 Y의 관계를 나타내는데 있어서는 위의 식이 아니라 다른 형태의 식으로도 가능한거 아니야? 

라는 질문이 반드시 나와야 한다.

학자들이 결론낸걸 외우기만 해서는 아무 의미가 없다.

그냥 공분산이 아~ 저런식이고 저런의미를 갖는구나~ 하고 인정하고 넘어가지말고

분산에서 공분산으로 넘어가는 과정에서 왜 반드시 위의 식이 유일한 솔루션이 되었는가를 파해치는게 중요하다.


식을 전개해보면 다음과 같이 된다.

$$Cov(X,Y)=E((X-\mu)(Y-\nu))=E(XY)-\mu\nu$$

X와 Y가 독립이라면 공분산은 0이된다. 
(독립사건과 독립시행이 있는데 여기서는 독립사건으로 해석해야할 듯 하다.)


이산확률변수에 대해서 기대값을 제거한 식을 써보면 다음과 같다.

$$Cov(X,Y) = {{1\over n} \sum_{i=1}^n{(x_i-E(X))(y_i-E(Y))}}$$


분산에서와 마찬가지로 표본공분산을 구할때는 n이 아니라 n-1로 나눠줘야 한다.


의미

두 변수 사이의 관계를 나타냄


$Cov(X, Y) > 0$    X가 증가 할 때 Y도 증가한다.

$Cov(X, Y) < 0 $   X가 증가 할 때 Y는 감소한다.

$Cov(X, Y) = 0 $   X와 Y는 서로 독립


위 그림을 보고 식과 연관지어 생각해보자. 어떤 샘플이 $\mu$에 대해서도 양의 편차를 가지고 $\nu$에 대해서도 양의 편차를 가지면 위 그래프에서 1사분면에 점이 찍히게 된다.

평균은 어차피 중간쯤으로 정해져 있지만 X가 양의 편차일때 Y도 양의 편차, X가 음의 편차일때 Y도 음의편차를 가지는 식이 되면 공분산이 커진다는 것  


상관계수

위 공분산의 문제점은 원본데이터의 평균이나 편차에 대해서 정규화가 안된 값이다 보니 서로 비교하기가 어렵다는 점이다.

따라서 공분산을 그 크기(?)로 나눠주는 식으로 정규화(?)하면 그것이 바로 상관계수가 되고 그 식은 다음과 같다.

(아래식은 피어슨 상관계수 (Pearson correlation coefficient)이며 다르게 정의된 상관계수도 있다.)

공분산을 각자의 표준편차의 곱으로 나눠주면 된다.


$$\rho_{X,Y}= \frac{\operatorname{cov}(X,Y)}{\sigma_X \sigma_Y}$$


주요 성질은 다음과 같다.

1. 상관계수의 절대값은 1을 넘을 수 없다.

2. 확률변수 X, Y가 독립이라면 상관계수는 0이다.

3. X와 Y가 선형적 관계라면 상관계수는 1 혹은 -1이다.


공분산과 개념적으로는 같고 수치만 절대값 1이내로 정규화됐다고 보면 될 것 같다.



공분산의 성질

내적과 유사하다

이거 전에 어디서 봤는데.. 다시 찾아서 정리하자.

여기였구나. 공분산이 아니라 상관관계구나


반응형

직관

주사위를 굴렸을 때 짝수가 나올 확률에 관심이 있다고 해보자.

직관적으로 $P(짝수)=1/2, P(홀수)=1/2$ 이란것을 우리는 알고 있다.

이를 확률변수X를 사용해서 표현하면 다음처럼 된다. $$P(X=짝수)=1/2, P(X=홀수)=1/2$$

위를 보면 확률변수가 어떤것인지 대략적으로 감이 올것이다.


좀 더 세밀한 이해를 위해, 표본공간 부터 시작해서 썰을 풀어보자.


표본공간(sample space)

주사위를 굴렸을때는 우리가 관심있는 짝수나 홀수라는 이벤트가 직접적으로 나온다기 보다는 

1,2,3,4,5,6이라는 숫자가 나오고 이를 우리가 짝수, 또는 홀수로 해석한다고 말할 수 있다.

여기서 1,2,3,4,5,6이라는 raw하게 관측되는 low-level 정보를 모아서 표본공간이라고 이야기 하고 $S$또는 $\Omega$로  표기한다.


주사위를 던지는 실험에서 표본공간 $\Omega = \{1,2,3,4,5,6\}$이 되고,

동전을 던지는 실험에서의 표본공간 $\Omega = \{앞면, 뒷면\}$이 된다.

동전을 두 번 던지는 실험에서의 표본공간 $\Omega = \{앞앞, 뒤뒤, 앞뒤, 뒤앞\}$이 된다.


주사위는 1,2,3,4,5,6이외에 다른것이 나올 수 없으므로 $P(\Omega)=1.0$이 된다.


사건공간(event space)

우리가 실제적으로 관심이 있는 확률은 주사위의 눈이 1일 확률, 2일 확률 이런 raw하고 low-level인 정보가 아니라, 짝수냐 홀수냐고 하는 좀더 high-level 정보이다.

(짝수/홀수가 아닌 prime number냐 아니냐로 설정할수도 있고 관심사에 따라 다양하다)

따라서 우리가 관심이 있는 짝수, 홀수등을 사건으로 정의하고 확률변수 X등을 붙인다.

(표본이 아닌 사건에 확률변수를 붙임에 주의, 물론 표본자체가 관심사이면 표본=사건이 될 수도 있다.)

여기서 정의역이 표본공간인 {1,2,3,4,5,6}이고 치역이 {짝수,홀수}인 함수를 생각해보면 표본에서 사건으로 매핑되는 테이블이 하나 나오는데,

이 때문에 확률변수를 함수로 해석한다는 개념이 나오지만 중요하진 않으므로 넘어가자.

각 사건들은 이런개념에서는 치역이 되지만, P(짝수)=1/2처럼 확률에 대해서는 정의역이 됨에 주의(여기서 치역의 범위는 [0, 1]인 실수)


사건공간은 필드라고도 하며 F로 표기하는데, 

필드라는 용어는 표본공간의 부분집합을 모아놓은 집합이면서, 원소끼리 합집합,교집합,여집합을 해도 닫혀있으면 필드라고 한다.

즉 표본공간이 {1,2,3,4,5,6}일때 사건공간 F = {{1,2,3},{4,5,6}} 이렇게 짝수, 홀수로만 해놓으면 합집합등에 대해 닫혀있지 않기 때문에 다음처럼 공집합과 전체집합을 포함해야 완전해지고 필드가 된다.


$$\Omega = \{1,2,3,4,5,6\}$$

$$F = \{\emptyset, \Omega, 짝수, 홀수\}$$


사건공간의 각 사건에 대해서 확률을 표시하면 다음과 같다.

$$P(\emptyset)=0, P(\Omega)=1, P(짝수)=1/2, P(홀수)=1/2$$



확률공간(probability space)

위의 $\Omega, F, P$를 모아서 확률공간이라 한다.


확률공간 ($\Omega, F, P$)


$\Omega$: 표본공간

$F$: $\Omega$의 부분집합으로 이루어진 사건들을 모아놓은 집합. 표본공간의 치역이면서 동시에 아래 확률 함수의 정의역 

$P$: $F$에 정의된 각 사건에 대한 확률 함수.. 즉 $F$의 치역이 되며 범위는 [0, 1]이다. 


주사위 짝수/홀수 실험에서는 다음과 같다.


$\Omega = \{1,2,3,4,5,6\}$

$F = \{\emptyset, \Omega, 짝수, 홀수\}$

$P(\emptyset)=0, P(\Omega)=1, P(짝수)=1/2, P(홀수)=1/2$



확률변수(random variable)

확률공간에서 각 사건별 확률이 있을때 확률변수 X를 써서 다음처럼 표기
$$P(X=사건)=확률$$

위의 주사위 짝수/홀수 실험에서는 다음처럼 된다.

$$P(X=짝수)=1/2, P(X=홀수)=1/2$$

확률변수는 이처럼 각 사건에 대응되고, 반복실험을 할때마다 발생하는 사건이 확률에 따라 달라지므로,

확률변수 X를 실험의 관측사건으로 해석하면 편한경우도 있다.

관측사건으로 해석하면 다음처럼 기대값을 구할때 확률변수를 쓰는것도 자연스럽게 이해가 된다.


$$E(X) = \sum x_ip_i$$































반응형

정의

특정 상품의 예상수익률을 의미.

가치를 판단할때 사용

이 영상이 직관적으로 이해하는데 도움이 많이 됐다.


$R$ = expected return = Time value + Risk

투자자들은 기본이자(시간에따른가치) + 위험을감수한보상(리스크) 만큼 수익을 올리고 싶어 한다는 것


Time value = $R_f$ = risk-free rate (무위험 수익률)

기본이자니까 배당율이나 무위험 수익률을 사용해줌


$\beta$ = volatility (흔히 얘기하는 베타)

$r_m$ = expected market return (시장수익률; S&P500같은 BM의 수익률을 의미하는 것 같다.)

Risk = $\beta(r_m - r_f)$

리스크는 베타 민감도에다가 무위험수익률을 고려한 시장수익률을 곱해줌


합치면 다음과 같다.

$R = R_f + \beta(r_m - r_f)$


예제

어떤 주식이 $100 짜리이고 연간배당금이 3%라고 하자(이게 무위험 수익률이 된다는 개념같다)

그리고 베타는 1.3으로 측정되었다고 하자(베타 측정은 과거 패턴을 기반으로 추정한다)

1.3이란 뜻은 시장보다 리스크가 크다는 걸의미(기울기가 더 가파르니까)

그리고 시장수익률은 8%로 측정되었다고 하자(마찬가지로 추정의 영역)

그럼 이 주식의 CAPM에 의한 기대수익률 R = $9.5\% = 3\% + 1.3(8\% - 3\%)$가 된다.


시사점

여기서 말하는 Risk, 베타 이런것들은 모두 변동성..즉 표준편차를 기준으로 계산된다.

다시말해서 CAPM은 변동성을 가지고 가치를 판단하는 지표라고 러프하게 말할 수 있다. (변동성이 클수록 기대수익률이 커진다고 하는..)

그런데 표준편차를 사용하려면 정규분포를 형성해야하는데 알겠지만 주식시장에서 일어나는 대부분의 현상은 정규분포를 이루지 않는다(CAPM모델의 한계)

반응형

'재무 금융' 카테고리의 다른 글

공인인증서와 전자서명  (0) 2020.07.30
배당금과 수정주가  (0) 2019.01.28
Risk Parity 전략  (0) 2018.01.30
위험조정수익률(risk-adjusted return)  (0) 2018.01.26
z-score, Sharpe's ratio(샤프 비율)  (0) 2018.01.25

자신의 전치행렬(transpose)이 역행렬과 같은 정방행렬

$$A^{-1}=A^{T}$$

$$AA^{T}=E$$


단순히 대각선으로 뒤집으면 역행렬이 구해지는 편리한 성질이 있다.


또한, 직교행렬은 그 열벡터, 행벡터가 모두 서로 정규직교(orthonormal)하는 성질이 있다.

즉 열벡터들은 모두 단위벡터이면서 서로 수직인 성질을 갖는다.


$$||v_i||=1$$

$$v_i \cdot v_j =0, i \neq j$$


반응형

선형변환이 일어난 후에도 크기는 변하더라도 방향이 변하지 않는 벡터를 고유벡터라 하고, 그때 변하는 크기의 양을 고유값이라고 한다.


특정 선형변환은 특히 행렬로 표시하면 간단한 경우가 많고, 고유값, 고유벡터는 이행렬의 특징을 나타내게 된다.

고유값, 고유벡터는 정방행렬에 대해서만 정의된다.

위 정의에 따라 어떤 행렬 A에 대해서 $Av=\lambda v$를 만족하는 $\lambda, v$가 있을때 이를 각각 고유값, 고유벡터라 한다.


어떤 숫자의 본질적인 특성을 나타내는게 prime number라고 할 수 있듯이,


어떤 행렬(선형변환)의 본질적인 특성을 나타내는게 고유벡터, 고유값이라고 말할 수 있다.

PCA(주성분 분석)에 쓰이는 모습을 보면 그런점을 명확하게 더 파악할 수 있다고 본다.


전반적인 개념을 잡는데는 이 링크가 아주 좋다.

한글 문서중에는 이 링크가 좋다.


존재여부에 대해서는 어떤행렬은 고유값, 고유벡터가 없을수도 있고 하나만 존재하거나 최대 n개까지 존재할 수 있다.


직관

여기서 첫번째 답변이 다항식의 근에 비유한 표현과, 그 밑에 답변에서 hinge(경첩)에 비유한 표현이 좋은거 같다.

왜냐면 방향이 변하지 않는 부분이기 때문에 일종의 말뚝을 박아놓은 부분이라 전체적인 변환의 특성을 표현하기 좋기 때문인거 같애

다항식의 근이 그렇듯이 (다항식의 근을 보면 대충 어떻게 생긴지 앎.. 왜냐면 근은 y=0 축에다가 못 움직이게 말뚝을 박아놓은 형태기 때문에 )


고유벡터 예제


1. 모나리자



2. 자전운동

자전운동은 회전변환인데 이 변환에 의해 변하지 않는 고유벡터는 회전축(자전축)벡터일 것이고 그 고유값은 1이 될 것이다(스케일이 변하지 않으므로)




고유벡터 활용예


1. 고유값 분해(eigendecomposition, =대각화?)

이건 마치 prime factorization과 비슷한 느낌이다.

요건 별도 문서로 정리하자


2. 특이값분해(SVD)


3. 주성분분석(PCA)


고유벡터 문제풀이 예제


외부링크

https://math.stackexchange.com/questions/243533/how-to-intuitively-understand-eigenvalue-and-eigenvector


visualization





반응형

'수학' 카테고리의 다른 글

확률변수(random variable)  (0) 2019.01.18
직교행렬(orthogonal matrix)  (0) 2019.01.09
3D그래픽스 - 회전(Rotation)  (0) 2019.01.09
likelihood(가능도 = 우도)  (0) 2018.10.02
MLE, 최대우도추정(Maximum Likelihood Estimation)  (0) 2018.09.27



좌표계

직교좌표계(Cartesian coordinate system)

(x,y,z) 뻔한거



구면좌표계(spherical coordinate system)

반지름, 위도, 경도 




Rotation


Euler angle(오일러각)

3차원 벡터의 방향을 세 개의 각으로 표시한 것

Orientation coordonnees spheriques generalisees.png

위에서 물체 M이 놓인 방향을 (α, β, γ) 또는 (ψ, θ, φ)로 표현

x,y,z축에 대해서 회전하는 쉬운 개념이 tait-bryan angle이고 proper Euler angle은 좀 어렵다 x,y,z가 아니라 z,x,z 이런식으로 회전한다는데 정확히 이해 못함


또한 Intrinsic vs Extrinsic rotations 개념이 있다.

전자는 회전축이 변경되는거고 후자는 고정.

처음회전은 둘다동일한데 다음회전을 다른축에 대해서 할때 전자는 첫번째 회전에 의해 이동된 축을 기준으로 회전하고 후자는 원래부터 고정된 월드회전축 기준으로 회전함



Axis-angle representation


Rotation matrix

2차원일때

{\displaystyle R={\begin{bmatrix}\cos \theta &-\sin \theta \\\sin \theta &\cos \theta \\\end{bmatrix}}}

원점(0,0)을 기준으로 반시계방향(오른손 좌표계)으로 회전하는 행렬은 위와 같다.

특정한 픽셀의 좌표가 컬럼벡터 v로 표현될때 해당 필셀을 회전한 후의 좌표는 형렬연산으로 Rv 가 된다.

{\begin{bmatrix}x'\\y'\\\end{bmatrix}}={\begin{bmatrix}\cos \theta &-\sin \theta \\\sin \theta &\cos \theta \\\end{bmatrix}}{\begin{bmatrix}x\\y\\\end{bmatrix}}


3차원일때

2차원 회전에서는 회전축이 가상의 z축 하나라면 3차원 회전에서는 회전에 대해 고를 수 있는 축이 3개가 된다(x축, y축, z축)

각각에 대해서 오른손 좌표계(축을 오른손 엄지로 놓았을때 나머지 네 손가락이 쥐어지는 방향..반시계) 기준으로 회전행렬은 다음과 같다.

{\displaystyle {\begin{alignedat}{1}R_{x}(\theta )&={\begin{bmatrix}1&0&0\\0&\cos \theta &-\sin \theta \\[3pt]0&\sin \theta &\cos \theta \\[3pt]\end{bmatrix}}\\[6pt]R_{y}(\theta )&={\begin{bmatrix}\cos \theta &0&\sin \theta \\[3pt]0&1&0\\[3pt]-\sin \theta &0&\cos \theta \\\end{bmatrix}}\\[6pt]R_{z}(\theta )&={\begin{bmatrix}\cos \theta &-\sin \theta &0\\[3pt]\sin \theta &\cos \theta &0\\[3pt]0&0&1\\\end{bmatrix}}\end{alignedat}}}

2차원 회전행렬과 상당히 비슷한걸 볼 수 있다.


재밌는점은 












반응형

+ Recent posts