강화학습에서는 다음 유명한 문제가 있다.


Challenge1: credit assignment problem

which of the preceding actions was responsible for getting the reward


세 번의 action 선택 후 reward가 발생했으면 어느 액션이 더 많이 기여했을까?

또는 어느 action이 어느만큼 기여했을까?


사례1

벽돌깨기에서 reward는 벽돌히트직후 발생하는데, 막대기를 팅겨내기 위한 action은 한 참 전이다.

(벽돌히트 시점에서의 action은 시점으로는 reward와 가깝지만 credit으론 상관이 덜하다)


사례2

공부하고, 밥먹고, 누워서 잤는데 일어나 보니 엄마한테 칭찬받았다. 

누워서 잔것 때문에 칭찬받은 것일까?

교육 중심 엄마라면 공부한것 때문에, 건강 중심 엄마라면 밥먹은게 칭찬의 주 요인일 수 있다.

칭찬방식이 일관된다면, tiral and error를 통해 주 원인을 파악하고 행동할 수 있다.


Q-Learning propagates rewards back in time,

until it reaches the crucial decision point which was the actual cause for the obtained reward



반응형

'AI, ML > ML' 카테고리의 다른 글

Standardization vs normalization  (0) 2019.01.04
Gym  (0) 2018.11.07
크로스엔트로피 손실함수  (0) 2018.10.02
exploit - explore dilemma  (0) 2018.09.27
딥러닝 자체구현으로 XOR문제 풀어보기  (0) 2017.12.14

강화학습의 경우 다음의 유명한 딜레마가 있다.


Challenge2: explore-exploit dilemma

past experiences (exploitation) vs new choices (exploration)

이용 vs 탐색


사례1

익숙한 길로만 다니면 지각은 안하겠지만, 새로운 지름길을 발견할 수는 없다.

(하던대로만 하면 발전이 없다.)

그렇다고 너무 새로운 길로만 다니면, 지각하기 쉽다.

처음에는 탐색을 위해 새로운길로 다니다가, 시간이 갈수록 익숙한 길로 다닌다면?


사례2

늘 먹던 음식만 먹으면 실패할일은 없겠지만, 새로운 맛집을 발견할 수 없다.

그렇다고 매일 새로운 음식만 먹으면 취향에 안맞는 음식을 자주 먹어야 한다.

주중에는 가던 음식점, 주말에는 새로운 음식점을 가보는건 어떨까?


Q-Learning ε-greedy exploration
with probability ε choose a random action,
otherwise go with the “greedy” action with the highest Q-value.
In their system DeepMind actually decreases ε over time from 1 to 0.1



반응형

'AI, ML > ML' 카테고리의 다른 글

Standardization vs normalization  (0) 2019.01.04
Gym  (0) 2018.11.07
크로스엔트로피 손실함수  (0) 2018.10.02
credit assignment problem  (0) 2018.09.27
딥러닝 자체구현으로 XOR문제 풀어보기  (0) 2017.12.14

+ Recent posts