강화학습에서는 다음 유명한 문제가 있다.
Challenge1: credit assignment problem
which of the preceding actions was responsible for getting the reward
세 번의 action 선택 후 reward가 발생했으면 어느 액션이 더 많이 기여했을까?
또는 어느 action이 어느만큼 기여했을까?
사례1
벽돌깨기에서 reward는 벽돌히트직후 발생하는데, 막대기를 팅겨내기 위한 action은 한 참 전이다.
(벽돌히트 시점에서의 action은 시점으로는 reward와 가깝지만 credit으론 상관이 덜하다)
사례2
공부하고, 밥먹고, 누워서 잤는데 일어나 보니 엄마한테 칭찬받았다.
누워서 잔것 때문에 칭찬받은 것일까?
교육 중심 엄마라면 공부한것 때문에, 건강 중심 엄마라면 밥먹은게 칭찬의 주 요인일 수 있다.
칭찬방식이 일관된다면, tiral and error를 통해 주 원인을 파악하고 행동할 수 있다.
Q-Learning propagates rewards back in time,
until it reaches the crucial decision point which was the actual cause for the obtained reward
반응형
'AI, ML > ML' 카테고리의 다른 글
Standardization vs normalization (0) | 2019.01.04 |
---|---|
Gym (0) | 2018.11.07 |
크로스엔트로피 손실함수 (0) | 2018.10.02 |
exploit - explore dilemma (0) | 2018.09.27 |
딥러닝 자체구현으로 XOR문제 풀어보기 (0) | 2017.12.14 |