강화학습의 경우 다음의 유명한 딜레마가 있다.


Challenge2: explore-exploit dilemma

past experiences (exploitation) vs new choices (exploration)

이용 vs 탐색


사례1

익숙한 길로만 다니면 지각은 안하겠지만, 새로운 지름길을 발견할 수는 없다.

(하던대로만 하면 발전이 없다.)

그렇다고 너무 새로운 길로만 다니면, 지각하기 쉽다.

처음에는 탐색을 위해 새로운길로 다니다가, 시간이 갈수록 익숙한 길로 다닌다면?


사례2

늘 먹던 음식만 먹으면 실패할일은 없겠지만, 새로운 맛집을 발견할 수 없다.

그렇다고 매일 새로운 음식만 먹으면 취향에 안맞는 음식을 자주 먹어야 한다.

주중에는 가던 음식점, 주말에는 새로운 음식점을 가보는건 어떨까?


Q-Learning ε-greedy exploration
with probability ε choose a random action,
otherwise go with the “greedy” action with the highest Q-value.
In their system DeepMind actually decreases ε over time from 1 to 0.1



반응형

'AI, ML > ML' 카테고리의 다른 글

Standardization vs normalization  (0) 2019.01.04
Gym  (0) 2018.11.07
크로스엔트로피 손실함수  (0) 2018.10.02
credit assignment problem  (0) 2018.09.27
딥러닝 자체구현으로 XOR문제 풀어보기  (0) 2017.12.14

+ Recent posts