DQN Experience Replay 개념 정리 ::: Sevity Blog

DQN Experience Replay 개념 정리

2026. 5. 16. 03:24

여기보고 공부중.. 전체적으로 매우 쉽게 잘 풀어서 설명된듯하다.

이 개념이 알듯말듯하다..

에피소드안에서만 셔플하는지 막무가내로 글로벌로 셔플하는지 등..

>> 이부분은 나중에 확인해보니 에피소드를 떠나서 막무가내로 셔플한다고 보면 된다.

그것도 그렇고 셔플하지 않으면 문제라고 하는데 이것도 잘 이해가 안된다.

replay buffer는 또 뭐였지??

음.. 위의 그림을 봐도 여전히 모르겠다.

어떤단위로 어떻게 셔플하는지 감이 안와~

음.. 이거는 좀 감이 오는거 같기도 하다.. 이게 에피소드 기반이다보니까..

특정 state는 거의 방문하지 않는걸로 인해서 오는 학습손해(?)가 있겠네..

이건 그러면 일반적인 딥러닝과는 좀 다른 강화학습의 특징으로 봐야하겠네..

여기에도

DNN is easily overfitting current episodes. Once DNN is overfitted, it’s hard to produce various experiences.

위처럼 설명이 되어 있는데.. 헷갈린다.. 한번 오버피팅되면 왜 못빠져나오는지.. 그게 DNN의 특징인지 DQN의 특징인지..

허허.. 이부분도 전혀모르겠네..

TD Error 부분은 간신히 이해가 갈것도 같은데.. 외쪽텀인 정답에 해당하는 Q_target을 어떻게 구하는건지 모르겠다.오른쪽텀인 current prediected Q-val은 뭐 그냥 NN의 아웃풋이니까 트리비얼하고..

그리고 이걸 값자기 gradient에다가 곱하는데 왜 곱하는지 전혀모르겠네 ㅋㅋ

에러에다가 gradient를 곱하면 change가 되는건가?

최소제곱법과 선형회귀 Cost Function 정리 (0)	2026.05.16
Python decorator와 unittest 사용 패턴 정리 (0)	2026.05.16
Python metaclass와 decorator 동작 원리 정리 (0)	2026.05.16
DokuWiki 문법과 플러그인 기본 정리 (0)	2026.05.16
OCX 로딩 오류와 Windows 개발 이슈 정리 (0)	2026.05.16