분류 전체보기190 강화학습 - 2. MDP , Dynamic process 정리 몬테카를로 다이나믹 프로그래밍 아이디어의 결합한 방식 원시 경험에서 직접 학습가능최종 결과를 기다리지 않고에피소드가 끝날 때까지 기다리지 않고학습된 추정치를 부분적으로 기반으로 추정치를 업데이트 한다. 대신 이전 학습 추정치를 기반으로 현재 추정치를 근사화하는데이를 부트스트래핑이라 함 몬테 카를로 방법은 증분을 결정하기 위해에피소드가 끝날 때까지 기다려야 하는 반면TD 방법은 다음 단계까지만 기다리면 됨 프로즌 레이크 예제 다음 상태 전이 확률 분포의 환경 모델이 필요하지 않음 몬테 카를로 방법을 사용하면 에피소드가 끝날 때까지 기다린 후에야 반환을 알 수 있음TD 방법은 한계만 기다리면 됨 모든 고정 정책에 대해 TD은 충분히 작은 경우 일정한 단계 크기 매개변수의 평균에서 u파이로 수렴하는 것으로 입.. 2024. 9. 2. 같이 일하고, 협력하는 상대방을 이해하려 노력해야 한다. 그렇지 않으면 힘든 길을 가게 될 것이며, 그 사람들과의 유대감도 쌓을 수 없을 것이다. 2024. 8. 2. LLM 프롬프트, 파인튜닝 전문가 초청 https://www.youtube.com/watch?v=ejZ9XAm7jck 2024. 7. 31. AI 에이전트란 무엇인가 https://www.youtube.com/watch?v=_ejC3YSeINU 2024. 7. 30. 이전 1 2 3 4 ··· 48 다음