본문 바로가기

인공지능6

강화학습 - 2. MDP , Dynamic process 정리 몬테카를로 다이나믹 프로그래밍 아이디어의 결합한 방식 원시 경험에서 직접 학습가능최종 결과를 기다리지 않고에피소드가 끝날 때까지 기다리지 않고학습된 추정치를 부분적으로 기반으로 추정치를 업데이트 한다. 대신 이전 학습 추정치를 기반으로 현재 추정치를 근사화하는데이를 부트스트래핑이라 함 몬테 카를로 방법은 증분을 결정하기 위해에피소드가 끝날 때까지 기다려야 하는 반면TD 방법은 다음 단계까지만 기다리면 됨 프로즌 레이크 예제 다음 상태 전이 확률 분포의 환경 모델이 필요하지 않음 몬테 카를로 방법을 사용하면 에피소드가 끝날 때까지 기다린 후에야 반환을 알 수 있음TD 방법은 한계만 기다리면 됨 모든 고정 정책에 대해 TD은 충분히 작은 경우 일정한 단계 크기 매개변수의 평균에서 u파이로 수렴하는 것으로 입.. 2024. 9. 2.

LLM 프롬프트, 파인튜닝 전문가 초청 https://www.youtube.com/watch?v=ejZ9XAm7jck 2024. 7. 31.

AI 에이전트란 무엇인가 https://www.youtube.com/watch?v=_ejC3YSeINU 2024. 7. 30.

입문자를 위한 "최신 AI 기술 공부방법" - 김용담 https://www.youtube.com/watch?v=Gcz21HoOzEI 용담님 추천 LoRA 강의 https://www.youtube.com/live/66GD0Bj5Whk?si=YKGygT5sXJltNyeU 1. ChatGPT로 논문 읽는 방법 예시 : https://chatgpt.com/share/9a0b36cf-c2ca-4ac9-8050-dba2f1aa09b6 2. 최신 딥러닝 논문 모니터링 서비스 : https://deeplearn.org/ 3. 논문들 분야별 구현 코드 모음 : https://paperswithcode.com/ 4. 근본의 머신러닝 이론 강의 cs229 : https://youtube.com/playlist?list=PLoROMvodv4rNyWOpJg_Yh4NSqI4Z4vO.. 2024. 7. 25.

이전 1 2 다음

티스토리툴바