일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 진지한파이썬
- reinforcement learning
- 코드트리
- HSAT
- 팀네이버
- grpo
- AutoRL
- 오렌지미디어
- 윤성우의열혈파이썬
- 팀네이버2024
- 윤성우
- SeriousPython
- deepseek
- o1
- IJCAI
- 토스
- docker
- 코딩테스트
- 개발자컨퍼런스
- 코드트리조별과제
- #코드트리 #코딩테스트 #코드트리조별과제
- 파이썬
- Slash
- 도커
- 엘리스 AI Edu Hackathon
- ImageGeneration
- C++
- 청년주택드림청약통장
- 서평
- GenAI
Archives
- Today
- Total
목록Studies/논문 리뷰 (1)
코딩하는 임초얀
논문 리뷰 - "Towards Applicable Reinforcement Learning: Improving the Generalization and Sample Efficiency with Policy Ensemble" (IJCAI 2022)
Abstract 주식 투자 같은 곳에 RL을 사용하기 힘든 이유: noisy observation과 환경의 지속적인 변화. 각각을 해결하려면 sample efficiency가 높아야 하고, generalization도 잘 해야 한다. SL (supervised learning)에서는 앙상블이 정확도도 높아지고 일반화도 잘 하는 걸 생각해보면, RL에도 앙상블을 적용해볼 수 있다. => end-to-end로 앙상블 policy들을 학습하는 EPPO가 등장!! 특히 EPPO는 1. subpolicy들과 ensemble policy를 유기적으로 결합하여 둘 다를 동시에 optimize한다. 2. policy 공간에서 diversity enhancement regularization을 사용해서 [unseen s..
Studies/논문 리뷰
2024. 4. 22. 15:13