일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 엘리스 AI Edu Hackathon
- deepseek
- 청년주택드림청약통장
- o1
- #코드트리 #코딩테스트 #코드트리조별과제
- HSAT
- 코드트리조별과제
- C++
- grpo
- 진지한파이썬
- 코드트리
- 팀네이버
- AutoRL
- ImageGeneration
- 팀네이버2024
- GenAI
- reinforcement learning
- 개발자컨퍼런스
- 윤성우
- 코딩테스트
- 토스
- 서평
- SeriousPython
- Slash
- 파이썬
- IJCAI
- 도커
- docker
- 오렌지미디어
- 윤성우의열혈파이썬
- Today
- Total
코딩하는 임초얀
🟦 DeepSeek R1: Breakthrough in AI Reasoning through Simple RL 본문
🟦 DeepSeek R1: Breakthrough in AI Reasoning through Simple RL
초얀 2025. 1. 23. 16:03Takeaway with Perplexity
1. 복잡한 검색 알고리즘 없이도 강력한 AI 추론 모델을 만들 수 있다는 것이 입증됨.
2. RL만으로도 AI가 자발적인 추론 능력을 개발할 수 있음.
3. 대규모 컴퓨팅 자원 없이도 개인이나 소규모 팀이 추론 모델을 개발할 수 있는 가능성이 열림.
4. 간단한 검증 시스템만으로도 효과적인 AI 훈련이 가능함을 보여줌.
원문 링크
LinkedIn Andrew Jardine 페이지: DeepSeek AI's R1 research report reveals the secrets behind how to train…
DeepSeek AI's R1 research report reveals the secrets behind how to train an o1 style reasoning model....... all you need is 🤷♂️ reinforcement learning 👇👇 Last November, the DeepSeek team sent shockwaves through the AI community with the rel
www.linkedin.com
원문 내용
DeepSeekAI의 R1 연구 보고서가 OpenAI의 o1 스타일의 추론 모델을 학습하는 비결을 공개함. 강화학습이 주요 내용임.
2024년 11월, DeepSeek 팀은 OpenAI o1과 대등하거나 더 뛰어난 성능을 보이는 추론 모델 R1을 공개함. 지금은 더 나아가 모델 가중치와 함께 Qwen과 Llama의 경량화 버전도 공개함. 여기서 중요한 것은 연구보고서에서 밝힌 학습 방법과, 그들이 검색을 사용하지 않는다는 사실임.
학습 과정:
1. Deepseek V3 Base로 시작
2. 인간의 사전 지식이 반영된 CoT 샘플로 cold-start 파인튜닝
3. 추론 중심 강화학습 (GRPO) 수행 (보상으로 programatic and format verifier만 사용)
4. RL 체크포인트에서 rejection sampling으로 SFT 데이터 생성 (800K개의 추론 및 일반작업 샘플)
5. 생성한 SFT 데이터로 파인튜닝
6. 3-5를 반복
통찰:
- 계산 비용이 너무 높은 검색이나 MCTS를 사용하지 않고 추론함
- 복잡한 process reward model이 필요없으며, 간단한 verifier로 충분함
- RL을 충분히 한 후, 무델은 자연스럽게 추론을 시작하며, 자기 성찰 행동과 "아하" 순간을 경험함
- 추론은 RL만으로도 가능하지만 (R1-Zero), 더 나은 human alignment를 위해 R1에는 cold-start 데이터와 rejection sampling을 추가함
중요성:
R1을 구현하는 데 사용된 단순성(검색 없음)과 적당한 사이즈는 RL의 독특한 힘을 보여줄 뿐만 아니라, 누구나 개인화된 추론 모델을 강화학습으로 파인튜닝할 수 있는 기회가 충분히 있다는 것을 보여줌.
추후 찾아보면 좋을 것들
- DeepSeek AI
- 추론 중심 강화학습 (GRPO)