🟦 DeepSeek R1: Breakthrough in AI Reasoning through Simple RL

Notice

Recent Posts

Recent Comments

Link

GitHub

« 2025/08 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Tags more

Archives

Today

Total

관리 메뉴

코딩하는 임초얀

🟦 DeepSeek R1: Breakthrough in AI Reasoning through Simple RL 본문

Studies/LinkedIn

🟦 DeepSeek R1: Breakthrough in AI Reasoning through Simple RL

초얀 2025. 1. 23. 16:03

Takeaway with Perplexity

1. 복잡한 검색 알고리즘 없이도 강력한 AI 추론 모델을 만들 수 있다는 것이 입증됨.

2. RL만으로도 AI가 자발적인 추론 능력을 개발할 수 있음.

3. 대규모 컴퓨팅 자원 없이도 개인이나 소규모 팀이 추론 모델을 개발할 수 있는 가능성이 열림.

4. 간단한 검증 시스템만으로도 효과적인 AI 훈련이 가능함을 보여줌.

원문 링크

https://www.linkedin.com/posts/andrew-iain-jardine_deepseek-ais-r1-research-report-reveals-activity-7287457792418820097-z0Xb/

LinkedIn Andrew Jardine 페이지: DeepSeek AI's R1 research report reveals the secrets behind how to train…

DeepSeek AI's R1 research report reveals the secrets behind how to train an o1 style reasoning model....... all you need is 🤷‍♂️ reinforcement learning 👇👇 Last November, the DeepSeek team sent shockwaves through the AI community with the rel

www.linkedin.com

원문 내용

DeepSeekAI의 R1 연구 보고서가 OpenAI의 o1 스타일의 추론 모델을 학습하는 비결을 공개함. 강화학습이 주요 내용임.

2024년 11월, DeepSeek 팀은 OpenAI o1과 대등하거나 더 뛰어난 성능을 보이는 추론 모델 R1을 공개함. 지금은 더 나아가 모델 가중치와 함께 Qwen과 Llama의 경량화 버전도 공개함. 여기서 중요한 것은 연구보고서에서 밝힌 학습 방법과, 그들이 검색을 사용하지 않는다는 사실임.

학습 과정:

1. Deepseek V3 Base로 시작

2. 인간의 사전 지식이 반영된 CoT 샘플로 cold-start 파인튜닝

3. 추론 중심 강화학습 (GRPO) 수행 (보상으로 programatic and format verifier만 사용)

4. RL 체크포인트에서 rejection sampling으로 SFT 데이터 생성 (800K개의 추론 및 일반작업 샘플)

5. 생성한 SFT 데이터로 파인튜닝

6. 3-5를 반복

통찰:

- 계산 비용이 너무 높은 검색이나 MCTS를 사용하지 않고 추론함

- 복잡한 process reward model이 필요없으며, 간단한 verifier로 충분함

- RL을 충분히 한 후, 무델은 자연스럽게 추론을 시작하며, 자기 성찰 행동과 "아하" 순간을 경험함

- 추론은 RL만으로도 가능하지만 (R1-Zero), 더 나은 human alignment를 위해 R1에는 cold-start 데이터와 rejection sampling을 추가함

중요성:

R1을 구현하는 데 사용된 단순성(검색 없음)과 적당한 사이즈는 RL의 독특한 힘을 보여줄 뿐만 아니라, 누구나 개인화된 추론 모델을 강화학습으로 파인튜닝할 수 있는 기회가 충분히 있다는 것을 보여줌.

추후 찾아보면 좋을 것들

- DeepSeek AI

- 추론 중심 강화학습 (GRPO)

저작자표시 (새창열림)

Comments

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

코딩하는 임초얀

코딩하는 임초얀

🟦 DeepSeek R1: Breakthrough in AI Reasoning through Simple RL 본문

🟦 DeepSeek R1: Breakthrough in AI Reasoning through Simple RL

Takeaway with Perplexity

원문 링크

원문 내용

추후 찾아보면 좋을 것들

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역