彩乐园 仅需一万块钱!清华团队靠强化学习让7B模子数学击败GPT-4o
发布日期:2025-01-09 01:26 点击次数:174
PRIME团队 投稿彩乐园
量子位 | 公众号 QbiAIOpenAI o1和o3模子的发布讲明了强化学习大概让大模子领有像东说念主相似的快速迭代试错、深度想考的高阶推颖异力,在基于师法学习的Scaling Law缓缓受到质疑的今天,基于探索的强化学习有望带来新的Scaling Law。
近日,清华大学NLP实验室、上海AI Lab、清华大学电子系、OpenBMB社区等团队提倡一种新的斡旋过程奖励的强化学习设施——PRIME(Process Reinforcement through IMplicit REwards)。
继承PRIME设施,究诘东说念主员不依赖任何蒸馏数据和师法学习,仅用8张A100,消耗一万块钱掌握,不到10天时辰,就能高效西席出一个数学智力逾越 GPT-4o、Llama-3.1-70B的7B模子 Eurus-2-7B-PRIME。
具体而言,究诘东说念主员欺诈Qwen2.5-Math-7B-Base手脚基座模子,西席出了新模子Eurus-2-7B-PRIME,并在好意思国IMO采纳磨练AIME 2024上的准确率达到26.7%,大幅越过GPT-4o,Llama3.1-70B和Qwen2.5-Math-7B-Instruct,且仅使用了Qwen Math数据的 1/10。其中,强化学习设施PRIME为模子带来了16.7%的完全普及,远超已知的任何开源决议。
该相貌还是开源就在外洋AI社区爆火,短短几天Github取得近300star。
昔时,基于PRIME设施和更强的基座模子有后劲西席出接近OpenAI o1的模子。
PRIME设施先容耐久以来,开源社区严重依赖数据驱动的师法学习来增强模子推颖异力,但这种设施的局限也不言而喻——更强的推颖异力需要更高质料的数据,但高质料数据老是稀缺,使得师法和蒸馏难以执续。
固然OpenAI o1和o3的告捷讲明了强化学习有着更高的上限,但强化学习有着两个要道挑战:(1)怎么取得精确且可推广的密集奖励;(2)怎么狡计不错充分欺诈这些奖励的强化学习算法。
PRIME算法从隐式过程奖励(implicit process reward)的想想起程处治这两个问题。隐式过程奖励模子不错仅在输出奖励模子(outcome reward model, ORM)的数据,即谜底的最终对错上进行西席,而隐式地建模过程奖励,最终自动西席出一个过程奖励模子,这整个这个词过程皆有严格的表面保证。
把稳推导见:https://huggingface.co/papers/2412.01981彩乐园
基于隐式过程奖励模子的这种性质,究诘东说念主员指出将其应用于强化学习有三大上风:
过程奖励:隐式过程奖励模子大概为每个 token 提供价值测度,在提供过程奖励的同期无需西席特等的价值模子(value model)可推广性:隐式过程奖励模子只需截至标签即可在线更新。是以,迪士尼彩乐园提现不了咱们不错斡旋计谋模子采样与截至考据器来平直更新PRM,有用缓驱散播偏移与可推广性问题。浅薄性:隐式过程奖励模子本色上即是一种谈话模子。在执行中,究诘东说念主员发现不错平直用驱动的计谋模子驱动化PRM。隐式过程奖励处治了PRM在大模子强化学习中怎么用,怎么训,怎么推广的三大问题,致使不需要西席特等的奖励模子就不错起首强化学习,易用性和可推广性极佳。
具体的PRIME算法历程如下图所示,它是一种在线强化学习算法,大概将每个token的过程奖励无缝应用于强化学习历程中。
实验截至
究诘东说念主员把稳比较了PRIME算法和基线设施。
比拟于仅用截至监督,PRIME有着2.5倍的采样效果普及,鄙人游任务上也有着显耀普及。
具体到TOP25的高校来看,我们看到清华大学和北京大学,还是中国最强的两所高校。但是到底谁是中国最强的高校?其实各大榜单也是众说纷纭,毕竟每个榜单的侧重点不同,而权重不同则完全会使得整个排名有着比较大的变化,所以在这里ABC中国大学排行榜还是认为清华大学是要略胜于北京大学一筹的。
究诘东说念主员还考据了PRM在线更新的迫切性,不错看到,在线的PRM更新要显耀优于固定不更新的PRM,这也讲明了PRIME算法狡计和合感性。
此外,究诘东说念主员还特等网络数据,基于Qwen2.5-Math-Instruct西席了SOTA水平的EurusPRM,大概在Best-of-N采样中达到开源滥觞水平。
Showcase演示
Question (AIME 2024试题,Claude-3.5-Sonnet作念错)
Answer
Question
Which number is larger? 9.11 or 9.9?
Answer
强化学习是勾通已有智能体(大模子)和实验寰球(寰球模子,具身智能)的桥梁,以及将寰球反应内化为模子智能的旅途,将鄙人一代东说念主工智能的发展中起到迫切作用。PRIME 算法改进性地将隐式过程奖励与强化学习斡旋,处治了大模子强化学习的奖励稀罕问题,有望鼓动大模子复杂推颖异力的进一步普及。
blog勾通:https://curvy-check-498.notion.site/Process-Reinforcement-through-Implicit-Rewards-15f4fcb9c42180f1b498cc9b2eaf896fGitHub勾通:https://github.com/PRIME-RL/PRIME
— 完 —
量子位 QbitAI · 头条号签约
关爱咱们彩乐园,第一时辰获知前沿科技动态