首頁 > 資訊 > 數(shù)字化

DeepSeek前腳發(fā)新論文，奧特曼立馬跟上

2025/04/07 09:27 微信公眾號(hào)：量子位金磊

　　有點(diǎn)意思。

　　這不DeepSeek前腳剛剛上新了一篇關(guān)于推理時(shí)Scaling Law的論文嘛，引得大家紛紛聯(lián)想是不是R2馬上要來了。

　　然鵝……奧特曼這邊卻發(fā)了一條“變卦”的消息：

　　計(jì)劃改變：我們可能在幾周之后先發(fā)布o(jì)3和o4-mini。

　　至于大家翹首以盼的GPT-5，奧特曼表示：

　　將在幾個(gè)月之后，而且效果會(huì)比我們最初設(shè)想的還要好。

　　至于原因，奧特曼也做出了解釋。

　　大概意思就是，順利整合所有內(nèi)容比他們想象的要困難得多，希望確保有足夠的能力來支持預(yù)期的需求。

　　咱就是說啊，現(xiàn)在真的是DeepSeek這邊一有點(diǎn)聲響，OpenAI那邊就得有點(diǎn)動(dòng)作來緊跟一下了。

　　DeepSeek新論文

　　在這個(gè)小插曲之后呢，我們還是把目光聚焦在DeepSeek這篇新論文身上。

　　這篇論文的名字叫做Inference-Time Scaling for Generalist Reward Modeling，由DeepSeek和清華大學(xué)共同提出。

　　這篇研究核心的亮點(diǎn)，就是提出了一個(gè)叫做SPCT方法(Self-Principled Critique Tuning)的方法——

　　首次提出通過在線強(qiáng)化學(xué)習(xí)(RL)優(yōu)化原則和批判生成，實(shí)現(xiàn)推理時(shí)擴(kuò)展。

　　之所以要做這么一項(xiàng)研究，是因?yàn)橹按蠹矣锚?jiǎng)勵(lì)模型(Reward Model, RM)在RL中為大語言模型生成獎(jiǎng)勵(lì)信號(hào)。

　　但現(xiàn)有的RM在通用領(lǐng)域卻表現(xiàn)出受限的情況，尤其是在面對復(fù)雜、多樣化任務(wù)的時(shí)候。

　　因此，就出現(xiàn)了兩個(gè)關(guān)鍵挑戰(zhàn)點(diǎn)。

　　一個(gè)是通用RM需要靈活性(支持單響應(yīng)、多響應(yīng)評分)和準(zhǔn)確性(跨領(lǐng)域高質(zhì)量獎(jiǎng)勵(lì))。

　　另一個(gè)則是現(xiàn)有RM(如標(biāo)量RM、半標(biāo)量RM)在推理時(shí)擴(kuò)展性差，無法通過增加計(jì)算資源顯著提升性能。

　　為了解決這個(gè)問題，DeepSeek和清華大學(xué)團(tuán)隊(duì)便提出了SPCT。

　　整體來看，這項(xiàng)研究主要包含三大核心技術(shù)點(diǎn)。

　　首先就是生成式獎(jiǎng)勵(lì)模型(GRM)。

　　它采用點(diǎn)式生成獎(jiǎng)勵(lì)模型(Pointwise GRM)，通過生成文本形式的獎(jiǎng)勵(lì)(如critiques)而非單一標(biāo)量值，支持靈活輸入(單響應(yīng)、多響應(yīng))和推理時(shí)擴(kuò)展。

　　其中，C是生成的critique，fextract從中提取分?jǐn)?shù)。

　　接下來，是關(guān)鍵的SPCT了。

　　主要是通過在線強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練GRM，使其能動(dòng)態(tài)生成高質(zhì)量的原則(principles)和批判(critiques)，從而提升獎(jiǎng)勵(lì)質(zhì)量。

　　整體來看，SPCT是一個(gè)兩階段的過程，它們分別是：

　　拒絕式微調(diào)（Rejective Fine-Tuning）

　　：冷啟動(dòng)階段，通過采樣和拒絕策略生成初始數(shù)據(jù)。

　　基于規(guī)則的在線RL

　　：使用規(guī)則化獎(jiǎng)勵(lì)函數(shù)優(yōu)化原則和批判的生成，鼓勵(lì)模型區(qū)分*響應(yīng)。

　　在此基礎(chǔ)上，便是第三個(gè)技術(shù)點(diǎn)，即推理時(shí)擴(kuò)展技術(shù)。

　　先是通過多次采樣生成多樣化的原則和批判，投票聚合最終獎(jiǎng)勵(lì)，擴(kuò)展獎(jiǎng)勵(lì)空間。

　　再訓(xùn)練一個(gè)輔助模型過濾低質(zhì)量采樣，進(jìn)一步提升擴(kuò)展效果。

　　基于上述的方法，團(tuán)隊(duì)也對結(jié)果做了一波測試。

　　在Reward Bench、PPE、RMB等基準(zhǔn)上，DeepSeek-GRM-27B顯著優(yōu)于基線方法(如LLM-as-a-Judge、標(biāo)量RM)，且通過推理時(shí)擴(kuò)展(32次采樣)性能進(jìn)一步提升(如Reward Bench準(zhǔn)確率從86.0%提升至90.4%)。

　　總而言之，這篇研究證明了推理時(shí)擴(kuò)展在通用RM中的有效性，性能超越訓(xùn)練時(shí)擴(kuò)展。

　　One More Thing

　　奧特曼發(fā)布“變卦”消息之外，還不忘給自己帶一波貨，稱有兩本他親自參與的書即將發(fā)布：

　　一本是Keach Hagey寫的關(guān)于奧特曼本人的書

　　一本是Ashlee Vance寫的關(guān)于OpenAI的書

　　榜單收錄、高管收錄、融資收錄、活動(dòng)收錄可發(fā)送郵件至news#citmt.cn（把#換成@）。

海報(bào)生成中...

分享到微博分享到微信一鍵復(fù)制

標(biāo)題鏈接已成功復(fù)制

国产激情综合五月久久_国产丝袜无码一区二区视频_双乳奶水饱满少妇小说_韩国三级《诱人的乳》_《熟妇荡欲》欧美电影_有码+日韩+在线观看_地铁羞耻挤入h_久久久WWW免费人成精品_国产香蕉97碰碰久久人人

DeepSeek前腳發(fā)新論文，奧特曼立馬跟上

最新新聞

熱門新聞

新動(dòng)態(tài)

關(guān)注度

最話題

国产激情综合五月久久_国产丝袜无码一区二区视频_双乳奶水饱满少妇小说_韩国三级《诱人的乳》_《熟妇荡欲》欧美电影_有码+日韩+在线观看_地铁羞耻挤入h_久久久WWW免费人成精品_国产香蕉97碰碰久久人人

DeepSeek前腳發(fā)新論文，奧特曼立馬跟上

相關(guān)閱讀

最新新聞

熱門新聞

新動(dòng)態(tài)

關(guān)注度

最話題