梁文鋒，與楊植麟再「撞車」

2025/05/12 16:06 微信公眾號(hào)：礪石商業(yè)評(píng)論閆俊文

　　繼2月論文“撞車”之后，梁文鋒和楊植麟又在另一個(gè)大模型賽道上相遇了。

　　4月30日，DeepSeek上線新模型DeepSeek-Prover-V2，這是一個(gè)數(shù)學(xué)定理證明專用模型。

　　Prover-V2的參數(shù)規(guī)模進(jìn)一步擴(kuò)展到671B(6710億規(guī)模參數(shù))，相較于前一代V1.5版本的7B規(guī)模增加了近百倍，這讓其在數(shù)學(xué)測試集上的效率和正確率更高，比如，該模型的miniF2F測試通過率達(dá)到88.9%，它還解決了PutnamBench(普特南測試)的49道題。

　　巧合的是，4月中旬，月之暗面也曾推出一款用于形式化定理證明的大模型Kimina-Prover，這是Kimi團(tuán)隊(duì)和Numina共同研發(fā)的大模型，該產(chǎn)品也開源了1.5B和7B參數(shù)的模型蒸餾版本。該模型的miniF2F測試通過率為80.7%，PutnamBench測試成績?yōu)?0道題。

　　兩者相比較，在miniF2F測試通過率以及普特南測試上，DeepSeek-Prover-V2的表現(xiàn)超過了Kimina-Prover預(yù)覽版。

　　值得注意的是，兩家公司在技術(shù)報(bào)告中都提到了強(qiáng)化學(xué)習(xí)。比如DeepSeek的題目為《DeepSeek-Prover-V2：通過子目標(biāo)分解的強(qiáng)化學(xué)習(xí)推進(jìn)形式數(shù)學(xué)推理》，而月之暗面的題目為《Kimina-Prover Preview：基于強(qiáng)化學(xué)習(xí)技術(shù)的大型形式推理模型》。

　　在2月的兩篇“撞車”論文中，梁文鋒和楊植麟都在作者行列，兩家公司都關(guān)注Transformer架構(gòu)最核心的注意力機(jī)制，即如何讓模型更好地處理長上下文。

　　作為中國大模型領(lǐng)域最受矚目的創(chuàng)業(yè)者，兩人也正在面臨不同的挑戰(zhàn)。

　　對(duì)于梁文鋒而言，在R1模型推出三個(gè)多月后，外界對(duì)DeepSeek“魔法”的癡迷程度正在下降，阿里巴巴的開源模型正在迅速趕上以及超過DeepSeek，外界熱切期待其發(fā)布R2或V4模型，以加強(qiáng)領(lǐng) 先優(yōu)勢。

　　對(duì)于楊植麟和月之暗面，Kimi正在遭受來自字節(jié)跳動(dòng)的豆包和騰訊元寶的挑戰(zhàn)，它也需要保持持續(xù)創(chuàng)新。

　　編程與數(shù)學(xué)，實(shí)現(xiàn)AGI的兩條路徑

　　對(duì)于AGI的實(shí)現(xiàn)路徑，2024年，DeepSeek創(chuàng)始人梁文鋒在接受《暗涌》采訪時(shí)曾說，他們確實(shí)押注了三個(gè)方向：一是數(shù)學(xué)和代碼、二是多模態(tài)、三是自然語言本身。數(shù)學(xué)和代碼是AGI天然的試驗(yàn)場，有點(diǎn)像圍棋，是一個(gè)封閉的、可驗(yàn)證的系統(tǒng)，有可能通過自我學(xué)習(xí)就能實(shí)現(xiàn)很高的智能。另一方面，多模態(tài)需要參與到人類真實(shí)世界里學(xué)習(xí)。他們對(duì)一切可能性都保持開放。

　　此次Prover-V2模型的推出，讓DeepSeek的各個(gè)模型矩陣保持了同步進(jìn)化。

　　Prover系列模型于2024年3月開始被發(fā)布，2024年8月被更新為DeepSeek-Prover-V1.5(后簡稱為Prover-V1.5)，2025年4月再被更新至DeepSeek-Prover-V2。

　　DeepSeek代碼系列模型Coder從2024年4月開始更新，6月升級(jí)為Coder-V2-0614，7月再次升級(jí)，9月，DeepSeek-V2-Chat和DeepSeek-Coder-V2合并，升級(jí)后的新模型為DeepSeek-V2.5，2024年12月，該模型更新至V3，今年3月，升級(jí)至V3-0324。

　　通用推理大模型，以1月20日發(fā)布的R1模型為代表，價(jià)格低廉，自然語言推理性能強(qiáng)勁，在數(shù)學(xué)、代碼、自然語言推理等任務(wù)上，性能比肩OpenAI o1正式版。

　　從Prover-V2的技術(shù)報(bào)告上看，其與DeepSeek的其他模型進(jìn)化有關(guān)聯(lián)，其中，DeepSeek-Prover-V2-671B是以DeepSeek-V3作為基礎(chǔ)模型來做微調(diào)，如在冷啟動(dòng)階段，DeepSeek-V3將復(fù)雜問題分解為一系列子目標(biāo)，而后，已解決子目標(biāo)的證明被合成到一個(gè)思維過程鏈中，結(jié)合DeepSeek-V3的逐步推理，為強(qiáng)化學(xué)習(xí)創(chuàng)建一個(gè)初始冷啟動(dòng)。

　　算法工程師、知乎用戶“小小將”告訴《中國企業(yè)家》，推理模型在進(jìn)行推理時(shí)，要進(jìn)行復(fù)雜的思考，代碼與數(shù)學(xué)模型可以檢驗(yàn)推理大模型能力進(jìn)展，因?yàn)閿?shù)學(xué)與代碼的結(jié)果是可驗(yàn)證的。

　　他認(rèn)為，Prover-V2的推出與新模型R2或V4的上線沒有必然聯(lián)系，它更像是一個(gè)獨(dú)立模型的更新。

　　他預(yù)測，R2模型更像是GPT-o1到o3的過程，比如在提高強(qiáng)化學(xué)習(xí)的能力方面，DeepSeek可以基于V3，提升后訓(xùn)練效果，因此R2的研發(fā)周期可能會(huì)比較短。但V4就是一個(gè)大版本的更新，其研發(fā)周期有可能更長，因?yàn)轭A(yù)訓(xùn)練的工程量以及訓(xùn)練方法可能都會(huì)發(fā)生變化。

　　目前市場已經(jīng)對(duì)DeepSeek的新模型充滿了想象和期待。

　　市場上傳言，R2模型將基于華為昇騰系列GPU芯片而推出，但一位行業(yè)人士說，這個(gè)消息不太可靠，在英偉達(dá)H20芯片被限之后，昇騰系列芯片在市場上也是一卡難求，“對(duì)于昇騰來說，如果用于大模型研發(fā)，可能魯棒性沒那么強(qiáng)”。

　　另有創(chuàng)業(yè)公司相關(guān)人士告訴《中國企業(yè)家》，華為昇騰芯片用于大模型的訓(xùn)練，效果一般，原因在于生態(tài)系統(tǒng)沒那么完善，但用于大模型的推理與部署，是沒有問題的。

　　DeepSeek與Kimi還能保持領(lǐng) 先嗎？

　　DeepSeek與月之暗面作為明星初創(chuàng)公司，正在遭受大公司的追趕和超越。

　　以月之暗面旗下的Kimi為例，據(jù)QuestMobile數(shù)據(jù)，Kimi上線不足1年，在2024年11月，月活突破2000萬，僅次于豆包的5600萬。

　　QuestMobile數(shù)據(jù)顯示，截至2025年2月底，AI原生APP月活規(guī)模前三名從豆包、Kimi、文小言更迭為DeepSeek、豆包、騰訊元寶，規(guī)模分別是1.94億、1.16億、0.42億。

　　2月中旬，騰訊元寶宣布接入DeepSeek，隨后，在一個(gè)多月時(shí)間內(nèi)，騰訊元寶利用超級(jí)產(chǎn)品微信引流加上瘋狂買量投流，在用戶數(shù)量上已經(jīng)超過了Kimi，成為排名第三的AI產(chǎn)品。據(jù)AppGrowing數(shù)據(jù)，在今年一季度，騰訊元寶的投流費(fèi)用為14億元，遠(yuǎn)遠(yuǎn)超過Kimi的1.5億元規(guī)模。

　　目前，Kimi最新的舉動(dòng)是內(nèi)測社區(qū)功能，增加用戶粘性。

　　DeepSeek同樣也避免不了被大公司追趕甚至超越的挑戰(zhàn)。近期，阿里巴巴在大模型方面展現(xiàn)出了強(qiáng)勁的競爭力。

　　4月29日，阿里巴巴發(fā)布新一代通義千問模型Qwen3，該模型被稱作首個(gè)“混合推理模型”，是“快思考”和“慢思考”集成的一個(gè)模型，參數(shù)量僅為DeepSeek-R1的1/3，性能全面超越R1、OpenAI o1等同行產(chǎn)品。

　　此前，蔡崇信評(píng)價(jià)DeepSeek，它告訴了我們開源的價(jià)值。根據(jù)公開數(shù)據(jù)，阿里通義已開源200余個(gè)模型，全球下載量超3億次，千問衍生模型數(shù)超10萬個(gè)，已超越美國Llama，成為全球第一開源模型。

　　一位AI創(chuàng)業(yè)者告訴《中國企業(yè)家》，DeepSeek受到了過多的關(guān)注，被賦予過多光環(huán)，中國大模型產(chǎn)業(yè)需要兩三個(gè)世界領(lǐng) 先的大模型，而不是一個(gè)，這時(shí)候應(yīng)鼓勵(lì)這個(gè)領(lǐng)域的競爭和創(chuàng)業(yè)。

　　另一個(gè)重要玩家是百度。4月25日，百度發(fā)布文心4.5 Turbo和深度思考模型X1 Turbo，這兩款模型性能更強(qiáng)大，成本更低，李彥宏更是數(shù)次提到DeepSeek，他說，DeepSeek也不是萬能的，它只能處理單一的文本，還不能理解聲音、圖片、視頻等多媒體內(nèi)容，同時(shí)幻覺率比較高，很多場合不能放心使用。

　　“DeepSeek最大的問題是慢和貴，中國市場上絕大多數(shù)大模型API的價(jià)格都更低，而且反應(yīng)速度更快。”李彥宏在發(fā)布會(huì)上說。

　　盡管如此，百度仍決定學(xué)習(xí)DeepSeek，今年2月，百度決定在6月30日開源文心大模型4.5系列。

　　越來越多的玩家參與大模型開源競賽，但只有技術(shù)最先進(jìn)的玩家才能定義標(biāo)準(zhǔn)。

　　榜單收錄、高管收錄、融資收錄、活動(dòng)收錄可發(fā)送郵件至news#citmt.cn（把#換成@）。

海報(bào)生成中...

分享到微博分享到微信一鍵復(fù)制

標(biāo)題鏈接已成功復(fù)制

国产激情综合五月久久_国产丝袜无码一区二区视频_双乳奶水饱满少妇小说_韩国三级《诱人的乳》_《熟妇荡欲》欧美电影_有码+日韩+在线观看_地铁羞耻挤入h_久久久WWW免费人成精品_国产香蕉97碰碰久久人人

梁文鋒，與楊植麟再「撞車」

最新新聞

熱門新聞

新動(dòng)態(tài)

關(guān)注度

最話題

国产激情综合五月久久_国产丝袜无码一区二区视频_双乳奶水饱满少妇小说_韩国三级《诱人的乳》_《熟妇荡欲》欧美电影_有码+日韩+在线观看_地铁羞耻挤入h_久久久WWW免费人成精品_国产香蕉97碰碰久久人人

梁文鋒，與楊植麟再「撞車」

相關(guān)閱讀

最新新聞

熱門新聞

新動(dòng)態(tài)

關(guān)注度

最話題

梁文鋒，與楊植麟再「撞車」