DeepSeek R2有望8月下旬發(fā)布?內(nèi)部人士:不屬實
記者 范佳來
近日有市場傳言稱,國產(chǎn)大模型公司深度求索旗下DeepSeek R2有望在8月15日至30日期間發(fā)布。
8月13日,DeepSeek內(nèi)部人士向澎湃新聞記者表示,上述消息不屬實。
早在今年4月,就有傳言稱,深度求索可能將在5月推出下一代AI大模型DeepSeek-R2。當時有報道稱,DeepSeek-R2大模型將會采用一種更先進的混合專家模型(MoE),其結合更加智能的門控網(wǎng)絡層(Gating Network)以優(yōu)化高負載推理任務的性能。
不過,上述內(nèi)部人士曾向記者坦言,該傳言真實度不高。
此后,DeepSeek官宣推出R1新版本,業(yè)內(nèi)普遍認為這是取代了R2的發(fā)布。
5月29日,據(jù)DeepSeek公告,DeepSeek R1模型已完成小版本升級,當前版本為DeepSeek-R1-0528。用戶通過官方網(wǎng)站、APP或小程序進入對話界面后,開啟“深度思考”功能即可體驗最新版本。API也已同步更新,調用方式不變。
公告指出,DeepSeek-R1-0528使用2024年12月所發(fā)布的DeepSeek V3 Base模型作為基座,但在后訓練過程中投入了更多算力,顯著提升模型的思維深度與推理能力。更新后的R1模型在數(shù)學、編程與通用邏輯等多個基準測評中取得當前國內(nèi)所有模型中首屈一指的優(yōu)異成績,并且在整體表現(xiàn)上已接近其他國際頂尖模型,如o3與Gemini-2.5-Pro。
相較于舊版R1,新版模型在復雜推理任務中的表現(xiàn)有顯著提升。例如在AIME2025測試中,新版模型準確率由舊版的70%提升至87.5%。這一進步得益于模型在推理過程中的思維深度增強:在AIME2025測試集上,舊版模型平均每題使用12K tokens,而新版模型平均每題使用23Ktokens,表明其在解題過程中進行了更為詳盡和深入的思考。
大模型行業(yè)的內(nèi)卷正在加劇。7月31日,據(jù)國際開源社區(qū)Hugging-Face最新趨勢熱榜顯示,前十名模型中,有9個是國產(chǎn)大模型,其中排名第一的是智譜最新發(fā)布的新一代旗艦大模型GLM-4.5,排名第二的是阿里旗下通義千問模型Qwen3,而騰訊混元最新發(fā)布的3D模型則排行第三。
但據(jù)排名數(shù)據(jù)顯示,DeepSeek R1在Hugging-Face趨勢熱榜中并不靠前,不過其依然是目前點贊最多的大模型,DeepSeek R1收到了1.25萬個贊(like),遠超其他國產(chǎn)大模型。
在年初成為大模型產(chǎn)業(yè)王炸黑馬后,DeepSeek成為國內(nèi)大模型廠商的集體競標對手,包括MiniMax、月之暗面等知名大模型公司或明或暗都提出了對標DeepSeek的目標,且在更新迭代上進展迅速。作為中國開源大模型的“風向標”,DeepSeek正在面臨更激烈競爭。
本網(wǎng)站所刊載信息,不代表中新經(jīng)緯觀點。 刊用本網(wǎng)站稿件,務經(jīng)書面授權。
未經(jīng)授權禁止轉載、摘編、復制及建立鏡像,違者將依法追究法律責任。
[京B2-20230170] [京ICP備17012796號-1]
[互聯(lián)網(wǎng)新聞信息服務許可證10120220005] [互聯(lián)網(wǎng)宗教信息服務許可證:京(2022)0000107]
違法和不良信息舉報電話:18513525309 報料郵箱(可文字、音視頻):zhongxinjingwei@chinanews.com.cn
Copyright ©2017-2025 jwview.com. All Rights Reserved
北京中新經(jīng)聞信息科技有限公司