最近一年,大模型開源領(lǐng)域更加蓬勃發(fā)展,無論是模型參數(shù)規(guī)模的飛躍,還是在代碼生成、數(shù)學(xué)推理、語言理解等多方面的能力提升,大模型已經(jīng)成為推動 AI 應(yīng)用和研究的重要基石。從 Transformer 的提出到 MoE(Mixture of Experts)技術(shù)的廣泛應(yīng)用,這些創(chuàng)新不斷刷新人類對 AI 潛力的認(rèn)知。
12月26日,DeepSeek 上線并開源了全新系列模型 DeepSeek-V3 的首個版本。DeepSeek-V3 為 DeepSeek 自研 MoE 模型,采用 FP8 訓(xùn)練 (原生 FP8 權(quán)重也已同步開源),671B 參數(shù),激活 37B,在 14.8T token 上進行了預(yù)訓(xùn)練。DeepSeek-V3 訓(xùn)練消耗的算力僅為 Llama 3 4050B 的 1/11,但在性能上的表現(xiàn)卻領(lǐng)先眾多國內(nèi)外優(yōu)秀的大模型,其高效和對算力資源依賴之小令人驚艷。根據(jù)官方技術(shù)報告,DeepSeek-V3 針對分布式推理做了創(chuàng)新的優(yōu)化,進而顯著提升了分布式 MoE 模型的負(fù)載分配效率,從整個系統(tǒng)上為未來更大規(guī)模的模型提供了新的可擴展性框架的可能。通過算法和工程上的創(chuàng)新,相比前代 V2.5,DeepSeek-V3 的生成吐字速度提升了 3 倍。
司南 OpenCompass 第一時間對 DeepSeek-V3 進行了評測,評測結(jié)果已更新至司南大語言模型公開學(xué)術(shù)榜單。