目前看到對DeepSeek真實水平最全面客觀的分析

    目前看到對DeepSeek真實水平最全面客觀的分析

    luyuling 2025-03-15 案例展示 7 次瀏覽 0個評論

    基本常識備注:本文是對SemiAnalysis最新一篇公開分析報告的全文翻譯,譯者張海軍。

    原文地址:https://semianalysis.com/2025/01/31/deepseek-debates/

    深度求索(DeepSeek)的故事在全球引起了轟動。在過去的一周里,深度求索成了全球各界唯一的熱議話題。目前,深度求索的日訪問量遠超 Claude、Perplexity,甚至超過了 Gemini。

    但對于密切關注這一領域的人來說,這其實并非什么 “新鮮事”,令人矚目的是人們對它的瘋狂炒作。長期以來,SemiAnalysis 一直認為深度求索極具天賦,但美國大眾此前并不關注。當全世界終于開始關注時,卻陷入了一種脫離現實的瘋狂炒作。幾個月來,我們一直在談論深度求索(每個鏈接都是例證)。這家公司并不新。

    我們想強調的是,輿論風向與上個月相比發生了逆轉。上個月,當規模定律被打破時,有人認為這對英偉達(Nvidia)和 GPU 不利;如今,又有人說算法改進速度過快。我們已經破除了這些謬論。

    如今的輿論認為,深度求索效率極高,我們不再需要更多計算資源,而且由于模型的變化,現在一切都存在大量過剩產能。雖然杰文斯悖論(Jevons paradox)也被過度炒作了,但它更接近現實情況。這些模型已經對 H100 和 H200 的定價產生了實際影響,刺激了需求。

    High-Flyer 是一家中國對沖基金,也是將人工智能應用于交易算法的早期 adopters。他們很早就意識到了人工智能在金融領域之外的潛力,以及規模化的關鍵意義。因此,他們不斷增加 GPU 的儲備。在使用數千個 GPU 集群對模型進行試驗后,High-Flyer 在 2021 年出口限制實施前投資購買了 10000 個 A100 GPU,這一舉措取得了回報。隨著 High-Flyer 的發展,他們在 2023 年 5 月決定分拆出 “深度求索”,目標是更專注地追求人工智能能力的進一步提升。當時,由于缺乏商業模式,外部投資者對人工智能興趣寥寥,High-Flyer 便自行出資成立了這家公司。如今,High-Flyer 和深度求索經常共享人力和計算資源。

    深度求索如今已發展成為一項認真且協同的事業,絕非許多媒體聲稱的 “副業”。我們確信,即便考慮到出口管制因素,他們在 GPU 上的投資也超過 5 億美元。


    我們認為他們擁有約 50000 個 Hopper GPU,但這并不等同于 50000 個 H100,一些人存在這樣的誤解。英偉達為遵守不同規定,生產了 H100 的多種變體(H800、H20),目前中國的模型供應商僅能獲得 H20。需要注意的是,H800 的計算能力與 H100 相同,但網絡帶寬較低。

    我們認為深度求索擁有約 10000 個 H800 和 10000 個 H100。此外,他們還訂購了更多 H20。在過去 9 個月里,英偉達生產了超過 100 萬個專供中國的 GPU。這些 GPU 由 High-Flyer 和深度求索共享,并在一定程度上進行了地理分布。它們被用于交易、推理、訓練和研究。如需更具體的詳細分析,請參考我們的《加速器模型》。

    我們的分析顯示,深度求索的服務器總資本支出接近 13 億美元,運營這些集群的成本高達 7.15 億美元。同樣,所有人工智能實驗室和超大規模數據中心為了各種任務(包括研究和訓練),擁有的 GPU 數量比單次訓練所需的更多,因為資源集中存在一定挑戰。X.AI 作為一個人工智能實驗室比較獨特,它所有的 GPU 都集中在一個地方。

    深度求索只從中國招聘人才,不看重過往資歷,高度關注能力和求知欲。他們經常在北京大學和浙江大學等頂尖大學舉辦招聘活動,招聘廣告中甚至吹噓員工能無限制使用數萬個 GPU。他們極具競爭力,據說為有潛力的候選人提供超過 130 萬美元的年薪,遠超中國其他大型科技公司和人工智能實驗室,如 Moonshot。他們目前約有 150 名員工,且規模還在迅速擴大。崗位角色不一定預先設定,招聘人員有一定靈活性。

    歷史表明,資金充足且專注的小型初創公司往往能突破極限。深度求索不像谷歌那樣官僚主義,由于是自籌資金,他們能迅速將想法付諸實踐。不過,和谷歌一樣,深度求索(在很大程度上)運營自己的數據中心,不依賴外部機構或供應商。這為實驗開辟了更多空間,使他們能夠在整個技術棧上進行創新。

    我們認為他們是目前最好的 “開放權重” 實驗室,超過了 Meta 的 Llama 項目、Mistral 等。

    本周,深度求索的價格和效率引發了熱潮,主要焦點是深度求索 V3 的 “600 萬美元” 訓練成本。但這是錯誤的。這就好比只看產品物料清單上的某一部分,卻將其視為整個產品的成本。預訓練成本只是總成本中很小的一部分。

    訓練成本

    我們認為預訓練成本遠非該模型的實際投入。我們確信,在公司發展歷程中,他們在硬件上的花費遠高于 5 億美元。為了開發新的架構創新,在模型開發過程中,需要投入大量資金來測試新想法、新架構思路,并進行消融實驗。開發和實現這些想法需要整個團隊投入大量人力和 GPU 計算時間。深度求索的關鍵創新 —— 多頭潛在注意力機制(Multi-Head Latent Attention),就耗費了數月時間。

    論文中提到的 600 萬美元成本僅指預訓練運行的 GPU 成本,這只是模型總成本的一部分。研發費用和硬件本身的總擁有成本等重要部分并未計算在內。參考一下,Claude 3.5 Sonnet 的訓練成本高達數千萬美元,如果這就是 Anthropic 所需的全部成本,他們就不會從谷歌籌集數十億美元,也不會從亞馬遜籌集數百億美元了。這是因為他們必須進行實驗、提出新架構、收集和清理數據、支付員工工資等等。

    那么深度求索是如何擁有如此龐大的集群的呢?出口管制的滯后是關鍵,下面在出口管制部分會詳細討論。

    縮小差距 ——V3 的性能

    V3 無疑是一款令人印象深刻的模型,但值得注意的是,要明確它是相對于什么而言令人印象深刻。許多人將 V3 與 GPT-4o 進行比較,并強調 V3 如何超越 4o 的性能。這確實沒錯,但 GPT-4o 于 2024 年 5 月發布。人工智能發展迅速,從算法改進的角度來看,2024 年 5 月恍如隔世。而且,經過一段時間后,用更少的計算資源實現相當或更強的能力,這并不令人意外。推理成本的下降是人工智能進步的一個標志。

    深度求索 V3 的競爭分析

    image-20250131202203708

    例如,能在筆記本電腦上運行的小型模型,其性能可與 GPT-3 相媲美,而 GPT-3 的訓練需要超級計算機,推理則需要多個 GPU。換句話說,算法的改進使得用更少的計算資源來訓練和推理具有相同能力的模型成為可能,這種模式反復出現。這次全世界之所以關注,是因為它來自中國的一個實驗室。但小型模型性能提升并非新鮮事。

    到目前為止,我們從這種模式中看到,人工智能實驗室為了獲得更高的智能水平,在絕對金額上的投入越來越多。據估計,算法的進步意味著每年實現相同能力所需的計算資源減少 4 倍。Anthropic 的首席執行官 Dario 認為,算法定價在朝著 GPT-3 質量發展,成本已下降 1200 倍。就推理而言,甚至可以實現 10 倍的改進。

    在研究 GPT-4 的成本時,我們也看到了類似的成本下降趨勢,不過處于曲線的更早期階段。雖然隨著時間推移成本差異的縮小,不能像上面的圖表那樣通過保持能力不變來解釋。在這種情況下,我們看到算法改進和優化使成本降低了 10 倍,同時能力也有所提升。

    image-20250131202450449

    需要明確的是,深度求索的獨特之處在于他們率先達到了這樣的成本和能力水平。他們發布開放權重的做法也很獨特,不過之前 Mistral 和 Llama 模型也有過類似舉措。深度求索達到了這樣的成本水平,但到今年年底,如果成本再下降 5 倍,也不要感到驚訝。

    另一方面,R1 能夠取得與 o1 相當的結果,而 o1 直到 9 月才發布。深度求索是如何這么快就追趕上的呢?

    答案是,推理是一種新范式,與之前的預訓練范式相比,它的迭代速度更快,且更容易實現較小計算量下的顯著提升,而之前的預訓練范式成本越來越高,且難以取得穩健的進展。如我們在報告中所述,之前的范式依賴于規模定律。

    新范式通過在現有模型的訓練后階段,利用合成數據生成和強化學習來提升推理能力,能夠以更低的成本實現更快的進步。較低的進入門檻和易于優化的特點,使得深度求索能夠比往常更快地復制 o1 的方法。隨著參與者在這種新范式中找到更多擴展方法,我們預計實現相同能力所需的時間差距將會擴大。

    需要注意的是,R1 的論文中并未提及所使用的計算資源。這并非偶然 —— 為訓練后的 R1 生成合成數據需要大量計算資源,更不用說強化學習了。我們并不否認 R1 是一款非常優秀的模型,能如此迅速地在推理能力上追趕上令人欽佩。深度求索作為一家中國公司,用更少的資源實現了追趕,這更是令人贊嘆。

    但 R1 提到的一些基準測試也具有誤導性。將 R1 與 o1 進行比較很棘手,因為 R1 特別沒有提及那些自己不領先的基準測試。雖然 R1 在推理性能上與 o1 相當,但它并非在所有指標上都是明顯的贏家,在很多情況下甚至不如 o1。

    我們還沒有提到 o3。o3 的能力明顯高于 R1 和 o1。事實上,OpenAI 最近公布了 o3 的結果,其基準測試成績直線上升。“深度學習遇到了瓶頸”,但卻是另一種情況。

    在人們為 R1 瘋狂炒作時,一家市值 2.5 萬億美元的美國公司 —— 谷歌,提前一個月發布了一款推理模型 Gemini Flash 2.0 Thinking,且價格更低。這款模型可供使用,通過 API 調用時,即使其上下文長度更長,價格也比 R1 便宜得多。

    在已公布的基準測試中,Flash 2.0 Thinking 的表現優于 R1,盡管基準測試并不能說明全部情況。谷歌只公布了 3 個基準測試結果,所以這只是一個不完整的畫面。不過,我們認為谷歌的模型很可靠,在很多方面都能與 R1 抗衡,卻沒有得到任何炒作。這可能是因為谷歌的市場推廣策略平淡無奇,用戶體驗也不佳,但也可能是因為 R1 來自中國,令人感到意外。

    image-20250131202412500

    需要明確的是,這些都無損于深度求索的卓越成就。深度求索作為一家行動迅速、資金充足、人才濟濟且專注的初創公司,能夠在推理模型發布上擊敗 Meta 等巨頭,值得稱贊。

    深度求索已經找到了關鍵方法,實現了領先實驗室尚未取得的創新。我們預計,深度求索公布的任何改進,幾乎都會立即被西方實驗室效仿。

    這些改進有哪些呢?大多數架構上的成就都與 V3 相關,V3 也是 R1 的基礎模型。下面詳細介紹這些創新成果。

    訓練(預訓練和后訓練)

    深度求索 V3 大規模應用了前所未有的多令牌預測(MTP)技術,它增加了注意力模塊,能夠預測接下來的幾個令牌,而非單個令牌。這一技術在訓練過程中提升了模型性能,且在推理時可舍棄。這是通過算法創新實現低計算量下性能提升的一個范例。

    訓練過程中還采用了 FP8 精度等技術,不過美國的領先實驗室采用 FP8 訓練已有一段時間。

    深度求索 V3 也是一個混合專家模型,即由多個擅長不同領域的小模型組成一個大型模型,這是一種新興的模型架構。混合專家模型面臨的一個難題是如何確定每個令牌該進入哪個子模型(即 “專家” 模型)。深度求索通過實施 “門控網絡”,以一種平衡的方式將令牌路由到合適的專家模型,且不影響模型性能。這意味著路由效率極高,在訓練過程中,相對于整個模型的規模,每個令牌僅需改變少量參數。這不僅提高了訓練效率,還降低了推理成本。

    盡管有人擔憂混合專家模型(MoE)帶來的效率提升可能并不顯著,節省下來的成本會迅速被投入到構建更大規模的模型中,導致總體投入不會減少。但實際上,MoE 提高的效率會加速人工智能的規模化發展。企業都在專注于擴大模型的計算規模,并提升算法效率。達里奧指出,更強大的人工智能模型所帶來的經濟效益十分可觀。

    就 R1 而言,它極大地受益于強大的基礎模型(V3),部分原因在于強化學習(RL)。強化學習主要聚焦兩個方面:格式規范(確保輸出連貫)以及有用性和無害性(確保模型實用)。在基于合成數據集對模型進行微調的過程中,R1 的推理能力得以提升,這與 o1 的情況類似。需要注意的是,R1 的論文中并未提及計算資源的使用情況,因為提及所用的計算資源會暴露他們實際擁有的 GPU 數量比對外宣稱的更多。如此大規模的強化學習,尤其是在生成合成數據時,需要大量的計算資源,正如我們在關于規模定律的文章中所提到的。

    此外,深度求索使用的部分數據似乎來自 OpenAI 的模型,我們認為這可能會對輸出數據提取相關政策產生影響。從服務條款來看,這種數據提取行為已經屬于違規。未來,一種類似 “了解你的客戶”(KYC)的機制可能會出現,以杜絕此類數據提取行為。

    多頭潛在注意力機制(MLA)

    MLA 是深度求索大幅降低推理成本的關鍵創新。它能將每次查詢所需的 KV 緩存減少約 90%(相較于標準注意力機制)。KV 緩存是 Transformer 模型中的一種內存機制,用于存儲對話上下文數據,減少不必要的計算。

    正如我們在規模定律文章中所討論的,隨著對話上下文的增加,KV 緩存也會增大,從而帶來顯著的內存限制問題。大幅減少每次查詢所需的 KV 緩存,意味著每次查詢所需的硬件資源減少,進而降低成本。不過,我們認為深度求索以成本價提供推理服務是為了獲取市場份額,實際上并未盈利。谷歌的 Gemini Flash 2.0 Thinking 價格更低,而且谷歌不太可能以成本價提供服務。MLA 尤其引起了美國許多領先實驗室的關注,它于 2024 年 5 月隨深度求索 V2 發布。由于 H20 相較于 H100 具有更高的內存帶寬和容量,深度求索在使用 H20 進行推理工作負載時效率更高。他們還宣布與華為建立合作關系,但目前在昇騰計算方面的合作成果尚不明顯。

    我們認為,MLA 對利潤率的影響最為值得關注,這對整個生態系統意義重大。以下是我們對未來人工智能行業定價結構的展望,同時詳細闡述了為何認為深度求索在補貼價格,以及杰文斯悖論初現端倪的原因。此外,我們還將探討出口管制的影響、中國政府可能對深度求索日益增長的主導地位做出的反應等問題。

    對利潤率的廣泛影響

    在利潤率方面,有一個關鍵發現:R1 并非從技術層面削弱了 o1 的進展,而是以更低的價格實現了相當的能力。這在本質上是合理的,現在我們引入一個關于未來定價機制的框架。

    提升能力能夠帶來更高的利潤率。這與半導體制造行業的發展極為相似,臺積電率先進入新節點(實現新能力)時,由于創造出了前所未有的產品,從而獲得了顯著的定價權。

    其他落后的競爭對手(如三星、英特爾)為了在性價比上達到平衡,會以低于領先者的價格提供產品。對芯片制造商(在此類比為人工智能實驗室)而言,幸運的是他們可以調整產能。如果在新模型上能夠實現更高的性價比,他們就可以將產能轉移到新模型的生產上。舊型號仍會得到支持,但供應量會減少。這與當前人工智能實驗室的實際情況以及半導體制造行業的規律高度吻合。

    能力的商品化與對更強能力的不懈追求

    這或許就是能力競爭的未來走向。率先達到新的能力層級,將獲得可觀的定價溢價;而那些迅速跟上的參與者,只能獲得微薄利潤。處于能力層級下游的產品,如果能滿足特定用例的需求,仍會繼續存在。每一代能夠追趕上領先能力的參與者將越來越少。

    我們見證的是,R1 達到了領先的能力水平,卻以零利潤率定價。這種巨大的價格差異引發了一個問題:為什么 OpenAI 的產品如此昂貴?這是因為他們基于最前沿的技術定價,并享受著前沿技術帶來的溢價。

    目前看到對DeepSeek真實水平最全面客觀的分析

    我們認為,未來的發展將比領先的芯片制造動態更快。追逐最新的能力意味著持續的定價權(例如 ChatGPT Pro),而落后的能力則意味著更低的定價,此時利潤主要來源于為令牌服務的基礎設施。

    鑒于我們正處于快速的技術周期中,為追求領先的能力,產品更新換代的速度也會加快。只要你能不斷拓展能力,開發出創造價值的新功能,就理應獲得定價權;否則,在開放模型市場中,你很快就會面臨產品同質化的問題。

    我們認為,在這種背景下,人們對當前發生的事情存在根本性的誤解。我們所描述的情況類似于超高速發展的芯片制造行業,這是世界上資本密集度最高的行業。全球沒有哪個行業在研發上的投入比芯片制造行業更多,但與之最相似的現實情況卻被認為對支持模型公司的芯片產業不利。

    將人工智能令牌與杰文斯悖論相比較,會發現二者有著深刻的歷史相似性。起初,人們并不確定晶體管是否能夠不斷縮小尺寸;而當這一趨勢明確后,整個行業便致力于將互補金屬氧化物半導體(CMOS)技術的尺寸縮小到極致,并在此基礎上構建出各種重要功能。我們目前正處于整合多種思維鏈(CoT)模型和能力的初期階段,就像最初對晶體管進行規模化發展一樣。雖然從技術進步的角度來看,這可能是一個動蕩時期,但對英偉達來說卻是有利的。

    深度求索補貼推理利潤率

    實際情況是,市場在尋找一個理由,而他們選擇了這一點。如果深度求索愿意接受零利潤率甚至負利潤率,那么他們的產品價格可能會如此之低,但顯然,提供前沿令牌服務的價格彈性點要高得多。考慮到深度求索正在進行新一輪融資,他們有動機這樣做。

    深度求索在推理領域的關鍵切入點上,打破了 OpenAI 的領先利潤率。這種領先地位會持續下去嗎?我們認為不會 —— 畢竟一個開放實驗室展示出了封閉實驗室的能力。盡管這一點至關重要,但我們仍需注意,深度求索是一個快速追隨者。

    我們確實認為,一個更強大的開放實驗室(深度求索目前是其中的佼佼者)對新興云服務提供商和服務供應商來說是非常有利的。無論是開放模型還是封閉模型,計算資源的集中化仍然很重要,但如果基于計算資源構建的上層服務免費提供產品,那么計算資源的價值就有可能提升。更多的資金會流向計算資源領域,而非封閉模型供應商,這意味著支出更多地流向了硬件領域。軟件企業也能從中受益匪淺。

    H100 價格飆升 —— 杰文斯悖論的體現

    我們已經看到了這一理論的早期跡象。自 V3 和 R1 發布以來,AWS 多個地區的 H100 GPU 價格上漲,H200 也更難獲取。

    V3 發布后,H100 價格大幅上漲,因為 GPU 開始以更高的費率實現貨幣化。更低的成本實現更強的智能意味著更多的需求。這與前幾個月 H100 現貨價格的低迷形成了鮮明對比。

    出口管制的影響、深度求索與中國政府

    從地緣政治的角度來看,深度求索與西方實驗室在能力方面的對比,以及出口管制的影響,都值得深入思考。目前已經實施的人工智能擴散管制措施,我們認為不會取消。有消息稱,出口管制因深度求索的發展而失敗,但這是對出口管制機制的誤解。最初,H100 被禁止出口,而計算能力相近(但帶寬受限)的 H800 被允許出口;隨后,H800 也被禁止,現在僅允許 H20 出口。我們在《加速器模型》中提到,盡管需求巨大,但英偉達在 1 月份取消了大量 H20 訂單,這可能預示著美國即將出臺新的禁令。

    在這些法律的實施過程中存在寬限期,深度求索很可能在這段時間內大量囤積所需芯片。需要注意的是,H100 自發布以來就被禁止出口。從這個角度來看,出口管制未能完全限制高性能芯片的供應。出口管制的目的并非完全切斷中國獲取芯片的渠道,而是對整個生態系統進行嚴格限制,意味著限制數十萬甚至數百萬芯片的供應,而不僅僅是數萬個。

    然而,我們預計未來 H20 也將被禁止出口,這將進一步限制深度求索獲取芯片的能力。

    而他們對芯片的需求十分迫切。

    深度求索的產能限制

    深度求索難以滿足急劇增長的需求。盡管他們擁有世界上最出色的推理技術之一,但進行架構研發、訓練模型,與為數千萬用戶提供可靠服務是截然不同的挑戰。深度求索的注冊服務時常關閉,即便開放注冊時,R1 的響應速度也極慢(不過巧妙的用戶體驗設計掩蓋了這一問題)。

    我們本月看到的模型受之前出口管制的影響,存在一定滯后性。隨著時間推移,深度求索在擴展模型和服務能力方面將面臨越來越大的困難。擴展能力迫在眉睫,中國也深知這一點。

    在與深度求索的首席執行官兼創始人會面后的第二天,中國銀行宣布未來 5 年將為人工智能產業鏈提供 1400 億美元(1 萬億元人民幣)的補貼。該補貼的明確目標是助力中國在科技領域實現完全自主,涵蓋基礎研究、產業應用和開發等方面。人工智能與機器人、生物技術和新材料是重點關注領域。此外,補貼還包括計算基礎設施和數據中心建設,以及為第一代技術設備提供保險和風險管理支持。

    我們認為,未來出口管制的影響將更加顯著:算法和硬件都將不斷進步,美國的實驗室能夠利用這些創新成果進行擴展,達到中國難以企及的高度。雖然中國可能仍會推出與美國實驗室相媲美的模型,但將繼續處于追趕地位。

    我們也認為,從長期來看,深度求索有可能不再開源模型,尤其是在中國政府對其工作給予更多關注,并致力于保護算法創新的情況下。


    轉載請注明來自青島峻峰水處理設備有限公司,本文標題:《目前看到對DeepSeek真實水平最全面客觀的分析》

    百度分享代碼,如果開啟HTTPS請參考李洋個人博客
    每一天,每一秒,你所做的決定都會改變你的人生!
    Top
     佛山寶鋼最新招聘信息  神州優車達最新信息  銀川鋁木工招工信息最新  邢臺橋東區房價最新信息  雙流附近的招聘信息最新  蚌埠教師最新招聘信息  南通海安疫情最新信息  甘肅農信社招聘最新信息  開遠工廠最新招聘信息  最新國際金融信息發布  飛機遇難最新信息圖  中芯京城招聘信息最新  沈陽沈北封路信息最新  亳州鏈家招聘信息最新  德州武城最新疫情信息  陽朔高田租房信息最新  尼泊爾最新的入境信息表  確山網架房出租最新信息  大通縣飯店招聘信息最新  洪鎮鎮最新拆遷信息  孫宏斌外匯最新信息  太原招聘車管員最新信息  正定最新育嬰員招聘信息  工業廳招聘信息最新  泰興抹灰工招聘信息最新  枝江白洋最新招聘信息  潮河鎮房屋出售最新信息