【文/觀察者網(wǎng)專欄作者 金鐘】
相信大家這幾天已經(jīng)吃飽了關于美國科技新星企業(yè)OpenAI內(nèi)部人事斗爭的大瓜了。短短幾天內(nèi),公司創(chuàng)始人阿爾特曼被董事會開除,跳槽入職微軟,最后再勝利歸來,驅逐了其他董事會成員。劇情一波三折,演員表現(xiàn)自然,臺詞真情投入,好萊塢大片也不過如此。
11月23日又有爆料稱,阿爾特曼被解雇之前,幾名研究人員向公司董事會發(fā)出了一封信,警告一項被稱為“Q*”的人工智能可能威脅到人類。這封信件也是促使董事會罷免Altman的原因之一。對此,阿爾特曼和OpenAI公司還沒有回應,相信未來我們還會看到更多的幕后故事。
拋開八卦不提,OpenAI內(nèi)部激烈的權力斗爭背后是今年以來狂熱的AI市場迅猛發(fā)展,各方都已經(jīng)認準了這個利益廣闊的投資風口,才導致對行業(yè)當前的領頭羊企業(yè)的控制權進行如此激烈的爭奪。
在OpenAI的人事斗爭背景下,AI淘金熱潮中最關鍵的“賣鏟子”的芯片企業(yè)英偉達發(fā)布第三季度財報,在AI芯片和游戲芯片需求高漲的推動下,英偉達三季度收入達到去年同期的3倍。但是美國政府最新的芯片禁運命令,將導致相當一部分以前可以出售給中國的芯片將無法繼續(xù)賣給國內(nèi)企業(yè)。
美國政府從去年開始對國內(nèi)的芯片禁運已經(jīng)升級過好幾輪了,雖然每一次英偉達等歐美芯片企業(yè)都會研發(fā)出一些針對中國需求的特供版芯片,以此繞過禁運措施,但是這些特供版芯片和歐美科技企業(yè)拿到的AI芯片,在性能上有著相當大的差距。直觀的說,AI芯片的性能關系到運行大語言模型時候的計算能力,算力的差距直接帶來的就是運算時間和運算所需要的能源消耗之間的差距。這也是美國芯片禁運的主要目的,阻礙國內(nèi)企業(yè)訓練、發(fā)展自己AI大語言模型的速度。
那么美國禁運AI芯片,對AI大語言模型在國內(nèi)的應用到底影響有多大呢?
根據(jù)當前已知的AI大語言模型應用情況,我們可以粗略地將大語言模型的應用分成兩類,一類是“to B”即企業(yè)應用場景,另一類則是“to C”即通用消費者應用場景。
目前大語言模型在企業(yè)應用場景中最有前途的用途是什么?我們還是可以從今天最受追捧的“賣AI鏟子”的企業(yè)英偉達身上找答案。
在10月底到11月初美國電子電氣工程師學會(Institute of Electrical and Electronics Engineers,IEEE)的一個國際會議上,英偉達首席科技官在主題演講中詳細描述了英偉達是如何開發(fā)一個公司內(nèi)部專用的大語言模型。
英偉達自用的大語言模型,數(shù)據(jù)來源于自身過去30年積累的代碼、程序文檔、芯片設計文檔、測試結果、糾錯報告以及內(nèi)部技術討論的通訊記錄等等,而發(fā)展自用AI模型,則是希望通過訓練大語言模型達到三個目的:
第一是建立一個面對年輕工程師的內(nèi)部機器人,通過理解年輕工程師的提問并從過去的資料數(shù)據(jù)中尋找答案,讓年輕工程師可以從內(nèi)部機器人這里獲得大部分技術問題的正確解答,減輕有經(jīng)驗的資深工程師答疑的負擔,從而讓那些經(jīng)驗豐富的工程師可以更多的將工作時間集中在開發(fā)新產(chǎn)品這些更有創(chuàng)造性的工作上。
第二個目的則是簡化芯片設計流程,減少在芯片設計和測試時編寫復雜代碼的需要。
第三個目的則是簡化在芯片測試過程中的報錯和糾錯分析報告,讓以往長達幾十頁的復雜報錯報告簡化成幾個自然段,并針對技術人員和管理人員提供不同的測試報告總結。
英偉達的AI芯片目前是各家AI模型研發(fā)不可或缺的基建產(chǎn)品,這家公司對于如何應用大語言模型來提高企業(yè)生產(chǎn)力的決策和選擇,對于其他企業(yè)思考如何在內(nèi)部工作中應用大語言模型有著很大的啟示意義。
簡單總結一下,我們可以發(fā)現(xiàn)當前水平下,大語言模型對于提高那些知識密集型行業(yè)或者企業(yè)的生產(chǎn)力,效果是最好的。這個提高生產(chǎn)力的關鍵點就是幫助知識型企業(yè)內(nèi)部更有效率地分配最重要的資源率,而這個最重要的資源就是知識企業(yè)中核心技術人員的工作時間,讓這些核心技術精英們可以花費更多的時間在設計新產(chǎn)品架構和攻克新技術難關這些最有價值的工作上,那些耗時過長并且回報較小的工作則交給AI來完成。
英偉達不是唯一發(fā)現(xiàn)類似的AI“to B”應用場景的企業(yè),不少其他美國大科技企業(yè)也都發(fā)現(xiàn),目前AI大語言模型最有效果的應用,就是幫助開發(fā)者減輕處理繁雜瑣碎工作的難度和節(jié)省這些時間。比如說在開發(fā)一個新的軟件功能模塊時,通過公司自用的大語言模型,從過去浩如煙海的技術文檔中尋找、總結相關的代碼說明和需求分析,這樣可以更快更準確地將新軟件開發(fā)需求確定下來,效果好的時候可以縮短三分之一的項目開發(fā)時間。
當然,知識密集型企業(yè)不僅限于IT科技公司,法律、金融、生物醫(yī)藥甚至現(xiàn)在許多高端制造企業(yè)都可以歸入其中,而大語言模型對于英偉達提高生產(chǎn)效率的作用,恐怕也可以同樣作用于這些行業(yè)的企業(yè)身上。
而對于這些行業(yè)來說,他們在應用AI時很有一些共性。
比如說企業(yè)訓練AI模型的數(shù)據(jù)往往來自于企業(yè)內(nèi)部,而且格式和語言類型相對標準固定。律師事務所日常面對的法律條款和法律文書,金融企業(yè)面對的各種財務報表,IT企業(yè)面對的程序代碼和技術文檔等等,這些數(shù)據(jù)往往有著相當標準的格式和大量反復使用、定義明確的專業(yè)名詞。因此,單個企業(yè)自身的業(yè)務數(shù)據(jù)庫從數(shù)據(jù)量到語言復雜程度上,都遠遠小于整個互聯(lián)網(wǎng)上幾十億網(wǎng)民創(chuàng)造出來的繁雜內(nèi)容。
另一個應用特點則是企業(yè)內(nèi)部用戶向AI模型提問的問題類型也相對嚴肅集中,基本局限在技術和業(yè)務方面的疑問,不像廣大網(wǎng)民對網(wǎng)上已經(jīng)公布的通用型AI大語言模型五花八門的提問,天南海北無所不包,甚至有人專門選擇偏僻晦澀的知識點和邏輯復雜的問題來找樂子。
以上應用場景的差別也帶來了一個“to B”和“to C”之間的重要區(qū)別:訓練數(shù)據(jù)庫之間的量級差距。面向通用場景下的ChatGPT 4大語言模型共有1750億個參數(shù),訓練數(shù)據(jù)庫據(jù)說有13萬億個離散文本單元(token)。而英偉達的內(nèi)部大語言模型公司訓練數(shù)據(jù)則只包含了240億個token,規(guī)模只有ChatGPT 4的0.2%左右。
據(jù)說國內(nèi)目前幾個公開測試的大語言模型,訓練數(shù)據(jù)庫規(guī)模也大多在萬億token以上,已經(jīng)遠遠超越英偉達這樣的業(yè)界龍頭企業(yè)的需求了。而除了幾個互聯(lián)網(wǎng)平臺企業(yè)之外,國內(nèi)大部分企業(yè)自身產(chǎn)品研發(fā)過程積累的數(shù)據(jù)量,恐怕沒有英偉達這么多。
數(shù)據(jù)規(guī)模和復雜程度在很大程度上決定了訓練模型所需算力的多少,而算力需求又很大程度上決定了對于硬件設備尤其是芯片性能的需求。所以,企業(yè)內(nèi)部自用的AI模型所需的算力和芯片性能,也遠遠不如類似ChatGPT 4這樣的通用型模型那么夸張。
國內(nèi)的AI芯片雖然因遭到禁運而落后于歐美先進水平,導致在運算成本和時間上都比國外訓練AI模型花費更高,但是國內(nèi)企業(yè)已經(jīng)進口的現(xiàn)有AI芯片,包括國內(nèi)自主設計、制造的AI芯片,已經(jīng)足以完成這些針對企業(yè)內(nèi)部提高生產(chǎn)效率的專門AI大語言模型的訓練和應用。用一個比喻來描述這個現(xiàn)象,游戲玩家們必須要買最新的4090顯卡來流暢運行最新的3A大作,因為老顯卡往往帶不動這些游戲。但如果只是玩一些如仙劍奇?zhèn)b傳1這樣的老游戲,顯卡對于游戲運行流暢度的影響就不那么重要了,玩家們也沒必要一定要去血拼4090。
從英偉達這樣的龍頭科技企業(yè)的投入方向來看,目前AI模型對于生產(chǎn)力刺激最明顯最有效的應用方向,依舊是應用在企業(yè)內(nèi)部的這些場景項目。而這些方向也恰恰是用國內(nèi)算力完全可以實現(xiàn),受到國外芯片禁運影響最小的應用場景。
當然,這并不是說國內(nèi)和國外在企業(yè)內(nèi)部AI應用上就沒有差距了,從大語言模型軟件的開發(fā)和調(diào)試,以及企業(yè)內(nèi)部數(shù)據(jù)、知識的整理和將AI模型應用與實際科研結合這些問題上,國內(nèi)知識密集型企業(yè)大多還是落后一些距離,但是相比“to C”的通用消費者應用上,這個方向受到的硬件制約最少,追上國際先進水平的阻力最小,而產(chǎn)生的潛在經(jīng)濟回報卻最大。
與“to B”領域的相對樂觀前景不同,由于起步晚、財力有限,再加上芯片禁運的影響,國內(nèi)在大語言模型“to C”的通用性應用上差距更大,短期追趕難度也更高。當OpenAI在剛剛結束的開發(fā)者大會上提出要搞應用商店平臺,類似十幾年前移動互聯(lián)網(wǎng)剛開始發(fā)展時候的蘋果應用商城,在形成產(chǎn)業(yè)生態(tài)和搶占商業(yè)應用市場方面占了先河。國內(nèi)的通用型大語言模型在技術上還落后OpenAI一至兩代,加上硬件受限嚴重,短期內(nèi)雖然可以搶占國內(nèi)市場,但是依然無力在國際市場上與國外的廠商進行競爭。
在“to C”領域,目前最現(xiàn)實的策略依然是盡量緊緊跟隨,從國外探索驗證過的通用領域里面選擇商業(yè)最成熟的模式再進行投入,這樣可以最好發(fā)揮有限資本的使用效果。
面對現(xiàn)實,在繼續(xù)推動國內(nèi)自身半導體軟硬件和設備研發(fā)國產(chǎn)化的同時,在知識密集型企業(yè)中推動利用專門的AI模型來提高研發(fā)效率,是符合中國經(jīng)濟挑戰(zhàn)的最有效應對策略。一方面中國產(chǎn)業(yè)升級和向高端產(chǎn)品攻關的重任恰好落在這些知識密集型企業(yè)身上,如果AI模型的應用可以提升企業(yè)研發(fā)和生產(chǎn)效率,這就有助于國內(nèi)加速突破外部封鎖,完成產(chǎn)業(yè)升級的主要戰(zhàn)略目標。另一方面,這些企業(yè)開發(fā)適合自身的AI模型,本身也會為國內(nèi)半導體軟硬件廠商提供寶貴的需求和產(chǎn)品驗證的機會,這和美國各個科技大廠向英偉達下單,為英偉達的產(chǎn)品持續(xù)升級換代提供了大量資金是一個道理。
因此,目前在AI產(chǎn)業(yè)化的進程上,中國還處在追趕世界先進水平的地位上。面對外部封堵持續(xù)升級的現(xiàn)狀,最現(xiàn)實有效的從AI發(fā)展中獲益的方式,恐怕就是加快推動研發(fā)AI模型在企業(yè)層面的應用落地,切實利用AI促進實體經(jīng)濟的生產(chǎn)力進步,為AI大語言模型的應用從PPT上落地到實際生產(chǎn)研發(fā)過程中尋找突破口,這反過來也可以支持AI領域更快更好的發(fā)展。
本文系觀察者網(wǎng)獨家稿件,文章內(nèi)容純屬作者個人觀點,不代表平臺觀點,未經(jīng)授權,不得轉載,否則將追究法律責任。關注觀察者網(wǎng)微信guanchacn,每日閱讀趣味文章。