從ChatGPT到o1:OpenAI如何再度引領(lǐng)AI變革|科技新聞06

    從ChatGPT到o1:OpenAI如何再度引領(lǐng)AI變革|科技新聞06

    shiyijing 2025-02-14 公司簡(jiǎn)介 82 次瀏覽 0個(gè)評(píng)論

    原創(chuàng) 王木頭 科學(xué)聲音

    新聞快快報(bào),故事慢慢聊~ 這里是

    「科學(xué)聲音」推出的全新專(zhuān)欄:

    【科技聯(lián)播】SCI-TECH NEWS

    NEWS

    這里是科技聯(lián)播第 6 期。這期講透一個(gè)新聞,OpenAI 新發(fā)布的 o1 模型。這很可能是 2022 年發(fā)布 ChatGPT 之后,OpenAI 第二次改變?nèi)斯ぶ悄艿陌l(fā)展方向。

    news

    出其不意的發(fā)布

    北京時(shí)間 9 月 13 日凌晨,OpenAI 公布了他們最新的 AI 模型。不是 GPT-5 ,而是 o1。為了和以前的模型作出區(qū)別,凸顯這次的改變特別巨大,他們放棄了之前一直用的 GPT 前綴,只用 o1 或 OpenAI-o1 表示,而不是 GPT-o1。

    從ChatGPT到o1:OpenAI如何再度引領(lǐng)AI變革|科技新聞06

    9 月 13 日,OpenAI 發(fā)布 o1 模型

    這次的發(fā)布非常突然,之前沒(méi)有任何征兆?,F(xiàn)在付費(fèi)用戶(hù)已經(jīng)可以體驗(yàn)到 o1-preview(預(yù)覽版)和 o1-mini(mini 版),滿(mǎn)血版本還沒(méi)有對(duì)外開(kāi)放。

    對(duì)于大眾用戶(hù)來(lái)說(shuō),o1 模型帶來(lái)的改變,就像以前在和一個(gè)文科生對(duì)話,現(xiàn)在變成了和理科生對(duì)話。以前的模型,如果是用來(lái)做翻譯、摘要、總結(jié),完全可以代替一個(gè)普通的文秘。但是如果交給它比較復(fù)雜的數(shù)學(xué)題、物理題,那么它可能就會(huì)給出一份語(yǔ)言流暢但是錯(cuò)誤百出的答案。

    從ChatGPT到o1:OpenAI如何再度引領(lǐng)AI變革|科技新聞06

    當(dāng)你向以前的模型提問(wèn)“一個(gè)縫衣針的針眼里能平輔多少鐵原子?”

    而拿類(lèi)似的問(wèn)題問(wèn) o1 ,它則會(huì)一步一步將思考和推理的過(guò)程呈現(xiàn)出來(lái),計(jì)算的思路明顯更加準(zhǔn)確。

    從ChatGPT到o1:OpenAI如何再度引領(lǐng)AI變革|科技新聞06

    當(dāng)你向 OpenAI-o1 提問(wèn)“一個(gè)縫衣針的針眼里能平輔多少鐵原子?”

    普通大眾贊嘆更多的,是 o1 在回答問(wèn)題上的深思熟慮。但是很多專(zhuān)業(yè)人士,關(guān)注的則是一個(gè)叫 Scaling Law 的規(guī)律。這個(gè)詞還沒(méi)有確定的翻譯,可以叫做“規(guī)模定律”或“規(guī)模縮放定律”。

    news

    Scaling Law:AI界的摩爾定律

    Scaling Law 揭示了深度學(xué)習(xí)的能力和規(guī)模之間最根本規(guī)律,對(duì)于 AI 行業(yè)來(lái)說(shuō),它就類(lèi)似于集成電路行業(yè)里的摩爾定律。

    從 2019 年開(kāi)始,這條規(guī)律就在指導(dǎo)著 AI 領(lǐng)域的發(fā)展,尤其是 OpenAI 更是它的忠實(shí)信徒。如果把 Scaling Law 看作是 AI 領(lǐng)域里的摩爾定律的話,那么 OpenAI 就是 AI 領(lǐng)域里的 Intel。

    Scaling Law 這個(gè)詞來(lái)自于標(biāo)度理論(Scaling Theory),是一個(gè)用于描述和預(yù)測(cè)復(fù)雜系統(tǒng)在不同規(guī)模下行為的理論框架。它最核心的內(nèi)容是指出,在許多不同的系統(tǒng)中,這個(gè)系統(tǒng)的某個(gè)性能指標(biāo)和它的規(guī)模呈現(xiàn)冪律關(guān)系。

    從ChatGPT到o1:OpenAI如何再度引領(lǐng)AI變革|科技新聞06

    冪律分布示意圖(可見(jiàn)長(zhǎng)尾效應(yīng))

    比如在物理學(xué)中,一個(gè)系統(tǒng)在相變點(diǎn)附近,系統(tǒng)的某些物理量會(huì)隨著系統(tǒng)規(guī)模的變化而呈現(xiàn)出冪律關(guān)系。在網(wǎng)絡(luò)科學(xué)中,網(wǎng)絡(luò)中的節(jié)點(diǎn)度分布往往遵循冪律分布;在生物學(xué)中,動(dòng)物的代謝率與其體重之間也呈現(xiàn)冪律關(guān)系;在城市科學(xué)中,城市規(guī)模與城市的GDP、犯罪率、疾病傳播等各種指標(biāo)之間也是冪律關(guān)系。

    在人工智能領(lǐng)域,Scaling Law 則是指一個(gè)模型的錯(cuò)誤率和它的規(guī)模呈現(xiàn)冪律關(guān)系。并且這個(gè)冪律關(guān)系,不依賴(lài)于具體的模型和算法細(xì)節(jié)。

    從ChatGPT到o1:OpenAI如何再度引領(lǐng)AI變革|科技新聞06

    Scaling Law 示意

    和摩爾定律一樣,Scaling Law 也是從過(guò)往經(jīng)驗(yàn)中總結(jié)出的經(jīng)驗(yàn)規(guī)律。不過(guò)和摩爾定律不同,摩爾定律體現(xiàn)的是一個(gè)指數(shù)增長(zhǎng)的規(guī)律,效能總是隨著時(shí)間翻倍增加;Scaling Law 則是一個(gè)冪律下降的規(guī)律,效能的提高并不是和成本成比例,而是和成本的數(shù)量級(jí)成比例。也就是說(shuō),Scaling Law 是一個(gè)投入產(chǎn)出比非常差的規(guī)律,可即便這樣,這也是深度學(xué)習(xí)模型可以達(dá)到的最好效果。

    從ChatGPT到o1:OpenAI如何再度引領(lǐng)AI變革|科技新聞06

    摩爾定律

    深度學(xué)習(xí)的 Scaling Law,最早是由百度硅谷研究院在 2017 年發(fā)表的一篇論文提出的,但這篇論文里只提到了模型的錯(cuò)誤率和數(shù)據(jù)規(guī)模有冪律關(guān)系。

    從ChatGPT到o1:OpenAI如何再度引領(lǐng)AI變革|科技新聞06

    “Deep Learning Scaling is Predictable, Empirically”

    news

    從GPT-3到GPT-4

    真正讓這個(gè)規(guī)律價(jià)值發(fā)揮出來(lái)的還是 OpenAI。OpenAI 在 2020 年 1 月發(fā)表了一篇論文。這篇論文指出,大語(yǔ)言模型的錯(cuò)誤率不只和數(shù)據(jù)規(guī)模有冪律關(guān)系,和計(jì)算規(guī)模、參數(shù)規(guī)模也有冪律關(guān)系。

    從ChatGPT到o1:OpenAI如何再度引領(lǐng)AI變革|科技新聞06

    大語(yǔ)言模型的錯(cuò)誤率和數(shù)據(jù)規(guī)模、計(jì)算規(guī)模、參數(shù)規(guī)模有冪律關(guān)系

    在這篇論文中,OpenAI 提到的規(guī)模最大的模型參數(shù)是 1.5B,也就是 15 億,訓(xùn)練時(shí)間需要每秒千萬(wàn)億次的設(shè)備計(jì)算 10 天,也就是 10 petafloat-day(PF-day)。在當(dāng)時(shí),這個(gè)設(shè)備大概需要 33 個(gè)英偉達(dá)的 V100 GPU。

    如果模型擴(kuò)大 100 倍,需要用到的訓(xùn)練時(shí)間是多少呢?很快,這個(gè)問(wèn)題就有了答案。2020 年 6 月,OpenAI 公布了他們的 GPT-3,參數(shù)規(guī)模 175B。根據(jù)后來(lái)的估算,訓(xùn)練 GPT-3 大概花了 92 天的時(shí)間。而訓(xùn)練用的設(shè)備則是微軟提供的超級(jí)計(jì)算機(jī),其配備了 10000 個(gè) V100 GPU。

    這個(gè)數(shù)據(jù)繼續(xù)遵循著 Scaling Law。

    從ChatGPT到o1:OpenAI如何再度引領(lǐng)AI變革|科技新聞06

    GPT-3 的曲線也遵循 Scaling Law

    雖然這篇論文是 GPT-3 發(fā)布后的事后總結(jié),但現(xiàn)實(shí)情況是,OpenAI 很可能在更早的時(shí)候就開(kāi)始利用 Scaling Law 規(guī)劃自己的發(fā)展。

    就在 GPT-3 發(fā)布的前一年,OpenAI 打破了自己非營(yíng)利組織的性質(zhì),轉(zhuǎn)變?yōu)橛邢蘩麧?rùn)公司,而且也改變了模型的開(kāi)源策略。尤其在 2019 年 7 月,微軟向 OpenAI 投資 10 億美元,雙方在 Azure 云計(jì)算服務(wù)上訓(xùn)練最新的大語(yǔ)言模型,也就是 GPT-3。

    這一次的戰(zhàn)略調(diào)整可以說(shuō)非常冒險(xiǎn),我們現(xiàn)在已經(jīng)知道,這一次組織結(jié)構(gòu)的變更,直接導(dǎo)致了 2023 年底 OpenAI 首席科學(xué)家伊利亞聯(lián)合董事會(huì)罷免 CEO 奧爾特曼的“宮斗大戲”,險(xiǎn)些導(dǎo)致 OpenAI 的分崩離析。而 OpenAI 不再開(kāi)源的改變,也讓 OpenAI 處于輿論的劣勢(shì),還被戲稱(chēng)為“ClosedAI”。

    是什么讓奧爾特曼下定決心做出如此大的改變?是什么幫助他決策出只需要 10 億美元就可以訓(xùn)練出下一代大語(yǔ)言模型?又是什么讓他對(duì)下一代模型的能力抱有信心?

    現(xiàn)在來(lái)看,很可能就是 OpenAI 在 2020 年 1 月論文里提到的這個(gè) Scaling Law 。

    Scaling Law 和摩爾定律一樣——在幾十年的時(shí)間里,Intel 就是根據(jù)摩爾定律去預(yù)測(cè)下一代、下下一代產(chǎn)品的規(guī)模,然后去規(guī)劃芯片的設(shè)計(jì)研發(fā)和晶圓廠發(fā)展計(jì)劃的;在 AI 領(lǐng)域,Scaling Law 已經(jīng)具備了類(lèi)似的潛質(zhì),以 OpenAI 為主導(dǎo)的業(yè)內(nèi)人士也會(huì)利用 Scaling Law 幫助自己去估計(jì)未來(lái)的投入和產(chǎn)出。在還沒(méi)有真的把模型訓(xùn)練出來(lái)之前,就可以預(yù)測(cè),如果想讓模型達(dá)到某個(gè)想要的效果,至少需要多少顯卡,可以釋放多少股權(quán)、吸收多少投資。

    news

    Scaling Law失效?

    不過(guò) Scaling Law 和摩爾定律也不同。摩爾定律持續(xù)了幾十年,直到最近幾年才有了摩爾定律將會(huì)失效的討論。而對(duì) Scaling Law 失效的討論則來(lái)得有些早。2020 年 1 月,在 OpenAI 的論文中,錯(cuò)誤率和規(guī)模的圖像在對(duì)數(shù)坐標(biāo)還看不到拐點(diǎn)(冪律圖像在對(duì)數(shù)坐標(biāo)中是一條直線)。這樣還可以期待隨著規(guī)模的增加,錯(cuò)誤率可以逐漸接近 0。

    從ChatGPT到o1:OpenAI如何再度引領(lǐng)AI變革|科技新聞06

    錯(cuò)誤率和規(guī)模的圖像在對(duì)數(shù)坐標(biāo)中看不到拐點(diǎn)

    但是僅僅過(guò)了 10 個(gè)月,2020 年 11 月,在 OpenAI 的另一篇論文中,Scaling 的有效性就迎來(lái)了挑戰(zhàn),圖像模型、視頻模型的錯(cuò)誤率隨著規(guī)模的增加,有一個(gè)無(wú)法消除的下限,而不是可以接近于 0。換句話說(shuō),規(guī)模增加對(duì)模型能力帶來(lái)的影響是有天花板的。

    從ChatGPT到o1:OpenAI如何再度引領(lǐng)AI變革|科技新聞06

    圖像模型、視頻模型的錯(cuò)誤率并不可以接近于 0

    不過(guò),這篇論文給大語(yǔ)言模型還留下了一線希望,因?yàn)樵诖笳Z(yǔ)言模型中還沒(méi)有觀察到明顯的拐點(diǎn)。但是這并不代表著,大語(yǔ)言模型的收益可以隨著規(guī)模的增加一直增加。

    這是因?yàn)?,?2022 年 3 月份的時(shí)候,谷歌的 Deepmind 團(tuán)隊(duì)也發(fā)表了一篇論文,論文指出:即便是大語(yǔ)言模型,在規(guī)模無(wú)限大的時(shí)候,一定也有一個(gè)無(wú)法消除的下限。像 GPT-3 那樣有千億級(jí)別的參數(shù)規(guī)模,這個(gè)下限還不需要特別考慮,但是下一步是否規(guī)劃更大規(guī)模的大語(yǔ)言模型、為了訓(xùn)練更大規(guī)模的模型而投入更多成本是否值得,這篇論文中并沒(méi)有結(jié)論。

    從ChatGPT到o1:OpenAI如何再度引領(lǐng)AI變革|科技新聞06

    Deepmind 團(tuán)隊(duì)論文截圖

    不知道 OpenAI 是否也有 Scaling Law 可能會(huì)失效的顧慮,GPT-3.5 的參數(shù)規(guī)模只有少量增加,從原來(lái)的 175B 提高到了200B 左右。GPT-3.5 更多的是優(yōu)化了自然語(yǔ)言和代碼的生成能力,也正是在此基礎(chǔ)上,OpenAI 做出了第一個(gè)爆款應(yīng)用 ChatGPT。

    ChatGPT 的發(fā)布時(shí)間 2022 年 11 月 30 日,也成為了 AI 元年的開(kāi)端,各大廠商紛紛入局開(kāi)始布局自己的大模型。

    在人們還沒(méi)有來(lái)得及思考 Scaling Law 是否已在失效邊緣的時(shí)候,OpenAI 在 2023 年 3 月就發(fā)布出了 GPT-4。盡管 OpenAI 沒(méi)有公開(kāi) GPT-4 的技術(shù)細(xì)節(jié),不過(guò)業(yè)內(nèi)人士還是可以估計(jì)它的參數(shù)已經(jīng)達(dá)到了 1000B 的規(guī)模。相比 GPT-3,GPT-4 的模型規(guī)模擴(kuò)大了將近 10 倍,而訓(xùn)練花費(fèi)則是增加了將近 100 倍。

    在 GPT-4 的技術(shù)報(bào)告中,OpenAI 又再次強(qiáng)調(diào):在訓(xùn)練 GPT-4 之前,他們就根據(jù) Scaling Law 預(yù)測(cè)過(guò)模型的最終表現(xiàn)。而實(shí)際結(jié)果表明,他們的預(yù)測(cè)非常準(zhǔn)確。

    從 ChatGPT 到 GPT-4 只用了 3 個(gè)多月的時(shí)間,所以難免會(huì)讓人產(chǎn)生期待,OpenAI 匹配 Scaling Law 的下一次升級(jí)可能很快就會(huì)到來(lái)。

    不過(guò)讓人失望的是,這期間只發(fā)布過(guò)不疼不癢的 GPT-4o,雖然中間也有內(nèi)部項(xiàng)目 Q* 和“草莓”,就是 GPT-5 的流言,但是在 1 年多的時(shí)間里,OpenAI 的表現(xiàn)的確是讓人失望。

    news

    尋找新增長(zhǎng)模式

    與此同時(shí),其他廠商正在加快腳步追趕,先是有 Anthropic 公司的 Claude 3 Sonnet,后有 Meta 的 Llama 3。越來(lái)越多的大語(yǔ)言模型追趕上了 GPT-4 的性能。在這個(gè)過(guò)程中,GPT-4 為什么可以在規(guī)模如此巨大的情況下,依然能匹配 Scaling Law 的奧秘,也被逐漸發(fā)掘出來(lái)。如果僅僅是靠增加參數(shù)規(guī)模和堆積更多的訓(xùn)練算力,很難在 1000B 參數(shù)的規(guī)模下繼續(xù)匹配 Scaling Law。

    從ChatGPT到o1:OpenAI如何再度引領(lǐng)AI變革|科技新聞06

    Claude 3 Sonnet

    而 GPT-4 可以做到這一點(diǎn),依賴(lài)于它在模型訓(xùn)練之外進(jìn)行的優(yōu)化。主要分為訓(xùn)練前(pre-training)和訓(xùn)練后(post-training)兩部分。

    “訓(xùn)練前”往往是指對(duì)數(shù)據(jù)的預(yù)處理,方便模型讀取和理解。GPT-4 就引入了多模態(tài)功能,可以處理文本和圖像輸入,讓訓(xùn)練的數(shù)據(jù)更加豐富。

    “訓(xùn)練后”往往是指對(duì)模型的微調(diào)。GPT-4 就用到了“基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)”(RLHF),減少了不當(dāng)內(nèi)容響應(yīng)的概率,提高了生成事實(shí)性?xún)?nèi)容的能力。

    但是,訓(xùn)練前和訓(xùn)練后的優(yōu)化,可以帶來(lái)的性能提升終究是有限的。否則 OpenAI 也不會(huì)超過(guò) 1 年時(shí)間沒(méi)有繼續(xù)公布新模型,而其他團(tuán)隊(duì)的模型即便超過(guò)了 GPT-4 也沒(méi)有大幅領(lǐng)先。

    很多業(yè)內(nèi)人士都清楚,Scaling Law 或許還沒(méi)到失效的地步,但是要想繼續(xù)匹配 Scaling Law,就需要尋找到新的增長(zhǎng)模式。

    從ChatGPT到o1:OpenAI如何再度引領(lǐng)AI變革|科技新聞06

    李開(kāi)復(fù)評(píng)價(jià) Scaling Law

    news

    o1思維鏈:AI新增長(zhǎng)模式?

    o1 里的思維鏈(CoT)或許就代表著這個(gè)新增長(zhǎng)模式。o1 發(fā)布之后,OpenAI 研究員 Noam Brown 在他的社交媒體上,就直接將其稱(chēng)為匹配 Scaling Law 的新范式。

    從ChatGPT到o1:OpenAI如何再度引領(lǐng)AI變革|科技新聞06

    OpenAI 研究員將思維鏈(CoT)稱(chēng)為匹配 Scaling Law 的新范式

    思維鏈對(duì)于普通用戶(hù)來(lái)說(shuō),就是讓 AI 模型懂得了分步驟思考,每個(gè)步驟都可以通過(guò)反思的方式增加最終回答的準(zhǔn)確程度。而增加了 AI 模型最終回答的準(zhǔn)確程度,也就是提高了 AI 模型的能力。思維鏈之所以可以稱(chēng)為維持 Scaling Law 的新范式,是因?yàn)檫@部分能力的提升并不依賴(lài)模型的訓(xùn)練過(guò)程,而是依賴(lài)于一個(gè)模型在訓(xùn)練完成之后的推理過(guò)程(Inference)。

    o1 之前的大語(yǔ)言模型規(guī)模增長(zhǎng),帶來(lái)的主要成本是訓(xùn)練成本;而思維鏈則可以將傳統(tǒng)的Training-Time Scaling 模式轉(zhuǎn)化成 Inference-Time Scaling。

    從ChatGPT到o1:OpenAI如何再度引領(lǐng)AI變革|科技新聞06

    o1 概念圖

    在 o1 發(fā)布之后,英偉達(dá)的高級(jí)研究經(jīng)理 Jim Fan 就直接將其稱(chēng)為 Inference-Time Scaling 范式。

    從ChatGPT到o1:OpenAI如何再度引領(lǐng)AI變革|科技新聞06

    英偉達(dá)高級(jí)研究經(jīng)理將 o1 稱(chēng)為 Inference-Time Scaling 范式

    從ChatGPT到o1:OpenAI如何再度引領(lǐng)AI變革|科技新聞06

    訓(xùn)練完成之后的推理過(guò)程(Inference)大幅增長(zhǎng)

    o1 所帶來(lái)的模式轉(zhuǎn)化,不只是為 Scaling 找到了新增長(zhǎng)模式,對(duì)算力的成本分配也會(huì)帶來(lái)新的可能。

    訓(xùn)練過(guò)程一定是在服務(wù)器端完成的,所以訓(xùn)練的算力成本一定是由模型的開(kāi)發(fā)者全部承擔(dān);而推理過(guò)程可以在用戶(hù)自己的手機(jī)和電腦上完成,這部分算力成本可以由用戶(hù)承擔(dān)。

    當(dāng)然,o1 這種依靠思維鏈的方式,是否真的代表著 AI 迎來(lái)了新增長(zhǎng)模式,我們現(xiàn)在還只能做出期待,下結(jié)論還為時(shí)過(guò)早。相信后續(xù)會(huì)有更多研究,我們科技聯(lián)播也會(huì)持續(xù)關(guān)注。

    這就是本期為你帶來(lái)的有關(guān) Open AI 最新發(fā)布的 o1 模型的深度解讀,希望你能有所收獲,咱們下期再見(jiàn)。

    - 互動(dòng)話題 -

    你認(rèn)為 o1 模型的發(fā)布對(duì)人工智能領(lǐng)域意味著什么?

    歡迎在留言里分享你的看法~

    原標(biāo)題:《從 ChatGPT 到 o1:OpenAI 如何再度引領(lǐng) AI 變革|科技新聞06》

    閱讀原文

    轉(zhuǎn)載請(qǐng)注明來(lái)自青島峻峰水處理設(shè)備有限公司,本文標(biāo)題:《從ChatGPT到o1:OpenAI如何再度引領(lǐng)AI變革|科技新聞06》

    百度分享代碼,如果開(kāi)啟HTTPS請(qǐng)參考李洋個(gè)人博客
    每一天,每一秒,你所做的決定都會(huì)改變你的人生!
    Top