自建低成本生成式人工智能的熱潮才剛剛開始  第1張

  據(jù)報道,OpenAI 正以 3000 億美元的更高估值籌集更多資金,但對基于生成式人工智能熱潮的大型科技股泡沫的擔(dān)憂,已經(jīng)削弱了市場領(lǐng)先企業(yè)的地位。

  中國的 DeepSeek 的出現(xiàn)是一個主要原因,現(xiàn)在,數(shù)十億美元的人工智能數(shù)據(jù)中心建設(shè)正受到審視,阿里巴巴聯(lián)合創(chuàng)始人蔡崇信最近也發(fā)出了警告。

  但在斯坦福大學(xué)和加州大學(xué)伯克利分校等頂尖學(xué)校的計算機科學(xué)家當(dāng)中,僅需 30 美元就能構(gòu)建一個大語言模型的能力,帶來了 “頓悟” 時刻。

  當(dāng) DeepSeek 發(fā)布其 R1 模型,并聲稱僅花費 600 萬美元就實現(xiàn)了其生成式人工智能大語言模型時,包括微軟投資的 OpenAI 在內(nèi)的美國人工智能市場領(lǐng)先企業(yè)所投入的數(shù)十億美元資金,立即受到了審視。

  DeepSeek 的成本分析仍然受到懷疑,投資者對 OpenAI 的信心也并未減弱。據(jù)報道,它準(zhǔn)備以高達 3000 億美元的估值進行一輪 400 億美元的融資,并表示今年的收入將增長兩倍,達到 127 億美元。熱門人工智能芯片公司 CoreWeave 本周也希望重振不穩(wěn)定的首次公開募股(IPO)市場,并開啟人工智能股票發(fā)行熱潮。但對人工智能市場是否發(fā)展過快、支出水平是否過高的擔(dān)憂也并未停止。

  今年到目前為止,“七巨頭” 科技股一直是市場表現(xiàn)最差的股票之一,就在本周,阿里巴巴聯(lián)合創(chuàng)始人蔡崇信警告稱,他看到了美國人工智能泡沫正在形成的跡象。隨著對人工智能發(fā)展以及美國在人工智能競賽中領(lǐng)先地位的預(yù)期不斷調(diào)整,其影響已經(jīng)廣泛蔓延,從要求實施更嚴厲的芯片禁運以減緩中國的發(fā)展,到另一方面,風(fēng)險投資家們向中國的人工智能開發(fā)者投入更多資金。

  但對于美國人工智能領(lǐng)域的一些人來說,一切仍在全速前進,因為生成式人工智能領(lǐng)域的廉價采購熱潮,讓研究人員能夠以前所未有的方式推動大語言模型的構(gòu)建能力,而在 DeepSeek 出現(xiàn)之前,他們似乎無法做到這一點。

  加州大學(xué)伯克利分校的研究人員是最早對 DeepSeek 進行小規(guī)模語言模型復(fù)現(xiàn)的團隊之一,而且僅花費了 30 美元。這是在公共云上租用兩塊英偉達 H200 圖形處理器(GPU),并使用一個簡單游戲來訓(xùn)練 “30 億參數(shù)”(3B)模型的費用 —— 這里的 “30 億” 指的是模型中的參數(shù)數(shù)量,實際上比最復(fù)雜的大語言模型(其參數(shù)數(shù)量可達數(shù)萬億)要少得多。

  “在 DeepSeek R1 發(fā)布后,我們立即啟動了這個項目?!盩inyZero 項目負責(zé)人、該校研究生研究員潘佳怡說。

  OpenAI 的突破對該團隊的研究興趣同樣至關(guān)重要,潘佳怡表示,他們對一種新的人工智能推理范式很著迷,這種范式 “旨在讓人工智能在做出回應(yīng)之前多花些時間思考”。

  但 DeepSeek R1 是首個有助于解釋如何實現(xiàn)這種 “先思考再回答” 能力的公開研究,這種能力提高了人工智能模型的性能。“我們非常好奇這種算法是如何工作的。” 潘佳怡說。但潘佳怡補充道,即便 DeepSeek 據(jù)說只花了 600 萬美元來訓(xùn)練其 R1 模型,這對他們來說 “還是太貴了”。

  TinyZero 項目背后的主要思路是,如果在減小模型規(guī)模的同時降低任務(wù)復(fù)雜度,模型仍然能夠展現(xiàn)出涌現(xiàn)的推理行為。這些調(diào)整將大幅降低成本,同時仍能讓研究人員測試和觀察實際的推理行為。

  人工智能的 “頓悟” 時刻

  為了驗證這一思路,該團隊在一個名為 “倒計時”(Countdown)的數(shù)學(xué)游戲中復(fù)現(xiàn)了 DeepSeek R1-Zero 算法,這個游戲更注重推理能力,而不是基于已有的 “領(lǐng)域” 知識(即數(shù)學(xué)知識)來尋找解決方案。在這個游戲中,人工智能需要得出一個目標(biāo)數(shù)字,可以通過加、減、乘或除來實現(xiàn)。

  起初,TinyZero 采用隨機的方法來尋找目標(biāo)數(shù)字;然而,經(jīng)過訓(xùn)練,它開始學(xué)會調(diào)整方法,找到更好、更快的解決方案。而且,即使任務(wù)復(fù)雜度和模型規(guī)模都降低了,該模型仍然能夠展現(xiàn)出涌現(xiàn)的推理行為。它通過在游戲的參數(shù)范圍內(nèi)學(xué)習(xí)玩這個游戲,學(xué)會了推理。

  “我們證明了,即使是像 30 億參數(shù)這么小的模型,也能學(xué)會對簡單問題進行推理,并開始學(xué)會自我驗證和尋找更好的解決方案?!?潘佳怡說。她表示,這是 DeepSeek R1 和 OpenAI o1 發(fā)布成果中的一個關(guān)鍵結(jié)果,通常被稱為 “頓悟時刻”。

  雖然最大的人工智能模型、DeepSeek 和 TinyZero 這樣的項目之間存在顯著差異,但涌現(xiàn)的推理行為是相似的,TinyZero 這樣的成功案例表明,預(yù)算有限的研究人員、工程師和愛好者也能夠接觸到前沿的人工智能算法。

  “我們的項目吸引了很多人訪問我們在 GitHub 上的頁面,復(fù)現(xiàn)實驗并親自體驗‘頓悟’時刻。” 潘佳怡說。

  斯坦福大學(xué)的研究人員最近發(fā)布了他們關(guān)于使用 “倒計時” 游戲來觀察人工智能如何學(xué)習(xí)的預(yù)印本論文,并克服了之前阻礙他們進展的工程挑戰(zhàn)。

  “TinyZero 很棒?!?該項目的首席研究員卡尼什克?甘地說,因為它使用了 “倒計時” 游戲,這是斯坦福團隊引入并正在研究的一個任務(wù)。

  其他人工智能項目的開源也起到了重要作用,包括由 TikTok 的母公司字節(jié)跳動創(chuàng)建的火山引擎強化學(xué)習(xí)系統(tǒng)(VERL)?!癡ERL 對我們運行實驗至關(guān)重要。” 甘地說。“這種一致性極大地幫助了我們進行實驗,并實現(xiàn)了更快的迭代周期?!?/p>

  超越 “大實驗室”,依靠開源

  斯坦福團隊試圖理解為什么一些大語言模型在推理能力上有顯著提升,而另一些則停滯不前,甘地表示,他不再期望與推理、智能和改進相關(guān)的計算機科學(xué)突破必然來自大型實驗室?!凹词乖诖笮蛯嶒炇覂?nèi)部,對當(dāng)前大語言模型的科學(xué)理解也存在缺失,因為其能力在不斷提高。在自主開發(fā)人工智能、開源和學(xué)術(shù)界方面,有很大的空間可以在此做出貢獻。” 他說。

  像斯坦福大學(xué)和加州大學(xué)伯克利分校的這些項目,將基于如何訓(xùn)練能夠自我提高推理能力的模型的研究,帶來更多的共享開發(fā)成果。

  但即使是這些超低成本的模型,也比研究人員所解釋的要昂貴。

  人工智能商業(yè)咨詢公司 OneSix 的高級首席機器學(xué)習(xí)科學(xué)家尼娜?辛格表示,TinyZero 這樣的項目的開源方面依賴于在其他基礎(chǔ)模型之上進行訓(xùn)練,其中不僅包括 VERL,還包括阿里云開源的通義千問(Qwen)大語言模型?!八f的 30 美元訓(xùn)練成本不包括通義千問最初的訓(xùn)練時間,阿里巴巴在將其作為開源權(quán)重發(fā)布之前,在這上面投入了數(shù)百萬美元?!?她說。

  辛格表示,這并不是對 TinyZero 的批評,而是強調(diào)了開源權(quán)重模型的重要性 —— 即使沒有完全開源人工智能數(shù)據(jù)和架構(gòu),這些模型也會向公眾發(fā)布訓(xùn)練參數(shù),從而推動進一步的研究和創(chuàng)新。

  “針對特定任務(wù)進行微調(diào)的較小人工智能模型,能夠以更小的規(guī)模和成本與大得多的模型相媲美。” 辛格說。

  隨著越來越多的個人、學(xué)者和小型公司期望在無需進行大規(guī)模基礎(chǔ)設(shè)施投資的情況下就能參與到人工智能領(lǐng)域,嘗試模仿基礎(chǔ)模型的性能并針對特定任務(wù)進行微調(diào)的趨勢正在增長。辛格舉了 Sky-T1 的例子,它為用戶提供了花費 450 美元訓(xùn)練自己的 o1 模型的能力,還有阿里巴巴的通義千問,最低只需 6 美元就能進行人工智能模型的微調(diào)。

  辛格預(yù)計,較小項目的開源權(quán)重模型將促使主要參與者采用更開放的方法?!白灾魑⒄{(diào)以及社區(qū)驅(qū)動的模型改進的成功,給像 OpenAI 和 Anthropic 這樣的公司帶來了壓力,要求它們?yōu)槠涫?API 限制的模型提供合理依據(jù),尤其是當(dāng)開源替代方案在特定領(lǐng)域開始達到或超過它們的能力時。” 她說。

  TinyZero 最重要的發(fā)現(xiàn)之一是,數(shù)據(jù)質(zhì)量和針對特定任務(wù)的訓(xùn)練,比單純的模型規(guī)模更重要。

  “這是一個重大發(fā)現(xiàn),因為它挑戰(zhàn)了行業(yè)中普遍存在的觀點,即只有像 ChatGPT 或(Anthropic 的)Claude 這樣擁有數(shù)千億參數(shù)的大規(guī)模模型,才能夠進行自我修正和迭代學(xué)習(xí)。” 辛格說?!斑@個項目表明,我們可能已經(jīng)越過了一個臨界點,即額外增加參數(shù)帶來的收益在遞減 —— 至少對于某些任務(wù)來說是這樣?!?/p>

  這意味著人工智能領(lǐng)域的重點可能正在從模型規(guī)模轉(zhuǎn)向效率、可及性和有針對性的智能。

  或者正如 TinyZero 團隊在項目頁面上自己所說:“你可以用不到 30 美元親自體驗‘頓悟’時刻?!?/p>