<samp id="tgzrj"><video id="tgzrj"><nav id="tgzrj"></nav></video></samp>

    <samp id="tgzrj"></samp>
    <legend id="tgzrj"><font id="tgzrj"><tr id="tgzrj"></tr></font></legend>

      觀(guān)速訊丨大模型煉丹指南:信則靈,不信則妄

      來(lái)源:虎嗅網(wǎng)時(shí)間:2023-04-28 08:24:25

      來(lái)源|遠川研究所(ID:YuanChuanInstitution)


      【資料圖】

      作者|陳彬,編輯|戴老板

      頭圖|電影《銀翼殺手2049》

      每一個(gè)大模型都是一臺昂貴的“碎鈔機”,這已經(jīng)成為各路AI觀(guān)察家們津津樂(lè )道的常識。

      大模型訓練成本有一個(gè)簡(jiǎn)單的比例:訓練費用跟參數量的平方成正比。比如OpenAI訓練1750億參數的GPT-3費用大概是1200萬(wàn)美元,訓練5000億參數(業(yè)界預估)的GPT-4成本就飆升至1億美元。

      成本大都來(lái)自GPU使用時(shí)長(cháng)。Meta訓練650億個(gè)參數的LLaMA模型耗費100萬(wàn)個(gè)GPU小時(shí);HuggingFace(號稱(chēng)機器學(xué)習界的Github)訓練Bloom模型耗費了超過(guò)兩個(gè)半月的時(shí)間,使用的算力相當于一臺裝有500 個(gè) GPU的超級計算機。

      Google在訓練5400億參數的PaLM模型時(shí),在6144 塊 TPU v4 芯片上訓練了 1200 小時(shí),然后又在在 3072 塊 TPU v4 芯片上訓練了336小時(shí),總共消耗了2.56e24 FLOPs的算力,折合成Google云計算的報價(jià),大概在900~1700 萬(wàn)美元左右。

      但是……幾百上千萬(wàn)美金的訓練費用和幾億美金的硬件投入,相比AIGC開(kāi)啟的浪潮,真的算貴嗎?

      微軟2022年的凈利潤是727億美金,Google是600億美金,Meta則是230億美金,在OpenAI花費460萬(wàn)美金訓練GPT-3之前,這些巨頭都投入了幾十甚至上百億美金用來(lái)尋找所謂的“新方向”。

      微軟迄今為止向OpenAI投入了100多億美金,這個(gè)數字看起來(lái)很多,但要知道微軟當年收購LinkedIn就花了262億美金,而在更早的時(shí)候收購諾基亞手機業(yè)務(wù)花了71.7億美金,基本等于打了水漂。

      Meta則花了更多“冤枉錢(qián)”來(lái)尋找第二曲線(xiàn)。2021年扎克伯格把Facebook的名字改成了“Meta”,投入巨資All in元宇宙,2022年元宇宙部門(mén)虧損137億美元。在ChatGPT問(wèn)世之前,Meta甚至一度準備把2023年的20%預算投入到元宇宙中去。

      Google對AI一向重視,不僅收購了“前GPT時(shí)代”的明星DeepMind,還是Transformer這一革命性模型的提出者,但Google并沒(méi)有像OpenAI那樣孤注一擲地“死磕”大語(yǔ)言模型,而是在多個(gè)方向上“撒胡椒面”——總投入并不少,但效果加起來(lái)都不如一個(gè)ChatGPT。

      拉開(kāi)視野來(lái)看,全球科技巨頭——包括國內的大型互聯(lián)網(wǎng)企業(yè)在移動(dòng)互聯(lián)網(wǎng)滲透率見(jiàn)頂之后,展開(kāi)了慘烈的“存量博弈”,卷算法推薦、卷短視頻、卷Web3、卷本地生活……投入的資金遠遠超過(guò)OpenAI在ChatGPT誕生前燒掉的10億美金。

      發(fā)現新大陸的費用,跟舊大陸的內耗向來(lái)不在一個(gè)數量級。歐洲人在哥倫布發(fā)現新大陸之前內卷了1000年,而發(fā)現新大陸只花了西班牙王室投資的200萬(wàn)馬拉維迪(大約14000美元)——跟新大陸給世界帶來(lái)的變化相比,這點(diǎn)兒錢(qián)其實(shí)微不足道。

      事實(shí)上,“資金”從來(lái)都不是啟動(dòng)本輪AI浪潮的核心因素。真正核心的因素是另外兩個(gè)字:信仰。

      蠻力的神跡

      ChatGPT走紅后,好事兒的媒體跑去采訪(fǎng)了Google旗下的DeepMind創(chuàng )始人Demis Hassabis。

      被OpenAI搶去了所有風(fēng)頭的Hassabis言辭有點(diǎn)兒不客氣:“面對自然語(yǔ)言這一挑戰,ChatGPT的解決方案如此不優(yōu)雅——僅僅是更多的計算能力和數據的蠻力,我的研究靈魂對此倍感失望?!?/p>

      Demis Hassabis和柯潔

      這句話(huà)聽(tīng)起來(lái)很“酸”,然而他接著(zhù)話(huà)鋒一轉:“但這的確是獲得最佳結果的方式,所以我們(的大模型)也以此為基礎?!币馑季褪请m然不太認同,但OpenAI的“蠻力”真的很香,我們也不得不去學(xué)。

      Hassabis身段靈活,但早期對“蠻力”這件事的態(tài)度,讓Google和OpenAI有了致命的分野。

      2017年,谷歌在論文中公開(kāi)了革命性的Transformer模型,業(yè)界逐漸意識到這個(gè)模型對于構建AGI(通用人工智能)的意義。然而,基于同樣的Transformer,谷歌與OpenAI卻走上了兩條不同的路。

      OpenAI旗幟鮮明地從Transformer構建大語(yǔ)言模型,瘋狂堆參數,2018年6月發(fā)布GPT-1,參數1.17億;2019年2月發(fā)布GPT-2,參數15億;2020年5月發(fā)布GPT-3,參數1750億,在蠻力的道路上“一條路走到黑”。

      而Google雖然也祭出了BERT(3億參數)、T5(110億參數)和Switch Transformer(1.6萬(wàn)億參數),表面上跟OpenAI斗得有來(lái)有回,但光從模型的名字就能看出來(lái):Google總在更換模型搭建的策略,而OpenAI的策略更單一更專(zhuān)注。

      比如GPT-2和GPT-1相比,OpenAI沒(méi)有重新設計底層結構,而是將Transformer堆疊的層數從12層增加到48層,并使用了更大的訓練數據集,而GPT-3進(jìn)一步把層數增加到了96層,使用比GPT-2還要大的數據集,但模型框架基本上沒(méi)有改變。

      另外,基于Transformer的大模型演化有三個(gè)分支:Encoder Only,Encode-Decoder,Decoder Only。OpenAI一直堅持只用Decoder Only方案,而Google則變來(lái)變去:BERT模型使用Encoder Only,T5模型又改成了Encode-Decoder。

      等到OpenAI突破后,Google匆忙轉向Decoder Only方案(PaLM模型),時(shí)間已經(jīng)錯失了至少一年半。

      在跟OpenAI的軍備競賽中,Google卻總沉浸在一些貌似炫酷,但實(shí)則對AI缺乏信心的產(chǎn)品上——比如2022年發(fā)布的Gato。Gato的思路是先做一個(gè)大模型底座,然后再灌不同的數據,以此生成出大量小模型——每個(gè)小模型都有特定的能力。

      這么做的目的是讓單個(gè)AI具備盡可能多的功能,更加通用。做一個(gè)簡(jiǎn)單的類(lèi)比:谷歌路線(xiàn)相當于讓一個(gè)上完九年義務(wù)教育的12歲小孩兒,去參加鋼琴、寫(xiě)作、編程、舞蹈等一系列專(zhuān)業(yè)技能培訓班,靠著(zhù)“1+1+1…”培養出一個(gè)多才多藝的“全才”。

      Gato能執行604種不同的任務(wù),包括給圖片配文、玩雅達利游戲、操作機械臂搭積木。不過(guò),Gato雖做到了“通才”,但實(shí)用性卻相當堪憂(yōu):其中近一半功能,還不如便宜小巧的“專(zhuān)才AI”好使,有媒體評價(jià):一個(gè)平庸的人工智能。

      “萬(wàn)能”但又不那么萬(wàn)能的Gato

      相比之下,OpenA更熱衷于讓AI“做好一件事”,即像人類(lèi)一樣理解自然語(yǔ)言——這是通向AGI的必經(jīng)之路。

      在所有站在Transformer模型肩膀上的團隊中,OpenAI是把“蠻力”發(fā)揮到最淋漓盡致的一個(gè),算力不夠就買(mǎi)算力,數據不夠就找數據,別人的牛逼技術(shù)我直接拿來(lái)用,反正就是要把規模堆上去。終于,在“暴力美學(xué)”的指引下,奇跡出現了。

      從成立第一天起,OpenAI就把創(chuàng )造接近甚至超越人類(lèi)的AGI(通用人工智能)作為幾乎唯一的目標。而且相比Google的遲疑不定,OpenAI發(fā)起人們(包括馬斯克)是真的相信AI可以成為一個(gè)18歲的成年人,而不是永遠停留在12歲上打轉。

      黃仁勛在今年3月對談OpenAI聯(lián)合創(chuàng )始人Ilya Sutskever時(shí),問(wèn)了一個(gè)問(wèn)題:“在這個(gè)(GPT研發(fā)的)過(guò)程中,你一直相信,擴大規模會(huì )改善這些模型的性能嗎?” Ilya回答道:“這是一個(gè)直覺(jué)。我有一個(gè)很強烈的信念,更大意味著(zhù)更好?!?o:p>

      這是一場(chǎng)蠻力的勝利,但更是一種信仰的勝利。大模型回報給“信仰”的禮物,也遠超想象——隨著(zhù)參數量的暴力提升,研究人員突然有一天發(fā)現大模型出現了令人驚喜,但又難以解釋的能力飆升。

      他們找了一個(gè)老詞來(lái)形容這種現象:Emergence(涌現)。

      虔誠的回報

      Emergence(涌現)這個(gè)詞,常見(jiàn)于哲學(xué)、系統學(xué)、生物學(xué)等領(lǐng)域,其經(jīng)典的定義是:當一個(gè)實(shí)體被觀(guān)察到具有各個(gè)部分單獨存在時(shí)不具備的屬性和能力時(shí),這種現象就被稱(chēng)之為“涌現”,早在古希臘時(shí)代,這種現象就被亞里士多德研究過(guò)。

      后來(lái),英國哲學(xué)家George Lewes在1875年第一次發(fā)明了Emergence這個(gè)詞,用來(lái)專(zhuān)門(mén)形容上述現象。1972年,諾貝爾物理學(xué)獎得主Philip Anderson撰寫(xiě)了一篇名叫“More is Different”的文章,用一句經(jīng)典的金句來(lái)給“涌現”做了解釋?zhuān)?o:p>

      當一個(gè)系統的量變導致質(zhì)變時(shí),就稱(chēng)之為“涌現”。

      “涌現”被引入到大模型中,可以說(shuō)是相當貼切:AI工程師們觀(guān)察到一個(gè)現象,隨著(zhù)模型的參數量越來(lái)越大,當超過(guò)某個(gè)閾值或者“臨界點(diǎn)”的時(shí)候——比如參數量達到100億,模型會(huì )出現一些讓開(kāi)發(fā)者完全意想不到的復雜能力——比如類(lèi)似人類(lèi)的思維和推理能力。

      比如,Google大模型測試基準BIG-Bench里有一項任務(wù):給出4個(gè)emoj表情符號,讓模型回答代表什么電影。簡(jiǎn)單和中等復雜度的模型都回答錯了,只有參數超過(guò)100億的大模型會(huì )告訴測試者[4]:這是電影Finding Nemo(海底總動(dòng)員)。

      2022年,來(lái)自Google、DeepMind、斯坦福和北卡萊羅納大學(xué)的學(xué)者分析了GPT-3、PaLM、LaMDA等多個(gè)大模型[3],發(fā)現隨著(zhù)訓練時(shí)間(FLOPs)、參數量和訓練數據規模的增加,模型的某些能力會(huì )“突然”出現拐點(diǎn),性能肉眼可見(jiàn)地驟然提升。

      這些“涌現”能力超過(guò)了137多種[5],包括多步算術(shù)、詞義消歧、邏輯推導、概念組合、上下文理解等。這項研究給大模型的“涌現”下了一個(gè)定義:如果一項能力只有在大模型中存在,在小模型中觀(guān)測不到,這項能力就是“涌現”出來(lái)的。

      微博博主tombkeeper做過(guò)這樣一個(gè)測試:在ChatGPT剛誕生時(shí),他將發(fā)表于2018年的一篇充滿(mǎn)隱喻的微博——“對微博上的佩奇來(lái)說(shuō),今天是黑暗的一天——她們的摩西殺死了她們的加百列”,交給ChatGPT理解,但ChatGPT回答失敗了。

      來(lái)源:微博tombkeeper

      而等到2023年3月OpenAI推出了GPT-4,tombkeeper再次將這個(gè)問(wèn)題扔給AI,回答基本接近滿(mǎn)分。

      來(lái)源:微博tombkeeper

      Google在訓練大模型PaLM時(shí),也發(fā)現隨著(zhù)參數規模的增加,模型會(huì )不斷“涌現”出新的能力。

      當最終把PaLM的參數堆到5400億時(shí),模型就具備了區分因果關(guān)系、理解上下文概念、解釋冷笑話(huà)等能力。比如像前文一樣根據4個(gè)emoj表情符號來(lái)猜電影名字。

      對于大模型“涌現”的背后邏輯,現在幾乎沒(méi)有科學(xué)家能徹底講清楚。這讓人想起了1950年阿蘭·圖靈在《計算機器與智能》這篇論文中論述過(guò)一個(gè)觀(guān)點(diǎn):“學(xué)習機器有一個(gè)重要的特征,即它的老師往往對機器內部運行情況一無(wú)所知?!?o:p>

      當然,有人對此欣喜若狂,有人則會(huì )覺(jué)得毛骨悚然。不過(guò)無(wú)論是哪一派,都不得不承認那句老話(huà):大力真的能出奇跡?!按罅Α北澈缶褪切叛觥祟?lèi)一定可以用硅基來(lái)模仿大腦結構,最終實(shí)現超越人類(lèi)的智能。而“涌現”告訴我們:這一刻越來(lái)越近了。

      信仰的充值

      有信仰,就要對信仰充值。中世紀基督徒用的是贖罪券,新世紀AI信徒用的則是晶體管。

      文心一言面世之后,李彥宏的一段采訪(fǎng)曾沖上熱搜——李廠(chǎng)長(cháng)直言“中國基本不會(huì )再誕生一家OpenAI”,這似乎有點(diǎn)兒不太給王慧文面子[9]。但這一觀(guān)點(diǎn)確實(shí)有理有據:大模型軍備競賽,大概率會(huì )比曾經(jīng)燒掉數十億美金的網(wǎng)約車(chē)戰爭還要慘烈。

      如果按照業(yè)界預估的成本,GPT-4訓練成本在1億美金左右,GPT-3的訓練費用也要1200萬(wàn)美元。先不說(shuō)昂貴的人才團隊費用,王慧文的5000萬(wàn)美元光是投入到GPU購買(mǎi)或租賃上,都顯得捉襟見(jiàn)肘。

      大模型發(fā)展的三要素:算法、算力、數據。其中算力是數字時(shí)代的“石油”,未來(lái)的缺口一定會(huì )越來(lái)越大。自2012年開(kāi)啟黃金時(shí)代后,AI對算力的需求開(kāi)始呈現指數級增長(cháng)。從2012年的AlexNet,到2017年的AlphaGo Zero,算力消耗足足翻了30萬(wàn)倍。

      訓練大模型需要專(zhuān)門(mén)的GPU集群,傳統數據中心的用場(chǎng)不大。微軟為了“迎娶”OpenAI,曾特地配備了一臺擁有數萬(wàn)塊A100與H100 GPU的超級計算機,光硬件入場(chǎng)費就花了近10億美金[1]。

      即便如此,據相關(guān)機構測算,由于ChatGPT與GPT-4的訪(fǎng)問(wèn)量仍在增長(cháng),10億美金的超級計算機馬上又要不夠用了。要么進(jìn)一步擴大算力,要么只能盡力控制成本,繼續采用限流等手段[12]。

      英偉達AI超算產(chǎn)品的第一個(gè)客戶(hù),就是OpenAI

      對此,貼心的賣(mài)鏟人英偉達推出了AI超算云服務(wù):租賃8塊旗艦版A100,每月只需37000美元,童叟無(wú)欺。若要達到訓練GPT-4的算力(一萬(wàn)塊A100)月租金需4600萬(wàn)美元左右——每月凈利潤不足一個(gè)小目標的企業(yè),的確可以洗洗睡了。

      跟用神經(jīng)網(wǎng)絡(luò )來(lái)模仿大腦一樣,AI算力的昂貴也跟人腦的屬性保持一致。

      一個(gè)人的大腦大約有860億個(gè)神經(jīng)元,每個(gè)神經(jīng)元平均跟其他7000個(gè)神經(jīng)元相連接,所以大約有6000萬(wàn)億個(gè)連接。盡管大腦的重量只占人體的2%左右,但當無(wú)數神經(jīng)元連接工作的時(shí)候,它們每天需要消耗人體總能量的20%~30%。

      因此,即使是碳基生物的“智能”,也是一種暴力堆砌神經(jīng)元后的“涌現”,對能量的消耗巨大。而相比經(jīng)過(guò)上億年進(jìn)化的碳基神經(jīng)元,晶體管構建的神經(jīng)網(wǎng)絡(luò )離“低功耗”相距甚遠——比如柯潔功率是20w,而跟他下棋的AlphaGo功耗是他的5萬(wàn)倍。

      因此,人類(lèi)要想做出真正的AGI,還需要繼續給信仰來(lái)充值。

      對全人類(lèi)來(lái)說(shuō),這種充值顯然是無(wú)比劃算的。仔細算一算,OpenAI燒掉的10億美金,不僅給全球的科技公司找到了一片“新大陸”,還給愈發(fā)內卷的全球經(jīng)濟點(diǎn)亮了增量邏輯。在美元泛濫的當下,還有比這10億美元性?xún)r(jià)比更高的項目嗎?

      當“新大陸”被發(fā)現后,全世界都會(huì )蜂擁而至。比爾·蓋茨雖然現在是AI的狂熱鼓吹者,但早在微軟第一次投資OpenAI時(shí),他是強烈的懷疑者,直到去年年底看到GPT-4的內部演示才對外表示:It’s a shock,this thing is amazing。

      比爾·蓋茨在未來(lái)可能擁有人工智能領(lǐng)域最雄偉大廈的冠名權,但OpenAI的創(chuàng )始人們以及更多連接主義學(xué)派的人工智能先驅?zhuān)档萌藗冊趶V場(chǎng)上樹(shù)立雕像。大模型的煉丹之路,信則靈,不信則妄,跟風(fēng)的投機主義者不配留下姓名。

      最后,人類(lèi)通往地獄或者天堂的道路,一定是由AI虔誠的信徒用一顆顆晶體管鋪就的。

      參考資料:

      [1] ChatGPT and generative AI are booming, but the costs can be extraordinary, CNBC

      [2] Microsoft spent hundreds of millions of dollars on a ChatGPT supercomputer,The Verge

      [3] Emergent Abilities of Large Language Models, Jason Wei等,TMLR

      [4] The Unpredictable Abilities Emerging From Large AI Models

      [5] 137 emergent abilities of large language models, Jason Wei

      [6] Harnessing the Power of LLMs in Practice

      [7] Alphabet’s Google and DeepMind Pause Grudges, Join Forces to Chase OpenAI,The Information

      本文來(lái)自微信公眾號:遠川研究所(ID:YuanChuanInstitution),作者:陳彬

      標簽:

      責任編輯:FD31
      上一篇:優(yōu)思明的副作用_優(yōu)思明好還是媽富隆好 世界報資訊
      下一篇:亞錦賽男單8強國羽占兩席!李詩(shī)灃勝世界亞軍,陸光祖11-0周天成

      精彩圖集(熱圖)

      熱點(diǎn)圖集

      最近更新

      信用中國

      • 信用信息
      • 行政許可和行政處罰
      • 網(wǎng)站文章

      久爱免费观看在线精品_亚洲综合一区二区三区_最新国产国模无码视频在线_中文字幕无码精品亚洲资源网久久

      <samp id="tgzrj"><video id="tgzrj"><nav id="tgzrj"></nav></video></samp>

      <samp id="tgzrj"></samp>
      <legend id="tgzrj"><font id="tgzrj"><tr id="tgzrj"></tr></font></legend>