由ChatGPT掀起的這場(chǎng)AI革命,令人們感慨神奇的同時(shí),也不禁發(fā)出疑問(wèn):AI 究竟是怎么做到這一切的?
此前,即便是專(zhuān)業(yè)的數據科學(xué)家,都難以解釋大模型(LLM)運作的背后。而最近,OpenAI似乎做到了——本周二,OpenAI 發(fā)布了其最新研究:讓 GPT-4去試著(zhù)解釋 GPT-2的行為。
即:讓一個(gè) AI “黑盒”去解釋另一個(gè) AI “黑盒”!
1、工作量太大,決定讓 GPT-4 去解釋 GPT-2
OpenAI 之所以做這項研究的原因,在于近來(lái)人們對 AI 倫理與治理的擔憂(yōu):“語(yǔ)言模型的能力越來(lái)越強,部署也越來(lái)越廣泛,但我們對其內部工作方式的理解仍然非常有限。”
由于 AI 的“黑盒”性質(zhì),人們很難分辨大模型的輸出結果是否采用了帶有偏見(jiàn)性質(zhì)的方法,也難以區分其正確性,因而“可解釋性”是亟待重要的一個(gè)問(wèn)題。
AI 的發(fā)展很大程度上是在模仿人類(lèi),因而大模型和人腦一樣,也由神經(jīng)元組成,它會(huì )觀(guān)察文本規律進(jìn)而影響到輸出結果。所以想要研究 AI 的“可解釋性”,理論上要先了解大模型的各個(gè)神經(jīng)元在做什么。
按理來(lái)說(shuō),這本應由人類(lèi)手動(dòng)檢查,來(lái)弄清神經(jīng)元所代表的數據特征——參數量少還算可行,可對于如今動(dòng)輒百億、千億級參數的神經(jīng)網(wǎng)絡(luò ),這個(gè)工作量顯然過(guò)于“離譜”了。
于是,OpenAI 靈機一動(dòng):或許,可以用“魔法”打敗“魔法”?
“我們用 GPT-4為大型語(yǔ)言模型中的神經(jīng)元行為自動(dòng)編寫(xiě)解釋?zhuān)檫@些解釋打分。”而 GPT-4首次解釋的對象是 GPT-2,一個(gè) OpenAI 發(fā)布于4年前、神經(jīng)元數量超過(guò)30萬(wàn)個(gè)的開(kāi)源大模型。
2、讓 GPT-4“解釋” GPT-2的原理
具體來(lái)說(shuō),讓 GPT-4“解釋” GPT-2的過(guò)程,整體分為三個(gè)步驟。
(1)首先,讓 GPT-4生成解釋?zhuān)唇o出一個(gè) GPT-2神經(jīng)元,向 GPT-4展示相關(guān)的文本序列和激活情況,產(chǎn)生一個(gè)對其行為的解釋。
GPT-4對 GPT-2該神經(jīng)元生成的解釋為:與電影、人物和娛樂(lè )有關(guān)。
(2)其次,再次使用 GPT-4,模擬被解釋的神經(jīng)元會(huì )做什么。下圖即 GPT-4生成的模擬內容。
(3)最后,比較 GPT-4模擬神經(jīng)元的結果與 GPT-2真實(shí)神經(jīng)元的結果,根據匹配程度對 GPT-4的解釋進(jìn)行評分。在下圖展示的示例中,GPT-4得分為0.34。
通過(guò)這樣的方法,OpenAI 共讓 GPT-4解釋了 GPT-2中的307200個(gè)神經(jīng)元,其中大多數解釋的得分很低,只有超過(guò)1000個(gè)神經(jīng)元的解釋得分高于0.8。
在官博中,OpenAI承認目前 GPT-4生成的解釋并不完美,尤其在解釋比 GPT-2規模更大的模型時(shí),效果更是不佳:“可能是因為后面的 layer 更難解釋。”
盡管絕大多數解釋的得分不高,但 OpenAI 認為,“即使 GPT-4給出的解釋比人類(lèi)差,但也還有改進(jìn)的余地”,未來(lái)通過(guò) ML 技術(shù)可提高 GPT-4的解釋能力,并提出了三種提高解釋得分的方法:
·對解釋進(jìn)行迭代,通過(guò)讓 GPT-4想出可能的反例,根據其激活情況修改解釋來(lái)提高分數。
·使用更大的模型來(lái)進(jìn)行解釋?zhuān)?span id="qk1gltj" class="keyword">平均得分也會(huì )上升。
·調整被解釋模型的結構,用不同的激活函數訓練模型。
值得一提的是,以上這些解釋數據集、可視化工具以及代碼,OpenAI 都已在 GitHub 上開(kāi)源發(fā)布:“我們希望研究界能開(kāi)發(fā)出新技術(shù)以生成更高分的解釋?zhuān)约案玫墓ぞ邅?lái)使用解釋探索 GPT-2。”
(GitHub 地址:https://github.com/openai/automated-interpretability)
3、“再搞下去,AI 真的要覺(jué)醒了”
除此之外,OpenAI 還提到了目前他們采取的方法有很多局限性,未來(lái)需要一一攻克:
·GPT-4給出的解釋總是很簡(jiǎn)短,但神經(jīng)元可能有著(zhù)非常復雜的行為,不能簡(jiǎn)潔描述。
·當前的方法只解釋了神經(jīng)元的行為,并沒(méi)有涉及下游影響,希望最終能自動(dòng)化找到并解釋能實(shí)現復雜行為的整個(gè)神經(jīng)回路。
·只解釋了神經(jīng)元的行為,并沒(méi)有解釋產(chǎn)生這種行為的背后機制。
·整個(gè)過(guò)程都是相當密集的計算,算力消耗很大。
在博文的最后,OpenAI 展望道:“我們希望將我們最大的模型解釋為一種在部署前后檢測對齊和安全問(wèn)題的方式。然而,在這些技術(shù)能夠揭露不誠實(shí)等行為之前,我們還有很長(cháng)的路要走。”
對于 OpenAI 的這個(gè)研究成果,今日在國內外各大技術(shù)平臺也引起了廣泛關(guān)注。
有人在意其得分不佳:“對 GPT-2的解釋都不行,就更不知道 GPT-3和 GPT-4內部發(fā)生了什么,但這才是許多人更關(guān)注的答案。”有人感慨 AI 進(jìn)化的方式愈發(fā)先進(jìn):“未來(lái)就是用 AI 完善 AI 模型,會(huì )加速進(jìn)化。”也有人擔心 AI 進(jìn)化的未來(lái):“再搞下去,AI 真的要覺(jué)醒了。”
那么對此,你又有什么看法呢?