GPT4All 是基于大量干凈的助手?jǐn)?shù)據(jù)(包括代碼、故事和對話)訓(xùn)練而成的聊天機(jī)器人,數(shù)據(jù)包~800k條GPT-3.5-Turbo生成數(shù)據(jù),基于LLaMa完成,M1 Mac、Windows 等環(huán)境都能運(yùn)行。或許就像它的名字所暗示的那樣,人人都能用上個人GPT的時代已經(jīng)來了。
自從 OpenAI 發(fā)布 ChatGPT 后,最近幾個月聊天機(jī)器人熱度不減。雖然ChatGPT功能強(qiáng)大,但OpenAI幾乎不可能將其開源。不少人都在做開源方面的努力,比如前段時間Meta開源的LLaMA。其是一系列模型的總稱,參數(shù)量從70億到650億不等,其中,130億參數(shù)的LLaMA模型「在大多數(shù)基準(zhǔn)上」可以勝過參數(shù)量達(dá)1750億的GPT-3。LLaMA的開源可是利好眾多研究者,比如斯坦福在LLaMA的基礎(chǔ)上加入指令微調(diào)(instruct tuning),訓(xùn)練了一個名為Alpaca(羊駝)的70億參數(shù)新模型(基于LLaMA 7B)。結(jié)果顯示,只有7B參數(shù)的輕量級模型Alpaca性能可媲美GPT-3.5這樣的超大規(guī)模語言模型。又比如,我們接下來要介紹的這個模型GPT4All,也是一種基于LLaMA的新型7B語言模型。項(xiàng)目上線兩天,Star量已經(jīng)突破7.8k。
項(xiàng)目地址:
https://github.com/nomic-ai/gpt4all簡單來講,GPT4All在GPT-3.5-Turbo的800k條數(shù)據(jù)上進(jìn)行訓(xùn)練,包括文字問題、故事描述、多輪對話和代碼。根據(jù)項(xiàng)目顯示,M1 Mac、Windows等環(huán)境都能運(yùn)行。我們先來看看效果。如下圖所示,用戶可以和GPT4All進(jìn)行無障礙交流,比如詢問該模型:「我可以在筆記本上運(yùn)行大型語言模型嗎?」GPT4All回答是:「是的,你可以使用筆記本來訓(xùn)練和測試神經(jīng)網(wǎng)絡(luò)或其他自然語言(如英語或中文)的機(jī)器學(xué)習(xí)模型。重要的是,你需要足夠可用的內(nèi)存 (RAM) 來適應(yīng)這些模型的大小……」接下來,如果你不清楚到底需要多少內(nèi)存,你還可以繼續(xù)詢問GPT4All,然后它給出回答。從結(jié)果來看,GPT4All進(jìn)行多輪對話的能力還是很強(qiáng)的。 
在M1 Mac上的實(shí)時采樣
有人將這項(xiàng)研究稱為「改變游戲規(guī)則,有了GPT4All的加持,現(xiàn)在在MacBook上本地就能運(yùn)行GPT。」
與GPT-4相似的是,GPT4All也提供了一份「技術(shù)報告」。
技術(shù)報告地址:
https://s3.amazonaws.com/static.nomic.ai/gpt4all/2023_GPT4All_Technical_Report.pdf這份初步的技術(shù)報告簡要描述了GPT4All的搭建細(xì)節(jié)。研究者公開了收集的數(shù)據(jù)、數(shù)據(jù)整理程序、訓(xùn)練代碼和最終的模型權(quán)重,以促進(jìn)開放研究和可重復(fù)性,此外還發(fā)布了模型的量化4位(quantized 4-bit)版本,這意味著幾乎任何人都可以在CPU上運(yùn)行該模型。在2023年3月20日至2023年3月26日期間,研究者使用GPT-3.5-Turbo OpenAI API收集了大約100萬對prompt回答。首先,研究者通過利用三個公開可用的數(shù)據(jù)集來收集不同的問題/prompt樣本:
- LAION OIG 的統(tǒng)一 chip2子集
- Stackoverflow Questions 的一個隨機(jī)子樣本集Coding questions
- Bigscience/P3子樣本集進(jìn)行指令調(diào)優(yōu)
參考斯坦福大學(xué)Alpaca項(xiàng)目 (Taori et al., 2023),研究者對數(shù)據(jù)準(zhǔn)備和整理給予了大量關(guān)注。在收集了最初的prompt生成對的數(shù)據(jù)集后,他們將數(shù)據(jù)加載到Atlas進(jìn)行整理和清理,刪除了所有GPT-3.5-Turbo未能響應(yīng)prompt并產(chǎn)生畸形輸出的樣本。這使得樣本總數(shù)減少到806199個高質(zhì)量的prompt -生成對。接下來,研究者從最終的訓(xùn)練數(shù)據(jù)集中刪除了整個Bigscience/P3子集,因?yàn)樗妮敵龆鄻有苑浅5汀3包含許多同質(zhì)化的prompt,這些prompt從GPT-3.5-Turbo中產(chǎn)生了簡短而同質(zhì)化的反應(yīng)。這種排除法產(chǎn)生了一個包含437,605個prompt -生成對的最終子集,如圖2所示。研究者在LLaMA 7B (Touvron et al., 2023) 的一個實(shí)例中將幾個模型進(jìn)行微調(diào)。他們最初的公開版本相關(guān)的模型是用LoRA (Hu et al., 2021) 在437605個后處理的例子上以4個epoch訓(xùn)練的。詳細(xì)的模型超參數(shù)和訓(xùn)練代碼可以在相關(guān)的資源庫和模型訓(xùn)練日志中找到。研究者發(fā)布了所有的數(shù)據(jù)(包括未使用的P3 generations)、訓(xùn)練代碼和模型權(quán)重,供社區(qū)進(jìn)行復(fù)現(xiàn)。感興趣的研究者可以在Git存儲庫中找到最新的數(shù)據(jù)、訓(xùn)練細(xì)節(jié)和檢查點(diǎn)。研究者大概用了四天的時間制作這些模型,GPU成本為800美元(從Lambda實(shí)驗(yàn)室和Paperspace租的,其中包括幾次失敗的訓(xùn)練),此外還有500美元的OpenAI API費(fèi)用。最終發(fā)布的模型gpt4all-lora可以在Lambda實(shí)驗(yàn)室的DGX A100 8x 80G上用大約8小時訓(xùn)練完成,總成本為100美元。這個模型可以在普通筆記本上運(yùn)行,真就像網(wǎng)友說的「除了電費(fèi)之外,沒有任何成本。」研究者使用SelfInstruct論文 (Wang et al., 2022) 中的人類評估數(shù)據(jù)對該模型進(jìn)行了初步評估。報告還對比了該模型與已知最好的公開的alpaca-lora模型(該模型由huggingface的用戶chainyo提供)的ground truth困惑度。他們發(fā)現(xiàn),所有的模型在少數(shù)任務(wù)上都有非常大的困惑度,并且報告的困惑度最大為100。與Alpaca相比,在這個收集的數(shù)據(jù)集上進(jìn)行微調(diào)的模型在Self-Instruct評估中表現(xiàn)出了更低的困惑度。研究者表示,這個評估不是詳盡的,仍存在進(jìn)一步的評估空間 —— 他們歡迎讀者在本地CPU上運(yùn)行該模型(文件見 Github),并對它的能力有一個定性的認(rèn)識。最后,需要注意的是,作者公布了數(shù)據(jù)和訓(xùn)練細(xì)節(jié),希望它能加速開放的LLM研究,特別是在對齊和可解釋性領(lǐng)域。GPT4All模型的權(quán)重和數(shù)據(jù)僅用于研究目的,并獲得許可,禁止任何商業(yè)使用。GPT4All是基于LLaMA的,LLaMA具有非商業(yè)許可。助理數(shù)據(jù)是從OpenAI的GPT-3.5-Turbo收集的,其使用條款禁止開發(fā)與OpenAI進(jìn)行商業(yè)競爭的模型。文章來源:機(jī)器之心
IEEE Spectrum
《科技縱覽》
官方微信公眾平臺