
利用AI,我們現在可以在幾秒之內設計出自然界中全新的蛋白質了。最近,來自華盛頓大學的科學家在Science上連發兩篇論文,介紹了ProteinMPNN算法工具。
過去兩年,機器學習徹底改變了蛋白質結構預測。
利用AI,我們現在可以在幾秒之內設計出自然界中全新的蛋白質了。最近,來自華盛頓大學的科學家在Science上連發兩篇論文,介紹了ProteinMPNN算法工具。
而現在,人工智能又在蛋白質設計領域引發了新一輪革命。
生物學家發現,使用機器學習,可以在幾秒鐘內創建出蛋白質分子。而在以前,這個時間也許是幾個月。
并且,新方法準確率也更高。
9月15日,華盛頓大學醫學院的生物學家在Science上連發兩篇論文,介紹了他們的重大發現。

論文地址:
也許你會問:創造出自然界中沒有的蛋白質,對我們有什么意義?
意義可太大了。通過這些蛋白質,也許我們會開發出更多疫苗,加快治療癌癥的研究,研發出碳捕獲工具,和全新的可持續生物材料。
論文地址:
ProteinMPNN:蛋白質設計的革命
下面,我們就簡單介紹一下其中的4種方法:
固定骨架設計
給定一個預設蛋白質結構,然后用Al確定該蛋白質的氨基酸序列。
序列生成
利用語言模型,讓AI學會如何生成蛋白質。然后通過微調這些神經網絡,得到特定蛋白質家族成員的新序列。
結構生成
對蛋白質結構進行訓練的神經網絡可以生成完全新穎的蛋白質結構,但往往對輸出的控制有限。
序列和結構設計
使用一種叫做inpainting的方法,研究人員輸入他們希望包含在蛋白質中的結構或序列,而Al網絡則填補其余部分。
在這兩篇新論文中,華盛頓大學醫學院的生物學家表示,機器學習可用于比以前更準確、更快速地創建蛋白質分子。
David Baker是華盛頓大學醫學院生物化學教授、2021年生命科學突破獎獲得者。
據他介紹:「蛋白質是整個生物學的基礎,但是要知道,現在我們在每種植物、動物和微生物中發現的所有蛋白質,都還不到所有可能的蛋白質的百分之一。有了這些新的軟件工具,研究人員也許就能夠找到長期的解決方案,去攻克醫學、能源和技術上的難題。」
在自然界中,蛋白質被稱為「生命的基石」,因為它們在所有生物的結構中都是必不可少的。在一個細胞生長、分裂、修復的每一個過程中,幾乎都有蛋白質的參與。
可以說,蛋白質基本解決了生命的所有問題,生物學中的一切都發生在蛋白質上。
Baker介紹說:「為了解決生物體在進化過程中面臨的問題,它們在進化中不斷演變。人類今天在面臨著新的問題,比如新冠病毒。如果我們能設計出一種新的蛋白質,讓它像在進化過程中演變出的蛋白質一樣,解決種種問題,那它的力量將是非常強大的。」

在生物的數百萬年進化中,蛋白質的演化痕跡使科學家能夠快速破譯數百種蛋白質的3D形狀
蛋白質由數十萬個氨基酸組成,這些氨基酸以長鏈的形式連接起來。蛋白質中的氨基酸序列決定了它的三維形狀。這種復雜的形狀對于蛋白質的功能至關重要。
在2020年,人工智能實驗室DeepMind宣布AlphaFold時,就已經讓全世界大吃一驚了。這個AI工具利用深度學習,解決了生物學的一個大挑戰:準確預測蛋白質的形狀。而今年夏天,DeepMind宣布,AlphaFold現在可以預測科學上已知的所有蛋白質的形狀。
通過預測蛋白質的結構,就可以洞察它們的表現。
在蛋白質預測領域,科學家已經取得了舉世矚目的驚人成績。而在蛋白質設計領域, Baker的團隊也取得了突破性進展。

使用ProteinMPNN設計的蛋白質的細節
要知道,按照一般的傳統,研究人員設計蛋白質時,是通過調整自然界中已知的蛋白質。但是ProteinMPNN的出現,可以讓研究人員從頭設計所有可能的蛋白質,這就打開了一個新世界。
ProteinMPNN幫助研究人員解決了逆向的問題——如果他們心中已經有了一個確切的蛋白質結構,它就能幫助他們找到能折疊成這個形狀的氨基酸序列。ProteinMPNN使用的的是一個在很多折疊成三維結構的氨基酸序列中訓練出來的神經網絡。
研究人員還要解決另外一個問題:要設計解決現實問題的蛋白質,比如消化塑料的新酶,他們需要首先弄清楚什么樣的蛋白質骨架會有這種功能。
蛋白質設計的三個挑戰
Baker的團隊將蛋白質設計的挑戰分解為三個部分,并且針對每個部分,都設計了特定的軟件方案。
首先,必須生成新的蛋白質形狀。在 7 月 21 日發表在《科學》雜志上的一篇論文中,該團隊表明人工智能可以通過兩種方式生成新的蛋白質形狀。
https://www.science.org/doi/10.1126/science.abn2100
第一種被稱為「幻想」(hallucination),類似于DALL-E或其他基于簡單提示產生輸出的生成AI工具。
通過「幻想」,用戶可以在所有可能的蛋白質序列中進行隨機搜索,并傾向于具有特定功能的序列。它使探索所有可能的蛋白質結構空間成為可能,這要歸功于機器學習對龐大數據集的處理能力。
Baker對此解釋道:「自然界中的蛋白質,只是采樣很小的一部分,因此,如果你把搜索限制在自然界已經存在的那些序列上,你就不會有任何收獲。」

使用「幻想」生成的對稱環
第二種被稱為「修復」(inpainting),類似于文字處理器中的自動完成功能,不過它針對的是蛋白質的結構和序列。
這種方法從功能位點開始填充額外的序列和結構,通過經過專門訓練的RoseTTAFold網絡在單次正向傳遞中創建可行的蛋白質支架。
用這兩種方法,可以設計包含功能位點的候選免疫原、受體陷阱、酶活性位點等。
第二部分
其次,為了加快這一過程,團隊設計了一種生成氨基酸序列的新算法。
在9月15日的Science上,他們介紹了這個名為ProteinMPNN的軟件工具,它的運行時間大約為一秒。
比起以前最好的軟件,ProteinMPNN要快200多倍!

ProteinMPNN架構
ProteinMPNN不僅速度快,它的結果還優于以前的工具,并且不需要專家定制就可以運行。
「 如果你有大量數據,神經網絡是很容易訓練的,但是對于蛋白質,我們并沒有那么多例子。我們必須深入其中,確定這些分子中哪些特征是最重要的。你需要反復試錯。」蛋白質設計研究所的博后研究員Justas Dauparas說。

用ProteinMPNN設計蛋白質
第三部分
在第三部分,該團隊使用了由DeepMind開發的工具AlphaFold,來獨立評估他們提出的氨基酸序列是否可以折疊成預期的形狀。
「預測蛋白質結構的軟件是解決方案的一部分,但它本身無法提出任何新東西。」Dauparas解釋說。
「ProteinMPNN之于蛋白質設計,就像AlphaFold之于蛋白質結構預測。」Baker補充道。
在9月15日發表在Science上的另一篇論文中,Baker實驗室的一個團隊證實,使用新機器學習工具的組合,我們能夠可靠地生成新的蛋白質,這些新蛋白質會在實驗室中發揮作用。
「我們發現,使用ProteinMPNN制造的蛋白質更有可能按預期折疊,我們可以使用這些方法制造非常復雜的蛋白質組裝體。」蛋白質設計研究所的博后研究員Basile Wicky說。
意義重大
Baker的團隊正在試驗,看這些環狀結構是否可以用作定制納米機械的部件。在電子顯微鏡下,這些環的直徑大約比罌粟種子小十億倍。或許在未來,這些納米機器可以被用來疏通動脈。
使用機器學習來設計蛋白質,會讓整個過程更快、更容易,并且讓研究人員在更大的范圍內創造出全新的蛋白質結構。這些軟件比以前最好的工具還要快上200多倍,并且只需要最小的用戶輸入,這將大大降低蛋白質設計的門檻。

ProteinMPNN設計的結構特征
「這些研究正在改變整個生物分子結構預測和設計領域。」約翰霍普金斯大學化學和生物分子工程教授Jeffrey Gray說。「在理解生物學、健康和疾病上,以及設計新的分子減少人類自殺上,影響都是巨大的。」
Gray說,他的實驗室正在將自己開發的深度學習工具與Baker團隊的工具結合起來,以更好地了解免疫系統和免疫相關的疾病,并使用AI來設計治療方法。
「AlphaFold通過解決蛋白質結構預測問題,將生物學帶入了一個新時代,并展示了AI在生物學中發揮的革命性作用」。DeepMind的AI for Science團隊負責人Pushmeet Kohli說。「ProteinMPNN是這種范式轉變的另一個證明,從此我們可以為特定任務設計蛋白質」。
「這僅僅是機器學習在蛋白質設計中的一個開始。在接下來的幾個月里,我們會努力改進這些工具,爭取創造出更具動態性和功能性的蛋白質。」Baker說。

ProteinMPNN的計算評估
現在,ProteinMPNN可以在GitHub上免費使用了,研究人員可以用它創作出無限的新設計。
最后,Baker說:「現在,最有挑戰性的地方在于……你要設計什么?」
作者介紹
同時,Baker博士還在擔任蛋白質設計研究所的主任、Howard Hughes醫學研究所研究員。他也是美國國家科學院和美國藝術與科學學院的成員。
此前,他在加州大學伯克利分校獲得生物化學博士學位,并在加州大學舊金山分校做生物物理學博士后工作。
Baker博士曾獲得國家科學基金會、Beckman基金會和Packard基金會的獎勵。他是生命科學突破獎、蛋白質協會的Irving Sigal和Hans Neurath獎、ISCB的Overton獎、Foresight研究所的Feynman獎、AAAS Newcomb Cleveland獎、生物物理學的Sackler獎以及生化協會的百年紀念獎的獲得者。
他的65名學生已經進入獨立的教職,他已經發表了500多篇研究論文,獲得了100多項專利,并共同創辦了11家公司。
https://www.science.org/doi/10.1126/science.add2187
文章來源:新智元
IEEE Spectrum
《科技縱覽》
官方微信公眾平臺