上海交大發(fā)布蛋白質(zhì)設(shè)計(jì)模型“Venus”
中新網(wǎng)上海3月22日電 (記者 許婧)上海交通大學(xué)特聘教授洪亮團(tuán)隊(duì)22日發(fā)布最新成果:團(tuán)隊(duì)將AI與蛋白質(zhì)設(shè)計(jì)與改造相結(jié)合,建立了全球最大的蛋白質(zhì)數(shù)據(jù)集,基于該數(shù)據(jù)集訓(xùn)練的模型,可以精準(zhǔn)、高效地預(yù)測(cè)、設(shè)計(jì)蛋白質(zhì)的功能,把蛋白質(zhì)生產(chǎn)由“緩慢的試錯(cuò)”變?yōu)椤案咝实木珳?zhǔn)設(shè)計(jì)”。
蛋白質(zhì)是由氨基酸序列構(gòu)成的,氨基酸序列的長(zhǎng)度從數(shù)百個(gè)到上千個(gè)不等。AI時(shí)代,數(shù)據(jù)是推動(dòng)技術(shù)進(jìn)步的核心資源,龐大的蛋白質(zhì)序列數(shù)據(jù)集能幫助模型更好地理解蛋白質(zhì)的序列、結(jié)構(gòu)和功能關(guān)系。洪亮團(tuán)隊(duì)建立的蛋白質(zhì)序列數(shù)據(jù)集Venus-Pod(Venus-Protein Outsize Dataset)含有近90億條蛋白質(zhì)序列,包含數(shù)億個(gè)功能標(biāo)簽,是全球數(shù)據(jù)規(guī)模最大、功能批注標(biāo)簽最多的數(shù)據(jù)集,也是另一行業(yè)知名模型——美國(guó)ESM-C模型訓(xùn)練用的21億蛋白質(zhì)序列的4倍體量。

洪亮表示,該數(shù)據(jù)集構(gòu)成了巨大的“蛋白質(zhì)礦藏”,使得人類有可能挖掘新的蛋白或者生物催化劑,助力生物醫(yī)藥和合成生物學(xué)的快速發(fā)展;其次,AI大模型有望通過(guò)海量數(shù)據(jù)的學(xué)習(xí)和掌握自然界蛋白質(zhì)的進(jìn)化模式,為AI設(shè)計(jì)優(yōu)異的蛋白質(zhì)產(chǎn)品提供寶貴的學(xué)習(xí)資料。
蛋白質(zhì)是由20種氨基酸組成的一條高分子鏈,這個(gè)高分子鏈會(huì)扭曲并折疊成獨(dú)特的三維結(jié)構(gòu),正是這種獨(dú)特結(jié)構(gòu)賦予了特定蛋白質(zhì)的生物功能。要設(shè)計(jì)出一款成功的蛋白質(zhì)產(chǎn)品,不能只關(guān)注它的三維結(jié)構(gòu),而是要能成功預(yù)測(cè)和設(shè)計(jì)它的功能。洪亮團(tuán)隊(duì)直接瞄準(zhǔn)“功能預(yù)測(cè)”這一終極目標(biāo),將復(fù)雜的蛋白質(zhì)設(shè)計(jì)變成以需求為導(dǎo)向,配合少量實(shí)驗(yàn)輸出結(jié)果的簡(jiǎn)單過(guò)程。
“我們訓(xùn)練了Venus(啟明星)系列模型,與DeepMind團(tuán)隊(duì)的AlphaFold預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)不同,這個(gè)模型學(xué)習(xí)自然界蛋白質(zhì)序列的組織規(guī)則以及它與功能之間的關(guān)系,其預(yù)測(cè)蛋白質(zhì)突變功能的精度位居行業(yè)榜單之首。”洪亮說(shuō),Venus系列模型具備兩大核心功能:“AI定向進(jìn)化”與“AI挖酶”。這些超常規(guī)功能的蛋白質(zhì)在生物技術(shù)、醫(yī)藥研發(fā)和工業(yè)生產(chǎn)中具有巨大的應(yīng)用潛力,能夠?yàn)橄嚓P(guān)領(lǐng)域帶來(lái)創(chuàng)新和突破。
同時(shí),配合Venus系列模型的全球首款低通量大體積蛋白質(zhì)表達(dá)、純化與功能檢測(cè)自動(dòng)化一體機(jī),可在24小時(shí)內(nèi)不間斷地完成100余個(gè)蛋白質(zhì)的表達(dá)、純化與檢測(cè)任務(wù),較人力效率提高近10倍,將大大減少研發(fā)過(guò)程中的人力、物力和時(shí)間成本投入,顯著提高蛋白質(zhì)工程與合成生物學(xué)研究的效率。
據(jù)介紹,一款功能過(guò)硬的蛋白質(zhì)產(chǎn)品的誕生,通常需要豐富的專家經(jīng)驗(yàn)配合數(shù)以萬(wàn)計(jì)的實(shí)驗(yàn)試錯(cuò)。長(zhǎng)期以來(lái),蛋白質(zhì)設(shè)計(jì)改造的時(shí)間長(zhǎng)、成本高、試錯(cuò)密集問(wèn)題,一直是業(yè)界難題。
洪亮介紹,該成果配合行業(yè)領(lǐng)先的自動(dòng)化設(shè)備,已經(jīng)進(jìn)行產(chǎn)業(yè)化落地,比如Venus系列模型對(duì)某體外診斷頭部公司堿性磷酸酶(ALP)的改造項(xiàng)目。Venus系列模型成功優(yōu)化 ALP,使其分子活性超國(guó)際頭部公司產(chǎn)品3倍,為超敏檢測(cè)診斷(如心肌梗塞、阿爾茲海默癥)帶來(lái)巨大價(jià)值。目前,改造后的 ALP已進(jìn)入200L規(guī)模放大生產(chǎn)階段,標(biāo)志著Venus系列模型成功實(shí)現(xiàn)產(chǎn)業(yè)轉(zhuǎn)化。(完)

社會(huì)新聞精選:
- 2025年03月24日 21:15:46
- 2025年03月24日 20:11:12
- 2025年03月24日 16:59:35
- 2025年03月24日 14:34:08
- 2025年03月24日 14:25:12
- 2025年03月24日 13:54:53
- 2025年03月24日 13:53:05
- 2025年03月24日 10:23:04
- 2025年03月24日 09:49:28
- 2025年03月24日 09:44:50