2026年3月18日 星期三

突破性AI模型EVO 2:理解與生成DNA生命密碼的未來

這個影片介紹了最新發表在《自然》(Nature)期刊上的突破性人工智慧模型——EVO 2,一個能夠理解並生成DNA序列的生物基礎模型。研究者使用了涵蓋各類生命體,從細菌、植物、真菌到動物等,總計9兆個DNA鹼基對的大型資料集(Open Genome 2)來訓練此模型,使其具備理解生命密碼的能力。

EVO 2模型擁有高達一百萬DNA字元的「語境窗口」,能在單核苷酸解析度下同時處理長達一百萬個DNA字母,使得它能完整掌握遠距離且複雜的基因調控機制,這一點突破了以往模型的限制。

值得注意的是,EVO 2雖然沒有獲得任何標籤或疾病資訊,但卻能憑藉DNA間的演化訊號自動辨識出與生命功能相關的重要序列,並能區分有害與中性突變。如成功標示出起始密碼子、終止密碼子突變的破壞性,辨識出細菌與高等生物的翻譯起點序列(Shine-Dalgarno序列及KAC序列),並區分同義突變與移框突變的不同效應。

此外,模型甚至能察覺例外的遺傳密碼規則,例如纖毛蟲中非標準的TGA密碼子意義,顯示它已透過大量資料深刻理解DNA“語法”。

在醫療應用方面,研究者讓EVO 2分析BRCA基因中與乳癌和卵巢癌相關的變異,儘管模型未接觸過醫學標籤資訊,也成功判斷出致病與良性突變,展現了在基因疾病檢測上的潛力。

令人震撼的是,EVO 2不只分析DNA,還能從給定的開頭序列自動生成完整的功能性DNA序列。研究團隊證明它能成功生成人類粒線體、Mycoplasma genitalium細菌、以及酵母菌等多種生物的全基因組序列。產出的DNA經過外部工具Maidoz的驗證,成功含有正確的蛋白質編碼基因、tRNA與rRNA基因,且透過AlphaFold 3確認相關蛋白的正確3D摺疊和相互作用,證明生成的DNA在生物學上具備可行性。

出於安全考量,模型在訓練時刻意排除人類、動物和植物病原性病毒的DNA序列,避免其生成具危害性的病毒。實驗結果顯示模型無法正確生成病原病毒序列,降低生物安全風險。

該研究團隊開放了EVO 2模型、資料集及訓練、微調程式碼於GitHub,方便全球研究者使用與進一步發展。

總結而言,EVO 2的突破對生物科技、醫療診斷、農業基因改良、能源生物技術,以及個人化醫療將帶來革命性影響。同時,也對倫理及生物安全問題提出了嚴峻的挑戰與思考。



沒有留言:

張貼留言