基於深度學習的遺傳算法怎麼運行(兩個深度學習框架預測)
2023-04-22 00:16:28
編輯 | 蘿蔔皮
為了了解基因組序列如何影響多尺度三維(3D)基因組架構,德克薩斯大學西南醫學中心的 Jian Zhou 博士提出了一種基於序列的深度學習方法 Orca,它直接從序列預測從千鹼基到全染色體尺度的 3D 基因組架構。
Orca 捕獲結構的序列依賴性,包括染色質區室和拓撲相關域,以及從 CTCF 介導的增強子-啟動子相互作用和 Polycomb 介導的與細胞類型特異性的相互作用的不同類型的相互作用。
Orca 能夠實現各種應用,包括預測結構變異對多尺度基因組組織的影響,它概括了實驗研究的不同大小(300 bp 到 90 Mb)變異的影響。
此外,Orca 使計算機虛擬屏幕能夠在不同尺度上探測 3D 基因組組織的序列基礎。在亞兆級鹼基規模上,它預測了細胞類型特異性基因組相互作用的特定轉錄因子基序。在隔室尺度上,序列活動的虛擬屏幕顯示了染色質隔室的序列基礎模型,其中轉錄起始位點具有重要作用。
該研究以「Sequence-based modeling of three-dimensional genome architecture from kilobase to chromosome scale」為題,於 2022 年 5 月 12 日發布在《Nature Genetics》。
Orca相關代碼:
https://github.com/jzhoulab/orca
https://orca.zhoulab.io
https://github.com/jzhoulab/orca_manuscript
論文連結:https://www.nature.com/articles/s41588-022-01065-4
只有大約 1% 的人類 DNA 編碼製造蛋白質的指令。
近幾十年的研究表明,大部分剩餘的非編碼遺傳物質都含有調控元件,例如啟動子、增強子、消音器和絕緣子,它們控制著編碼 DNA 的表達方式。Zhou 博士解釋說,序列如何控制大多數這些調節元件的功能尚不清楚。
為了更好地理解這些調控成分,Zhou 和普林斯頓大學以及 Flatiron 研究所的同事共同開發了一個名為 Sei 的深度學習模型,Sei 是一個將人類遺傳學數據與序列信息相結合以發現性狀和疾病的調控基礎的框架。
Sei 使用深度學習模型學習了一個稱為序列類的調節活動詞彙表,該模型可以預測超過 1,300 個細胞系和組織的 21,907 個染色質譜。序列類別基於不同的調節活動(例如細胞類型特異性增強子功能)提供序列和變異效應的全局分類和量化。
這些預測得到組織特異性表達、表達數量性狀基因座和進化約束數據的支持。此外,序列類別能夠表徵複雜性狀的組織特異性調控結構,並為個體調控致病突變產生機制假設。
這項工作通過聚集全基因組變異關聯信號和預測單個突變的影響,證明了序列類別在發現人類疾病中的調控中斷方面的潛力。研究人員期望序列類別和 Sei 模型成為理解非編碼突變對人類健康的機制影響的有力工具。
該研究以「A sequence-based global map of regulatory activity for deciphering human genetics」為題,於 2022 年 7 月 11 日發布在《Nature Genetics》。
Sei 相關代碼:
https://github.com/FunctionLab/sei-framework
https://hb.flatironinstitute.org/sei
論文連結:https://www.nature.com/articles/s41588-022-01102-2
「綜合起來,這兩個程序提供了一個更完整的畫面,說明 DNA 序列的變化,即使是在非編碼區域,如何對其空間組織和功能產生巨大影響。」兩項研究的通訊作者 Jian Zhou 博士說。
Zhou 表示,他和他的同事計劃使用 Sei 和 Orca,進一步探索基因突變在導致疾病分子和物理表現方面的作用。希望這兩項研究可以為治療相關疾病提供新方法。
相關報導:https://phys.org/news/2022-08-artificial-intelligence-tools-dna-regulatory.html
,