新四季網

宏基因組微生物網絡圖(宏基因組學技術與微生物群落多樣性分析方法)

2023-04-21 03:44:36 1

自然界中大量的微生物無法利用純培養手段在實驗室條件下進行培養,傳統微生物學的技術手段限制了環境微生物的研究。高通量組學技術的迅速發展使得人類對各類生態系統中的複雜微生物群落有了前所未有的認知。

本文從擴增子測序與宏基因組測序出發,對宏基因組學在微生物群落檢測中的基本分析流程進行了介紹,指出利用大數據分析技術與手段來克服宏基因組學數據解析,並將分析結果用更易理解的形式展現出來是未來研究的重點和難點。

組學技術的出現實現了從分子水平對環境微生物及其功能進行檢測與分析,為了解完整的環境微生物全貌提供了有效的途徑。

微生物組學通常是宏基因組、宏轉錄組、宏蛋白組、宏代謝組等各類系統生物學技術和方法的總稱,注重研究生物系統組成及群落中物種之間的相互關係、系統結構和功能的關聯、以及群落結構與生態系統的關聯等整體上的科學問題

其中,以高通量測序技術為基礎的宏基因組學是目前最為關鍵和成熟的組學方法,也為其他組學的研究提供了研究基礎。

宏基因組學測序分析流程

宏基因組指為某特定環境中所有微生物的基因組的總和,宏基因組學研究則通過直接分析環境中微生物的DNA來獲知微生物群落的遺傳、功能與生態特性。

目前的宏基因組研究緊密依賴高通量測序技術,包括擴增子測序與宏基因組測序。

擴增子測序主要針對核糖體RNA基因(rDNA)功能基因,前者對細菌或古菌16S rDNA 及真菌18S rDNA與內部轉錄間隔區(ITS)序列等分子標記進行擴增,後者對於微生物某些特定功能基因進行擴增。

宏基因組測序則是對環境中所有DNA進行測序。基因組測序成本較高,且對於後續數據分析的計算資源要求也相對較高。

相比之下,擴增子技術憑藉測序與分析成本較低的優點目前成為了環境微生物組學研究的主要手段。

擴增子測序分析流程

環境微生物群落研究的隨機取樣導致其擴增子分析可重複性低,但通過增加生物學重複、刪除單一樣品僅出現一次的序列等手段可以較好地加以彌補。

研究者定義了多項指數對生物多樣性進行量化,同時也為不同生物多樣性的比較提供了方法。

在微生物生態學興起後,不少宏觀生態學的研究方法和手段也被逐漸應用於微生物生態學的研究中,為其提供新的研究思路。

微生物擴增子測序的分析方法多樣,分析流程也不盡相同。

以16S rDNA測序為例,擴增子測序分析的主要方法和流程

隨著測序技術的更迭,Illumina測序平臺逐漸佔據著微生物擴增子測序的大部分市場,目前以雙端250 bp測序策略居多。

通過該方案拼接完成的序列可以作為挑選代表序列的起始文件。

目前OTU(可操作分類單元)ASV(擴增子序列變異)是2種主要的代表序列形式。

宏基因組測序分析流程

近年來,隨著測序技術在通量和讀長方面的持續提高,其成本也不斷降低,針對微生物群落的全部基因組DNA的鳥槍測序也在不斷增加。

宏基因組測序數據的數據量大,需要更加專門的算法與軟體來處理與分析。宏基因組學的分析常有一套通用的流程。

宏基因組測序分析的常用分析流程

雖然宏基因組測序分析的流程類似,但由於其測序數據量大,目前缺乏標準的分析工具進行統一化處理,不同的分析工具和方法在性能和速度方面差異較大,尤其是不同類型的微生物組數據往往還需要個性化的調整

隨著三代測序技術的普及,國內外現有針對宏基因組數據分析各個步驟設計的軟體正處於飛速發展中。

微生物群落多樣性分析方法

國際生物多樣性公約對生物多樣性的定義為「來源於包含陸地、海洋與其他水生生態系統以及它們組成的複合生態系統中的生物的可變性,其中包括物種內、物種間以及生態系統的多樣性」。

微生物生態學中的微生物多樣性按照描述物種的尺度進行層級劃分,通常主要有分類多樣性、譜系多樣性、遺傳多樣性和功能多樣性。

其中分類多樣性功能多樣性常通過分析分類單元、功能基因或通路在不同環境下的分布情況進行衡量,譜系多樣性通過計算不同分類單元在系統發育水平上的接近程度衡量,而遺傳多樣性需要通過更精細水平的組學研究技術進行相應的描述。

微生物多樣性的數量描述

按宏觀生態學描述習慣,多樣性常根據空間尺度分為3個種類:α-多樣性主要描述局部群落或斑塊中的多樣性,β-多樣性主要描述不同群落間(或整個景觀的)物種差異,γ-多樣性則關注更大區域性尺度的多樣性。

對於微生物生態學的研究,多樣性分析常常聚焦於α-多樣性與β-多樣性。

由於取樣和測序的隨機性,分析結果並不能完全反應群落的真實狀態。對於這類數據的物種累積曲線,隨著樣本大小的增加,序列數量以恆定速度線性增加,同時觀測到的物種數目以遞減的對數速率累積。

稀釋化方法使得不同樣本大小的物種累積曲線可以進行比較。使用該方法繪製的累積曲線稱為稀釋曲線,其繪製方式為保持樣本中OTU百分比組成不變,構建具有相同OTU組成但具不同樣本大小的樣本物種累積曲線

一般認為,當某一樣本的稀釋曲線末端趨於平緩時,即認為該樣本的採樣和測序已經近似完全

稀釋化方法的缺點在於對稀有種等信息會造成失真,故一般認為樣本內物種符合隨機分布均勻分布時,稀釋曲線才能有效工作。

在獲得擴增子數據並根據這些數據計算α-多樣性後,一般需要構建稀釋曲線,並對OTU表進行重新抽取,以降低樣本大小對於多樣性指標間比較的影響。

1-α-多樣性的數量描述

α-多樣性的數量描述對象主要是物種豐富度物種數量分布。以下以OTU為例進行說明,OTU表中OTU觀察值(Sobs)可作為物種豐富度的觀測指標。

除上表外,希爾數也是用於描述群落α-多樣性的重要指數,是一類多樣性指數組成的指數家族,整合了相對豐度、物種豐富度並消除了一些缺陷。

希爾數符合複製原則,即兩完全相異群落的希爾數之和等於兩群落混合後的希爾數。

2-β-多樣性的數量描述

β-多樣性所關注的是多個微生物群落或樣本間的相似性或不相似性。

在對β-多樣性的數量描述中,互補性是一個重要的描述角度,指2個樣本之間包含對方所不包含物種的數量。2個樣本的互補性越強,可以認為它們的β-多樣性越高。

對於互補性的計算、描述以及延伸,多仿用了集合中的相應規則,互補性也可以用維恩圖進行可視化表示,同時通過樣本間的共享物種與特有物種計算樣本間的相似性或不相似性。

樣本間不相似性可以用距離指數來衡量,對於OTU表來說,全體樣本的成對距離形成的矩陣稱為距離矩陣不相似性矩陣

常見的OTU表中的數據代表了各樣本中各OTU下的序列數,即每個樣本不僅有OTU種類信息,同時還含有每個OTU的豐度信息,這類數據常被稱為定量數據。應用中的另外一類數據,不包含每個OTU的豐度信息,常稱為存在-缺失數據,也被稱為1-0數據。

常用的相似性-不相似性指數有很多,每種形式的指數對於定量數據與存在-缺失數據的計算方法也不同。

其中,Jaccard距離是典型的存在-缺失數據距離指數,是以相似係數形式提出的。相比於Jaccard指數,Sørensen指數加大了2個樣本共有OTU的權重。

針對生態數據分析中的「雙零問題」(某些OTU同時在2個樣本中均表現為缺失),Jaccard指數與Sørensen指數計算中,雙零數據並不參與到數據計算中,因此稱為非對稱指數

Bray-Curtis不相似度則為定量數據距離指數,在計算中考慮了豐度信息。由於考慮了雙零數據的指數,Bray-Curtis不相似度也屬於非對稱指數

針對類別多樣性,Faith提出了譜系多樣性(PD)的概念,並定義其為待觀察物種在分支樹上的最短進化分支長度之和。PD考慮了物種之間在進化水平上的差異,包含了物種表型性狀與生態位等信息。

譜系α-多樣性的計算方式基於Faith對於PD的基本定義。計算譜系β-多樣性時,UniFrac指數是常用的計算指標,該指數根據不同群落包含的共有與特有譜繫結構計算群落間的不相似性。

群落結構的解析方法

多數微生物生態學研究主要關注於不同生境不同環境梯度下微生物群落的變化,一組高通量擴增子數據是對於微生物在多組時空樣本下的觀測。

這類研究所產生的數據集,現多用多元統計方法進行分析。

1-探索性方法

探索性方法提供了樣本變化的主要梯度以及樣本的相似程度,但即使樣本經過分析後體現出了某些規律,仍然需要驗證

主成分分析(PCA)是最常見、應用最廣泛的多元統計方法之一。在數學上,PCA實際是降維的過程。PCA採用歐幾裡得距離來度量樣本之間的差異性,但樣本覆蓋梯度太長時(即多樣本中有很多相同OTU)會出現馬蹄效應等問題。

對應分析(CA)通常用于衡量由樣本OTU數據反映的樣本群落間的差異。CA規避了馬蹄效應,然而CA排序常會伴有弓形效應,去趨勢對應分析(DCA)可用於儘量減小弓形效應。

主坐標分析(PCoA)在概念上由PCA衍生而來,同樣遵循了降維的基本思路,將樣本空間壓縮並投射到低維空間。由於使用樣本間兩兩成對不相似性矩陣,PCoA的排序軸與原始變量間並不存在直接關係,但其方差解釋度還是能夠通過校正後的不相似性矩陣特徵值給出。

非度量多維尺度分析(NMDS)是一種特殊的排序方法,進行分析時往往會進行多次迭代排序,以求取得儘量小的脅迫值(原的樣品間不相似性被改的程度的量化指標),一般認為脅迫值小於0.15是可以接受的。NMDS分析中排序距離和樣本之間的原始不相似性無關,排序軸不具有解釋樣本不相似性方差的作用,故NMDS排序圖的排序軸上無法給出合理的解釋度。

2-解釋性方法

在分析不同樣本組間的微生物群落差異時,往往還關注造成這種差異的環境因子,即將微生物群落差異看作響應變量(因變量),而將環境因子看作解釋變量(自變量)。

由此,在探索性方法的基礎上,解釋性方法增加了一組解釋變量。解釋變量在每個排序軸上的分量表示該變量對於樣品沿該軸分布的貢獻。

冗餘分析(RDA)典範對應分析(CCA)是2種典型的解釋性排序方法。

RDA可看作是PCA排序的一種拓展,加入解釋變量後使得排序軸(主成分)被約束為解釋變量的線性組合。同PCA類似,RDA也不適合於處理樣本覆蓋梯度長的數據集。

CCA是RDA不適用的情況下更好的選擇,利用解釋變量約束響應變量後進行對應分析的典範形式

RDA與CCA的可視化展示則是在PCA排序圖的基礎上,增加了代表解釋變量的向量(數量變量)或點(類別變量)。

3-統計檢驗方法

常見的對樣本間差異進行統計檢驗的方法有:ANOSIM(分組相似性分析)、PERMANOVA(置換方差分析)與MRPP(多響應置換過程)等。

但在進行環境因子與樣本群落間差異的相關性統計性檢驗時,傳統的相關係數檢驗往往不能很好地實施。

Mantel檢驗方法可以對兩個矩陣之間的相關性顯著性進行檢驗。對多變量矩陣或控制變量矩陣進行相關性統計檢驗時,還可以使用偏Mantel檢驗,即選取一個解釋變量,其餘解釋變量作為協變量。

變量分解分析(VPA)利用了偏分析的思想,將響應變量數據集中的總方差劃分為單個解釋變量的獨立解釋貢獻以及聯合解釋貢獻,常用於在確定了對微生物群落間差異有顯著影響的環境因子之後,進一步說明不同環境因子對於不同群落的差異的貢獻度

結論

多組學技術的聯合應用已經逐漸成為認識環境微生物群落及其功能的重要手段,而通過組學技術的應用,研究者逐漸意識到生活在土壤、淡水、海水、空氣,甚至人體等環境中的微生物,其系統發育的多樣性功能的複雜度遠遠超過以往的認識。

目前,如何利用正處於蓬勃發展時期的大數據分析技術與手段來克服宏基因組學數據解析這一難關,並將分析結果用更易理解與操作的形式展現出來,這是從事環境微生物學、生物信息和統計學研究人員共同的挑戰。

本文作者:彭璽,馮凱,厲舒禎,鄧曄

作者簡介:彭璽,中國科學院生態環境研究中心、中國科學院環境生物技術重點實驗室、中國科學院大學資源與環境學院,博士研究生,研究方向為生物信息學、微生物生態學;鄧曄(通信作者),中國科學院生態環境研究中心、中國科學院環境生物技術重點實驗室、中國科學院大學資源與環境學院,研究員,研究方向為環境微生物生態。

論文全文發表於《科技導報》2022年第3期

本文有刪減,歡迎訂閱查看

,
同类文章
葬禮的夢想

葬禮的夢想

夢見葬禮,我得到了這個夢想,五個要素的五個要素,水火只好,主要名字在外面,職業生涯良好,一切都應該對待他人治療誠意,由於小,吉利的冬天夢想,秋天的夢是不吉利的
找到手機是什麼意思?

找到手機是什麼意思?

找到手機是什麼意思?五次選舉的五個要素是兩名士兵的跡象。與他溝通很好。這是非常財富,它擅長運作,職業是仙人的標誌。單身男人有這個夢想,主要生活可以有人幫忙
我不怎麼想?

我不怎麼想?

我做了什麼意味著看到米飯烹飪?我得到了這個夢想,五線的主要土壤,但是Tu Ke水是錢的跡象,職業生涯更加真誠。他真誠地誠實。這是豐富的,這是夏瑞的巨星
夢想你的意思是什麼?

夢想你的意思是什麼?

你是什​​麼意思夢想的夢想?夢想,主要木材的五個要素,水的跡象,主營業務,主營業務,案子應該抓住魅力,不能疏忽,春天夢想的吉利夢想夏天的夢想不幸。詢問學者夢想
拯救夢想

拯救夢想

拯救夢想什麼意思?你夢想著拯救人嗎?拯救人們的夢想有一個現實,也有夢想的主觀想像力,請參閱週宮官方網站拯救人民夢想的詳細解釋。夢想著敵人被拯救出來
2022愛方向和生日是在[質量個性]中

2022愛方向和生日是在[質量個性]中

[救生員]有人說,在出生88天之前,胎兒已經知道哪天的出生,如何有優質的個性,將走在什麼樣的愛情之旅,將與生活生活有什么生活。今天
夢想切割剪裁

夢想切割剪裁

夢想切割剪裁什麼意思?你夢想切你的手是好的嗎?夢想切割手工切割手有一個真正的影響和反應,也有夢想的主觀想像力。請參閱官方網站夢想的細節,以削減手
夢想著親人死了

夢想著親人死了

夢想著親人死了什麼意思?你夢想夢想你的親人死嗎?夢想有一個現實的影響和反應,還有夢想的主觀想像力,請參閱夢想世界夢想死亡的親屬的詳細解釋
夢想搶劫

夢想搶劫

夢想搶劫什麼意思?你夢想搶劫嗎?夢想著搶劫有一個現實的影響和反應,也有夢想的主觀想像力,請參閱週恭吉夢官方網站的詳細解釋。夢想搶劫
夢想缺乏缺乏紊亂

夢想缺乏缺乏紊亂

夢想缺乏缺乏紊亂什麼意思?你夢想缺乏異常藥物嗎?夢想缺乏現實世界的影響和現實,還有夢想的主觀想像,請看官方網站的夢想組織缺乏異常藥物。我覺得有些東西缺失了