高解析度系統發育微生物群落剖析

摘要:在過去十年中,在微生物群落分析方面,短讀長高通量16S rRNA基因擴增子測序,已經使克隆依賴性長讀長Sanger測序黯然失色。過渡到新技術提供了更多的定量資訊,犧牲了分類解析度,其具有推測各種生態系統中的代謝特徵的意義。我們應用單分子實時測序進行微生物群落分析,獲得全長16S rRNA基因序列的高通量,我們建議命名為PhyloTags。我們進行了基準測試,並通過應用到特定的微生物群落驗證了這種方法。當進一步應用於來自Sakinaw湖的水柱樣本時,我們發現,儘管門水平上,PhyloTag和Illumina V4 16S rRNA基因序列(iTags)群落結構的分析結果之間是可比較的,方差隨著種群複雜性和水深的變化而增加。但是PhyloTag還允許較少的模糊分類。最後,關於平台的比較,PhyloTags和silicon產生的部分16S rRNA基因序列顯示出群落的結構和系統發育解析度跨多個分類級別的顯著差異,包括嚴重的低估涉及氮和甲烷的特定微生物屬的丰度,在湖泊的水柱。因此,PhyloTag提供了可靠的具有成本效益iTags的補充(adjuction)或替代方案,可實現更準確地對系統發育微生物群落的分解代謝潛力進行預測。

通過1983年聚合酶鏈反應(PCR)的出現,小亞基(SSU或16S)核糖體RNA基因已成為最廣泛使用的進行系統發育分析的標記物,它可以對新型細菌和古細菌分類群進行分類。除了提供分類資訊,純培養的16S rRNA基因分析已經改變了微生物的生態研究和人類健康,實現了量化了解微生物群落多樣性自然和工程生態系統,包括我們的自己的身體。

然而,在過去三十年間,隨著公共16S rRNA基因資料庫的擴展,這些資料庫面臨著將序列準確放入給定參考樹中的挑戰。這個挑戰對於環境16S rRNA基因序列特別突出,這些序列以未培養微生物代表,有大量新型分類標記。通過專門的資料庫開發和訂製分析工具,大量的個人和機構努力使環境16S rRNA序列的分類標準化。儘管有這些改進,低精度的參考序列,嵌合序列和部分rRNA基因序列,短讀長測序平台如454和Illumina公司仍然存在以上問題,降低了系統發育分析的解析度,導致不正確的或不準確的環境序列分類。雖然這些平台上的測序讀長繼續提高,但僅全長(FL)或近全長的16S rRNA序列才被證明是精確系統發育進化樹構建所必需的。鑒於大多數當代16S rRNA序列資訊來源於短讀測序平台,這一現實帶來了嚴重的分析挑戰。

最早使用的是Sanger測序進行環境16S rRNA基因譜研究,其可以提供準確的近FL序列。 然而,該方法仍然是昂貴,並且通量較低,需要在測序之前克隆PCR產物。 因此,基於Sanger的基因譜研究通常涉及相對較少的樣品,每個樣品少於幾十到幾百個克隆的序列資訊。今天,Sanger平台上生成的微生物群落概況很少,不太可能捕獲完整的種群多樣性,所以短讀長序列數據集是主流。第一個商業化的新一代測序儀Roche/454 FLX pyrosequencer,它提供了高通量測序技術,成本大約是Sanger測序的1/10。為了採用這種技術進行微生物群落分析,Sogin等 (2006)PCR擴增細菌16S rRNA基因的V6可變區,在單次運行中產生了多達118 000條'16S pyrotags'平均100 bp讀長度,比任何先前的桑格研究獲得了更多的序列數量級。使用barcode可以在單次運行中實現不同樣本的多路復用,進一步增加了454平台的統計功能。Lazarevic et al (2009)通過V5環路區域的擴增和測序,將該測序範例移植到Illumina平台(Illumina,Inc.,San Diego,CA,USA),提供了更大的測序覆蓋深度和更低的價格。目前,微生物群落分析最常用的方法是在 Illumina平台上使用V4,V3-V4或V4-V5引物,產生平均讀取長度為250-430bp的所謂的Illumina V4 16S rRNA基因序列(iTags)。事實上,GenBank中大多數16S rRNA基因序列都是由Illumina平台生成的,因為它們的規模經濟(>4.1億次reads數/MiSeq運行)和高基數精確度。儘管短讀擴增子測序的容易度和定量能力,基於部分16S rRNA基因序列的不同分類級別的微生物群落多樣性的表示方法已被懷疑,因為在引物選擇,讀取長度,環境來源,參考資料庫和分配方法上影響生物進化樹上的分類群丰度估計和位置精度。用於短讀長序列的最佳引物選擇需要與其他數據集進行比較,並且對全長16S rRNA基因序列進行分析,以將準確的分類法分配給不完整序列。PacBio最近開發了一種長讀長測序技術,其首次在測序歷史上具有以相當高的通量,成本有效地測序全長16S rRNA基因的能力。用作「金標準」的全長序列的復興有可能再次轉變微生物群落研究,增加在生命進化樹中已知和新穎的分支,使分類學作業的準確性提高到以前無法獲得的尺度。

在這裡,我們通過應用PacBio長讀式單分子實時(SMRT)測序技術進行高解析度系統發育微生物群落分析,直接解決了與部分16S rRNA基因測序相關的當前局限性。隨著近年來PacBio測序性能的提高,其平均讀取長度現在超過8 kb,讀取精度為最高到87%。在理論上,這樣的讀長長度可以通過循環測序為1.5kb 16S rRNA基因擴增子提供高品質序列,但是這種方法僅用於了少量環境調查。為了測試和驗證這種方法,我們從23個培養的細菌菌株的定義的模擬群落中產生PacBio鳥槍法序列以及PacBio 全長(PhyloTags)和iTags。然後我們採用這種相同的方法來評估加拿大不列顛哥倫比亞省陽光海岸的Sakinaw湖的微生物多樣性,這是一個富含候選門的美麗湖泊。

材料和方法

DNA提取

模擬群落由23個細菌和3種古菌組成,如補充說明表1。

Phylum

Species

Strain

Genome size [bp]

GC []

GenBank Accession ID

# of scaffolds

Actinobacteria

Nocardiopsis dassonvillei

DSM 43111

6543312

72.7

NC_014211

2

Actinobacteria

Segniliparus rotundus

DSM 44985

3157527

66.8

NC_014168

1

Actinobacteria

Olsenella uli

DSM 7084

2051896

64.7

NC_014363

1

Proteobacteria

Frateuria aurantia

DSM 6220

3603458

63.4

NC_017033

1

Proteobacteria

Pseudomonas stutzeri

RCH2

4600489

62.5

NC_019936

4

Deinococcus-Thermus

Meiothermus silvanus

DSM 9946

3721669

62.7

NC_014212

3

Firmicutes

Thermobacillus composti

DSM 18247

4355525

60.1

NC_0198797

2

Acidobacteria

Terriglobus roseus

18391

5227858

60.3

NC_018014

1

Actinobacteria

Corynebacterium glutamicum

ATCC 13032

3309400

53.8

NC_003450

1

Verrucomicrobia

Coraliomargarita akajimensis

DSM 45221

3750771

53.6

NC_014008

1

Proteobacteria

Salmonella enterica subsp. arizonae serovar

RSK2980

4600800

51.4

NC_010067

1

Proteobacteria

Salmonella bongori

NCTC 12419

4460105

51.3

NC_015761

1

Proteobacteria

Escherichia coli

MG1655

4639675

50.8

NC_00913

1

Spirochaetes

Spirochaeta smaragdinae

DSM 11293

4653970

49.0

NC_014364

1

Firmicutes

Desulfotomaculum gibsoniae

DSM 7213

4855529

45.5

NC_021184

1

Proteobacteria

Hirschia baltica

ATCC 49814

3540114

45.2

NC_012982

2

Bacteroidetes

Echinicola vietnamensis

DSM 17526

5608040

44.8

NC_019904

1

Firmicutes

Desulfosporosinus acidiphilus

SJ4 DSM 22704

4991181

42.1

NC_018068

3

Firmicutes

Desulfosporosinus meridiei

DSM 13257

4873567

41.8

NC_018515

1

Firmicutes

Clostridium thermocellum

ATCC 27405

3843301

39.0

NC_009012

1

Thermotogae

Fervidobacterium pennivorans

DSM 9078

2166381

39.0

NC_017095

1

Firmicutes

Streptococcus pyogenes

M1 GAS SF370

1852441

38.5

NC_002737

1

Firmicutes

Clostridium perfringens

ATCC 13124

3256683

28.4

NC_008261

1

Escherichia coli, Salmonella bongori, Salmonella enterica, Clostridium perfringens, Clostridium thermocellum and Streptococcus pyogenes ( 大腸桿菌,沙門氏菌,腸炎沙門氏菌,產氣莢膜梭菌,熱纖梭菌和化膿性鏈球菌)自ATCC購買。

嗜熱玻璃芽孢桿菌(Thermobacillus composti)和谷氨酸棒桿菌(Corynebacterium glutamicum)使用苯酚 – 氯仿抽提,描述於Moore and Dennis(2002)。

Desulfosporosinus acidiphilus, Desulfosporosinus meridiei, Desulfotomaculum gibsoniae, Echinicola vietnamensis, Frateuria aurantia, Natronococcus occultus, Olsenella uli and Terriglobus roseus 使用JetFlex基因組DNA純化試劑盒(GenoMed公司,loehne,德國)

Hirschia baltica使用的血液和細胞中提取的DNA抽提試劑盒(Qiagen公司,瓦倫西亞,CA,美國)。

Meiothermus silvanus, Nocardiopsis dassonvillei and Segniliparus rotundus 使用 Qiagen Genomic 500 DNA Kit (Qiagen, Hilden, Germany)

Pseudomonas stutzeri 使用基因組DNA純化試劑盒(Promega公司,Madison, WI, USA)

Coraliomargarita akajimensis, Halovivax ruber and Spirochaeta smaragdinae 使用 Masterpure Gram Positive DNA Purification Kit(Epicentre,Madison,WI,USA)

使用PicoGreen測定和Qubit 2.0熒光計定量所有DNA提取物。

每個樣品一式四份進行定量。樣品以不同比例匯總以產生模擬群落。環境DNA從加拿大不列顛哥倫比亞省的Sakinaw湖(49°40.968'N,124°00.119'W)收集,深度間隔為30m-80m,2010年6月6日,2010年1月5日為120m。將水過濾到0.22μMSterivex過濾器(Mo Bio Laboratories Inc.,Carlsbad,CA,USA)上,如先前所述提取DNA(Wright等人,2009),並使用PicoGreen測定(Invitrogen)進行定量。

模擬群落的DNA鳥槍法測序

模擬群落的鳥槍法序列是使用PacBio RSII上的一個SMRT單元平台生成(Pacific Biosciences,Menlo Park,CA,USA)。PacBio序列的品質過濾和糾錯是通過使用hgap自我校正來對所有讀取進行映射的。獲得了23 848個品質較好的讀取,平均讀取長度為1472 bp,用於分析模擬群落。reads與使用BBMap(http://sourceforge.net/projects/bbmap/)從IMG(Markowitz,2006)下載的基因組進行了對比。 reads計數符合參考基因組的染色體大小。

引物,16S rRNA基因擴增和測序程式

16S rRNA( V4 iTags)通用引物 515 F (5′-GTGCCAGCMGCCGCGGTAA-3′) 806 R (5′-GGACTACHVGGGTTCTAAT-3′),其包含可變的12bp barcode序列。

全長16S rRNA 通用引物27 F(5′-AGRGTTYGATYMTGGCTCAG-3′) (Stackebrandt and Goodfellow, 1991) 1492 R (5′-RGYTACCTTGTTACGACTT-3′).

DNA擴增 KAPA SYBR FAST qPCR Kit (20 replication cycles) (Kapa Biosystems, Boston, MA, USA)

用Agencourt AMPure XP純化系統(Beckman Coulter,Brea,CA,USA)純化合併的擴增子,並用安捷倫生物分析儀2100(Agilent Technologies,Palo Alto,CA,USA)進行分析,以確認合適的擴增子大小。根據JGI的標準方法進行iTag和PacBio測序:將iTag擴增子稀釋至10nM,通過定量PCR定量並在Illumina MiSeq平台(試劑盒v.3; Illumina Inc.,Carlsbad,CA,USA)上測序。

模擬群落PacBio文庫使用PacBio SMRTbell模板準備工具包(Pacific Biosciences)從5個PCR技術重複產品構建,目標插入片段大小為2 kbp。PacBio的sakinaw湖深樣本庫的構建,利用PacBio文庫製備試劑盒2(太平洋生物科學;250 bp–3 KBP)。所有的PacBio文庫使用p4c2化學PacBio RS II平台進行測序,獲得的序列量列於補充表2。

Sample

Pre-filter [bp]

# of filtered reads

Mean filtered read length

PacBio

Sakinaw-30m (16S)

45,702,375

32,981

1,385

Sakinaw-33m (16S)

36,994,598

25,336

1,460

Sakinaw-36m (16S)

38,551,567

26,546

1,452

Sakinaw-40m (16S)

53,666,002

36,971

1,451

Sakinaw-50m (16S)

50,444,718

35,197

1,433

Sakinaw-60m (16S)

37,868,486

27,420

1,381

Sakinaw-80m (16S)

35,938,242

25,997

1,382

Sakinaw-120m (16S)

29,836,502

21,772

1,370

Mock1 (16S)

480,683,863

28,660

1,405

Mock2 (16S)

296,102,991

17,658

1,438

Mock3 (16S)

371,365,190

20,686

1,380

Mock4 (16S)

443,798,432

25,159

1,394

Mock5 (16S)

392,112,677

21,546

1,396

Mock (shotgun)

429,847,389

53,164

1,024

Illumina

Pre-filter reads

Sakinaw-30m (16S)

325,565

310,015

253

Sakinaw-33m (16S)

73,425

70,692

252

Sakinaw-36m (16S)

52,586

49,474

253

Sakinaw-40m (16S)

57,994

48,661

253

Sakinaw-50m (16S)

12,646

12,105

253

Sakinaw-60m (16S)

58,475

49,511

253

Sakinaw-80m (16S)

27,515

23,756

253

Sakinaw-120m (16S)

366,185

336,952

253

Mock (16S)

2,116,448

2,005,818

278

在這項研究中,我們捨棄了從古細菌DNA產生的數據,因為我們用細菌通用引物擴增16S rRNA基因序列的生成。

處理、聚類和分類的擴增子序列

使用JGI iTag分析流程(iTagger v.1.1)分析iTag序列(Tremblay et al., 2015).通過與SILVA資料庫的比對來實現集群的分類(參考文獻119,2014年12月8日)。模擬群落iTag序列分為35個操作分類單位(OTU)群集,每個群集的>=10個reads(品質篩選後為1 680 879次)。源自試劑污染物的OTU佔總群落的0.14%。Sakinaw湖樣本返回366 185個iTag序列,它們使用97%的標準值分為2230個OTU簇。

PacBio 16S rRNA基因序列使用JGI SMRT門戶的「插入」方案讀取過濾,預測精度> 99%,對應於Q20。使用一組MOTHUR工具(align.seqs,summary.seqs,screen.seqs,chimera.uchime使用SILVA Gold作為參考資料庫,remove.seqs,filter.seqs,unique.seqs,pre.cluster,dist.seqs,cluster,align.seqs,filter.seqs,dist.seqs)進行過濾,嵌合檢測和聚類 。通過使用BBMap中的reformat.sh(http://sourceforge.net/projects/bbmap/)的讀長度分析,通過過濾讀取<=1340和>=1640bp來進一步除去嵌合體。

Database match

of reads

Dehalococcoidaceae

0.001

Acinetobacter radioresistens

0.001

Stenotrophomonas maltophilia

0.001

Methylophilus methylotrophus

0.001

Uncultured Crenothrix

0.001

Uncultured Legionella

0.001

Candidate phylum MSBL2

0.002

Candidate phylum HMMVPog-54

0.002

Candidate phylum JS1

0.004

Uncultured Lysobacter

0.006

Nesiotobacter

0.03

首先使用生成的合成數據集來優化工作流程中的每個步驟

在BBMap中使用randomreads.sh(http://sourceforge.net/projects/bbmap/)。從我們選擇的可變長度(1.4-1.8kbp)的23個模擬群落基因組和可變平均品質評分(Q10-Q27)的16S rRNA基因序列的拷貝中進行合成讀取。根據閱讀的品質得分分配編輯(插入,刪除和/或替換),模擬PacBio錯誤模型。丟棄只有<3個讀取的簇。使用此工作流程(https://github.com/PacificBiosciences/rDnaTools),對來自模擬的FL 16S rRNA基因序列的所有品質過濾的讀數進行了映射並渲染了28個OTU簇。使用相同的參數來聚類所有生物來源的全長 16S rRNA基因序列 。每個樣本的序列通量和相應的OTU數字列在補充表2中。

使用來自相應參考基因組的拷貝數資訊對模擬群體16S rRNA基因丰度進行歸一化。

對於平台比較,來自Sakinaw Lake的PacBio FL和Illumina V4 16S rRNA基因序列根據最新的非冗餘小亞單位SILVA NR Ref 119資料庫進行分類,使用RDP分類器。如果置信度閾值>=0.5,報告分類學分類是明確的。

使用Spearman's sranks相關係數分析評估PacBio和Illumina測序回收的模擬群落結構的差異。用R語言對每個成對比較計算係數。比較Sakinaw湖深度樣本和模擬群落樣本(PhyloTags,PacBio鳥槍法和V4 iTags),通過在R中使用Bray-Curtis不相似性指數進行。在分析中,測序數據被分成6000reads(湖水樣本)和2000reads(模擬群落)。原始和處理的序列數據可在JGI Genome門戶頁面(http://genome.jgi.doe.gov/PhyloTag.html)上公開發布。

群落比較和系統發育樹重建

使用BBMap包中可用的各種工具對序列進行過濾和操作:

對於平台獨立的群體比較,通過將V4引物序列(515F,806R)與PhyloTag序列(msa.sh)對齊並選擇中間序列(cutprimers.sh)來檢索V416S rRNA區域。篩選V4序列長度為232±60bp(3s.e.m.V4 iTag長度) (reformat.sh),在FL和V4序列池中存在195 036個序列(filterbyname.sh)。使用bbmap.sh(參數'ambiguous = all')將V4序列映射到PhyloTag。模糊匹配由Q4的映射品質定義(指示正確分配的<50%幾率)。使用BBMap(idmatrix.sh,matrixtocolumns.sh)進行V4和FL序列的成對序列比對和隨後的數據格式化。補充圖7中的表中顯示的各種%之間的序列,對應於分別包含專門存在於FL或V4序列中的序列。

在QIIME(v.1.9.0)工作流程中,對於表2中不同分類級別的群落比較,通過使用pick_open_reference.py與非冗餘小亞基SILVA NR Ref 119資料庫進行比對,對FL和V4序列分別在可信度90%,93%,95%,97%和98%的聚類分析。在QIIME(beta_significance.py)中評估了clusters在 FL和V4序列的群落結構差異的統計學意義。

結果

微生物群落分析的不同測序技術具有各自的平台特定優點和缺點。與Sanger測序相比,下一代測序的主要優點包括高通量和無需克隆,Illumina提供最低的每鹼基成本(表1)。

Sanger和PacBio都允許(近)FL 16S rRNA基因測序,PacBio數量級更具成本效益,在群落分析中提供更高的系統發育解析度。使用模擬和湖群落,我們下面的深入分析,進一步解決群落分析中PacBio平台的優勢和潛在的弱點。

模擬群落分析

使用模擬群落的參考基因組,我們產生一個模擬的PacBio的16S rRNA基因序列數據集,所產生的PacBio的16S rRNA基因序列,用於在這項研究中所描述的序列處理流程的優化設計。

圖1顯示了PhyloTags(定義為使用SMRT技術產生的FL的16S rRNA基因序列)的工作流程。從原始連續長reads生成一致序列,以糾正大多數測序錯誤,使「插入序列」精度為99%,中位數為99%序列同一性。PhyloTag OTU是通過在預聚類步驟中與SILVA Gold資料庫進行比對來定義的。 預聚類的PhyloTags被分為一致序列為每個單獨的16S rRNA基因拷貝的OTU集群。然後將這些一致序列用於將剩餘讀數映射回同源OTU。在這裡對OTU的定義是97%的一致性。

從23個細菌的模擬群落成員得到的基因組DNA(見材料與方法部分),對FL的16S rRNA基因以及V4高變區進行PCR擴增。利用PacBio SMRT RSII系統測序產生phylotags對Illumina MiSeq平台測序生產V4的itags」。為了測試數據的可重複性,設置了五個技術phylotag複製生成(材料和方法和補充圖3)。

由於它們的偏差微乎其微,PacBio鳥槍法測序提供了每個模擬群落成員相對丰度的基準線(補充圖4)。

與DNA摩爾濃度相比,它們還提供更高的準確度和再現性(附圖1和4)。所有五個模擬群落PhyloTag數據集都產生了類似的高品質PhyloTag百分比,並且成功地分組成22個OTU簇,其標準方法是分組兩個序列共享> 97%16S rRNA基因的同一性(圖1)。兩種沙門氏菌屬在其FL 16S rRNA基因序列的基礎上為97.4%相同。通過其品質分數選擇的每個簇中單個最佳PhyloTag是與模擬基因組的參考16S rRNA基因序列平均99.5%相同,而iTag共有序列是顯示99.9%同一性。圖2a(和補充圖5)顯示了各個測序平台所揭示的門級上的相對丰度模式。

鳥槍法被認為是對群落結構最準確的評估,因為沒有擴增偏好性,因此用作擴增子數據集的參考。對模擬群落菌株的read丰度進行了斯皮爾曼Spearman級相關分析。五個模擬群落的PhyloTag技術重複顯示了基於群落組成和OTU聚類的顯著一致性(圖2b)。

所有數據集共享至少0.84的相關係數與顯著的P值,因此彼此不會怎麼偏離(圖2b)。根據%GC比較物種代表性在測序平台上沒有明顯的偏差(補充圖6)。

V4 iTags和PacBio獵槍數據之間的稍微較高的相關性表明,短標籤數據集總體上較少的PCR /引物偏好,至少對於模擬樣本,提供了更準確的群落概況。然而,V4 iTag數據集中的一些差異值得注意,例如,富含Fervidobacterium pennivorans的丰度相對較高,缺乏Nocardiopsis dassonvillei。 添加0.01%(±22.74%)摩爾濃度的N.dassonvillei的DNA,僅出現在PacBio鳥槍法數據集中,相對丰度為0.0016%。擴增子數據不存在該物種可能是由於PCR的特異性偏差。最後,V4 iTag數據集包含各種污染物序列,其包含在PhyloTag中未觀察到的所有序列的約0.05%(補充表3)。

Database match

of reads

Dehalococcoidaceae

0.001

Acinetobacter radioresistens

0.001

Stenotrophomonas maltophilia

0.001

Methylophilus methylotrophus

0.001

Uncultured Crenothrix

0.001

Uncultured Legionella

0.001

Candidate phylum MSBL2

0.002

Candidate phylum HMMVPog-54

0.002

Candidate phylum JS1

0.004

Uncultured Lysobacter

0.006

Nesiotobacter

0.03

Sakinaw Lake群落分析

為了評估PhyloTag測序法在環境調查中的性能,我們應用PhyloTag和iTag測序來捕獲Sakinaw Lake的微生物多樣性。Sakinaw湖是候選門一個在水柱沿氧化還原梯度定義分區分層中豐富的湖泊(Gies等,2014)。由於公共資料庫中缺乏系統發育樹參考,準確分類這樣的候選門是挑戰性的。一直以來,地理上孤立的美麗的湖泊一直被證明可以在氧化還原過渡區和分層湖水中擁有候選門的自然豐富。事實上,sakinaw湖已被公認為有高得出奇的細菌豐富性和多樣性,同樣有豐富的古候選門(Rinke et al.,2013;給et al.,2014)。根據定義,候選門沒有培養代表,其系統發育位置很大程度上依賴於16S rRNA基因測序數據(Hugenholtz等,1998)。因此,新型譜系在候選門內的準確放置是擴展系統發育資料庫的重要一步。我們為Sakinaw Lake群落中,從八個深度跨越水柱氧化還原梯度生成了PhyloTag和V4 iTag文庫。由於細菌通用引物用於FL 16S rRNA基因的擴增,我們將比較分析專註於通過分配給SILVA資料庫的細菌分類群的發生和丰度模式。

有趣的是,V4 iTags的0.2-4.1%在門診水平上在分類學上未得到解決,而所有PhyloTag被分類為不同的細菌門(數據未顯示)。總體而言,Sakinaw Lake各種深度的PhyloTag和V4 iTags之間的比較表明,細菌候選門較不普遍的30〜40m深度間隔的微生物群落組成概況非常一致(圖2c和補充圖7)。在這些深度,幾個門是主導微生物群落,這些樣本之間的群落組成的百分比差異大於50到120米之間的深度間隔。細菌候選門更普遍的50-120米深度間隔的principal coordinates analysis分析顯示PhyloTag和iTags之間的群落組成概況在相對高的方差上的顯著差異(圖2c,插圖7)。

系統發育分析

為了基於擴增子長度而不是測序技術和/或引物選擇來評估群落概況中的差異,我們比較了從PacBio FL序列提取的PhyloTag和電腦生成的部分V4 16S rRNA基因序列。首先,採用一個隨機抽樣的一系列1818個非群集的PhyloTag跨越Sakinaw湖水柱及其相應的提取的V4區域進行全面對照的一致性比較。在多個實例中,當比較FL和V4序列時,相同的序列對表現出不同百分比的同一性(補充圖8;實例由虛線描繪)。

在不同百分比標識閾值內的成對數量提供了這些差異的概述,這些差異是由16S rRNA基因突變的非均勻分布引起的(圖3)。這種非均勻分布在不同的系統發育群體中不同,因此導致群落多樣性的過高估計和低估。雖然這種比較不能完成聚類對實際微生物群落多樣性的影響,但是它揭示了從所考慮的基因長度直接導致群集的模式。

接下來,根據SILVA資料庫,對未聚類的PhyloTag和電腦生成的V4 16S rRNA基因序列進行分類。評估了各種分類級別的系統發育任務,約195 000個非簇狀PhyloTag(總序列的84.0%)及其相應的V4區域從所有Sakinaw湖深度樣品中合併。通常,V4 16S rRNA基因序列的分類學分類往往是不可能或不正確的,從而顯著改變所有分類水平的群落概況(表2)。

將電腦生成的V4序列映射到其原始FL序列(通過使用BBMap的序列比對),34 345(17.6%)V4序列具有與FL序列模糊匹配的序列。相比FL序列,這些不確定的匹配也與V4的更頻繁的模糊分類相關聯。%分類序列的差異範圍從門級水平的11.7%到物種水平的25.1%(表2b)。雖然序列級別的相對分類差異不直接轉化為群落表示的差異,但它們影響後續的聚類步驟(圖1和補充圖2),這可能導致群落結構差異,如圖2c所示,之前在 (Liu et al。,2007)討論過。

例如,我們根據RDP分類器比較了FL和生成的V4序列,既沒有由於低置信度值(<0.5)而丟棄,也沒有顯示門級分類差異。對V4 33283(17.1%)和10 507(5.4%)FL序列在門級水平分了類。總之,無法系統發育的V4序列中有68.4%可以根據其FL序列被歸類於門水平(佔總序列的12.0%)。有趣的是,有幾個門,部分16S rRNA基因分析導致更高比例的錯誤分類和/或模糊匹配結果。例如,五分之一候選門中有三分之一以上的所有序列中有40%以上門根據V4數據進行不明確的分類,即候選門KB1不會有信心報道,而66.7%的Atribacteria細菌(OP9)和42.4%的Parcubacteria 細菌將被遺漏(圖4a)。

FL和V4 16S rRNA基因序列之間的分類結果差異較大的其他門包括硝基菌(96.7%低置信度值; 0.02%錯誤分類),Firmicutes(79.7%低置信度值; 0.04%錯誤分類),Armatimonadetes(52.8%低置信度值 (低信心值為2.8%),酸桿菌(41.0%低信心值,0.5%錯誤分類),Deferribacteres(39.6%低置信度值),Verrucomicrobia(32.6%低置信度值; 1.9%錯誤分類)和Fibrobacteres(24.6%低置信度值) 圖4a,補充圖9和補充表5)。

Phylum

ambiguously classified in V4, classified according to FL

ambiguously classified in FL, classified according to V4

Fusobacteria

4.55

0

Caldiserica

4.13

0

Chlorobi

3.51

0.10

Deinococcus-Thermus

2.62

0

Chloroflexi

2.33

0.02

Proteobacteria

2.20

0.27

Actinobacteria

2.09

0.02

Thermotogae

1.37

0

Planctomycetes

1.28

0.06

Spirochaetae

0.41

0.01

Bacteroidetes

0.39

0.03

相比之下,補充表4a顯示,52.7%的模糊分類的FL序列形成具有一到兩個序列的簇,因此可能是測序錯誤的結果。其餘47.3%分為213個序列簇,並返回具有最接近各門的RDP分類,包括Proteobacteria(17.4%),Verrucomicrobia(7.5%),Chloroflexi(7.0%),Acidobacteria(5.6%)和三個候選門 :細菌(9.9%),候選分區KB1(2.8%)和糖細菌(1.4%)(包括置信度值0.5)(補充表4b)。與我們的序列具有高序列相似性的成員目前從SILVA資料庫中缺失,或者實際上可能構成新的候選門。

Phylum

Count [% of total clusters]

Proteobacteria

17.4

Parcubacteria

9.9

Verrucomicrobia

7.5

Chloroflexi

7.0

Acidobacteria

5.6

Deferribacteres

5.2

Actinobacteria

4.7

Bacteroidetes

4.2

Firmicutes

4.2

Planctomycetes

4.2

Nitrospirae

3.3

Tenericutes

3.3

Candidate division KB1

2.8

Chlorobi

2.8

Spirochaetae

2.8

Cyanobacteria

2.3

Lentisphaerae

2.3

Gemmatimonadetes

1.9

Synergistetes

1.9

Thermotogae

1.9

Armatimonadetes

1.4

Saccharibacteria

1.4

Elusimicrobia

1.4

Fusobacteria

0.5

根據它們相應的V4序列,608個未分類或錯誤分類的FL序列(5.8%的模糊分類FL序列)主要分為Dictyoglomi(8.3%低置信度值),Tenericutes(4.4%低置信度值; 0.6%錯誤分類) ,Firmicutes(3.7%低置信度值,1.0%錯誤分類)和藍細菌(1.4%低置信度值; 2.0%錯誤分類)(圖4a)。

分別由FL和V4序列表示的群落概況之間的差異在屬級別也是顯而易見的(圖4b)。

在V4序列數據中,被低估的,包括在33和45m深度間隔之間的甲烷生物地球化學循環中的重要參與者(Gies等,2014)。這些屬包括Methylocaldum(4510 FL和27 V4序列 33米; 1745 FL和35 V4序列在36m; 7314 FL和274 V4序列總數)和Methylotenera(2021 FL和1409 V4序列在33m深度; 1150 FL和803 V4序列在36m深度; 4331 FL和3099 V4序列總計)。Methylotenera是一組甲基營養型菌,根據其相對序列丰度,似乎是維持Sakinaw湖中C1化合物平衡的主要參與者之一(Kalyuzhnaya等,2012)。此外,序列丰度比較表明,Methylocaldum與Methylobacter一起可能是硫酸鹽甲烷過渡帶中的兩個主要的專性甲烷營養屬,在33和45m之間(Gies等,2014)。甲狀腺桿菌是代表使用甲烷作為其主要碳源和能量來源的獨特的嚴格性地甲基營養細菌的子集的甲烷營養屬(Bowman et al。,1993)。Methylocaldum屬於一組X型甲烷營養生物,成員能夠使用甲烷以及甲醇(Pimenov等,2010)。甲烷濃度在33和45m之間確定最高,而O2濃度在33m以下降低(Gies等,2014)。因此,該深度間隔代表(微)親氧甲烷氧化者的最佳棲息地(Gies等,2014)。

除甲烷循環以外,亞硝基單胞菌(149 FL序列和0 V4序列,30m深度; 173 FL和0 V4序列總數)和 Nitrospiraceae(882 FL和0 V4序列在50m深; 1634FLand0V4序列60m深度; 1737 FL和0 V4序列,在120m深度的1006 FL和0VV序列; 5260FL和1V4序列總數)提供了氮循環的潛在鏈接,但是V4數據很大程度上忽略了這些硝化物基團的鑒定。亞硝酸單胞菌成員將氨氧化成亞硝酸鹽作為能量代謝的基礎,並固定二氧化碳以獲得碳(Schmid等,2000)。其主要存在在30m可能是由於需要氧氣,但是避免光(Theodore和Wardle,2012),這是在Sakinaw湖的深度發現的原因(Gies等,2014)。硝酸桿菌和硝硝螺菌能夠進行硝化的第二步(Nogueira和Melo,2006)。在30 m深度(67 FL和67 V4序列)的FL和V4序列中都發現了itrospira,完成了硝化過程。FL和V4數據集之間具有相似或較大序列丰度差異的其他屬屬於候選門(Parcubacteria,Omnitrophica,Aminicenantes),Chloroflexi,Bacteroidetes,Planctomycetes和Tenericutes(圖4b)。目前資料庫中這些門的屬代表性是未經培養的和/或參考生物體的代謝潛力以前未與重要的生物地球化學循環相關聯。

根據V4序列在FL序列中代表不足的一般主要由資料庫中沒有基因組的生物群組或任何其他功能預測組成。具有最大序列丰度差異的實例是未培養的細菌類細菌(分別為21和718 FL序列,分別為36和40m的320和1046VV序列),未培養的萊特氏菌屬細菌(分別為27和28 FL,316和234VV序列,分別為40和50m )和Smithella(27 FL和268VV序列在50m)。雖然在PhyloTag中代表不足的屬的缺乏生態數據不允許我們對其功能特性和/或生態作用進行推論,FL和電腦生成的V4序列之間的顯著更高的序列差異表明,如果只考慮V4序列,會對群落概況的誤解。

討論

我們在這裡展示phylotags不需要技術的複製和鳥槍法宏基因組序列密切相關。相對於傳統iTag序列,phylotags總體表現出類似的結果,在相對簡單的模擬群落,群落更複雜環境樣品,PCR和/或引物的偏好可能是平台間差異的主要原因。在環境樣品FL和部分擴增數據的比較,表明多個門被ShortRead序列完全錯過了,群落結構在屬的水平明顯改變,以及一些優勢菌屬在sakinaw水體只能用phylotags解決。16S rRNA基因調查已經徹底改變了我們對微生物進化和多樣性的看法。在推斷微生物群落成員之間的親緣關係上,FL的16S rRNA基因序列被認為比部分基因序列更有效(劉et al.,2007;沃爾特斯等人,2011;Soergel et al.,2012)。因此,能產生FL序列的Sanger測序平台長期成為金標準。然而,Sanger測序的麻煩和費用高,以及通量低,還需要克隆到宿主細胞,PacBio最近已提供符合成本效益的、高通量的替代,其產生的讀長(2–15 KB),它可以被用來測序FL的16S rRNA基因。

很少16S rRNA基因序列研究使用了長讀長的PacBio平台。雖然最近Babauta等人 (2014)對微生物群落的V1-V3區域進行了測序,成功地追蹤了微電極相互作用富集過程中的群落組成變化,Mosher et al。(2014)得出結論,與454平台相比,16S rRNA基因序列>1400bp允許提高環境樣品中物種水平的系統發育和分類學解析度。我們的研究補充了這些努力,通過評估各種類型的群落分析的利弊,包括已知的簡單和未知的複雜群落,資料庫中豐富且最少的門戶。它是使用PacBio平台上產生的FL 16S rRNA基因序列的第一個基準研究,並提供了當前iTag和新興的PhyloTag 16S rRNA測序範例之間的綜合比較,突出了短期和長期測序平台對微生物群落特徵的影響解釋。我們用於SMRT測序技術的基準的16S rRNA基因序列分析流程始終是可重現的。雖然模擬群落的組成分析顯示霰彈槍數據和iTags之間的相關性稍高,但環境樣品的分析表明PhyloTag的系統發育解析度更高。與FL擴增產物相比,我們認為iTags和霰彈槍序列數據之間的相關性略高,是由於V4引物中較低的引物/ PCR偏差和所得的較短的擴增子。而且,這個模擬群落是由不多的16S rRNA基因,幾乎是遠相關的生物構成的,這些生物在資料庫中很好地被代表。因此,對於FL或部分16S rRNA基因序列,準確的分類放置並不成問題。PhyloTag的分辨力在具有複雜微生物群落的樣本中更顯著,而資料庫中的參考序列很少。錯誤分類,或由於讀取長度而無法對序列進行分類,以及群落功能的解釋是根據不同分類級別的群落多樣性資訊推斷的。從物種到門,FL比V4序列多出12-25%明確分類的。因此,FL序列提供了一個更完整的群落組成圖,以便將微生物參與者與給定生態系統內重要的生物地球化學循環進行準確的聯繫。事實上,FL序列使得能夠識別已知參與Sakinaw湖中的甲烷和氮循環的豐富屬,其在V4序列中表示不足。

由於PhyloTag在測序步驟期間不需要擴增,因此與其他平台相比,預測平台的測序特異性偏差通常會降低。PhyloTag測序還提供了最高的Contig精度,並且不區分GC豐富或不飽和區域,這進一步降低了基於擴增子的分析中的偏差(Quail等,2012)。PacBio序列中的原始錯誤率為15%,由indel主導,比替代更難糾正(B Bushnell,個人通訊)。對於這項研究,使用較短的讀數表示在同一分子上的許多共有序列。這些共有讀數相對於原始基因組序列具有約0.5%的誤差率。這足以使用97%的一致性閾值在物種水平上自信地分配OTU,因為來自相同序列的0.5%誤差的兩個reads將保留99%的同一性。然而,在這一點上,菌株之間的分化或生物體的16S rRNA拷貝數的定量仍然很困難。PhyloTag錯誤率可以通過多種方式進一步降低:首先,通過在聚類生成後選擇一個共識序列。這需要新的演算法開發,因為我們測試的共識程式沒有產生足夠的結果(通常在不同的16S rRNA拷貝之間產生嵌合體)。第二,更長的時間(捕獲SMRT細胞的影像資訊)將允許更多的分子通過,增加閱讀內共識品質。第三,PacBio化學,軟體和校準改進將直接導致更準確的序列。最後,摺疊RNA的結構建模有助於區分遺傳變異和測序誤差,從而更好地糾錯或過濾高錯誤率讀數。PacBio一直在努力改進技術,正是考慮到這些參數(補充圖10),所以接近桑格擴增子測序的品質隨著時間的推移似乎是現實的。

雖然使用V4 iTags進行微生物群落分析具有成本效益(最低成本為0.11 $ / Mb),高通量復用,同時使用目標古細菌和細菌分類群的通用引物的可能性,以及深入了解稀有生物圈的機會的多重優勢,這些都是犧牲解析度為代價的。如果使用僅考慮部分16S rRNA基因的短讀長序列進行評估,則準確擴展微生物16S rRNA基因目錄將是具有挑戰性的,可能導致多樣性偏高或缺失,例如,在各種分類級別的新種屬的分類。此外,用不同引物產生的數據集之間的比較可能導致分類差異,這限制了微生物群落分析的準確性。如果高通量的FL 16S rRNA基因測序作為Sanger測序的替代方法成為新標準,或者至少與Illumina 16S rRNA基因調查的互補,可以減輕這一限制。使用PhyloTag來評估環境樣品中的微生物群落多樣性使我們能夠填補生命之樹中的重要gap(空白),同時改善分類和微生物群落分布準確性,並對推斷未經培養的微生物在自然和人類工程生態系統中的代謝潛力和生物地球化學作用具有重要意義。