透過 NVIDIA Parabricks 中加速的泛基因組比對發現新的生物學見解

NVIDIA Parabricks是一款可擴展的基因組學分析軟體套件,可透過加速運算和深度學習解決組學挑戰,從而實現新的科學突破。正如美國人類遺傳學學會 (ASHG) 全國會議上所宣布的那樣,  NVIDIA Parabricks v4.4引入了新的特性和功能,包括加速泛基因組圖比對。

Parabricks v4.4 版本的核心新功能是對Giraffe的單端和雙端支持,以加速泛基因組圖比對。此版本還包括 Minimap2 和 GATK HaplotypeCaller 的附加功能以及工具效能改進。它還擴大了合作以支持基因組測序和軟體平台。

發布亮點包括以下內容:

新功能

  • GPU 加速的 Giraffe,具有單 丹麥電話號碼數據  端和雙端支持
  • 用於 Minimap2 的本 機 PacBio 輸入和輸出的 Pbmm2 包裝器
  • GATK HaplotypeCaller 中的等位基因選項支持
  • 支援未對齊的 BAM:FQ2BAM (BWA-MEM) 和 Minimap2

改進的功能

  • 適用於 PacBio 和 Oxford Nanopore (ONT) 數據的更快 Minimap2
  • ONT 數據的 DeepVariant 加速
  • 更快的 CRAM 檔案寫入器(比僅 CPU 加速 2 倍)
  • 在單 GPU 系統上進行 <30 分鐘的端對端 30 倍全基因組定序 (WGS) 種系 (NVIDIA Grace Hopper)

电话号码数据

 

新的合作和基準

  • Parabricks 支援完整的基因組數據
  • Parabricks 現已在 Basepair 平台上可用
  • 更新了基準測試,包括 DeepSomatic 和 Giraffe

最新版本的 Parabricks 使科學家和研究  確保滿意度:本地企業如何防止買家後悔 人員能夠使用 Giraffe 進行泛基因組比對。透過了解全基因組的遺傳多樣性並使用 Parabricks v4.4 中提供的 Giraffe 加速版本,科學家可以更快地發現新的生物學見解。

從泛基因組了解遺傳多樣性

為了了解疾病的根本原因,歷史上一直將個體基因組與線性參考基因組進行比較。雖然線性參考基因組不是個體的 DNA 序列,而是由幾個個體的 DNA 建構的平均基因組,但它是單一共有單倍型的公認代表。

Genome Reference Consortium Human Build 38 (GRCh38) 是目前人類參考基因組,在遺傳研究中最廣泛使用,用於不同遺傳研究的比較。它本質上會在變 廣告數據  體調用中引入偏差和錯誤,特別是在重複或多態性區域。此外,它可能不足以代表少數群體的遺傳變異,從而限制了對完整遺傳多樣性譜的理解。

相較之下,基於圖的泛基因組透過將多個參考基因組整合到統一的結構中,為這個問題提供了強大的解決方案。這種方法有效地捕捉了物種內的遺傳多樣性,從而能夠更準確地檢測和分析不同基因組之間的變異。透過將基因組數據表示為圖表,泛基因組圖可以實現全面且公正的遺傳變異分析,克服了依賴單一參考基因組所帶來的限制。

圖 1. 線性參考基因組與泛基因組圖的比較

圖基因組

為了表示全基因組數據,圖基因組提供了一個統一的框架來表示多個基因組的遺傳變異。資料的圖形結構可以更輕鬆地理解結構變化,包括插入、刪除和重新排列。

圖基因組特別有利於提高變異調用的準確性,因為它們可以幫助增加遺傳變異的檢測。然而,分析變得更具挑戰性,特別是在對齊方面,因為基於圖的表示比單一引用的線性序列引入了更多的複雜性。此外,隨著圖基因組的大小和複雜性的增長,計算要求和處理可能變得令人望而卻步。

加速與長頸鹿的泛基因組比對

Giraffe 是一個支援泛基因組圖對齊的軟體工具。它由加州大學聖克魯斯分校 (UCSC) 構建,特別用於大規模基因組測序項目,有助於比對、組裝和變體調用。長頸鹿能夠將新的基因組序列與泛基因組進行比較,而不僅僅是單一參考基因組。

在最新的 v4.4 版本中,Parabricks 現在支援 Giraffe 的單端和配對端數據,為泛基因組比對提供 GPU 加速。此外,結果與Giraffe 的開源版本完全等效,因此研究人員可以使用 Parabricks v4.4 來複製開源工具。因此,科學家和研究人員可以提高準確性並改進變異識別,特別是在遺傳變異和不同人群中。

「二十多年來,目前的人類參考基因組一直是人類遺傳學研究的基石,」加州大學聖克魯斯基因組研究所教授兼副主任 Benedict Paten 博士解釋道。 「然而,它只包含每條染色體的一個代表性序列,因此根據定義無法捕捉我們群體中存在的豐富變異。為了了解我們人口的共同遺傳多樣性,人類全基因組是必要的。

「泛基因組在參考結構中編碼數百個,將來甚至數千個個體基因組,」帕滕博士補充道。 「他們更好地代表我們,確保研究和未來的精準治療能夠體現我們的個體多樣性。在 UCSC,我們有一個研究團隊致力於建立使用泛基因組的工具。其中包括 Giraffe,一種將新樣本映射到泛基因組的工具。我們很高興能與 NVIDIA 團隊合作加速 Giraffe 並使其成為未來專案的主要工具。這有可能對下游產生巨大影響。

新合作

除了 Parabricks v4.4 的最新功能外,NVIDIA 還擴大了與基因組定序和軟體平台的合作,包括 Complete Genomics 和 Basepair。

完整基因組學

Complete Genomics致力於透過改善生活的完整定序解決方案來推動基因組學向前發展。 Complete Genomics 利用其專有的 DNBSEQ(DNA 奈米球定序)技術提供廣泛的應用,包括全基因組定序、單細胞分析、空間轉錄組學和微生物學。此技術可產生深度定序覆蓋率,同時確保高精度和低錯誤率。 Parabricks 種系工作流程現在可以使用 Complete Genomics 定序儀的數據,包括 DNBSEQ-T7 和 DNBSEQ-G400。

DNBSEQ 與 Parabricks 技術的集成為二級基因組分析提供了一個加速且經濟高效的解決方案。例如,在 DNBSEQ-T7 定序儀上使用 fq2bam 和 haplotypecaller 工作流程處理 30x WGS 樣本,可以根據 GPU 執行個體最佳化速度或成本。

  • 速度:在四個 NVIDIA L40 GPU 上運行 16 分鐘
  • 成本:四個 NVIDIA L4 GPU 的成本為 2.67 美元

Complete Genomics 產品和行銷副總裁 Rob Tarbox 表示:“NVIDIA Parabricks 的整合使我們能夠充分發揮 DNBSEQ-T7 定序平台的潛力。” 「透過將我們的高品質定序數據與 Parabricks 的速度和準確性相結合,我們使研究人員能夠更有效、更經濟地發現變異,最終推進精準醫療並改善患者治療結果。

瀏覽快速入門指南,以了解有關使用完整基因組數據對 Parabricks 種系工作流程進行基準測試的更多資訊。

 

 

返回頂端