天天观热点:人工智能如何改变基因组学 - IT思维

时间:2023-02-28 15:04:35       来源:IT思维

公众号/ ScienceAI(ID:Philosophyai)

编辑 | 绿萝


(资料图)

全基因组测序的进步引发了数字生物学的革命。

随着下一代测序(NGS)技术成本的下降,世界各地的基因组学项目势头正劲。

无论是用于对患有罕见疾病的重症监护患者进行测序,还是用于人群规模的遗传学研究,全基因组测序正在成为临床工作流程和药物发现中的一个基本步骤。

但基因组测序只是第一步。分析基因组测序数据需要加速计算、数据科学和人工智能来读取和理解基因组。随着摩尔定律的终结,观察到集成电路中的晶体管数量每两年翻一番,需要新的计算方法来降低数据分析的成本,提高读取的吞吐量和准确性,并最终解锁人类基因组的全部潜力。

生物信息学数据的爆炸式增长

对一个人的整个基因组进行测序会生成大约 100 GB 的原始数据。在使用深度学习和自然语言处理等复杂算法和应用程序对基因组进行测序后,这一数字翻了一番还多。

随着人类基因组测序成本的持续下降,测序数据量呈指数级增长。

到 2025 年,估计需要 40 艾字节来存储所有人类基因组数据。作为参考,这比存储历史上所说的每个单词所需的存储空间多 8 倍。

2025 年大数据的四大领域。(来源:PLoS Biol.)

许多基因组分析管道都在努力追上正在生成的大量原始数据。

加速基因组测序分析工作流程

测序分析复杂且计算量大,需要许多步骤来识别人类基因组中的遗传变异。

深度学习对于使用基于循环神经网络(RNN)和卷积神经网络(CNN)的模型在基因组仪器中进行碱基检出变得越来越重要。神经网络解释仪器生成的图像和信号数据,并推断出人类基因组的 30 亿个核苷酸对。这提高了读取的准确性,并确保碱基检出更接近实时,进一步加快了整个基因组学工作流程,从样本到变异检出格式再到最终报告。

对于二次基因组分析,比对技术使用参考基因组来帮助在 DNA 片段测序后将基因组重新拼接在一起。

BWA-MEM 是一种领先的比对算法,可帮助研究人员快速将 DNA 序列读数映射到参考基因组。STAR 是另一种用于 RNA-seq 数据的黄金标准比对算法,可提供准确、超快的比对以更好地理解基因表达。

动态编程算法 Smith-Waterman 也广泛用于对齐,这一步骤在 NVIDIA H100 Tensor Core GPU 上加速了 35 倍,其中包括一个动态编程加速器。

发现遗传变异

测序项目最关键的阶段之一是变异检出,研究人员在这个阶段识别患者样本和参考基因组之间的差异。这有助于临床医生确定危重患者可能患有哪种遗传病,或帮助研究人员观察整个人群以发现新的药物靶点。这些变体可以是单核苷酸变化、小的插入和缺失,或复杂的重排。

GPU 优化和加速的调用程序,例如 Broad Institute 的 GATK——一种用于种系变异调用的基因组分析工具包——提高了分析速度。为了帮助研究人员消除 GATK 结果中的误报,NVIDIA 与 Broad Institute 合作推出了 NVScoreVariants,这是一种使用 CNN 过滤变体的深度学习工具。

基于深度学习的变体调用程序(例如 Google 的 DeepVariant)可提高调用的准确性,而无需单独的过滤步骤。DeepVariant 使用 CNN 架构来调用变体。它可以重新训练以微调以提高每个基因组平台输出的准确性。

NVIDIA Clara Parabricks 工具套件中的二级分析软件已将这些变体识别器的速度提高了 80 倍。例如,胚系 HaplotypeCaller 的运行时间从基于 CPU 的环境中的 16 小时减少到使用 GPU 加速的 Clara Parabricks 的不到五分钟。

加速下一波基因组学浪潮

NVIDIA 通过加速 AI 碱基检出和变异检出为短读长和长读长测序平台提供支持,从而帮助推动下一波基因组学浪潮。行业领导者和初创公司正在与 NVIDIA 合作,以突破全基因组测序的界限。

例如,生物技术公司 PacBio 最近发布了 Revio 系统,这是一种采用 NVIDIA Tensor Core GPU 的新型长读长测序系统。Revio 的计算能力比之前的系统提高了 20 倍,旨在以低于 1,000 美元的价格大规模地对人类基因组进行高精度长读长测序。

Oxford Nanopore Technologies 提供了唯一可以对任意长度的 DNA 或 RNA 片段进行实时测序的单一技术。这些特征允许快速发现更多的遗传变异。西雅图儿童医院最近使用高通量纳米孔测序仪 PromethION 了解新生儿生命最初几个小时内的一种遗传疾病。

Ultima Genomics 提供高通量全基因组测序,每个样本仅需 100 美元,而 Singular Genomics 的 G4 是最强大的台式系统。

在 3 月 20 日至 23 日在线举行的免费人工智能会议 NVIDIA GTC 上,来自 PacBio、Oxford Nanopore、Genomic England、KAUST、Stanford、阿贡国家实验室和其他领先机构的演讲者将分享基因组测序、分析和基因组学大型语言模型方面的最新人工智能进展。

NVIDIA 创始人兼首席执行官黄仁勋将于太平洋时间 3 月 21 日上午8点在大会上发表主题演讲。

参考内容:https://blogs.nvidia.com/blog/2023/02/24/how-ai-is-transforming-genomics/

关键词: it思维 如何改变 最新消息 科技资讯挖掘 高效读科技