智东西
作家 | 李水青
剪辑 | 心缘
智东西 6 月 25 日报说念,今天,谷歌 DeepMind 推出 AlphaGenome,一款能匡助东说念主们快速瞻望基因变化影响的 AI 模子。
AlphaGenome 就像一台"不雅察东说念主类 DNA 的 AI 显微镜",以长达 100 万个碱基对的长 DNA 序列看成输入,瞻望数千种表征其调控活性的分子性情,在超 20 项庸俗的基因组瞻望基准中结束了起首进的性能。
与已有的 DNA 序列模子比较,AlphaGenome 具有几个私有的特质:扶直高分辨率的长序列高下文、概述多模态瞻望、高效变异评分和新颖的剪接连气儿模子。
当下,谷歌通过 AlphaGenome API 提供 AlphaGenome 预览版,供非生意研讨使用,并规划在将来发布该模子。
挂牵斯隆 · 凯特琳癌症中心的博士 Caleb Lareau 说:"这是该领域的一个里程碑。咱们初次领有一个大要斡旋良友高下文、基础精度和各式基因组任务的顶端性能的单一模子。"
论文地址:
https://storage.googleapis.com/deepmind-media/papers/alphagenome.pdf
一、百万 DNA 序列输入,瞻望数千种分子性情
AlphaGenome 模子以长达 100 万个碱基对的长 DNA 序列看成输入,瞻望数千种表征其调控活性的分子性情。它还不错通过比较突变序列与未突变序列的瞻望效果来评估遗传变异或突变的影响。
瞻望的属性包括基因在不同细胞类型和组织中的肇始和停止位置、基因剪接的位置、产生的 RNA 数目,以及哪些 DNA 碱基可接近、彼此围聚或与某些卵白质联接。磨练数据来源于大型环球定约,包括 ENCODE、GTEx、4D Nucleome 和 FANTOM5,这些定约通过本质测量了这些属性,涵盖了数百种东说念主类和小鼠细胞类型和组织中基因调控的贫瘠格局。
以下动画表露 AlphaGenome 将一百万个 DNA 字母看成输入,并瞻望不同组织和细胞类型的不同分子性情。
AlphaGenome 架构使用卷积层初步检测基因组序列中的短格局,使用改变器在序列的统统位置传递信息,终末使用一系列层将检测到的格局改革为不同模态的瞻望。在磨练历程中,此谋离别散在单个序列的多个互连张量处理单位(TPU)上。
该模子以谷歌之前的基因组学模子 Enformer 为基础,并与 AlphaMissense 相得益彰,后者异常对卵白质编码区内变异的影响进行分类。这些区域隐敝了基因组的 2%。其余 98% 的区域称为非编码区,对调控基因行径至关贫瘠,并包含好多与疾病相干的变异。AlphaGenome 为解读这些庸俗的序列偏激里面的变异提供了一个新的视角。
二、高分辨率的长序列高下文,概述多模态瞻望
与已有的 DNA 序列模子比较,AlphaGenome 具有几个私有的特质:
1、高分辨率的长序列高下文
谷歌的模子分析多达一百万个 DNA 碱基,并以单个碱基的分辨率进行瞻望。长序列高下文关于隐敝迢遥调控基因的区域至关贫瘠,而碱基分辨率关于捕捉精致的生物学细节至关贫瘠。
先前的模子必须在序列长度和分辨率之间作念出量度,这扫尾了它们大要纠合建模并准确瞻望的模态范围。谷歌的技巧跳跃处罚了这一扫尾,且无需显耀增多磨练资源——磨练单个 AlphaGenome 模子(未进行数据蒸馏)耗时 4 小时,且所需的谋划预算仅为磨练原始 Enformer 模子的一半。
2、概述多模态瞻望
通过解锁长输入序列的高分辨率瞻望,AlphaGenome 大要瞻望最千般化的模态。由此,AlphaGenome 为科学家提供了计划基因调控复杂神色的更全面的信息。
3、高效变异评分
除了瞻望各式分子性情外,AlphaGenome 还能在一秒钟内高效地评估基因变异对统统这些性情的影响。它通过对比突变序列和未突变序列的瞻望,并针对不同格局使用不同的步骤高效地回来这种对比来结束这少量。
4、新颖的剪接连气儿模子
好多凄迷遗传疾病,举例脊髓性肌萎缩症和某些体式的囊性纤维化,齐可能由 RNA 剪接无理引起。RNA 剪接是指 RNA 分子的部分被移除,或"剪接掉",然后剩余的结尾再行连气儿在统共的历程。AlphaGenome 初次大要平直从序列中明确模拟这些连气儿的位置和抒发水平,从而更深刻地了解遗传变异对 RNA 剪接的影响。
三、超 20 项基准测试中进展最好
AlphaGenome 在庸俗的基因组瞻望基准中结束了起首进的性能,举例瞻望 DNA 分子的哪些部分将会围聚,遗传变异是否会增多或减少基因的抒发,或者它是否会改变基因的剪接格局。
下方条形图表露了 AlphaGenome 在罗致的 DNA 序列和变异效应任务上的相对修订,并与每个类别中刻下最好步骤的效果进行了比较。
在对单个 DNA 序列进行瞻望时,AlphaGenome 在 24 项评估中,有 22 项的进展优于市面上已有的最好模子。在瞻望变异的调控效当令,它在 26 项评估中,有 24 项的进展与最好外部模子异常以至卓著了最好外部模子。
本次比较涵盖了针对特定任务的模子。AlphaGenome 是独一大要纠合瞻望统统评估模态的模子,彰显了其通用性。
四、斡旋模子,更快地生成和测试假定
AlphaGenome 的通用性使科学家大要通过单个 API 调用同期开yun体育网探索一个变异对多种格局的影响。这意味着科学家不错更快地生成和测试假定,而无需使用多个模子来研讨不同的格局。
此外,AlphaGenome 的出色进展标明,它仍是在基因调控的配景放学习到了相对通用的 DNA 序列表征。这为更庸俗的研讨社区奠定了坚实的基础。一朝该模子全面发布,科学家们将大要在我方的数据集上对其进行调整和微调,以更好地处罚他们私有的研讨问题。
终末,这种步骤为将来提供了一个纯真且可彭胀的架构。通过彭胀磨练数据,AlphaGenome 的功能不错得到彭胀,从而赢得更好的性能,隐敝更多物种,或包含更多模态,使模子愈加全面。
五、助力疾病相识、基础研讨等
AlphaGenome 的瞻望材干不错匡助多种研讨途径:
1、疾病相识:通过更准确地瞻望基因突变,AlphaGenome 不错匡助研讨东说念主员更精确地查明疾病的潜在病因,并更好地默契与某些性状相干的变异的功能影响,从而可能发现新的调整靶点。咱们以为该模子尤其适用于研讨可能产生强大影响的凄迷变异,举例导致凄迷孟德尔遗传病的变异。
2、合成生物学:它的瞻望可用于指导具有特定颐养功能的合成 DNA 的联想——举例,仅激活神经细胞中的基因,而不是肌肉细胞中的基因。
3、基础研讨:它不错通过协助绘画基因组的要津功能元素并界说其作用,识别颐养特定细胞类型功能的最贫瘠 DNA 领导,加快咱们对基因组的相识。
举例,谷歌使用 AlphaGenome 研讨了一种癌症相干突变的潜在机制。在一项针对 T 细胞急性淋巴细胞白血病(T-ALL)患者的现存研讨中,研讨东说念主员不雅察到基因组特定位置的突变。应用 AlphaGenome,他们瞻望这些突变和会过引入 MYB DNA 联接基序来激活隔邻的 TAL1 基因,这复制了已知的疾病机制,并突显了 AlphaGenome 将特定非编码变异与疾病基因关联起来的材干。
伦敦大学学院马克 · 曼苏尔训导说:" AlphaGenome 将成为该领域的一个刚毅器具。详情不同非编码变异之间的相干性可能极具挑战性,尤其是在大畛域研讨的情况下。该器具将提供要津的陈迹,匡助咱们更好地相识癌症等疾病。"
结语:AI 基因瞻望贫瘠一步
AlphaGenome 标记着 AI 基因瞻望上前迈出了贫瘠一步,但仍有其局限性。
与其他基于序列的模子雷同,准确捕捉极远距离调控元件的影响(如那些相距卓著 10 万 DNA 碱基的调控元件)仍然是一个尚未处罚的挑战。
同期,谷歌尚未联想或考据 AlphaGenome 用于个东说念主基因组瞻望。诚然 AlphaGenome 不错瞻望分子效果,但它并不行全面展现基因变异怎样导致复杂的性状或疾病。
上一篇:欧洲杯体育一个好意思团闪电仓售出的商品中-开云「中国」kaiyun体育网址-登录入口
下一篇:没有了