每一次技术革命都将带来时代的变革,也会孕育出新的事物。在国内外精准医疗和大健康战略的背景下,基于基因检测的各项科研、临床和健康管理应用蓬勃发展,形成了基因信息大数据。与旧为敌,与新为伍,4月22日,第四届全国计算生物学与生物信息学学术会议,在长沙超级计算中心拉开序幕。人和未来以“基因信息大数据应用技术湖南省工程研究中心”的名义参加会议,联合创始人兼CTO宋卓在会议中分享了最新的黑科技。
当年测一个人的基因组用了13年,花了30亿美金,是上个世纪的三大工程,而且是最后完成的工程,前两个是原子弹和能源,第三个是人类基因组计划。而今天,测一个人的基因组只需要不到7000元人民币。大量的基因信息数据油然而生,基因信息大数据应用过程中的存储、传输、计算、分析和解读的一系列问题亟待解决,所以在这个时间点BT和IT有了结合点,叫BIT。
黑科技1:高效存储传输
高通量测序技术产生的基因组数据已达PB级。其存储、传输、共享需要消耗大量的时间与成本,已成为制约基因大数据应用进一步发展的瓶颈。针对数据迁移的难题,开发了通用数据压缩打包系统(GTZ)。该系统采用高效“多流数据”存储结构,对包含任意基因测序数据的目录进行高压缩率的快速打包,形成单一文件,方便存储、传输和校验,并支持随机寻址。鉴于Fastq文件为基因序列基础数据格式,本系统自动识别该类文件并对其进行更高倍率压缩。实验和应用结果显示,该系统能在30分钟内将200G Fastq文件压缩至25G,综合压缩效率是Gzip的20倍以上。
黑科技2:高性能计算
A-云计算
我们构建了基于云服务(亚马逊 AWS)的全基因组分布式弹性计算平台,能够根据计算需求自动扩展集群规模,缩小测序数据分析时间。同时,该平台能够根据亚马逊 spot instance 的动态价格以最优的方式申请计算节点,最大限度降低计算费用。以人类基因组数据NA12878(55X,400G)为例,性能和经济性测试结果显示,本平台使用亚马逊 AWS 美国东部计算中心的300台EC2(250台 m4.4x.large + 50 台 r3.8x.large)和S3存储服务,在18分钟左右完成了从Fastq到VCF全流程分析,计算费用约为 16美元,且基因变异分析结果正确性符合业界标准。
B-本地计算
针对于信息处理量级较小,对于分析时间的灵活性和其他对信息保密性有相关政策限制的用户,我们研发了本地生物计算加速卡。依托于FPGA架构加速序列比对、变异分析等生物信息分析关键步骤,打造实时生物计算的新平台。已经完成的“染色体拷贝数变异分析”应用,加速比200倍,序列比对时间从3分钟缩短至1秒;在研的“全基因组分析”应用,加速比50倍,分析时间从30小时缩短至30分钟。
黑科技3:文本挖掘解读
为了辅助医学遗传学家们解读人类染色体拷贝数变异(CNV)和遗传疾病之间的关系,我们开发了CNVdigest( CNV与疾病关系数据库及Web服务)。基于文本挖掘技术和超算平台,本服务对PubMed海量文献中与人类CNV相关的4万篇文献进行系统化自然语言处理分析,提取了1600多个致病染色体区带(cytoband)和1100多个疾病的相关信息和相互关系。CNVdigest的Web服务系统前端界面简洁,接收用户三类输入(cytoband、疾病名称、文献ID)的查询,结果采用统计分析和图形化展示CNV异常和相关疾病的关系,并列出文献中支持这些关系的“证据”句子,方便用户迅速从已发表文献中查询、总结和研究CNV和疾病的关系。
我们认为在不久的将来,利用人工智能来管理数字生命将是一件很平常的事情,但在这个进程中,基因信息大数据的应用将是很重要的中间环节。就像10年,15年前互联网行业一样,刚刚在兴起,充满着机会也充满着挑战。