在2016年的瑞士达沃斯世界经济论坛期间,美国副总统joe biden询问了阻碍研究人员和临床医生在抗击癌症过程中的突破的障碍。在众多重要话题中,最重要的是大数据,确切的说,是大数据的收集、分析和应用。
大数据的“大”指的是积累的数据集的量很大,通过合理地分析这些数据可以得到很多的有效信息。另一方面,在实践中对大数据的分析可以得到变化趋势、发现关联以及确认模式。
一些研究人员称,大数据很有效,因为它们携带了丰富的信息。大量的样本可以揭示出一些未被注意到的细节。然而还有的研究人员认为大数据技术所需要的不仅仅是非常多的数据。美国圣犹大儿童研究医院的keith perry就是持后者意见的人。
perry说:“大数据岂止于‘大’?还需要具有另外三层意思:数据类型的多样性,数据生成的速度,大量数据整合的程度。我们现在拥有的很多数据并没有互相连接的接口,因为它们在不同的部门产生。”
另一个持此观点的人是narayan desai博士,他是爱立信公司的计算机科学家,他曾说过:“基因组学将要解决的基本问题是应该生成多少数据。数据收集和分析处理的能力如何更加有效,应该好好研究。”
影响一:隐藏的弱点
最近,一些科学家呼吁更加专注和创造性地利用现存数据来进行临床实践。比如美国加州大学的细胞和分子药物学教授nevann krogan说,基因组学使我们离治愈癌症更近了一大步,这种进步超过很多遗传学家的想象。
krogan博士说:“基因测序人员说只要有更多的钱进行更多的测序就可以使问题的答案更加明朗。但我不认为这样。我认为我们已经达到了可提取信息的饱和点。”
krogan博士认为,尽管数据的积累量在变大,但是癌症治疗并没有取得太多突破。这是因为新生成的数据只是用来描述癌症惊人的多样性,即使是单一肿瘤也会包含成千上万种基因突变。
krogan和他的同事认为,研究人员不应该只专注于收集大量数据,而应该仔细研究已有数据中隐藏的联系。krogan在2015年发起了癌细胞地图计划(cancer cell map initiative ,ccmi)。
ccmi致力于系统地详细描述癌症基因之间的复杂关系,以及它们在不同的疾病和健康状况之下的区别,并制作出癌细胞中正常基因、突变基因以及蛋白质的“连线图”。
影响二:肿瘤样本
肿瘤细胞地图项目(ccmi)将加利福尼亚大学圣迭戈分校(ucsd)的生物医学大数据提取技术和旧金山加州大学(ucsf)分析细胞结构和功能的先进技术相结合。ucsd的trey ideker博士说:“我们已经有了基因组信息。现在的瓶颈是如何翻译肿瘤基因组。”
在2015年的基因组大会上,ideker博士指出,正在进行的癌症dna测序已经完成了20000例基因组。但是,在没有关于基因网络知识的前提下分析这些癌症基因组是非常困难的,因为在基因层面上,没有两个癌症患者的肿瘤是一样的。他认为生物信息学可以解决这个问题。
ideker于2013年9月发表在《nature methods》上的一篇论文称,癌症基因组图谱(tcga)和国际癌症基因组联盟(icgc)已经开始系统地为上万种肿瘤进行归档,包括信使核糖核酸(mrna)和微小核糖核酸(microrna)的表达,dna拷贝数量和甲基化,dna序列。文章作者称:“现在急需可以将基因组规模的分子信息整合并翻译的信息技术,以更深入的洞察驱动癌症发展的分子过程。这种技术对临床来说也很急需。”
影响三:子网络分析
为了满足对这些综合信息技术的需求,ucsd的研究团队整合了对多组可以编码蛋白质的基因的基因表达测定,这些蛋白质会在蛋白质子网络或者通路数据集中相互作用。该档案并没有把单独的基因和蛋白质列出来,而是将基因和蛋白质子网络集合地表达出来。
研究人员称,这些子网络可以确认不同患者的基因表达的不同。子网络分析与其他传统的分析不同,它可以解读出基因表达的不同。
2007年,ideker博士发表在《molecular systems biology》上的一篇论文称,尽管携带乳腺癌突变的基因无法通过差异表达分析检测出来,但是它们在蛋白质网络中非常重要,与很多不同的基因相互作用。
对于大部分有中等乳腺癌风险的患者来说,传统因素并不足以预测,大约有70–80%淋巴结阴性患者要接受不必要的辅助化疗。ideker认为,现在的很多危险因素其实只是次要的临床表现,而不是主要的患病机制。
现在的挑战是与疾病更加相关的预后指标,更加精确地预测病人的新陈代谢风险。
影响四:预后意义
研究人员最近正在收集更多的证据以证明基因网络分析可以为预后提供信息。比如ucsd的chang博士于2012年在《blood》上发表的一篇论文认为,基因网络分析可以预测慢性淋巴细胞白血(cll)病患者的结果。
特别的,研究人员们使用基因子网络的基因表达档案分析法区别出了不同病人的cll风险。cll患者的临床病程各不相同。一些病人在很多年后仍然没有症状,而一些病人很快就会出现严重的疾病并需要治疗。
因为标准疗法会涉及到毒性,准确的预测很重要,因为目前的治疗建议是,在患者表现出明确症状之前不能使用这种标准疗法。
一些研究报道称,几组基因可以用于cll已知预后因素替代指标,比如ighv突变状态。
ucsd研究人员称,他们从130名cll患者中识别出38个预后子网络,这些子网络可以预测疾病进展的风险。此外,这些子网络标记可以产生更精确的预测。
研究人员得出结论,他们的分析对理解癌症进货和开发新型治疗方案具有指示意义。这些指示来源于生物信息技术,该技术使大数据变得有意义,并且可以促进更多的发现。