中国科学院院士、天津大学教授元英进:DNA存储是合成生物学和信息技术融合的典范

2021-12-30

12 23 日,“中国合成生物学学术年会暨第三届工程生物创新大会” 在深圳光明科学城拉开帷幕,围绕 “探索无尽前沿 开启合成生物光明未来” 这一主题,产学研界专家聚焦合成生物学颠覆性技术,针对中国生物产业的发展现状、未来趋势以及如何解决合成生物学产学研一体化问题展开探讨。

 

本次大会由深圳市发展和改革委员会、深圳市光明区人民政府、中国生物工程学会合成生物学分会、中国科学院深圳理工大学(筹)、中国科学院深圳先进技术研究院主办,深圳合成生物学创新研究院、中国科学院深圳理工大学(筹)合成生物学院、深圳市工程生物产业创新中心、深圳市合成生物学协会、亚洲合成生物学协会联合 DeepTech 承办。

 

会上,中国科学院院士、天津大学教授元英进分享了合成生物学技术推动下 DNA 存储的发展现状,以及利用人工染色体进行数据存储的研究进展。

图丨中国科学院院士、天津大学教授元英进

 

以下为元英进院士的分享实录(生辉略做未改变原意的修改):

 

大家上午好,今天我汇报一下用于数据存储的人工染色体的发展情况说到数据存储,我们先回顾一下数据存储的发展历史。

 

最早用于数据存储的是结绳记事,而后仓颉造字,甲骨文等出现,整个人类文明的发展过程与存储技术紧密相关。

 

随着科学技术的进步,数据存储方式不断迭代创新。从打孔卡片、纸带、磁带、硬盘发展到现在的各类磁光电存储。从人均存储量变化的情况来看,公元前 600 年,人均数据存储量大约为 10 比特;纸质时代,人均有 10比特的存储量;而最近 50 年的磁光电存储时代,人类可以存储的数据量呈指数型增长。

 

可以说,数据存储方式的变化史,也是人类文明的发展史。特别是,存储量爆炸式增长的大背景下,数据存储须引起社会的高度重视。

 

IDC 预测,2025 年中国的数据存储量可能达到全球的 30%。全球数据存储量增长迅速,全世界都在建立数据中心。而数据中心的能耗、占地面积也是惊人的。实际上,数据中心和双碳目标紧密关联。2020 年,数据存储中心的耗电量早已超过三峡大坝的总发电量,大于 800 亿公斤标准煤产生的发电量。

 

作为信息时代重要的生产资料,海量数据的存储已经成为人类面临的巨大挑战。这就需要开发新的数据存储方式,下面我要汇报的 DNA 存储就是其中之一。

 

类似于结绳记事,当人类发现 DNA 的双螺旋结构后,就提出了 DNA 存储数字信息的概念。我们可以通过合成生物学的方式把 01 转换成碱基,再通过测序解码进行读取,这就是 DNA 存储。在这个过程中,涉及一些待突破的关键技术,比如,如何设计适应 DNA 介质的编码?以什么类型的 DNA 介质对数据进行存储?如何更好更快地读取等。这些都需要科学家们的不断探索。

 

DNA 存储领域,学术界做了大量工作。1965-2001 年的时候文献量还不多,但在那之后便是较快的增长。

 

DNA 存储核心优势是存储密度高,已成为学术界关注的前沿。美国半导体合成生物学路线图中提到,DNA 存储的存储密度潜力是硬盘、磁带等传统介质的 1 千万倍。

 

另外,DNA 存储的时间长。传统介质可以存储 30 多年,今年登在 Nature 上的一篇论文中提到的可恢复 DNA 165 万年前的,另一篇 Nature 论文中提到的细菌 DNA 2.5 亿年前的,也就是说它在自然状态下可以长期存放。作为存储介质,通过技术手段, DNA 的可用时间会更长,维护成本更低。

 

2018 年,中国科协发布了 60 个重大科学问题和重大工程技术难题,DNA 存储列为其中之一。我国 “十四五” 规划中专门有一段提到,加快布局量子计算、量子通讯、神经芯片、DNA 存储等前沿技术。可以看出,DNA 存储已经成为国家层面部署的重点发展方向,积极探索 DNA 存储能否成为下一代的数据存储方式意义重大。

 

下面是我们在 DNA 存储方面做的一些尝试。

 

大家都知道,DNA 用于传递生命遗传信息。非常常见的酵母细胞包含 16 条染色体,那么,是否能做一条染色体用于数据存储?这就是我们尝试的事情。

 

第一步,我们设计支持高鲁棒性、恢复快速寻址的编码 DNA 序列;第二步,合成组装 254k 染色体存储图片和视频等数字信息;第三步,利用酵母复制,使 DNA 随着酵母复制在细胞体内自我复制,稳定地指数型地扩增数字信息;最后,用纳米孔测序仪读出数据。[1]


我们的工作是在酵母中人工设计了第 17 条染色体。同时,我们做了大量的转录和翻译的研究工作,证明这条染色体可以非常活跃的转录,转录平均长度是 3.6Kb,而原有的 16 条酵母染色体的平均转录长度是 1.3Kb。最后我们做了比较深度的测定,在测定限度内没有发现新的蛋白产生。[2]

 

也就是说,这条染色体有很好的自我复制和转录能力,并且不会干扰原有 16 条染色体的功能。

 

我们这项工作的基础是前期完成的人工合成酵母染色体 [3]。目前,全世界仅发表了 6 条人工合成酵母染色体,我们团队完成了其中两条染色体的合成,并且完成了唯一的 “完美型” 5 号染色体合成,“完美” 是指与设计序列完全一致,曾获得 2017 年十大科学进展,存储工作则是该工作的扩展。

 

在数据处理过程,融合了信息领域纠错码方法,我们首次将该方法应用到 DNA 存储中,支撑数据快速、高效率读出。

 

帝国理工大学的 Ellis 教授评价我们的研究工作,认为 “我们做了 DNA 存储的关键概念验证”,“提出并验证了人工染色体如何以稳定且廉价复制的方式存储数据”。他们认为,我们的工作 “突破了以前在单个细胞内仅有几千个碱基存储量的限制”。[4]

 

总结一下,DNA 存储是人们希望看到的合成生物学和信息技术融合的典范。但是,目前 DNA 存储仍然面临着合成成本高、读写速度慢,以及如何与现代存储系统融合等挑战。[5] 我们希望大量的青年人可以进入这个领域,从事相关研究。

 

参考资料:

[1] Chen, W., Han, M., Zhou, J., Ge, Q., Wang, P., Zhang, X., Zhu, S., Song, L., & Yuan, Y. (2021). An artificial chromosome for data storage. National science review8(5), nwab028. https://doi.org/10.1093/nsr/nwab028

[2] Zhou, J., Zhang, C., Wei, R., Han, M. Wang, S., Yang, K., Zhang, L., Chen, W., Wen, M., Li, C., Tao, W., Yuan, Y. (2021). Exogenous artificial DNA forms chromatin structure with active transcription in yeast. SCIENCE CHINA-life sciences, https://engine.scichina.com/doi/10.1007/s11427-021-2044-x

[3] SCIENCE 10 Mar 2017Vol355,Issue6329DOI: 10.1126/science.aaf4704SCIENCE 10 Mar 2017 Vol 355, Issue 6329 DOI: 10.1126/science.aaf4706

[4]Lu, X., & Ellis, T. (2021). Self-replicating digital data storage with synthetic chromosomes. National science review8(7), nwab086. https://doi.org/10.1093/nsr/nwab086

[5]韩明哲, 陈为刚, 宋理富, 李炳志, 元英进. DNA信息存储:生命系统与信息系统的桥梁[J]. 合成生物学, 2021, 2(3): 309-322, doi: 10.12211/2096-8280.2021-001.

 

-End-

 

(文章来自于生辉微信公众号)