天天看点

细菌变身移动硬盘?DNA存储或可破数据存力难题

作者:人民中科Cognitive

你敢相信吗?你身体里的DNA,其实能存下整个宇宙的数据,甚至通过该技术,连细菌都能变身移动硬盘了?

当下,我们正处于前所未有的信息大爆炸时代,据估算,2025年全球每天将产生491EB数据,相当于每日制造出2亿张DVD光盘。尤其是当ChatGPT这类AI大模型引爆算力及数据存力需求后,高密度、长久保留、低能耗,更成为了数据存储的未来趋势。在此背景下,随着北京大学、天津大学等研究团队在DNA存储领域相继实现一系列研究突破,DNA存储技术或能成为解决问题的新突破口。

细菌变身移动硬盘?DNA存储或可破数据存力难题

DNA存储发展到哪一步了?

据统计,2021年全球数据总量达到84.5ZB。如此庞大的数据量不但对算力提出了高要求,对存力也提出了极高的要求。为了存储如此大的数据,数据也住进了数据中心这样的“楼房”之中。在2024年前,全球超大规模的数据中心数量可能达到1000个。数据中心越建越多,但土地资源有限,修建数据中心的“摩天大楼”是一件奢侈的事情,于是提高数据存储密度成为另外一种解决方案。

为了寻找更高效能的存储载体,研究者将目光对准到了自然界中遗传信息的载体DNA。DNA存储是一种以生物大分子DNA作为信息载体的存储技术,具有容量大、密度高、能耗低等优点。DNA存储最早于1959年由美国物理学家费曼提出。当时,费曼提出了分子尺度计算机的概念,并指出了生物分子(DNA)计算机可以与外部环境进行交互。

2012年,哈佛大学将一本5万字的图书存储进了DNA中,彻底激起了各大企业研发DNA存储的热潮。2016年,微软宣布购买1000万条DNA用于研究数据储存,同时宣布2020年在数据中心建立DNA数据存储系统。2019年7月,《科学》杂志将DNA存储列为全球十大新兴技术。

DNA存储能让细菌变身移动硬盘?让敦煌壁画存活千年?

细菌变身移动硬盘?DNA存储或可破数据存力难题

大陆也高度重视DNA存储技术的发展。“十四五”规划中明确指出要“加快布局DNA存储等前沿技术,加强信息科学与生命科学、材料等基础学科的交叉创新”。

在国内,东南大学、天津大学、华为等也开展了相关研究。2022年3月,东南大学成功将该校校训“止于至善”存入一段DNA序列上,实现了DNA存储技术的新突破,并将相关成果发表在国际学术期刊《科学·进展》上。2022年9月,天津大学合成生物学团队更是创新DNA存储算法,直接将敦煌壁画储存在DNA中,通过加速老化实验验证,发现可以实现长达千年的保存时间。

2023年2月,北京大学钱珑、欧阳颀团队在《尖端科学》上发表论文称,通过将一篇容量约5KB文章存储到了细菌的DNA中,从而将细菌变成了移动硬盘。文中介绍,这样的DNA数据储存系统可以实现双模式存储、动态数据维持、快速信息检索和稳健的数据恢复等功能。

DNA存储或可帮助解决AI算力及数据存力难题。

细菌变身移动硬盘?DNA存储或可破数据存力难题

众所周知,算力、算法、大数据是人工智能的三大核心基石。ChatGPT之所以引起关注,在于它作为一个大模型,有效结合了大数据、大算力和强算法。在数据需求上,GPT-3有1750亿参数,GPT-4的参数据说有100万亿。更大的数据需求意味着对数据存储能力,即数据存力提出了更高的要求。而要想满足算力方面的需求,也同样需要有强大的数据存储能力。只有数据“存得好”、算力“算得快”、网络“传得稳”,才能不断夯实数字基础设施的质量水平。

作为算力的物理载体,建设数据中心就是主要手段之一。有数据显示,ChatGPT的总算力消耗约为3640PF-days(即假如每秒计算一千万亿次,需要计算3640天),需要7~8个投资规模30亿、算力500P的数据中心才能支撑运行。但数据中心内的模型训练需要消耗网络带宽和电力资源。据相关估算,今年1月平均每天约有1300万独立访客使用ChatGPT,每日电费在5万美元左右。

“全世界都在建数据中心,数据中心的能耗是惊人的。DNA存储由于其高存储密度与低能耗处理等特点,被视为一种极具潜力的存储技术,成为应对数据存储增长挑战的新机遇。”中国科学院院士元英进表示。

所以要发展ChatGPT类AI大模型,就面临着需要多元化手段解决算力及数据存力难题的需求。“我们现在算力卡住了……但量子计算可以解决,然后是DNA存储。我们身体里有这么多细胞,每个细胞的存储量都是一个中型图书馆的水平。把到今天为止人类所有的数据加起来,如果放在DNA里,那么200公斤就足够了。”知名科技作家陈根博士称。

细菌变身移动硬盘?DNA存储或可破数据存力难题

DNA存储是如何实现变革的?

DNA 存储遗传信息的原理并不复杂。DNA由腺嘌呤(A)、鸟嘌呤(G)、胸腺嘧啶(T)、胞嘧啶(C)4个碱基构成双螺旋结构,彼此两两对应,可以保存生物体的遗传信息。

而在数字世界,无论图像、音乐还是电影,在计算机或硬盘中保存时,都需要编码为“1”和“0”两种数字的字符串。等到需要打开时,计算机再读取这些字符串并进行解码。

DNA数字存储,就是把原本记录在计算机硬盘上的“1”和“0”的字符串,改为记录在DNA的碱基对上,不同的碱基对应不同的字符串,比如:A对应00,C对应01,G对应10,T对应11。这样,我们人类可读的信息就转化成DNA的序列。在需要读取数据时,我们就从试管中提取出DNA分子,对DNA的序列进行读取,“解码”为平时使用的数据。这个流程就是编码—DNA 合成—测序—解码。

DNA存储究竟有何魅力?

细菌变身移动硬盘?DNA存储或可破数据存力难题

01存储密度大

DNA存储密度大,占用空间小,可以达到传统存储密度的百倍、千倍。每克DNA可存储数据215PB,相当于22万个1T硬盘的存储量。1千克DNA可以存储2×1024 bits,相当于109千克硅制造的闪存。哈佛大学研究发现,大肠杆菌的存储密度大约为1019bit每立方厘米,通过计算,全世界一年的数据可以存储在边长为1米的DNA立方体中。更形象的例子是,一部高清电影可以存储在比方糖还小的空间中。

02存储时间长

我们日常使用的U盘、移动硬盘、固态硬盘等都会随着时间而降解。例如机械硬盘存入数据后,放置在静止的常温环境中,可以保存100年。但实际使用过程中,由于震动,碰撞,跌落,以及强磁体的扰乱和消磁。机械硬盘的寿命通常在4-7年。而DNA的半衰期超过了500年,储存在永冻土层的马DNA在70万年后仍可以进行序测。DNA存储在常温环境(20℃)中,可以保存上千年,在9.3℃的环境中,甚至可以储存上万年。相比之下,DNA的保存时间是非常长的。

03能耗更低

2021年,大陆数据中心年耗电量2161亿千瓦时,约占全国总用电量的2.6%。相当于两个三峡年发电量(2020年三峡发电量为1118千瓦时),等于烧掉了7200万吨标准煤。而数据中心的占地面积也很大,全球最大的数据中心是位于美国内华达州的“The Citadel ”,拥有约67万平方米的空间。大陆最大的数据中心占地约59万平方米,相当于110个足球场大小。而如果采用DNA存储的话,这些都不需要。DNA存储成本有多低呢?虽然合成DNA和为DNA测序的过程需要特定装置耗电,但如果只是长期保存,可以直接在常温环境下保存,连冰箱冷藏都不需要。所以它的保存所需能耗是极低的,且占地成本可以说接近零了。

细菌变身移动硬盘?DNA存储或可破数据存力难题

DNA存储展现出了超乎寻常的大容量、低能耗、存储简单等优势,是一种非常有前途的信息存储技术。它不仅可以解决当前数字数据存储面临的各种挑战,推动数据作为生产要素发挥更多作用,还可以提供一种完全新的方式,来保存和保护我们的文化遗产和其他重要的数字信息。

不过,当前DNA信息存储仍面临信息存储成本高、信息读写速度慢,以及无法高效对接现有信息系统三大主要挑战。但相信随着科学研究的进步,在未来,DNA存储仍有可能实现进一步突破,帮助解决AI大模型发展面临的算力及数据存力难题,引领新的信息革命。

责编:方钰洁

监制:李红梅

文章参考:

1.《算力制约ChatGPT大规模应用,可用量子计算和DNA存储解决》澎湃新闻

2.《DNA存储重大突破 可让信息保存千年万年》厦门晚报

3.《DNA存储技术跨越时代》澎湃新闻

4.《中国科学院院士樊春海:DNA大数据存储,让IT-BT交融迸发出无限潜力》 每日经济新闻

5.《存储之王到来,DNA存储技术突破,常温下可保存信息上千年!》科技铭城

6.《信息存到DNA 细菌变身移动硬盘?》北京青年报

7.《算力网络大家庭,存与算如何组CP?》中国电子报