Business Incubation
孵化育成
作者:光电工研院
谢长生--大数据时代的光存储革命
2017-12-19

2016年,“双十一”。阿里巴巴线上交易达到1207亿元,平均每秒钟产生17.5万笔订单,完成12万笔支付。

震惊世界的订单交易数据背后,主要归功于阿里巴巴和蚂蚁金服联合研制的飞天(Apsara)技术平台的支撑。而该平台本身,就是大数据和云计算融合创新的成果。

无论是百度、阿里、腾讯等互联网企业,还是华为、浪潮、中兴等传统IT公司,都在近年将重要“兵力”,部署在大数据这一“未来新石油”上。

2017年1月,工信部发布《大数据产业发展规划2016-2020年》,进一步明确促进我国大数据产业发展的主要任务、重大工程和保障措施。

据赛迪智库统计,去年,我国包括大数据核心软硬件产品和大数据服务在内的市场规模,达到3100亿元。今年,这一规模有望达到4185亿元。未来2至3年,市场规模增长率将保持在35%左右。

随着云计算、物联网和互联网等新兴技术的飞速发展,带来了数据流量的爆炸式增长和数据结构类型的高度复杂化。大数据也在全球范围内成为新的技术制高点和经济增长的新动力。

而“新石油”的井喷式发展,面临的最直接的一个问题就是数据存储。

如何让这些有价值的数据,历经百年而不丢失,并且不断研究加工,实现“数据炼油”?

在武汉中国光谷,始于武汉光电国家实验室、由武汉光忆科技有限公司进行产品化开发的一项创新技术,将有望改变未来的数据存储格局——用光存储的方法长期保存大数据。武汉光电国家实验室副主任、光忆公司首席科学家谢长生教授介绍了该项技术及其市场前景。


用CD听音乐,用VCD、DVD看碟,用BD看蓝光高清碟。

早期的光存储应用,曾在我国催生庞大的光盘工业,主要为音视频和软件分发。

互联网的崛起,令CD时代一去不返,人们开始在网络上听音乐,看视频,软件也通过网络下载,很少用光盘发行了。

“我们比较早看到了这个转变。”谢长生说, 我研究了30多年信息存储技术,从硬盘、固态盘到光存储。但前两项技术,一直被国外垄断,我国并不具备竞争优势。中国要想在存储技术上实现弯道超车,就必须研发创新的存储技术。在华中科技大学光电国家实验室里,由光衍生而来的各类重大创新成果层出不穷,光存储是其中之一。

在全球,数据中心长期以来存储数据,普遍使用的都是固态盘和硬盘。不仅耗能,而且行成本高企。固态盘适合放热数据,硬盘适合温数据,随着数据量越来越多,时间久远、 不常使用却又必须保存的“冷数据”该怎么办?

谢长生举例说,大家经常使用的微信朋友圈,腾讯公司一天上载的照片超过10亿张。如果每张照片有十几个人点赞,一天内的访问量将超过100亿次以上,这就是热数据。但是第二天,点击率就会大大降低,迅速变冷。一周以后就变成了温数据。一个月以后基本就没什么人访问了,就变为冷数据了。但是冷数据又不能丢,而且每天都在积累。数据中心80%都是冷数据,固态盘价格是光盘的几十倍,用固态盘存冷数据不现实。

“所以,当数据变冷,就应该换到硬盘、磁带或光盘。”他说,硬盘工作时不停的高速旋转,是个耗能大户。有的数据中心为了节能, 不用的时候把硬盘停下来。但反复启动和停止,会对硬盘造成损坏。

美国大型数据中心都有磁带库,不访问的时候虽然也不耗能,但在潮湿地区,磁带容易粘连和发霉,隔一段时间就得倒腾一次,不然就会粘住。且磁带寿命最多10年,数据有潜在损坏风险。

“理想情况下,微信朋友圈照片最好过10年、20年以后还在,不会删除。”他说,现在, 我们3年前的微博还能看到,这些数据就是存在硬盘上,但是十分费电。越往后走,微信的保存成本会越来越高,当超过负荷能力时,就只能把数据部分删掉。

硬盘和固态盘的保存时间通常为5年。而一张蓝光光盘,则可以保存50年以上。涂有陶瓷保护层的光盘可以保存200年以上。国际研究发现,光盘是存储冷数据最好的介质。相比于硬盘和固态盘,光盘不仅保存时间长,还节能不费电。

互联网时代呈几何级数倍增的数据浪潮,光存储不可比拟的长期保存和节能优势,让谢长生意识到,光存储应用于大数据冷存储的契机来了。


2009年,在分析了全球数据急剧增长及存储需求趋势后,谢长生和国内一些光存储的专家经过讨论,在国际光存储会议上提出,应该改变光存储仅限于音视频和软件分发的用途,转向数据中心和云应用。

不过,尽管光盘存储保存时间长,且安全节能,但也有两个弱点:容量不够大,读写速度慢。如果要用于数据中心,首先要解决容量问题,其次解决速度问题。

当时,一张蓝光光盘的最大容量为50GB。扩容,要么把单张光盘的容量做大,要么打造一个大型光盘库,用提高光盘数量和密度的方法得到所需的容量。

传统的光盘库一般就是几十张到几百张光盘的容量。要达到数据中心的使用要求,一个光盘库应提供PB级的容量,就是说光盘的数量要达到万的级别,这是一个极大的技术挑战。万张光盘库,当时世界上都没有。另外,用什么技术来解决光盘读写速度慢的问题,也是一项技术挑战。

为了攻下这个难关,谢长生教授组织了一个很强的团队,挑选了两名优秀的青年专家领衔担任技术攻关重任。一个是30多岁就成为正教授的曹强博士,另一个是光存储专家和软件高手姚杰博士。

他们在没有任何国外先例的情况下,开始了超大容量光盘库的自主设计,发挥出极大的创造性。实验室里,研发团队第一次攻坚, 成功突破了540片光盘库。2013年,向着万张光盘库进发。

次年,该团队终于研发出全球领先的超大容量万片光盘库,并用磁光电融合及高并发技术解决了速度问题。至此,新型光盘库的研发,已历时5年。

2014年,一年一度的全球超级计算大会(Supercomputing Conference)在美国举行。这场业内赫赫有名的盛会,旨在探讨全球IT科技领域在高性能计算、网络、存储及分析方面的最新技术、产品和发展趋势,全世界最快的计算机TOP500每年都在这个会上发布。英特尔、惠普、IBM、思科、3M、AMD 等近360家来自世界各地的企业、大学、超算中心、研究机构和协会参展,与会者逾万人。

曹强和姚杰博士带着刚刚研发出来的超大容量光盘库样机,赴美参加这次大会。新型大数据光存储技术的首次展示,引发了现场热烈反响。技术突破后,大家开始认真琢磨产业化的问题。为了加速产业化,几位老师一起注册了武汉光忆科技有限公司,创业地点就在武汉光电工业技术研究院。光忆,即光学记忆。创业者希望打造一个用光做大数据存储的公司,做强大数据光存储产业。

日本的光存储技术世界领先。我国在开发超大容量光盘库的同时,日本也在积极投入超大容量光盘库的研发,并于2014年推出了超大容量光盘库。从他们发布的数据,在同样体积下,日本松下推出的一个标准机柜大小的光盘库,可容纳 6000多片光盘,12个光驱同时读取。

而光忆的超大容量光盘库,一个标准机柜可保存1.22万片光盘。一个标准机柜,2米高,80公分宽,1米2深,差不多一个双开门冰箱大小。这样的光盘密度,已是世界最高。光盘库自带机械手,就像一个智能机器人,能根据需求精准调取目标光盘。24个光驱同时读取,并创新性地使用了磁光电融合技术,令光盘读取和写入速度、存储容量均为日本企业的一倍。

“这些年我们一直在埋头自主研发,没有可以模仿的技术,之前也互相都不知道对方在干什么。最后同台竞技,发现我们在几个关键的技术指标上比日本还要先进。”谢长生自豪地说。


2015年,超大容量光盘库再度出征瑞士,参加日内瓦国际发明博览会,并一举斩获金奖。获奖以后,日本光存储领域的顶级国际会议ISOM向谢长生教授发出邀请,姚杰博士代表团队作了大会特邀报告。

第二年,美国光存储方面的顶级会议ODS也向研发团队发出了邀请,姚杰博士再次赴美作大会特邀邀报告。

2017年,计算机系统方面的顶级国际会议EuroSys邀请曹强教授作大会报告,介绍大数据光存储在计算机系统中全新的应用技术。

“我们的技术无疑是全球领先的,但是新技术有一个市场认可的过程。”谢长生说,日本跟我们几乎同时起步,谁先抢到产业化的制高点,谁就先抢到了市场先机。

早在2014年,互联网社交巨头Facebook展示了一个新的数据存储系统原型。该系统能够使用1万张蓝光光盘,可存储PB级别的海量数据。有报道指出,Facebook展示的是当时很少用于数据备份领域的”冷数据光存储系统”。Facebook经过评估,认为使用蓝光光碟代替硬盘,能够减少整体50%的成本和80%的能耗。

谢长生说,Facebook做光存储,看中的就是长期保存和节能这两点,这是硬盘和磁带技术不可比拟的。Facebook光盘库硬件主要来自日本,软件由Facebook自己开发,并于2016年开始装备他们的数据中心。Facebook用光存储保存数据中心的冷数据,放出了一个积极的市场信号,也使光忆公司对数据中心这个未来巨大市场更具有信心。

从去年开始,光忆公司率先在东湖高新区政务服务中心的数据中心进行光盘库应用。由于节能方式独特,被列入国家绿色数据中心示范工程。相比于现有的磁盘阵列方式,其节能效果十分突出。

传统磁盘阵列存储的数据中心,几万个硬盘同时运转,不读取的时候也必须得24小时运转。设备本身发热耗能大,空调还要再耗能去降温。磁盘阵列对温度非常敏感。武汉某大医院曾有一次因停电无法使用空调,磁盘阵列过热,导致数据丢失,病人的住院信息全都找不到了。一个大型数据中心,每年电费动辄数千万、甚至上亿元。为此,数据中心在冷却上尝试了多种技术,比如把空调改为水冷等,以降低能耗,或直接建在低温地区,自然降温。全国有几万个数据中心,节能技术就变得特别重要,而这正是光忆的价值优势和商业机会。“光盘不使用就可不运转,不发热不耗能。”谢长生说,光盘库的整体能耗,仅为磁盘阵列的十分之一。这种节能效果,为光盘库在数据中心的应用打开了市场。

眼下,光忆已有几十台存储阵列设备在电视台、国家档案馆、法院、公安系统等机构应用。在他看来,光忆目前的发展瓶颈在市场,不在技术上。尽管光谷政务服务数据中心已开始“吃螃蟹”,试水光存储,但因数据量有限,应用规模还不够大。一台上万张光盘的阵列,许多年都用不完。

为了适应市场,光忆一方面开发了6000片、500片、100片的中小型光盘库,另一方面也开始寻找更大型的数据中心,实现规模化。他们与有志于大数据光存储的企业家合作,在多地开展数据中心的大数据光存储的推广,目前已在江苏、常州、广东梅州建立了数十台规模的应用示范基地,一旦应用成熟,可向大型数据中心推广。

在腾讯等大型互联网公司,仅仅一个微信应用,数据量都大得惊人。这些公司目前全部是固态盘和磁盘存储,能耗及耗资惊人,一旦转型,将产生庞大的光存储需求。光忆公司很清楚,在没有一个大型应用案例之前,想让这些互联网巨头或数据中心改变用户习惯,并不容易,市场需要逐步接受的过程。先将试点数据中心做好,使技术更加成熟,将来就一定能进入大型数据中心这个巨大的市场。


除了大型数据中心,超算中心也将是光存储的潜在用户。

超算中心一般用超级计算机算核爆炸、天气预报、宇宙演化、蛋白质折叠等大型科学问题。比如“天河二号”就曾算出宇宙大爆炸1600万年之后至今约137亿年的漫长演化进程, 这会产生巨量的数据。

美国的超算中心除了保存热数据外,还会用大型磁带库保存冷数据。谢长生介绍,我国首台千万亿次超级计算机“天河一号”,每秒运算速度可达2570万亿次;全球最快超级计算机“神威·太湖之光”,每秒浮点运算速度达9.3亿亿次,峰值性能达到12.5亿亿次。

“美国对数据的价值认识十分超前,超算中心所有数据都会长期保存,我国超算中心目前对数据的长期保存重视不够。”谢长生表示,无论超算中心还是互联网数据中心,都需要冷数据存储。这在我国尚属空白,市场很大。虽然超级计算机是我国自主研发的,但是用于冷数据存储的磁带库只能从国外购买。我们自主研制的光盘库将取代磁带库的位置,用于我国自己的超算中心。未来一个大型超算中心的需求,可能是几百台、上千台光盘库。

当前,全球数据中心规模最大的是美国,其次是中国。未来,中国很可能超过美国。我国有7亿手机用户,美国只有2亿。谁都希望,50年后还能看到自己50年前的照片。

下一步,智慧城市也是一个庞大的应用市场。如城市监控,在武汉市公安局,视频数据3个月就会清除,因为存不下。但是银行等金融系统、与健康相关的医疗系统,所有数据都需要长期保存。

除了光盘库,对下一代的更大容量的光盘和光驱,国际上也开始研发攻关。日本刚刚推出了300G蓝光光盘,并计划将容量提高到1TB。日本还开始了全息光存储的产品化开发,计划推出2-8TB的光盘和光驱。

武汉光电国家实验室则开始研究超光学衍射极限的光存储技术和永久存储技术,在存储原理上更先进,单盘容量将超过10T。这些前瞻性的研究预示了光存储更加光明的未来。光忆公司对光存储在大数据存储的应用前景充满信心。

大数据光存储从2009年提出研发设想,到产品走向市场,已走过8年的艰辛路程。光盘库从500片到1.2万片,一个世界级的技术跨越,亦不过8年。中国数据量的增长量即将成为世界第一,对存储的市场需求也必将是最旺盛的。在这种环境下,光忆公司坚信,经过我国科技界和产业界的共同努力,中国的大数据光存储产业一定能够走在世界前列。




0.1095s