光纤到处理器----最后一米的问题(180905)
闵应骅
从天津到北京坐高铁只要半小时,可从北京南站到我家至少要一小时。那高铁飞快有多大意义?这就是困扰大家的最后一公里的问题。光纤入户,网络速度应该很高了吧!但是高峰时间看电视剧照样停顿。这也是最后一公里的问题。现在大数据时代,数据中心最后一米的问题照样很关键,其实在超级计算机里面,计算速度可以做得很高,但数据传输仍很费时间。最近一期2018年9月号的IEEE Spectrum 2018/9发表一篇文章,叫“Silicon Photonics’ Last-Meter Problem”,正是谈这个问题。
看看数据中心机柜背面的照片吧!多少走线,信号在上面走,需要时间啊!这当然是指和纳米芯片的计算速度来比较说的。
如果说我们今天面临顶尖技术革命的话,想想1980年代中期,硅芯片上的晶体管是微米级大小,而纤维光学系统每秒压缩万亿位。把硅数字逻辑、光电子和光纤通信结合起来,什么都是可能的。光子和电子的数据传输速度差别很大。工程师们期望所有进步继续下去,最后达到光子和电子结合,最后取代电子。光子不但把数字位移动穿越国家,而且在数据中心间穿越,甚至在计算机内部。纤维光学可以在芯片间移动数据,这些芯片本身也是光电子的,也许某一天,高速逻辑芯片用光子而不是电子在工作。即使不说那么远,公司和政府花亿万美元是要开发光子器件和系统,把数据中心的计算机服务器机柜用光纤连接起来。事实上,现在许多现代化的数据中心是用光子器件连接机柜的。机柜内不是光子传输,而且单个服务器板还用低价铜线和高速电子相互连接着,在电路板上,也是通过金属导线连到处理器上。
把光纤直接连接到服务器的处理器的企图是不经济的。已经有以太光接收器,大概每年40亿美元的市场,而且LightCounting公司市场研究预计,到2020年将到45亿美元,5000万组件,而数据中心计算机柜与处理器芯片之间最后几米的光电连接并不能解决这个问题。不过,这技术的强大潜力仍然希望梦想成真。技术挑战性很大,如何使数据中心最后提供迷人的通路,使大数据来一个革命,新想法仍在期待中。
任何时候你访问Web、接收电视或今天数字世界任何事情,你都要用通过光接收模块来的数据,这些收发器都要经过光电信号的来回转换。收发器也把数据中心的数据转换成光信号到其他机柜或网络交换机和互联网。每一个光电收发器模块主要有三类组件:包含一个或多个光调制器的发射机,包含一个或多个光电二极管的接收器,用CMOS逻辑芯片编码解码数据。由于硅讨厌发射光线,光子从激光来,与硅芯片虽然可以封装在一起,但是分离的。不是用开关激光来表示0和1,激光保持打开状态,但电子位把激光用光调制器编码分开。调制器是收发器的心脏,可以有几种形式。一种好又简单的调制器称为马赫-曾德尔(Mach-Zehnder)调制器,一个很窄的硅波导形成激光通道。该波导分一为二,重新加入若干微米激光。通常,这种分散和聚合不影响光输出,因为波导分支长度相同。当他们聚合时,光波还是同相的。而当电压加上一个分支,就会改变折射率,从而减速或加速光波。当光波从两个分支汇合时,它们互相干扰阻止了信号传播。所以,假如在某个分支改变电压,实际上你是用电信号去调制光信号。接收器就简单多了,基本上就是一个光电二极管和一些支撑电路。光信号通过光纤以后,达到接收器的锗或硅锗二极管,就随每一个光脉冲产生一个电压。发送器和接收器都进入放大、分组处理、差错校正、缓冲等功能的电路,以满足光纤吉比特以太网标准的要求。有多少电路和光电放在同一个芯片内,或者同一个封装内,决定于供应商,不过大部分电子逻辑和光电是分离的。
现在越来越多的硅集成电路里面集成了光部件,也许你在想:干脆把光电直接做到处理器芯片里不是更好吗?过去的确曾经这么想过,系统芯片(SOC)就是这个想法。但是人们忽视了电子电路芯片工艺尺寸急速缩小,而光电部件跟不上。现在晶体管可以做到几纳米大小,譬如7纳米CMOS技术,通用逻辑的100晶体管可以装在芯片的1平方微米里面,还包括它们之间复杂的连线。除了几十亿晶体管在一个芯片上,还有几十层的连线把晶体管联到寄存器、多路转换器、算术逻辑单元,还有处理器核之间和其他重要电路之间的连线。而典型的光子部件,譬如调制器,不能做得比光的波长还短,所以限制在线宽1微米。所以电子是瘦的,光子是胖的。如下图所示,譬如每平方微米平均100个晶体管,光调制器至少10X10微米,相当于10000晶体管,而开关速度又差100倍,所以成本比较是10000:1。哪个制造商愿意花这个代价,用1万个开关去换一个光调制器?
在电子芯片上放光子部件还有很多问题。譬如光子没有存储功能。当然这并不是说光子部件就不能更加接近处理器、存储器和其他关键芯片。今天,在数据中心的光连接市场时兴一种所谓顶到机架(TOR)交换,接有光收发器模块。在2米高的机架上方覆盖着服务器芯片、存储器和其他资源,光纤连接到TOR,它们通过另一个交换层相互连接。这些交换机连接到数据中心的网关所在的交换机集,如下图所示。
因为有收发器模块的显示,TOR面板上可以看到有多少数据在移动。每一个TOR连接一个收发器模块,它连接两根光纤,一个发送、一个接收。32个模块,每一个能力是每秒400亿比特位,面板高45毫米。两个机架之间可以有每秒2.56太比特的流量。但是,在机架内服务器内部,数据流还是通过铜线。这仍然是建造高速省电系统的障碍。这个最后一两米的问题可能是问题的症结。
所谓光纤到处理器的问题并不是新问题,曾经有过许多方案。譬如15年前,有人做实验,12根光纤连到一个处理器,每一根光纤携带4个垂直腔面发射激光器(VCSEL),一个典型的激光二极管。这4个VCSEL用光输出的开和关编码,它们在同一个光纤中用不同的波长,用粗波分复用。假如每一个VCSEL输出数据25GB/s,这个系统带宽达到1.2TB/s。如今相邻机架12光纤阵列的工业标准是0.25微米,如果给定带宽密度是0.4Tb/s/mm。换句话说,在100秒内,每微米可以处理美国国会档案馆一个月的数据。当时这个系统的可靠性和实用性不够。但今天光纤可以用多芯光纤。许多技术改进使MIT现在做的实验,带宽密度已有17倍的提高。
今天,处理器、内存、存储器组成所谓刀片服务器,放在这些机架的底盘上。其实不必如此。内存不放到服务器芯片里,可以分开放在机架里,甚至不同的机架里。这种大机架结构(RSA)可以更有效利用计算资源,特别是社会媒体计算机,譬如脸书或微信,对计算和内存的要求越来越增长,它可以简化更替和管理硬件的任务。它为什么对光子有好处呢?因为这种结构的可重构性和资源的动态分配使新一代有效、便宜和每秒多TB光交换技术成为可能。
这种新的数据中心架构的主要困难是部件的价格和生产成本。硅光部件已经有一个优越性,即利用现有的芯片制造,获得大的基础设施和可靠性。不过,硅和光不是很完美的配合:除了发射光的低效率之外,硅部件造成大量光的损失。一个硅光收发器有大于10分贝(90%)的光损失。如果TOR交换机之间距离很小,这问题还不大,因为硅的价格比较便宜。硅光模块一个重要的成本是光学连通性。这既是光纤和收发器或接收芯片之间的连接,也包括纤维之间的连接。成千上万的这种纤维到纤维的连接都要非常精准的制造出来。要多精准?光连接的硅玻璃纤维直径125微米,比头发丝还细。单模光纤必须对齐到100纳米才能连接,那是头发丝直径的千分之一,否则信号就变得太差了。所以,纤维之间和从纤维到收发器之间的连接制造需要新的方法发明,既精确又低成本。但非常少的制造技术可以做到低成本。
降低成本的一个办法是让光模块更便宜。一个技术称为圆片规模集成,就是把光部件集成到一个圆片上,电子器件在另一个圆片上,两圆片成为一对,然后切成芯片。激光由半导体制成,不用硅。这个办法降低成本,因为组装和生产可以并行。另一个办法是批量。假如全球吉以太网市场每年5000万收发器,每一个光收发器占25平方毫米面积。如果制造厂用200毫米直径的圆片,100%的成品率,那么,需要圆片42000。看起来数目很大,其实厂家只要两个星期就可以生产出来。实际上,一个收发器生产厂家只能拿到25%的市场,只能支持几天的生产。扩大产量的办法就是要用TOR交换机下面的光连接到服务器里的处理器。
假如要做大硅光电子,而不是全电子系统,就必须有强劲的技术和商业策略。部件要小、能耗低、高度可靠、数据移动极快。至今,还没有能满足所有这些要求的解,所以导致电子一直在继续发展,还没有和光子集成。然而,如果光子部件可以大批量、低成本的生产,也许几十年前的光纤至处理器的技术又可以翻出来使用了。过去15年一直在努力,现在光子部件每年有数十亿市场,光连接现在是全球信息基础设施的关键部分,大量光部件将进入电子系统的心脏。这是一个关键时刻。
除了设备和创新思想,我觉得另一个重要问题是人才。现在国内,既懂电又懂光的人才和单位太少了。我们所设的专业和成立的单位都过于专门化。搞计算机的人和单位多得很,搞光技术的人才和单位也不少,但专攻光电结合的就比较少。当然我这里说的结合不是指低水平的结合,搞电的要达到能搞超级计算机的水平,搞光的要能达到搞光通信与控制的水平。只有这样才能在解决这个最后一米问题上做出贡献。我国需要这样有实质性的创新。
转载本文请联系原作者获取授权,同时请注明本文来自闵应骅科学网博客。
链接地址:https://wap.sciencenet.cn/blog-290937-1132901.html?mobile=1
收藏