首页 >> 服务器 >> 服务器技术指导 >> 服务器技术资料 |
|
|
| 学术文章:关于高性能微处理器的综述 [服务器技术资料] |
| 中国龙芯论坛 |
| 2007-4-20 8:57:00 文/ |
|
3. 高性能微处理器发展前沿
3.1 研究中的几种新型体系结构的处理芯片
下面简单介绍国外研究中的几种新型体系结构的处理芯片。
(1) IBM开发中的千万亿次(PetaFLOPS)计算机蓝色基因(Blue Gene)中的核心处理芯片是探索新型高性能CPU体系结构的重要一步。该芯片中含32个简单的PowerPC处理器及内嵌的DRAM,峰值性能可达到32GFLOPS。将DRAM集成在片内,使处理器到存储器的访问延迟大为缩短,访问带宽大大提高,也很大程度上减少了能量的消耗。为了通过精简设计提高运算速度和极大地降低功耗,每个处理器能执行的指令的数量都大大地减少了,但每个处理器仍可支持8个同时执行的线程以提高处理器利用率。片上还集成了6个2GB/s带宽的通道以实现与系统中其它同类芯片的通信。另外,考虑到构建超大规模计算系统时不可避免地会碰到因某个(些)结点失效而影响整体系统可用性的情况,它尝试采用自稳定和自修复的技术,即自动地从个别处理器或线程的失效中恢复过来。为此,在硬件上,处理器和通信链路上都采用了大量的冗余设计,在软件上,也需要特别增加分布式控制和恢复的机制。
(2) MIT研究的可重构RAW处理芯片采用了另一种思路[27]。RAW在单个芯片上将几百个非常简单的处理单元,用可重构逻辑连接起来,实现高度并行的体系结构。RAW允许编译器(或其它相当的软件工具)重新构建硬件体系结构的低层细节,对每个要加速的应用实现最佳的资源分配。这种结构设计简单,单元内部和单元之间的互连线短,能充分地支持流水线并行性,特别适于未来线宽变窄的半导体制造工艺。RAW的研究者认为,开始时,RAW体系结构还只适于流式的信号处理计算,但RAW方法未来将发展成为普适的解决方案。
图1给出了RAW中一个处理器的框图。其中下半部分就是一个普通的RISC流水线处理器(其复杂度跟龙芯1号差不多)。其特殊之处在于在执行部件前的旁路部分,除了常规从寄存器中取出的操作数和从功能部件刚算出的操作数外,还有通过通信网络从别的处理器那里送过来的操作数。在灵活的互连网络的配合下,这个机制巧妙地把多个处理器的功能部件耦合在一起,构成功能复杂、动态重构的并行处理系统。
(3) 在2005年国际固态电路会议(ISSCC)上,IBM、Sony和Toshiba首次公开介绍了设计中的Cell高性能处理芯片[30]。这三个企业联合设计Cell芯片的工作始于2001年3月。Cell的一个主要用途是Sony的第三代Playstation游戏机PS3,但IBM同时也宣称,Cell将是片上超级计算机(supercomputer-on-a- chip)。从ISSCC2005上披露的第一款Cell芯片的情况来看,它确实能同时满足前述两个方面的应用要求。Cell处理芯片可在4GHz频率下工作,其宣称的峰值浮点运算速度为256GFLOPS,可惜这只是单精度且不符合IEEE 754标准的浮点运算(如果针对游戏应用,这是合适的,因为速度比精度更重要)。Cell同时也支持完全符合IEEE 754标准的双精度浮点运算,但速度约是单精度的十分之一,估计为25-30GFLOPS。即使这个速度,也达到了当前主流高性能微处理芯片的5-10倍。因此,基于Cell处理芯片,在一个机柜里就可以实现足以跻身TOP500排行榜前列的超级计算机。
Cell采用了与主流高性能处理芯片全然不同的片内分布式体系结构(图2)。总体上看,它由一个相对比较简单的支持同时双线程并行的双发射64位PowerPC内核(称为PPE)和8个SIMD型向量协处理器(称为SPE)构成。片内有一个高带宽的环状高速总线(EIB)把PPE、SPE及RAMBUS内存接口控制器(MIC)、FlexI/O外部总线接口控制器(BIC)连接起来。PPE主要负责控制并执行操作系统,SPE完成主要的计算任务。SPE的SIMD执行部件是128位宽的,从而可在一个时钟周期里完成4个32位的定点或浮点乘加运算。SPE里内置了256KB的SRAM作为局部存储器(它的编址独立于片外的DRAM)。不采用自动调配数据的cache机制,使SPE更像一个向量处理器,从而也更多地依赖程序员或编译器的作用来发挥性能。同样,SPE里没有动态分支预测机制。所以,SPE配备了较大的寄存器堆(128个128位的寄存器)来尽量减少对存储器的访问,并尽可能地展开循环、减少分支。
Cell虽然实现了很高的性能,但也存在一些问题。例如,如果要往游戏或多媒体以外的应用发展,编程模型和软件开发问题还没有很好解决。又如,前面提到的芯片设计的复杂度和功耗问题也没有很好地解决。Cell的第一款芯片用 90纳米SOI工艺全定制实现,8层铜连线,芯片面积为221mm2,含2.34亿晶体管。这个复杂度已经超过了Intel的安腾二代,如果想用在家用游戏机里,成本是个大问题(据说Sony计划在PS3里采用只包括4个SPE的Cell版本)。Cell芯片采用42.5mm42.5mm尺寸的BGA封装,共1236个接触点,其中506个是信号。据估计在1.1V供电4GHz运行时,芯片功耗约50-80瓦(据说1.4V供电时可运行到5.6GHz,功耗180瓦)。 (4) IBM和德克萨斯州立大学联合开发中的TRIPS(Tera-Op Reliable Intelligently adaptive processing System)芯片是设计具有每秒万亿次运算能力芯片的第一个尝试[28,29]。TRIPS结构采用粗粒度的处理器内核,以便在有较高指令级并行性的单线程应用上实现更高的性能;并在同一芯片上重复设置许多这样的内核,便于扩充。片上还集成了存储部件和通信部件,并允许软件调度程序对它们灵活配置,以获得最佳性能。图3给出了TRIPS结构的一个大略框图。左边是其总体框图,包括八个网格处理器(黑色大方块)、若干可配置的存储体(灰色小方块)和一些连接片外存储器(DRAM阵列)的接口通道(黑点)。右边是网格处理器的具体结构,其中圆点是处理单元,外围的一圈长方块里有共享的寄存器堆、高速缓存、分支预测器等。
TRIPS的目标是在35纳米的工艺条件下,达到5TFLOPS的峰值浮点运算性能。TRIPS同时还兼顾桌面应用和服务器应用,希望到2010年,能把桌面PC、高性能计算、数字信号处理、服务器应用等都统一到同一类型的CPU芯片上。
(5) AMD正在逐步公布其技术路线图,尤其是四核处理器的计算技术。该四核处理器采用65纳米技术,其具有2MB三级缓存、512KB二级缓存和64KB一级缓存。该设计的四个核共享硅底板和隔热层,与现有的Socket F(1207)兼容。 这样,用户就能轻松实现性能升级,而无须担心图像管理问题。该技术突出之处在于65纳米SOI处理技术、经过改进的Power Now!性能、集成的存储器控制器和直接互连架构。AMD四核处理器技术还将包括:改进的分支预测、乱序Load执行、双128位SSE数据流、位级控制扩展和SSE扩展。另外,还包括8GB/秒的HyperTransport连接、改进的Crossbar、DDR2支持技术。
(6) Intel开发万亿级研究芯片。2006年9月26日,在Intel开发者论坛中,Intel公司的首席技术官Justin Rattner首次介绍了Intel的“万亿级”研究原型芯片及其三个主要的技术突破。“万亿级”研究原型芯片是世界上第一个达到每秒1万亿次浮点运算(one trillion floating-point operations-per-second,TeraFLOP)的处理器,包括80个处理器核,频率为3.1 GHz。该研究原型芯片综合了Intel公司近来在硅光子学方面的技术突破,达到了万亿次级计算操作的三个主要要求:即TeraOPS的性能、每秒万亿字节的访存带宽以及每秒万亿比特的I/O速度。尽管这些技术的商业应用可能在未来数年才能实现,不过这毕竟是在计算机和服务器中进行万亿次级操作方面跨出的激动人心的第一步。第一个创新点是:与其他现有芯片的晶体管排列方式不同,“万亿级”芯片包括了80个瓦片(tile),排成8×10的行列结构。每一个瓦片都包括一个带简单指令设置的小型核心,用于处理浮点数据,但是与Intel的结构不兼容。第二个创新点是:有一个20兆字节的SRAM内存芯片,其被重叠绑定在处理器模上。与处理器模的叠放使数百个芯片互连成为可能,并且可在内存和核心之间提供超过每秒万亿字节的带宽。第三个创新点是采用混合硅激光芯片,该技术可以形成每秒万亿比特的光学通路。
·IT产品报价大全 |
|
|
|
|
[第一页] [上一页] 1 2 3 4 [下一页] [最后一页]
|
|
相关文章 |
|
|
|