什么是多核处理器【多核处理器的未来路径】

来源:职场范文网 时间:2019-03-15 04:18:05

  尽管CMP(单芯片多处理器,俗称多核)一度仿佛让人看到了处理器无限美好的未来,但通用处理器的内核数并未如很多人预想的那样快速增加。而未来很多核(many core)处理器和有限多核(Multicore)处理器将并行发展,以共同满足日益分化和复杂的计算环境的需求。
  
  很多核和有限多核
  
  尽管CMP一度仿佛让人看到了处理器无限美好的未来,但通用处理器的内核数并未如很多人预想的那样快速增加。
  日益分化和复杂的计算环境对处理器的要求差别是如此之大,以致于仅仅通过一种结构的产品已经越来越难以满足不同细分市场的需求: 目前主流电脑的应用领域对并行计算能力的需求并不需要数十甚至上百个内核来实现,更看重每个内核的单线程性能(尽管可能每个内核也支持多个线程),而要在有限的空间内容纳上百个内核必然要求核的设计简单,因而单线程能力相对有限,在执行并行度不高的任务时不能有效发挥其架构优势; 另一方面,在流计算和SoC领域,处理器执行的往往是一些并行度很高、重复性较强的任务,这时候,结构相对简单、数量巨大的特殊功能单元(SFU,Special Function Unit)则可以有效地解决工作效率和功耗问题。
  于是可以得出这样的结论: 未来主流的计算市场(台式机、服务器和笔记本电脑)需要的是有限多核架构,更加强调核的单线程性能,而很多核架构(数十甚至上百个内核)则将应用于流计算、HPC和SoC等特殊计算环境。
  这也将成为未来英特尔处理器的一个分水岭,于是就有了所谓“大核”和“小核”处理器之分。前者以目前的酷睿架构为发展基准,追求更好的单线程性能; 后者则以凌动(Atom)内核为基础,在设计上强调更高的并行度和更低的功耗。
  在指令执行方面,“大核”采用的是乱序执行(out-of-order execution)模式,而“小核”则采用顺序执行(In-order execution)模式。与顺序执行相对应的乱序执行,是指CPU允许将多条指令不按程序规定的顺序分开发送给各相应电路单元处理的技术。
  与顺序执行技术相比,乱序执行能够更有效地提高IPC,即提高每个时钟频率能够执行的指令数量。一般来说在同样一个主频周期当中,无序核执行指令数量要比有序核执行的数量更多,因而乱序执行架构的处理器单核的计算能力比较强。但乱序执行模式的处理器在电路设计上比较复杂,核的功耗也比较高,在手机和某些嵌入式应用需要绝对低功耗的场合较难达到其设计要求,因此凌动处理器很自然地就采用了顺序执行模式。
  未来,很多核处理器和有限多核处理器将并行发展,以共同满足日益分化和复杂的计算环境的需求。而评价一款处理器好坏的标准也会更加复杂,可能既不是通过主频甚至也不是IPC,而要根据其应用特性来具体判断。
  
  Nehalem: 迎接“模块化”处理器时代的到来
  
  作为“大核”的代表,酷睿架构在2008年将迎来换代产品―Nehalem。
  其实如果单单从处理器内核基本结构角度来讲,Nehalem与酷睿的差别并不大,两者最大的差异在于引入了QPI(Quickpath Interface)互联架构。正是这种点对点互联总线架构的出现,才彻底改变了多年以来CPU与高速外围部件之间存在的带宽和延迟障碍,也给多核处理器的发展注入了新的活力。
  新一代的Nehalem架构处理器由内核和核外部分构成,内核实际上就是一个基础的计算引擎,核外则是支持这种基础计算引擎的各种逻辑元件,包括集成的内存控制器、QPI,还有相应的I/O部分、电源和时钟。而正是由于采用了QPI架构,Nehalem处理器核外部分得以采用灵活的模块化设计,并可以根据不同的市场需求灵活配置各个模块,一旦有产品需求,就可以把这些模块灵活地搭配组合设计。
  尽管这样的模块化设计并不会进一步缩小处理器的尺寸,但能够进一步加快产品推向市场的时间,因为模块化的设计能够更快地做出变化,把市场所需要的功能,或者设计方案以最快的速度融入到处理器架构当中,推出适合市场需求的新产品。
  今年第四季度,英特尔将首先推出面向主流服务器/工作站和高端桌面机市场的Nehalem处理器,研发代码分别为Nehalem-EP和Bloomfield,每个CPU将最高支持4C/8T(即4核/8线程),最高8MB共享三级缓存,含有2个QPI链路; 明年将后续推出面向移动和主流桌面客户端的版本,也具备4C/8T和共享三级缓存等特性,其中包括在低端差异化市场推出的内置北桥功能的Lynnfield和进一步集成显示引擎的Havendale处理器; 之后是面向高端MP(多路服务器)市场的Nehalem-EX处理器,具备8C/16T,每个CPU含有4个QPI链路。
  根据英特尔内部的测试,在双路的情况下,集成内存控制器设计的Nehalem-EP比目前采用1600MHz FSB的Harpertown至强的数据带宽将提高4倍,其性能增益值得期待。
  关键的QPI和全互联
  
  是QPI的特点决定了处理器各部件的模块化趋势。而其对处理器性能和设计灵活性方面的帮助更是潜力巨大。从设计思路上来看,QPI的目的是试图为处理器内核和外部高速部件提供充足的带宽,有效解决CPU与GPU、网络的高速连接和内存延迟问题。
  传统上芯片组的北桥主要连接GPU、网络、内存等高速部件,南桥则连接USB、键盘、鼠标等低速I/O部件。QPI的出现使得北桥的功能逐渐分化,芯片组逐渐弱化甚至消失,主板设计进一步简单化,计算机也将逐步走向“单芯片”。
  尽管这将是一个渐进的过程,但其趋势已经隐约可见。不过需要说明的是,QPI也是处于不断发展成熟的过程中,对于逐渐增多的处理器内核,实现全互联即所有内核之间均有QPI链路直接连接(另外每个内核还带有一个用于I/O的QPI链路)将是必然的。从目前英特尔公布的第一代Nehalem架构来看,还没有实现核间的全互联,但随着QPI架构的逐渐成熟,这一天似乎并不遥远。
  
  效能依然是关注重点
  
  根据假定的核数量、频率和 SSE/AVX等指令集的发展推断,明年单处理器的性能就将达到1GFlops,2011年超过100GFlops,2012年将有望冲击300GFlops……
  对于处理器性能的发展,英特尔高级院士兼数字企业部首席技术官庞思立表示: “英特尔未来仍将快速提高处理器单线程的处理性能,并通过SSE指令集、线程和核心数量提升处理器的并行处理能力。”
  这似乎没有悬念,但很自然地想到,功耗问题将如何解决?
  功耗控制可以细分为活跃、空闲、休眠和待机等不同状态。短期来看,活跃能耗已经基本没有下降的空间,除了采用更简单高效的内核设计外,性能的持续增长似乎已经榨干了有限的能耗降低空间,未来处理器的功耗主要通过控制其低工作负荷或休眠状态下的能耗为主,而多核并行处理时的能耗控制将成为重点关注的一个方面。
  如何将晶体管有效地布置到一定的半导体晶圆上,人类确实需要足够的智慧。

分类

关闭