自2006年Core架构发布以来,Intel处理器已经完全摆脱了奔腾4时代Netburst架构因过长流水线所带来的高主频低效能的状态,取而代之的是注重每瓦效能的环保理念。为此,Core架构处理器不但在性能上相比Netburst架构有了质的飞跃,更受到了市场消费者的热烈欢迎。Intel也迅速开启了酷睿微架构时代。
随着tick tock(工艺年-构架年)的推进,Core架构在经历了2年市场风光之后也将迎来他的继任者。而这全新一代的性能王者架构也吸引了无数硬件爱好者的眼光,人们不断的猜测着这位继任者的面貌,也在透过各大新闻媒体的焦点,慢慢的掀开全新一代Nehalem架构的神秘面纱。
2008年11月18日,Intel正式发布了采用全新Nehalem架构处理器酷睿i7家族。随后针对Nehalem架构处理器的全方位测试也不断的对外公布。人们惊讶的发现,采用Nehalem架构的酷睿i7家族在性能方面不仅超越了其前代Core架构,更将竞争对手远远的甩在了身后。一瞬间酷睿i7变成为了追求极致性能的骨灰级玩家和大规模科学运算用户的首选产品。
Nehalem架构酷睿i7家族虽然性能强大,但是其过高的价格让广大的普通消费者望而却步。在发布近一年的时间里,LGA1366平台的市场占有率不足Intel整体市场的百分之一。其实这样的数字并不感到惊讶,毕竟LGA1366平台仅仅是面向极限性能用户的产品。当然Nehalem架构并非仅面向高端人群,在时隔10个月之后,面向大众消费者的LGA1156平台已经是箭在弦上,其不仅保留了LGA1366平台的极致性能,还将整体成本以及功耗降至了较低的水平上,这就是同为Nehalem的酷睿i5平台。
9月8日,Intel将对外正式发布LGA1156架构的酷睿i5/i7平台,与LGA1366平台相比,LGA1156平台进行了一些更改。除了表面上我们能够看到的接口不同之外,在其他方面也有了很大的变化,首先是取消了原三通道内存设计,改为了双通道内存模式,其QPI总线也改变成为了DMI总线,主板方面也有了质的变化。接下来我们就来详细的了解,同时也算作是重温一下即将发布的酷睿i5都给我们带来了哪些先进的技术。
与原Core架构四核系列不同的是,Nehalem架构并没有将两颗双核处理器Die封装在一起组成四核产品,而是采用了原生四核心设计。引人注意的是,Nehalem架构还将三级缓存引入其中。其L1缓存的设计与酷睿微架构相同,而L2缓存则采用超低延迟的设计,不过容量大大降低,每个内核仅有256KB,新加入的L3缓存采用共享式设计。即将发布的LGA1156接口酷睿i7/i5处理器与目前市场中的LGA1366酷睿i7系列相同,均配备了8MB的三级缓存。
上图为Nehalem架构缓存结构图,从图中我们可以了解到其三级缓存由四颗核心完全共享,它几乎可以处理所有的一致性流量问题,同时不需要单独打扰每颗独立核心自己的L1、L2缓存。如果L3缓存没有命中,那么我们需要访问的数据也不在L1或者L2中,此时也不需要侦听所有核心。如果L3缓存命中成功,它还可以作为侦听过滤器。
Nehalem的每个核心有64KB的L1和256KB的L2在L3缓存中保留数据,因此在总共的8MB L3中,有1MB-1.25MB的数据与前两级缓存相同。
为了提高缓存利用效率,Nehalem使用了MESIF缓存一致性协议(全称为MESIF cache coherency protocol),在它的L3缓存中的每一个缓存行里,有4bit用作核心确认,以此表明是哪一个核心在它私有的缓存里具有这个行的数据备份。如果某个核心确认位设置位0,则那颗核心就不具有该行的数据备份;如果两个以上核心的确认位都有效,设置为1,那么该缓存行就被确定为未被修改的,任何一个核心的缓存行都不能够进入更改模式;当4颗核心确认位都是0时,就不需要对其它内核做侦听,而只有1个位是有效时,则只需要侦听那1颗核心。这种仲裁机制让Nehalem的L3缓存避免了每个核心数据一致性错误,带来更多带宽。
● 核心数量按需分配 Turbo Mode技术解析
LGA1156接口酷睿i7/i5处理器从LGA1366接口处理器那里很好的继承了Turbo Mode技术(中文名为内核运行动态加速)。他的加入可以很好的帮助处理器在空闲时刻降低功耗,从而起到提高工作效率同时节能的目的。
Turbo Mode功能是一项可以充分使用处理器工作效率的技术。它能让内核运行动态加速。可以根据需要开启、关闭以及加速单个或多个内核的运行。如在一个四核的Nehalem处理器中,如果一个任务是单线程的,则可以关闭另外三个内核的运行,同时把工作的那个内核的运行主频提高,这样动态的调整可以提高系统和CPU整体的能效比率。据目前我们了解,在开启该技术后,处理器可在单线程任务是将一颗核心的主频提高至3.2GHz。想必这样高的主频运行单线程任务可以说易如反掌。
● 北桥彻底消失 DMI总线成FSB替代者
08年11月发布的LGA1366接口Nehalem处理器虽然已经引入了先进的QPI总线概念,但是在主板上用户依然可以看到北桥的身影。其对PCIe总线的控制依然由北桥方面提供。但此时的QPI总线架构与原FSB架构的产品已经发生了至的变化,其总线高达25.6GB/s的带宽已经远远超越了FSB的频率限制。但即将发布的酷睿i5系列却采用了仅为2GB/s带宽的DMI总线。这样的数据带宽与25.6GB/s的数据带宽相比简直是天壤之别。Intel为何要选用这样低的DMI总线给大众消费者呢?
由于与酷睿i5处理器架构相同,我们可以用其作为参考为您详细讲解DMI总线。在P55主板上,我们已经完全看不到北桥芯片的踪影,只剩下了一个名为PCH的芯片用来支持外接设备。原来,在P55平台中,北桥功能已经完全被整合在了CPU当中,就连最后的PCIe总线也被整合到其中。这样一来,CPU对PCIe总线和内存的控制就完全交给了自己,这也是LGA1156与LGA1366最大的不同,当然其内部通信依然是数据量惊人的QPI总线。(绿色与红色线框部分)。而PCH芯片部分(蓝色线框部分)虽然相比原来的南桥芯片功能上更为丰富,但其性质大体相同,它与CPU间同样不需要交换太多数据,因此连接总线采用DMI已足够了。所以,看似带宽降低的DMI总线实质上是彻底释放了北桥压力,换来的是更高的性能。
● SSE4.2指令集 大幅优化文本处理
在45纳米Core架构时代,Intel首次为旗下产品加入了SSE4.1指令集,他的出现令45nm工艺产品相比65nm产品的多媒体性能提升了将近70%。在Nehalem架构产品上,Intel再一次添加了新的指令集SSE4.2,换来的性能提升自然不言而喻。
SSE 4.1版本的指令集增加了47条指令,主要针对向量绘图运算、3D游戏加速、视频编码加速及协同处理的加速。英特尔方面指出,在应用SSE4指令集后,45纳米Penryn核心额外提供了2个不同的32位向量整数乘法运算支持,并且在此基础上还引入了8位无符号最小值和最大值以及16位、32位有符号和无符号的运算,能够有效地改善编译器编译效率,同时提高向量化整数和单精度运算地能力。另外,SSE4.1还改良了插入、提取、寻找、离散、跨步负载及存储等动作,保证了向量运算地专一化。
经过我们的测试,SSE4.1指令集的处理器比不具备此指令集的同档次处理器的视频编码效能提高了70%,在游戏中也有很明显的性能提升。而SSE4.2指令集则将重点放在了文本处理上。据英特尔透露,Nehalem的SSE4.2指令集中的7条指令用途各不相同,有面向CRC-32和POP Counts的,也有特别针对XML的流式指令。帕特·基辛格表示,SSE4.2指令集可以将256条指令和并在一起执行让类似XML的工作性能提升3倍!
总结:即将发布的酷睿i5处理器可以看做是Nehalem架构成熟后的产品,因为从这一代开始,北桥的作用真正的被CPU完全取代,并且延续着每瓦性能这一理念。虽然酷睿i5遗憾的取消了超线程技术,但是对于普通消费者来讲,超线程技术的缺失并不会给我们带来某些不变,反而到为消费者带来了更低的价格。综上所述,酷睿i5处理器可以看做是Nehalem架构的普及先锋。