CN101470691A

CN101470691A - 共享公共高速缓存的异构处理器

Info

Publication number: CN101470691A
Application number: CNA2008101863671A
Authority: CN
Inventors: F·哈迪; M·卡波特; J·贝克; M·罗森布卢特
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2004-11-19
Filing date: 2005-11-18
Publication date: 2009-07-01
Anticipated expiration: 2025-11-18
Also published as: US8156285B2; US7577792B2; US20060112226A1; US11016895B2; US20060112227A1; US20120215984A1; US20100011167A1; US20170097889A1; CN1783033A; US20130275681A1; US20150081976A1; US20170097888A1; US8402222B2; US9235550B2; CN1783033B; US10339061B2; US20190114261A1; DE112005002364T5; US20160188466A1; WO2006055477A1

Abstract

公开了一种提供异构处理器内核和共享高速缓存的多内核处理器，所述处理器包括包含异构处理器内核的处理器内核；以及连接到所述处理器内核并由所述处理器内核共享的高速缓存；其中处理器内核以及高速缓存集成在单个集成片上。

Description

共享公共高速缓存的异构处理器

本申请是下列申请的分案申请，原申请的申请日为2005年11月18日、发明名称为“共享公共高速缓存的异构处理器”，申请号为200510023015.0。

技术领域

本发明涉及一种处理器，特别是涉及一种共享公共高速缓存的异构处理器。

背景技术

现代的通用处理器通常通过一个或多个高速缓存(例如，L1和L2高速缓存)的分层结构来访问主存储器(典型地作为动态随机存取存储器，或“DRAM”执行)。相对于主存储器，高速缓存(典型地基于静态随机存取存储器，或“SRAM”)可以更快地返回数据，但是使用更多的区域和功率。通过通用处理器访问的存储器通常显示较高的时间和空间局部性。高速缓存以比所需要的更大的块从主存储器中获取数据(空间局部性)，并且即使在处理器已经使用了该数据之后还保持该数据一段时间(时间局部性)，如此来利用该局部性。这种行为通常允许要求高速缓存快速地服务，而不是DRAM较慢的服务。高速缓存通常比主存储器能够满足更高的读/写负载(用于较高的吞吐量)，以至于上述的访问不太可能排队以及减缓当前的访问。

像网络和图形那样的计算工作量通常能更好地在专门为给定工作量而设计的专用处理器上执行。专用处理器的例子包括网络处理器和图形加速器。通常这些专用处理器位于通用处理器的高速缓存层次结构的外面，通常在外围部件互连(PCI)或加速图形端口(AGP)上。

由专用处理器访问的存储器因此只包括主存储器，而不包括通用处理器的高速缓存。在通用处理器和专用处理器之间移动数据通常需要主存储器写入以及主存储器读取，因此该传送可以仅仅以DRAM的速度进行。

发明内容

按照本发明实施例的第一方面，提供一种处理器，包括：包含异构处理器内核的处理器内核；以及连接到所述处理器内核并由所述处理器内核共享的高速缓存；其中处理器内核以及高速缓存集成在单个集成片上。

其中异构处理器内核包括专用处理器内核。

其中专用处理器内核包括具有指令集的网络处理器单元内核，该指令集不包括用于浮点运算的指令。

其中专用处理器内核包括图形引擎内核。

其中异构处理器内核包括中央处理单元内核。

其中异构处理器内核包括网络处理器单元内核和中央处理单元内核。

其中异构处理器内核包括中央处理单元内核和图形引擎内核。

其中高速缓存包括多端口高速缓存。

其中处理器内核包括一个或多个第一类型的处理器内核以及一个或多个第二类型的处理器内核，而多端口高速缓存包括至少一个支持由一个或多个第一类型的处理器内核生成的事务的端口，以及至少一个支持由一个或多个第二类型的处理器内核生成的事务的端口。

其中所述端口被配置为根据端口所支持的各个处理器内核类型而操作。

其中所述端口包括根据各个处理器内核类型的命令类型、大小和对准中的一个或多个来配置的端口。

其中异构处理器内核包括不同类型的处理器内核，并且多端口高速缓存为每个不同类型的处理器内核提供不同的端口类型。

按照本发明实施例第一方面的处理器，进一步包括将处理器内核耦合到高速缓存的互连，所述互连包括互连总线。

其中处理器内核包括翻译逻辑，用于将每个处理器内核的专用事务翻译为与内核无关的事务。

其中异构处理器内核包括不同类型的处理器内核，并且高速缓存包括处理由不同类型的处理器内核所生成的事务的逻辑。

其中异构处理器内核使用允许不同最大传送容量的命令，其中不同最大传送容量的其中之一允许跨越多个高速缓存线的传送。

其中至少一个异构处理器内核是可操作的，以便为扩展的专用修改锁定一部分高速缓存。

其中每个处理器内核能够使用共享高速缓存，以便将数据传递到另一个处理器内核。

附图说明

图1A-1C示出了具有基于总线的共享高速缓存结构的示例异构多内核处理器。

图2示出了具有多个端口的共享高速缓存结构的示例异构多内核处理器。

图3示出了具有基于开关的共享高速缓存结构的示例异构多内核处理器。

图4示出了通过桥连接到多内核通用处理器的主存储器上的示例异构多内核处理器(具有一个共享高速缓存)。

图5示出了应用了诸如图1-4中所说明的那些异构多内核处理系统的示例网络应用。

具体实施方式

图1A-1C示出了多处理器系统10，其包括通过存储器总线16耦合到主存储器14的多处理器12。该多处理器12包括高速缓存(“共享高速缓存”)18和多个处理器“内核”(全体的，处理器内核20)，这些处理器内核连接到高速缓存18并且共享该高速缓存18。该图中的共享高速缓存18旨在表示包括高速缓存存储器和相关的控制逻辑的单元。高速缓存控制逻辑包括用于映射存储器地址(“超高速缓存标记”)的逻辑，所述存储器地址当前是用与它们相关的超高速缓存线来缓存的。

处理器内核20包括异构内核，也就是说，结构不同的处理器内核(或者处理器内核的类型)。例如，处理器内核20可以包括一个或多个专用处理器内核和/或至少一个中央处理单元(CPU)内核。

专用处理器内核可以包括，例如，至少一个网络处理器单元(NPU)内核和/或图形引擎内核。在图解的实施例中，处理器内核20包括多个NPU内核，如所示的NPU内核22a、22b、...、22k，以及CPU内核24。NPU内核22可以被编程为精简指令集计算(RISC)内核，该内核的特征是硬件支持多线程操作。NPU内核22可能没有通常能在其它处理器中发现的指令，诸如整数乘法或除法，或浮点运算，由于这些操作在处理网络分组中发生相对较少。CPU内核24可以基于通用处理器的任何类型的结构，例如，Intel

Architecture处理器(“IA处理器”)，比如Intel

Xeon^TM处理器，或IntelPentium

4处理器或Xscale^TM处理器。

虽然没有示出，可以理解的是，CPU内核24也可以使用专用高速缓存(例如，该专用高速缓存可以是L1高速缓存，而共享高速缓存可以是L2高速缓存)。

如图所示，处理器内核20通过某类型的互连机制，例如，共享总线26，连接到共享高速缓存18。高速缓存18(如果数据在那里)可以快速地为访问CPU内核24和NPU内核22而提供服务。该访问被称为高速缓存命中，意味着数据返回快很多。高速缓存命中也减少对主存储器14访问的次数，提高了其它访问(高速缓存未命中或从I/O代理程序访问)被服务的速率。由两种类型处理器内核22、24使用的数据可以从共享高速缓存18快速地访问，而不需要DRAM或甚至高速缓存到高速缓存的传递。数据可以通过高速缓存的读取和写入从一个处理器内核(上述的NPU内核22)传送到另一个处理器内核(上述的CPU内核24)，使该处理器内核能够以更快的速率进行而不需要加载主存储器14。

在两种类型处理器内核之间的数据传送可以以下述的方式用共享高速缓存完成。具有数据的处理器内核将数据写入到高速缓存。同一个处理器内核通知另一个处理器内核数据已经准备好(例如，通过中断或标志更新)。然后第二个处理器内核读取数据，直接从共享高速缓存18中取得数据。在处理器内核之间传送的数据不需要写入到主存储器14中或者从主存储器14中读出。因此，两种类型的处理器内核可以用这种方式以共享高速缓存的数据速率传送数据，该速率通常比主存储器允许的速率高，并且不加载主存储器以避免DRAM的读取和写入。

NPU内核22与CPU内核24的紧密耦合允许这些内核以粒度更细的方式对具体的网络算法(例如，入侵检测、防火墙、安全插口层(SSL)加速度)进行合作。共享高速缓存允许相关的工作(和状态)从一个内核迁移到另一个而不使用DRAM。

虽然没有示出，将被理解的是，一个或多个NPU内核22可以耦合到其它资源，特别是，到外部网络设备的接口(或多个接口)。该外部媒体设备可以是能够发送和/或接收网络通信量数据的任何媒体接口，诸如组帧/媒体访问控制(MAC)设备，例如，用于连接到10/100BaseT以太网、千兆位以太网、异步传输模式(ATM)或其它类型的网络，或者用于连接到开关结构的接口。例如，在一种方案中，一个网络设备可以是将数据发送到处理器12或者从处理器12接收数据的以太网MAC设备(连接到以太网)，而第二个网络设备可以是支持与开关结构通信的开关结构接口。其它NPU资源可以包括，例如，控制状态寄存器(CSR)，到其它外部存储器的接口，诸如分组缓冲器和控制存储器，以及暂时存储器。

与传统的系统相反，其中专用处理器在单独的硅片上，并且位于通用处理器(例如，主机)系统的I/O连接器上，多处理器12的内核集成在与CPU内核24相同的片上，以及可能与高速缓存18相同的片上。这样的集成允许异构内核能够更有机会有效地共享数据，正如它们位于公共高速缓存之后一样。因此，在一个实施例中，如图中所说明的，处理器内核、高速缓存以及互连位于单个芯片上。可替换地，处理器内核20、高速缓存18以及互连26可以被实现为多芯片包装中分离的芯片。在另一个可选的实施例中，处理器内核20、高速缓存18以及互连26可以被实现为芯片与板子设计的组合。

根据示例实施例，图1B-1C示出了更加详细的基于总线的高速缓存结构。图1B中，每个NPU内核22包括NPU内核翻译逻辑(NPU-TL)，而CPU内核24包括CPU内核翻译逻辑(CPU-TL)32。翻译逻辑30、32将专用内核存储器事务(诸如读和写)翻译成与内核无关的存储器事务，与内核无关的存储器事务将在总线26上出现并且由共享高速缓存18所理解，而不用考虑它们开始时的内核类型。图1C中，将大量或全部处理专用内核事务的特征的负担转移给共享高速缓存18。因此，共享高速缓存18包括共享高速缓存翻译逻辑(SC-TL)40，用于以适当的方式支持对来自不同处理器内核类型的请求(并且，更特别地，命令集特征)的处理。共享高速缓存翻译逻辑40是支持每个处理器内核类型所需的逻辑超集。共享高速缓存翻译逻辑40可以进一步包括总线仲裁逻辑，用于优先化处理器内核类型的总线访问。即使在后面的例子中(图1C中所示)，可能存在一些问题需要与内核本身更紧密得一致。例如，在CPU应用中，高速缓存典型地使用地址来确定存储器类型，但是在NPU应用中，高速缓存可以通过NPU命令来指示有关存储器的类型。同样，处理器内核可以请求用内核识别器支持编码事务。

如上所述，也可能是其它的内核到高速缓存的互连机制。例如，如图2中所示，高速缓存18可以是多端口高速缓存，每个内核具有一个端口，或者每种处理器内核类型具有单个端口。因此，在NPU22和CPU24内核的情况下，如图所示，NPU内核22a、22b、...、22k连接到第一端口类型的端口50(如所示的“类型A”)，而CPU内核24使用第二端口类型的端口52(如所示的“类型B”)。虽然端口50示为共享端口，应当理解的是，每个NPU内核能够通过单独的信道连接到各自的端口50。以这种方法，生成访问请求的内核类型可以通过接收请求的端口而得知。在诸如这种多端口结构中，每种类型的端口(也就是说，支持不同处理器内核类型的端口)可以针对通信量模式和那些不同处理器内核类型的其它特性或特征(诸如命令、大小、对准等等)来进行“调整”。例如，NPU内核是带宽敏感的，而CPU内核是等待时间敏感的。对NPU请求由高速缓存返回的数据在返回时被批处理，以便对于固定的开销优化吞吐量。该调整可以考虑由专用内核类型执行的事务类型。某些类型的内核可以主要执行读取(例如，图形引擎)，而其它内核类型执行更加均衡混合的读取和写入。

图3示出了另一种互连方法。用这种方法，每个内核通过开关60(例如，所示的纵横开关)连接到共享高速缓存18。可以用上述的与基于总线的方法相关的任何一种方法执行翻译逻辑。

虽然没有示出，各个内核可以包括用于支持中断或标志的逻辑，用于内核到内核的发信号。当一个内核(诸如NPU内核22)已经将工作(例如，以分组数据、指针、状态等等的形式)传送到共享高速缓存18并且需要向第二内核发信号(诸如CPU内核24)时，可以使用内核间的发信号，其中所述工作可以由第二内核操作。

如图4中所示，处理器12可以作为高速缓存中的单元参与利用一个或多个其它处理器/高速缓存组合来一致访问主存储器。转向图4，系统70包括现在通过桥74连接到主存储器72的处理器12。主存储器72由通用处理器(GPP)76共享，该主存储器72也连接到桥74。GPP76包括位于公共(或共享)高速缓存80之后的一个或多个CPU内核78。高速缓存和桥结构以一种方式操作，该方式确保所有的高速缓存保持相干。

桥74可以被实施为允许处理器12的内核以及GPP76的内核通过用它们自己本地的存取协议，来引用主存储器以及其它处理器的共享高速缓存。共享高速缓存机构使处理器12的异构处理器内核能够以它们本地的操作模式访问共享高速缓存18，但不存在利用不同的协议访问共享高速缓存18的其它处理器类型(诸如GPP76的CPU内核78)所产生的影响。在根据基于IXA的NPU内核22和基于IA的CPU内核78的一个实施例中，NPU内核22可以通过IXA协议(诸如命令推/拉总线协议)访问共享高速缓存18，并且将该共享高速缓存视为另一个存储器资源，而一个CPU内核78通过桥74对共享高速缓存18从外部的访问可以利用IA高速缓存访问以及相干机制而进行。如上所述，处理器12的异构内核能够使用它们本地的(并且不同的)访问协议来完全访问共享高速缓存18。可以采用高速缓存到高速缓存的传递将数据从一个处理器的内核传送到另一个处理器的内核。这可以用比可选方案更少的等待时间和更高的带宽来完成，并且不加载主存储器，在可选方案中由一个处理器写主存储器而由其它处理器读主存储器。

传输的例子如下所述。CPU内核78将读取请求发送到共享高速缓存80，该CPU内核78检测高速缓存未命中，并且将读取请求传送到桥74。桥74将读取请求发送到共享高速缓存18，其包含所请求数据的副本。共享高速缓存18通过桥74将所请求的数据返回到共享高速缓存80。在一个替代方案中，桥74可以将读取请求发送到共享高速缓存18和主存储器72，并且根据来自共享高速缓存18的应答来确定使用哪个数据副本。

共享高速缓存机制可以支持不同的高速缓存策略和特征，诸如高速缓存线对准、可缓存性以及高速缓存线锁定。高速缓存线对准将对多于一个高速缓存线有影响的存储器事务转换成多存储器访问，其每一个都适合单个高速缓存线。可以根据指令类型(例如，指定非高速缓存事务的指令)和/或根据存储器的类型，例如，存储器类型范围寄存器(MTTR)中规定的类型，来确定存储器传输中所涉及的数据可缓存性。以这种特征，至少一个异构处理器内核(例如NPU内核)能够生成对主存储器14的读取和写入，以便在高速缓存未命中时旁路共享高速缓存16。高速缓存线锁定是指由内核锁定个别高速缓存线。利用高速缓存线锁定的特征，至少一个异构处理器内核可以锁定作为专用存储器的一部分共享高速缓存线(例如，单个高速缓存线、多个高速缓存线，或者所有高速缓存线)，以便可能扩展已经对内核可用的局部资源(诸如暂时存储器)，或者用于扩展的专用修改。通过锁定一个、一些或所有高速缓存线，内核可以利用锁定的存储器空间作为扩展的局部存储器，而内核继续对共享高速缓存的任意剩余部分进行相干操作。当只有一个异构处理器内核主动使用共享高速缓存时，该处理器内核通过有效地使用芯片区域而收到整个共享高速缓存的所有权益，从而最大化性能。可以使用与原子操作锁定相同的方式，例如使用高速缓存线锁定状态域，来实施该高速缓存的锁定。

一个或多个这些(或者其它的)技术的应用至少部分由内核类型的选择来驱动。例如，一些专用处理器，诸如网络处理器，包括从存储器读取和向存储器写入，程序员知道该存储器具有较差的时间和空间局部性。对于由通用处理器访问的那些也同样如此。所以，为了提高这些访问的效率，希望提供不会导致高速缓存活动的存储器读和写命令。换句话说，数据没有位于高速缓存中，并且不清除高速缓存中已有的其它数据。程序员知道不会命中高速缓存的访问可以绕过该高速缓存，从而增加其它访问的高速缓存命中率。并且，不同的内核类型可以支持不同的数据取出/传送容量，其中一些可能不是高速缓存线对准的。CPU内核(诸如IA内核)典型地生成适合单个高速缓存线的请求，而NPU(诸如IXA网络处理器)有能力生成任意大小的请求，该请求可能跨越多个高速缓存线。

这里描述的共享高速缓存结构允许在同一个高速缓存之后设置两种不同类型的处理器。因为设计趋向于多内核处理器，该结构可供性能要求较高的负载使用，比如图形、流媒体和网络的工作。在网络应用中，例如，可以使分组处理和通用处理相互靠近，用于最佳化网络处理器的分组处理元件与通用处理器的控制和/或内容处理之间的高吞吐量通信。例如，如图5中所示，分布式处理平台100包括通过底板106而互连的刀片(blade)102a-102m和线卡104a-104n的集合，底板例如是开关结构(如图所示)。开关结构例如可以遵守公共开关接口(CSIX)或其它结构的技术，诸如超级传送(HyperTranport)，无限波段(Infiniband)，外围部件互连(PCI)，Packet-Over-SONET，RapidIO，和/或用于ATM的通用测试和操作PHY接口(UTOPIA)。

线卡是线路结束和I/O处理出现的地方。它可以包括数据层面中的处理(分组处理)，以及控制层面处理，用于为数据层面中的执行对策略管理进行操作。刀片102a-102m可以包括：用于操作控制层面功能不分布到线卡的控制刀片；用于执行系统管理功能的控制刀片，所述系统管理功能诸如驱动器计数、路由表管理、全局表管理、网络地址翻译以及向控制刀片发送消息；应用和服务刀片；以及内容处理。在网络基础结构中，内容处理可以用于处理标准线卡应用能力之外密集的基于内容的处理，包括声音处理、要求高性能的加密卸载和入侵检测。

至少一个线卡是专用线卡，例如线卡104a，该线卡基于异构多内核系统10(或系统70)的结构而实施，以便将CPU内核的处理信息更加紧密地耦合到NPU内核更专用的性能。线卡104a包括处理网络连接上通信的媒体接口(MI)108。每个媒体接口108连接到系统10(或70)。在该实施例中，一个系统用作入口处理器而其它系统用作出口处理器，虽然也可以使用单个系统。每个系统10(或70)通过开关结构接口(SFI)110耦合到开关结构106。可替换地或附加地，基于多处理器系统10、70的其它应用程序可以通过分布式处理平台100而工作。根据刀片和线卡的配置，分布式处理平台100可以实现开关设备(例如，开关或路由器)、服务器、数据中心或其它类型的装备。

其它的实施例在下述权利要求的范围中。

Claims

1、一种处理器，包括：

包含异构处理器内核的处理器内核；以及

连接到所述处理器内核并由所述处理器内核共享的高速缓存；

其中处理器内核以及高速缓存集成在单个集成片上。

2、权利要求1的处理器，其中异构处理器内核包括专用处理器内核。

3、权利要求2的处理器，其中专用处理器内核包括具有指令集的网络处理器单元内核，该指令集不包括用于浮点运算的指令。

4、权利要求2的处理器，其中专用处理器内核包括图形引擎内核。

5、权利要求1的处理器，其中异构处理器内核包括中央处理单元内核。

6、权利要求1的处理器，其中异构处理器内核包括网络处理器单元内核和中央处理单元内核。

7、权利要求1的处理器，其中异构处理器内核包括中央处理单元内核和图形引擎内核。

8、权利要求1的处理器，其中高速缓存包括多端口高速缓存。

9、权利要求8的处理器，其中处理器内核包括一个或多个第一类型的处理器内核以及一个或多个第二类型的处理器内核，而多端口高速缓存包括至少一个支持由一个或多个第一类型的处理器内核生成的事务的端口，以及至少一个支持由一个或多个第二类型的处理器内核生成的事务的端口。

10、权利要求9的处理器，其中所述端口被配置为根据端口所支持的各个处理器内核类型而操作。

11、权利要求10的处理器，其中所述端口包括根据各个处理器内核类型的命令类型、大小和对准中的一个或多个来配置的端口。

12、权利要求10的处理器，其中异构处理器内核包括不同类型的处理器内核，并且多端口高速缓存为每个不同类型的处理器内核提供不同的端口类型。

13、权利要求1的处理器，进一步包括将处理器内核耦合到高速缓存的互连，所述互连包括互连总线。

14、权利要求1的处理器，其中处理器内核包括翻译逻辑，用于将每个处理器内核的专用事务翻译为与内核无关的事务。

15、权利要求1的处理器，其中异构处理器内核包括不同类型的处理器内核，并且高速缓存包括处理由不同类型的处理器内核所生成的事务的逻辑。

16、权利要求1的处理器，其中异构处理器内核使用允许不同最大传送容量的命令，其中不同最大传送容量的其中之一允许跨越多个高速缓存线的传送。

17、权利要求1的处理器，其中至少一个异构处理器内核是可操作的，以便为扩展的专用修改锁定一部分高速缓存。

18、权利要求1的处理器，其中每个处理器内核能够使用共享高速缓存，以便将数据传递到另一个处理器内核。