CN100461394C

CN100461394C - 具有双向环路互连的多处理器芯片

Info

Publication number: CN100461394C
Application number: CNB2005100740581A
Authority: CN
Inventors: G·克里索斯; M·马蒂纳; S·菲利克斯
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2004-05-28
Filing date: 2005-05-30
Publication date: 2009-02-11
Anticipated expiration: 2025-05-30
Also published as: TW201015339A; TWI324735B; US20060041715A1; EP1615138A3; KR100726305B1; JP2006012133A; TW200610327A; TWI423036B; EP1615138A2; CN1702858A; KR20060046226A

Abstract

本发明的实施例总体上涉及多个部件在单个基片上的片上集成，尤其是通过双向环路互连的多个处理器的片上集成。一种半导体芯片的实施例包括多个处理器、处理器之间共享的地址空间、和耦合处理器和地址空间的双向环路互连。一种方法的实施例包括：计算在多个环路互连上的分组源和目的地之间的距离、确定在哪个互连上传输分组、然后在确定出的互连上传输分组。实施例在多处理器芯片中提供了改进的延时和带宽。示例应用包括片上多处理。

Description

具有双向环路互连的多处理器芯片

技术领域

本发明的实施例总体上涉及多个部件在单个基片上的片上集成，尤其是多个处理器的片上集成.

背景技术

半导体制造的趋势显示在单个硅片上包括越来越多的功能以便提供更好的处理。为实现这一点，已经将多个处理器集成到了单个芯片上。

Barroso在题为“Piranha：A Scalable Architecture Based onSingle-Chip Multiprocessing”(Proc.27^thAnnual Int.Symp.Computer Architecture，Jun.2000)的论文中描述了共享一个大容量高速缓冲存储器的多个中央处理单元(CPU)的片上集成。Barroso展示了在多处理器芯片中的CPU之间共享的大容量高速缓存器有益于共享存储器数据库工作负荷的性能。另参见Barroso的“Impact ofChip-Level Integration on Performance of OLTP Workloads”，6^thInt.Symp.High-Performance Computer Architecture，Jan.2000.Barroso还展示了读-脏(数据)高速缓存器操作(数据由一个CPU写入并由不同的CPU读出)支配着运行在基于单CPU芯片的系统(例如，Marvel-Alpha系统)上的工作负荷的性能。Barroso还展示了当这种高速缓存器操作的通信延迟被缩短时，将多个CPU和一个大容量共享高速缓存器放在单个基片上能够相当大地提升性能。在Barroso中，处理器和高速缓存器由一组全局总线和纵横开关相连。

但是，对纵横开关(crossbar switch)和总线所关注的问题是，由于很多潜在的远程的请求者可能会竞争一个全局资源，因而需要昂贵的仲裁逻辑。这导致长的延时(latency)以及可能导致较大的基片面积以及攻耗。

对多个处理器在单个芯片上的集成的另一个关注的问题是：芯片上晶体管和线路数量的增加.尽管晶体管的速度随着拉制门的长度降低而提高，但线路速度并不成比例地增加。长线路通常并不和晶体管门速度成比例。结果是，线路延迟和时钟时滞变成了在0.10微米及以下技术中实现高时钟速率的支配因素。

一种常见的解决方案是将全局时钟分成同步一个或多个相邻设备的局部时钟，称为补片(patch)。但是，这也成为了一个关注问题，因为对经过时钟补片的信号引入了更大的时钟时滞，这样必须将增大的时钟时滞同步到目标时钟补片。因此，增加了对周期时间的压力以缩短在时钟补片之间通过的距离以及由此可能的严重的时钟时滞。在芯片上跨越长距离的连接技术(例如纵横开关或总线)会加重线路延迟和时钟时滞。

芯片上CPU和共享高速缓存器之间通信的延时和带宽严重影响性能。最好是CPU到共享高速缓存器的延时低而从高速缓存器(或其它CPU)到CPU的带宽高.但是，一些连接技术对于改进延时和带宽一直是个约束。当多个CPU执行程序或线程时，它们对基本的连接技术有很高的要求。因此，在多处理器配置中减少线延迟和时钟时滞就变得重要了。

如“Architecture Guide：C-5e/C-3e Network Processor，Silicon Revision BO”，Motorola，Inc.，2003中，Motorola已经实现了一种芯片多处理器，它包括多个处理器，由单向环路连接在单个芯片上以降低分组在部件之间通过的环路上的距离。多处理器和其它部件之间的通信在一个方向上流过该环路。

但是，采用单向环路的问题是延时和带宽仍然收到连接技术的约束.为了和一个上游处理器通信，分组在到达该上游处理器之前必须经过整个环路。

因此，在本领域中对片上集成需要一种提供有效、快速的系统性能的连接技术。

发明内容

为了克服上面的现有技术中存在的缺陷，本发明提供了一种设备，在半导体芯片上包括至少一个双向环路互连结构.

本发明还提供了一种半导体芯片，包括：多个处理器；在该多个处理器之间共享的地址空间；和耦合到该多个处理器和该地址空间的双向环路结构。

本发明还提供了一种系统，包括：多处理器芯片和从该多处理器芯片传输分组的总线，所述多处理器芯片包括：至少一个中央处理单元，共享地址空间，和至少一个双向环路结构，与该至少一个中央处理单元及该共享地址空间的代理相耦合.

本发明又提供了一种方法，包括：计算源节点和目的地节点之间在芯片上的第一和第二环路结构上的距离；根据计算出的距离确定在第一和第二环路结构中的哪一个上在源和目的地节点之间传输分组；并且在确定出的环路结构上从源节点传输分组到目的地节点.

本发明又提供了一种计算机可读介质，其上存储了要完成一个方法的多个可执行指令，该方法包括：计算源和目的地节点之间沿着芯片上多个环路结构的距离；根据计算出的距离识别在多个环路结构中的哪一个上在源和目的地节点之间传输分组；并在识别出的环路结构上从源节点传输分组到目的地节点.

附图说明

图1是依照本发明的一种实施例的半导体芯片，包括耦合到单个双向环形互连的多个节点.

图2是依照本发明的一种实施例的半导体芯片，包括耦合到多个单向和/或双向环路互连的多个节点.

图3是依照本发明的一种实施例的多处理器系统，包括具有耦合到单个双向环路互连的多个部件的多处理器芯片.

图4是依照本发明的一种实施例的方法的流程图.

图5是实现本发明的一种实施例的计算机系统的框图.

具体实施方式

本发明的实施例可以提供一种半导体芯片，包括多个处理器、在这些处理器之间共享的地址空间和将处理器及共事地址空间耦合在一起的双向环路互连.依照本发明的一种实施例，所述处理器可以包括CPU，地址空间可以包括一个大容量共事高速缓存器.

本发明的实施例可以提供一种方法，用于选择双向环路互连上的方向以在处理器和共享地址空间之间传输分组.该方法可以包括计算分组的源和目的地之间在顺时针方向上和逆时针方向上的距离，根据计算出的距离确定以哪个方向传输分组，并且在确定的方向上和与其相对应的环路上传输分组.

本发明的实施例对多个处理器的片上集成有利地提供了降低的延时以及增加的带宽.这对于并行共享存储器的应用来说尤其有益，所述并行共享存储器的应用例如是事务处理、数据挖掘、诸如Java或.net之类的可控制运行环境以及web或email服务.

图1是依照本发明的实施例的一种半导体芯片，包括耦合到一个双向环路互连的多个节点.节点110(1)到110(n)可以在不同的访问点与访问站与双向环路互连120相连.分组可以在顺时针或逆时针方向上在互连120上在110(1)到110(n)之间穿行.

节点110(1)到110(n)可以包括处理器、高速缓存器体、存储器接口、全局一致性引擎接口、输入/输出接口和在半导体芯片上可见的任意其它这种分组处理部件.

在图1中，在本发明的实施例中，通过逻辑地将单个大容量共享高速缓存器划分成子集可以将节点110(1)到110(n)实现为高速缓存器体节点.每个高速缓存器体节点可以包括单个高速缓存器中的部分地址空间，并且可以独立地对单个高速缓存器中该部分地址空间的块请求(读、写、使无效，等等)提供服务.在互连120上，每个高速缓存器体可以有它自己的访问点或访问站.

在图1中，互连120可以包括多个双向线(未示出)，其中第一组双向线可以在顺时针方向上传输分组，第二组可以在逆时针方向上传输分组.每组双向线可以有一个特定目的(例如，发送地址命令)或通用目的(例如，支持多种分组类型(地址请求、数据、高速缓存器一致性协议消息)等).可替代地，可以指定各组双向线传输单一分组类型.

可替代地，在图1中，互连120可以包括多个能够在两个方向上传输分组的双向线.在这个备选实施例中，半导体芯片可以包括开关逻辑，用于在特定的事务期间转换各条线到期望的方向以传输分组.

互连120可以以多种不同的速率传输分组.例如，互连120可以以每时钟周期一个或多个节点的速率或每两个或多个时钟周期一个节点的速率传输分组.很多因素可以决定传输速率，包括通信量、时钟速率、节点之间的距离等.通常，一个节点要等到已经在互连120上和该节点上的任何分组通过了该节点才能将一个分组注入到互连120上.

图2是依照本发明的一种实施例的半导体芯片，包括耦合到多个环路互连的多个节点.节点210(1)到210(n)可以在不同的访问点或访问站连接到环路互连220(1)到220(m)。每个节点可以选择在环路互连220(1)到220(m)中的任何一个上传输分组到另一节点。

在一种实施例中，图2中的所有互连都可以是单向的，其中一些互连只在顺时针方向上传输分组，另一些互连只在逆时针方向上传输分组。

在一种备选实施例中，图2中的一些互连可以是单向的，而另一些可以是双向的.在这种备选实施例中，一些单向互连可以只以顺时针方向传输分组，而另一些只以逆时针方向传输分组。双向互连可以在两个方向上传输分组，与图1中的双向互连的操作一致。

图3是依照本发明的一种实施例的多处理器系统，包括耦合到单个双向环路互连的多处理器芯片。在图3中，多处理器芯片300可以包括：CPU 310(1)到310(n)、高速缓存器体320(1)到320(m)、存储器接口330、全局一致性引擎接口340和输入/输出(I/O)接口350，所有这些都耦合到双向环路互连120。耦合到双向环路互连120的每个部件都可以有一个节点号来标识它在互连上的位置。

在图3中，CPU310(1)可以包括减法器305(可实现为硬件设备)以计算CPU310(1)和任意其它节点在双向环路互连120上的距离。减法器305通过从CPU310(1)的节点号减去目的地节点的节点号可以计算出CPU310(1)和目的地节点之间的距离。减法器305可在顺时针和逆时针两个方向上计算距离.CPU310(1)可以用计算出的距离选择在哪个方向上传输分组。通常，尽管可以选择距离最短的方向传输分组，但这并不是唯一的解决方案。还设想了另外的方向选择方法，将在下面进行描述。

在图3中，CPU310(n)可以包括可编程有限状态机315(一个硬件设备)，可对它编程以使用例如像减法器305类似的操作计算CPU310(n)和任意其它节点之间在双向环路互连120中的距离。在一种实施例中，可对可编程有限状态机315编程以在一个查找表中搜寻在双向环路互连120上传输分组的方向.例如，该查找表可以初始化为包括两个条目-顺时针和逆时针。在计算CPU310(n)和目的地节点之间的顺时针和逆时针距离之时，可编程有限状态机315可以根据计算出的距离检索查找表条目之一.

在一种备选实施例中，在图3中，CPU310(1)到310(n)均可以用软件计算它们自己和目的地节点之间的距离.CPU310(1)到310(n)的每一个都可以根据计算出的距离确定以哪个方向在双向环路互连120上传输分组。

依照本发明的一种实施例，传输分组的方向可以选择为在分组的源和目的地之间提供了最短距离的方向、通信量较小的方向、或者用于特定事务的任意其它期望的标准.

在图3中，将会理解CPU310(1)到310(n)中的每一个都不限于图3中所示的部件和配置.因此，本发明的实施例可以用减法器、可编程有限状态机、处理器、任意其它这种部件或它们的任意组合来实现这里所描述的计算.减法器305和可编程有限状态机315还可与高速缓存器体310(1)到310(m)中的任意一个或双向环路互连上的任意其它节点相耦合。减法器305和可编程有限状态机315还可以与双向环路互连120耦合以由双向环路互连120上的一个或多个节点共享。

在图3中，高速缓存器体320(1)到320(m)可以是如前所述的单个大容量共享高速缓存器的子集.每个高速缓存器体可以服务于该单个高速缓存器中的特定部分的地址空间。

在图3中，存储器接口可以耦合到双向环路互连120和总线360以在系统存储器370和多处理器芯片300上的节点(即，CPU310(1)到310(n)和高速缓存器体320(1)到320(m))之间提供接口。存储器接口330可以在多处理器芯片300上的所有节点间共享以在系统存储器370和这些节点间传输分组.

同样，全局一致性引擎接口340可以耦合到双向环路互连120和总线360以在多处理器芯片300和一个或多个其它多处理器芯片380之间提供接口。全局一致性引擎接口340可以由多处理器芯片300上的所有节点共享以在多处理器芯片300上的节点及一个或多个其它多处理器芯片380之间传输分组.

在图3中，I/O接口350可以耦合到双向环路互连120和总线360以在I/O设备390和多处理器芯片300上的节点间提供接口。I/O接口350可以由多处理器芯片上的所有节点共享以在多处理器芯片300上的节点和I/O设备390之间传输分组。

将会理解该多处理器系统并不限于图3的部件，而是可以包括能够进行分组处理的任意部件。

依照本发明的一种实施例中的通信示例可以包括一个请求高速缓存器体中的一个高速缓存器块的处理器，例如向高速缓存器体320(m)请求一个高速缓存器块的CPU310(1).CPU310(1)可以计算出在顺时针方向和逆时针方向到高速缓存器体320(m)的距离.CPU310(1)可以根据计算出的距离选择在哪个方向发送它的请求，并且CPU310(1)可以通过它的访问端口或访问站将地址放在到双向环路互连120上的一个环路时隙(slot)中。地址可以环绕双向环路互连120前进直到它到达包含所请求地址的相关数据的高速缓存器体320(m)的访问端口或访问站。

高速缓存器体320(m)可以从双向环路互连120上的环路时隙取出地址并用该地址取出其中存储的数据.高速缓存器体320(m)可以通过它的访问端口或访问站将数据存储到双向环路互连120上的下一个可用的环路时隙中。数据可以以和地址到达的方向相同或相反的方向经过双向环路互连，直到数据回到始发CPU310(1)。CPU310(1)可以使用该数据。

在这个例子中，多个请求可以并发(concurrent)地流经双向环路互连120。双向环路互连的优势是请求可以同时但以相反的方向经过相同的节点，因为双向环路互连120的实施例提供双向传输。

图3中双向环路互连的另一优势是多个请求可以并发到达高速缓存器体310(1)和320(m)，即使高速缓存器体物理上属于单个共享高速缓存器.结果是在相同时钟周期内可以并发地服务到达高速缓存器体320(1)的请求和另一个到达高速缓存器体320(m)的请求.请求中的地址位可以用来确定各个请求属于哪个高速缓存器体。可以有很多种地址位到高速缓存器体的映射.在一种实施例中，连续的块地址可能属于双向环路互连120上不同的高速缓存器体.可以将地址位进行哈希处理或采用能够在事先未策划的负载下对所有存储器块提供相当均匀的访问的方式来加以选择。

尽管图3中没有示出，依照本发明的一种实施例，可以像在图2中那样使用多个环路互连220(1)到220(m).在这种实施例中，CPU310(1)可以在多个互连220(1)到220(m)上发送多个请求，由此在给定的时间周期内收回至少两倍的数据以供使用。

依照本发明的一种实施例，在图3中，附加的寻址部件(例如套接字网络路由器、存储控制器和目录高速缓存器)也可以耦合到双向环路互连120.类似地可以为这些部件交错寻址。

为了通信和维持存储器一致性，本发明的实施例可以使用任意众所周知的高速缓存器一致性协议.很多协议可以在双向环路互连上分层。每种协议可能有唯一的一组资源竞争、资源缺乏(得不到资源)或死锁问题要解决。这些问题可以用贷-借系统和缓冲、资源的预分配(例如在环路互连上保留的时钟周期或在资源队列中保留的缓冲区)、资源缺乏(得不到资源)检测器、请求/应答消息的优先次序确定、互连的虚拟化来解决。

本发明的实施例的另一优势是：与单向环路互连相比，双向环路互连通常使平均环路延时减半并使系统上均匀通信的平均峰值带宽翻了两番。与非环路系统相比性能提高可能更大。均匀通信可以是趋向于平等地利用所有高速缓存器体的随机或周期性的访问模式。

通常，平均环路延时可以定义为均匀通信在互连上使用的平均周期数，包括请求和数据返回在环路互连上的时间，不包括请求和数据在任意部件(即节点)中的停留时间。同样，平均峰值带宽可以定义成对均匀通信每时钟周期内到达它们的目的地的数据块的平均数量。

例如，在单个单向环路互连中处理器请求一个高速缓存器块的平均环路延时可以定义为处理器的请求从处理器传输到适当的高速缓存器体的时间以及数据块从高速缓存器块返回处理器的时间。因此，假定每个时钟周期一个节点的分组传输速率，单个单向环路互连的平均环路延时将是N个周期，这与系统中的节点数相同。这是因为该请求经过一些节点以到达合适的高速缓存器体，然后数据必须经过系统中剩下的节点才回到始发的处理器.基本上，因为环路互连是一个环，必须经过所有节点才能完成从处理器回到它自己的一个请求。

在双向环路互连中处理器请求一个高速缓存器块的平均环路延时可以定义为处理器的请求从处理器传输到合适的高速缓存器体的时间以及数据块从该高速缓存器体返回到处理器的时间。但是，例如假定分组传输速率是每个时钟周期一个节点，那么平均环路延时将是单向环路互连的一半。这是因为，在一种实施例中，在双向环路上选择的方向是该处理器到高速缓存器体经过的中间节点数量最少的方向。因此，该请求最多可能经过N/2个节点，并且数据返回最多可能经过N/2个节点，结果是最坏情况下的延时为N个周期.但是，如果访问是均匀的，从发出请求的处理器到高速缓存器体的距离的期望平均值将是最坏情况的一半，即经过了N/4个节点.因为回程也将采用最短的距离，在处理器接收到数据之前会经过另外N/4个节点。这导致双向环路互连的平均延时为N/2个周期，对单个请求来说延时和互连占用率都降低了大约50％.

采用双向环路互连对互连利用率的降低还可能导致比单个单向环路互连上高得多的平均带宽.每个高速缓存器请求可能交付一个数据块并使用环路上一定数量的节点.如果一个请求使用了环路上的所有N个节点，就像单个单向环路互连中那样，那么单向互连能够交付的最大带宽是每个时钟周期一个数据块。通常，双向环路互连对平均的均匀请求来说所使用的节点少于全部节点。如上所述，双向环路互连实际上平均使用N/2个节点。另外，双向环路互连的容量可能是单个单向环路互连的两倍，因而，允许双向环路互连每个节点携带多达2个数据块。总地来说，在组合的环路互连上的2N个锁存器中，对平均请求和数据块返回会使用其中的N/2个，每个时钟周期并发数据块的总数是2N/(N/2)＝4，四倍于单个单向环路互连.平均峰值带宽独立于节点数。

依照本发明的一种实施例，双向环路互连可能包括两个不相交的地址和数据线集合.结果是，由于请求不会使用数据带宽资源，只有应答才会使用，带宽可以另外增加两倍.这样，数据线的占用率对两倍的双向环路互连来说只是环路站点的1/4。两个互连因而都能从将通常环路互连分成地址环路和数据环路而获得额外的双倍利益。

例如，对将线集合在数据和地址请求之间分开的16-节点双向环路来说，平均峰值带宽可以是每数据环路4个同时的数据传输操作×2个环路×64字节数据宽度×3GHz＝1.5Tbytes/秒。

这样，双向环路互连可以提供四倍于单个单向环路互连的带宽，包括两倍来自于双线路，两倍来自于使用最短路径路由而将事务的占用率减半.但是，如果双向环路互连的线路对数据和地址请求都是一致的，带宽可能只是单个单向环路互连的两倍.

上面的例子只是出于说明目的，因为可能还有其它因素影响双向环路互连上的延时和带宽，例如实际占用率以及由于虚拟化或反-资源缺乏机制导致的带宽丢失。

图4是依照本发明的一种实施例的方法的流程图。在图4中，该方法可以确定以哪个方向在双向环路互连上传输分组.在一种实施例中，单个双向环路互连可以包括第一组线路以在顺时针方向(它可以包括第一个环路结构)上传输分组以及第二组线路以在逆时针方向(它可以包括第二个环路结构)上传输分组。

在图4中，发送分组到目的地节点的源节点可以计算(410)在第一环路结构上到目的地节点的距离.该源节点还可以计算(420)在第二环路结构上到目的地节点的距离.该源节点可以确定(430)哪个距离最短.如果确定(430)最短距离是顺时针方向，该源节点可以在第一环路结构上传输(440)分组。另外，如果确定(430)最短距离为逆时针方向，源节点可以在第二环路结构上传输(450)分组。

如果确定出的环路结构已经在传输一个在这个时针周期内到达该源节点的分组，该源节点可以等到该环路上的该分组通过自己之后再将分组注入到确定出的环路结构上。一旦注入到了所确定出的环路结构上之后，分组可以每时针周期前进直到到达目的地节点。

依照本发明的另一实施例，源节点可以确定哪个环路结构通信量较低并且可以在通信量最低的环路上传输分组。

在一种备选实施例中，双向环路互连可以包括两个以相反方向传输分组的单向环路互连.在这种实施例中，以顺时针方向传输的单向环路互连可以包括第一环路结构，以逆时针方向传输的单向环路互连可以包括第二环路结构。

在其它备选实施例中，双向环路互连可以包括一个单向环路互连和一个双向环路互连或者两个双向环路互连。与前面描述的实施例类似，这些互连之一可以包括第一环路结构，另一个可以包括第二环路结构。

将会理解双向环路互连并不限于一个或两个环路结构，而是可以包括任意数量的环路结构以在多个方向上传输分组.

图5是一种包括一个或多个多处理器和存储器以依照本发明的一种实施例使用的计算机系统的结构图，该计算机系统可以包括一种体系结构状态.在图5中，计算机系统500可以包括一个或多个耦合到处理器总线520的多处理器510(1)-510(n)，处理器总线520可以耦合到系统逻辑530.一个或多个多处理器510(1)-510(n)中的每一个可以是N-位处理器并可以包括一个解码器(未示出)和一个或多个N-位寄存器(未示出)。依照本发明的一种实施例，一个或多个多处理器510(1)-510(n)中的每一个可以包括一个双向环路互连(未示出)以耦合到N-位处理器、解码器、和该一个或多个N-位寄存器。

系统逻辑530可以通过总线550与系统存储器540耦合，并通过外围总线560与非-易失性存储器570及一个或多个外围设备580(1)-580(m)耦合。例如，外围总线560可以表示一个或多个外围部件互连(PCI)总线、PCI专业组(SIG)PCI局部总线规范(2.2修订本，1998年12月18日发布)；工业标准结构(ISA)总线；扩展ISA(EISA)总线，BCPR Service Inc；EISA规范，19923.12修订版，1992年发布；通用串行总线(USB)，USB规范1.1版，1998年9月23日发布；以及类似的外围总线。非易失存储器570可以是诸如只读存储器ROM或快速存储器之类的静态存储器设备.外围设备580(1)-580(m)可以包括键盘；鼠标或其它指点设备；大容量存储设备，如硬盘驱动器、光盘(CD)驱动器、光碟和数字视频光盘(DVD)驱动器；显示器等等。

本发明的实施例可以用任意类型的计算机来实现，例如根据本发明的教义编程的通用微处理器.因而本发明的实施例还可以包括机器可读介质，它可以包括用来对处理器编程以执行依照本发明的实施例的方法的指令。这个介质可以包括但不限于任意类型的盘如软盘、光盘和CD-ROM。

可以理解用来实现本发明的实施例的软件的结构可以采用任意期望的形式，例如单个或多个程序.可以进一步理解本发明的一种实施例的方法可以由软件、硬件或其组合来实现.

上面是对本发明的优选实施例的详细论述.对申请人授权的本发明的完整的范围由下文的权利要求定义。意谓着权利要求的范围除了上述那些实施例和它们的等效方案之外还可以覆盖其它实施例。

Claims

1.一种设备，包括：半导体芯片，在所述半导体芯片上的至少一个双向环路结构，所述双向环路结构是包括多个节点的连续链路；还包括用于计算在所述至少一个双向环路结构上用以在所述多个节点中的至少一个节点和目的地节点之间传输分组的方向的装置。

2.如权利要求1所述的设备，其中每个节点包括处理器、高速缓存器体、共享存储器接口、共享全局一致性引擎接口和共享输入/输出接口中的一个。

3.如权利要求1所述的设备，还包括耦合到所述多个节点中的至少一个节点的减法器，用于计算在所述至少一个双向环路结构上用以在所述多个节点中的至少一个节点和目的地节点之间传输分组的方向。

4.如权利要求1所述的设备，还包括可编程有限状态机，耦合至所述多个节点中的至少一个节点，用于计算在所述至少一个双向环路结构上用以在所述多个节点中的至少一个节点和目的地节点之间传输分组的方向。

5.如权利要求1所述的设备，其中所述至少一个双向环路结构以顺时针方向和逆时针方向并发传输分组。

6.如权利要求1所述的设备，其中所述至少一个双向环路结构交替地以顺时针方向和逆时针方向传输分组。

7.一种半导体芯片，包括：

多个处理器；

在所述多个处理器之间共享的地址空间；

耦合到所述多个处理器和所述地址空间的双向环路结构，所述双向环路结构是连续的链路；和

用于计算在所述双向环路结构上用以在所述多个处理器中的至少一个处理器和所述多个处理器中的第二处理器之间传输分组的方向的装置。

8.如权利要求7所述的半导体芯片，其中所述多个处理器中的每一个处理器都包括中央处理单元。

9.如权利要求7所述的半导体芯片，其中所述地址空间包括多个高速缓存器体。

10.如权利要求9所述的半导体芯片，其中所述多个高速缓存器体构成分布式共享高速缓存器。

11.如权利要求10所述的半导体芯片，其中所述分布式共享高速缓存器的多个高速缓存器体中的每一个负责地址空间的子集。

12.如权利要求7所述的半导体芯片，其中所述双向环路结构在多个处理器和地址空间之间传输分组。

13.如权利要求12所述的半导体芯片，其中分组传输地址请求。

14.如权利要求12所述的半导体芯片，其中分组传输数据。

15.如权利要求12所述的半导体芯片，其中分组传输高速缓存器一致性协议消息。

16.如权利要求15所述的半导体芯片，其中所述高速缓存器一致性协议消息传达在地址空间中所缓存的地址的失效。

17.如权利要求15所述的半导体芯片，其中所述高速缓存器一致性协议消息传达允许修改地址空间中的地址线的权限。

18.如权利要求15所述的半导体芯片，其中所述高速缓存器一致性协议消息传达对提取地址空间中地址线的修改数据的请求。

19.如权利要求7所述的半导体芯片，其中所述双向环路结构包括在顺时针方向上传送分组的至少第一线路和在逆时针方向上传送分组的至少第二线路。

20.如权利要求19所述的半导体芯片，其中所述双向环路结构包括多个在顺时针方向上传送分组的第一线路和多个在逆时针方向上传送分组的第二线路。

21.如权利要求7所述的半导体芯片，还包括减法器，与多个处理器中的至少一个相耦合，用于计算在所述双向环路结构上用以在多个处理器中的所述至少一个处理器和地址空间之间以及在多个处理器中的所述至少一个处理器和所述多个处理器中的第二处理器之间传输分组的方向。

22.如权利要求7所述的半导体芯片，还包括减法器，与地址空间的第一部分相耦合，用于计算在所述双向环路结构上用以在地址空间的第一部分和所述多个处理器中的至少一个处理器之间以及地址空间的第一部分和地址空间的第二部分之间传输分组的方向。

23.如权利要求7所述的半导体芯片，还包括可编程有限状态机，与多个处理器中的至少一个相耦合，用于计算在所述双向环路结构上用以在所述多个处理器中的所述至少一个处理器和地址空间之间以及所述多个处理器中的所述至少一个处理器和所述多个处理器中的第二处理器之间传输分组的方向。

24.如权利要求23所述的半导体芯片，其中所述可编程有限状态机根据所述多个处理器中的所述至少一个处理器和地址空间之间或者所述多个处理器中的所述至少一个处理器和所述多个处理器中的所述第二处理器之间的距离在查找表中搜索所述方向。

25.如权利要求7所述的半导体芯片，还包括可编程有限状态机，与地址空间的第一部分相耦合，用于计算在所述双向环路结构上用以在地址空间的第一部分和所述多个处理器中的至少一个处理器之间以及地址空间的第一部分和地址空间的第二部分之间传输分组的方向。

26.如权利要求25所述的半导体芯片，其中所述可编程有限状态机根据地址空间的第一部分和所述多个处理器中的至少一个处理器之间以及地址空间的第一部分和地址空间的第二部分之间的距离在查找表中搜索所述方向。

27.如权利要求7所述的半导体芯片，其中所述多个处理器中的每一个处理器都计算在所述环路结构上用以在所述处理器和另一处理器之间或所述处理器和地址空间之间传输分组的方向。

28.一种系统，包括：

多处理器芯片，包括：

至少一个中央处理单元，

共享地址空间，

至少一个双向环路结构，与所述至少一个中央处理单元及所述共享地址空间的代理相耦合，所述双向环路结构是连续的链路；

用于计算在所述至少一个双向环路结构上用以在处理器和共享地址空间的代理之间传输分组的方向的装置；和

用于传输来自所述多处理器芯片的分组的总线。

29.如权利要求28所述的系统，还包括与总线耦合的存储器。

30.如权利要求29所述的系统，其中多处理器芯片还包括与所述至少一个双向环路结构相耦合的共享存储器接口，所述共享存储器接口将多处理器芯片耦合到存储器。

31.如权利要求28所述的系统，其中多处理器芯片还包括与所述至少一个双向环路结构相耦合的共享全局一致性引擎接口，所述共享全局一致性引擎接口将所述多处理器芯片耦合到多个其它多处理器芯片。

32.如权利要求28所述的系统，还包括与总线相耦合的至少一个输入/输出设备。

33.如权利要求32所述的系统，其中多处理器芯片还包括与所述至少一个双向环路结构相耦合的共享输入/输出接口，所述共享输入/输出接口将所述多处理器芯片耦合到至少一个输入/输出设备。

34.一种方法，包括：

计算源节点和目的地节点之间在芯片上的第一和第二环路结构上的距离；

根据所计算的距离确定在第一和第二环路结构中的哪一个上在源和目的地节点之间传输分组；并且

在所确定的环路结构上把分组从源节点传输到目的地节点。

35.如权利要求34所述的方法，其中所述计算包括：

计算第一环路结构上源和目的地节点之间的顺时针距离；

计算第二环路结构上源和目的地节点之间的逆时针距离。

36.如权利要求34所述的方法，其中所述确定包括：

确定第一和第二环路结构中的哪一个在第一和第二环路结构的每一个上的独立方向上在源和目的地节点之间具有最短距离。

37.如权利要求36所述的方法，其中所述独立方向包括顺时针方向和逆时针方向。

38.如权利要求34所述的方法，其中所述传输包括：

在第一环路结构上顺时针传输分组或在第二环路结构上逆时针传输分组。

39.如权利要求34所述的方法，其中所述传输包括：

如果在所确定出的环路结构上的另一分组到达了源节点，那么就等待着以从所述源节点传输分组。

40.如权利要求34所述的方法，其中所述传输包括：

在所确定的环路结构上每个时钟周期都推送进分组。

41.一种方法，包括：

计算在芯片上的第一和第二环路结构的通信量；

根据所计算的通信量来确定在第一和第二环路结构中的哪一个环路结构上在源和目的地节点之间传输分组；并且

在所确定出的环路结构上把分组从源节点传输到目的地节点。