CN1287272C

CN1287272C - 处理器和挂起线程的方法

Info

Publication number: CN1287272C
Application number: CNB028261585A
Authority: CN
Inventors: 黛博拉·马尔; 斯科特·罗杰斯; 戴维·希尔; 夏夫南丹·考希克; 詹姆斯·克罗斯兰; 戴维·库法提
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2001-12-31
Filing date: 2002-12-11
Publication date: 2006-11-29
Anticipated expiration: 2022-12-11
Also published as: KR20040069352A; AU2002364559A1; US20030126416A1; CN1608246A; TW200403588A; DE10297597T5; HK1075109A1; WO2003058434A1; JP2005514698A; KR100617417B1

Abstract

本发明公开了用于在多线程处理器中挂起线程的执行的技术。在一个实施例中，处理器包括可以在多个线程之间分区的资源。处理器逻辑在执行第一线程时接收指令，并响应于该指令而释放部分分区资源以被其他线程使用。

Description

处理器和挂起线程的方法

相关申请

本申请与以下这些和本申请于同一天递交的申请相关：题为“AMethod and Apparatus for Suspending Execution of a Thread Until a SpecifiedMemory Access Occurs”、序列号10/039,579的申请；题为“CoherencyTechniques for Suspending Execution of a Thread Until a Specified MemoryAccess Occurs”、序列号10/039,656的申请；题为“Instruction Sequencesfor Suspending Execution of a Thread Until a Specified Memory AccessOccurs”、序列号10/039,650的申请；以及题为“Method and apparatus forPausing Execution in a Prcessor or the like”、序列号09/489,130的申请，其于2003年12月30日授权为美国专利6,671,795。

技术领域

本公开涉及处理器领域。更具体而言，本公开涉及多线程处理器以及用于在多线程处理器中暂时挂起对一个线程的处理的技术。

背景技术

多线程处理器能够同时处理多个不同指令序列。驱动在单个处理器中多个指令流的执行的主要推动因素，是对处理器利用率所得到的改善。高并行体系结构已经发展了多年，但经常难以从单个指令流中提取出足够的并行性，以利用多个执行单元。并发多线程处理器允许多个指令流在不同执行资源中同时执行，以试图更好地利用这些资源。对于遇到高等待时间延迟或者经常等待事件发生的程序，多线程可能尤其有利。当一个线程在等待高等待时间任务完成或者在等待特定事件时，可以处理不同的线程。

已经提出了许多不同技术来控制处理器何时在线程之间切换。例如，一些处理器检测诸如L2高速缓存未命中(cache miss)之类的特长的等待时间事件，并响应于这些被检测的长的等待时间事件而切换线程。虽然在某些环境中对这种长的等待时间事件的检测可能是有效的，但这种事件检测不太可能检测出所有这样的点，即此时切换线程可能是高效的。尤其是，基于事件的线程切换可能检测不出程序中编程者有意延迟的点。

实际上，通常编程者处于最佳的位置来确定何时切换线程是高效的，以避免浪费的螺旋等待循环(spin-wait loop)或其他消耗资源的延迟技术。这样，允许程序控制线程切换可能使得程序能够更高效地工作。影响线程选择的显式程序指令可能对此有利。例如，在2000年1月21日递交的美国专利申请No.09/489,130中描述了“暂停”指令。暂停指令允许暂时挂起线程的执行，或者直到达到计数值，或者直到指令已通过处理器流水线。但是，在以上引用的申请中所描述的暂停指令，并不指定要释放线程可分区的资源。不同的技术可能是有用的，以允许编程者更高效地利用多线程处理器的资源。

发明内容

本发明提供了一种处理器，包括：多个线程可分区资源，其每个都可在多个线程之间被分区；和逻辑，所述逻辑从所述多个线程中的第一线程接收程序指令，并且响应于所述程序指令而使所述处理器挂起所述第一线程的执行，并在所述第一线程挂起期间释放所述多个线程可分区资源中与所述第一线程相关联的部分，以被所述多个线程中的其他线程使用。

本发明还提供了一种方法，包括：在第一线程的执行中接收第一操作码；响应于所述第一操作码而将所述第一线程挂起所选量的时间；响应于所述第一操作码而在所述第一线程挂起期间释放多个线程可分区资源。

本发明还提供了一种系统，包括：存储多个程序线程的存储器，所述多个程序线程包括第一线程和第二线程，所述第一线程包括第一指令；耦合到所述存储器的处理器，所述处理器包括多个线程可分区资源和多个共享资源，所述处理器执行来自所述存储器的指令，所述处理器响应于所述第一指令的执行而挂起所述第一线程，并在所述第一线程挂起期间释放部分所述多个线程可分区资源。

本发明还提供了一种装置，包括：用于从第一线程接收第一指令的装置；用于响应于所述第一指令而挂起所述第一线程的装置；用于在所述第一线程挂起期间释放多个资源的多个分区的装置；用于在所选量的时间之后对所述多个资源重分区的装置。

附图说明

通过附图中的示例而非限制来图示本发明。

图1图示了多线程处理器的一个实施例，该处理器具有逻辑，其响应于指令而挂起线程并释放与该线程相关联的资源。

图2是根据一个实施例图示图1的多线程处理器的操作的流程图。

图3a图示了用于指定多线程处理器可以被挂起的时间量的各种选择。

图3b图示了这样的流程图，其中可以通过经过所选量的时间或者发生事件而退出被挂起的状态。

图4图示了根据一个实施例的资源分区、共享和复制。

图5图示了用于模拟、仿真和制造使用所公开技术的设计的各种设计表示或格式。

具体实施方式

以下说明描述了用于在多线程处理器中挂起线程执行的技术。在以下说明中，给出了大量的具体细节以提供对本发明更充分的理解，例如逻辑实现、操作码、指定操作数的装置、资源分区/共享/复制实现、系统元件的类型和相互关系、以及逻辑分区/集成的选择。但是，本领域的技术人员将认识到，没有这些具体细节也可以实施本发明。在另外一些例子里，没有详细示出控制结构、门级电路和完整的软件指令序列，以免模糊本发明。本领域普通技术人员阅读所包含的说明后，不进行必要实验就能够实现合适的功能。

所公开的技术可以允许编程者在一个线程中实现挂起机制，同时让其他线程利用处理资源。这样，之前专用于被挂起线程的分区可以在该线程被挂起的时候被释放。这些和/或其他被公开的技术可能有利地提高整个处理器的吞吐量。

图1图示了多线程处理器100的一个实施例，其具有挂起逻辑110，以允许响应于指令而挂起线程。在一些实施例中可以将“处理器”形成为单个集成电路。在其他实施例中，多个集成电路可以一起形成处理器，在另外一些实施例中，硬件和软件例程(例如二进制转换例程)可以一起形成处理器。挂起逻辑可以是微代码、各种形式的控制逻辑、或所描述功能的其他实现，可能包括转换、软件等等。

处理器100被耦合到存储器195，以允许处理器从存储器195检索指令并执行这些指令。存储器和处理器可以以以下方式来耦合：点对点的方式、经由总线桥、经由存储器控制器、或经由其他已知或可用技术。存储器195存储各种程序线程，包括第一线程196和第二线程198。第一线程196包括“挂起”指令。

在图1的实施例中，总线/存储器控制器120向前端130提供用于执行的指令。前端130根据指令指针170来指示从各个线程中检索指令。指令指针逻辑被复制以支持多个线程。前端130将指令输送到线程可分区资源140中以进一步处理。线程可分区资源140包括逻辑上分离的分区，当处理器100中有多个线程是活动的时，这些分区专用于特定线程。在一个实施例中，每个单独的分区仅包含来自该分区所专用于的线程的指令。线程可分区资源140可以包括例如指令队列。当在单线程模式时，线程可分区资源140的分区可以被组合形成专用于这一个线程的单个大分区。

处理器100还包括复制状态180。复制状态180包括足以维持逻辑处理器的上下文的状态变量。使用复制状态180，可以执行多个线程而不会有状态变量存储的竞争。此外，可以对每个线程都复制寄存器分配逻辑。被复制的状态相关逻辑可以使用恰当的资源分区进行工作，以准备执行进入的指令。

线程可分区资源140将指令传递到共享资源150。共享资源150不考虑其来源地按指令来操作。例如，调度器和执行单元可以是对线程透明的共享资源。线程可分区资源140可以通过以公平的方式在线程之间变换，而将来自多个线程的指令输送给共享资源150，所述公平方式使每个活动线程都连续地进行。这样，共享资源可以在恰当状态上执行所提供的指令，而不必考虑线程混和。

共享资源150后可以接着另一组线程可分区资源160。线程可分区资源160可以包括收回的资源，例如重排缓冲器等等。因此，线程可分区资源160可以确保来自每个线程的指令的执行正确结束，并确保恰当地更新该线程的恰当状态。

如前所述，可能需要向编程者提供这样一种实现延迟的技术，其不要求持续轮询存储器单元，甚或不必执行指令循环。这样，图1的处理器100包括挂起逻辑110。挂起逻辑110可以被编程来提供用于挂起线程的特定持续时间，或者来提供固定的延迟。挂起逻辑110包括流水线刷新逻辑112和分区/退火逻辑114。

可以参考图2的流程图来进一步解释图1实施例的操作。在一个实施例中，处理器100的指令集包括使线程挂起的“挂起”操作码(指令)。在框200中，接收作为第一线程(T1)的指令序列的一部分的“挂起”操作码。如框210所示，挂起线程T1的执行。线程挂起逻辑110包括流水线刷新逻辑112，如框220所示，流水线刷新逻辑112清空处理器流水线以清除所有指令。在一个实施例中，如框230所示，一旦流水线被清空，分区/退火逻辑114就释放与线程T1相关联的任何被分区的独占资源，以被其他线程使用。这些被释放的资源被退火来形成一组更大的资源，以由其余的活动线程来利用。

如框235所示，在线程T1被挂起期间可以执行其他线程(假定有指令可用于执行)。这样，处理器资源可以继续被使用，基本不受线程T1的干扰。当线程T1有很少的工作或没有有用的工作要完成时，或者当程序判定完成线程T1中的任务不是优先的时，将处理器资源更充分地用于其他线程，可以有利地加快对其他有用的执行流的处理。

一般而言，当线程T1被挂起时，处理器进入取决于实现的状态，该状态允许其他线程更充分地利用处理器资源。在一些实施例中，处理器可以释放专用于T1的可分区资源140和160的一些分区或所有分区。在其他实施例中，“挂起”操作码的不同排列或者与其相关联的设置，可以指示要释放哪些资源，如果有的话。例如，当编程者预期到更短的等待时，该线程可以被挂起，但维持大多数资源分区。吞吐量还是被提高了，因为在线程挂起期间共享资源可以被其他线程独占地使用。当预期到更长的等待时，释放与被挂起线程相关联的所有分区，允许其他线程具有额外的资源，潜在地增加了其他线程的吞吐量。但是，当线程被分别挂起和恢复时，此额外的吞吐量是以与去除和增加分区相关联的开销为代价的。

在框240中，进行测试来确定是否应该退出挂起状态。如果已经发生了所指定的延迟(即已经经过了足够的时间)，那么该线程可以被恢复。可以以多种方式来指定挂起线程的时间，如图3a所示。例如，处理器300可以包括由微代码310的例程所指定的延迟时间(D1)。定时器或计数器312可以实现延迟，并当经过了指定量的时间时发信号通知该微代码。或者，一个或多个熔丝(fuse)330可以用来指定延迟(D2)，或者寄存器340可以存储延迟(D3)。延迟(D4)可以由寄存器或存储单元来指定，例如被耦合到处理器的在桥或存储器控制器302中的配置寄存器。延迟(D5)还可以由基本输入/输出系统(BIOS)322来指定。还或者，延迟(D6)可以存储在被耦合到存储器控制器302的存储器304中。当“挂起”操作码被执行单元320执行时，处理器300可以检索得到作为对该操作码的隐式或显式操作数的延迟值。其他已知或者可用或方便的指定值的技术，也可以用来指定延迟。

回头参考图2，如果还未经过延迟时间，那么所使用的定时器、计数器或其他延迟测量机构继续跟踪延迟，并且线程保持被挂起，如返回框240所示。如果已经经过了延迟时间，那么在框250中开始恢复线程T1。如框250所示，刷新流水线，以释放用于线程T1的资源。在框260中，资源被重新分区，以使得线程T1具有可用来进行操作的部分线程可分区资源。最后，线程T1重新开始执行，如框270所示。

于是，图1和2的实施例提供了这样的技术，其允许线程被程序挂起特定期间。在一个实施例中，其他事件也使得T1被恢复。例如，中断可以使T1恢复。图3b图示了这样一个实施例的流程图，其允许其他事件导致退出挂起状态。在框360中，线程已经根据前面的操作被挂起了。在框365中，测试是否已经经过了足够长的时间(如前参考图2所讨论的那样)。如果已经经过了足够长的时间，则线程T1被恢复，如框380所示。

另一方面，如果在框365中未经过足够长的时间，则在框370和375中检测任何中断挂起状态的事件。在一些实施例中，可能有操作数、配置设置、“挂起”指令的排列等等，它们指定(如果有的话)哪些事件导致退出挂起状态。这样，框370测试是否有任何(在某些实施例中是哪些)事件能够中断挂起状态。如果没有事件能够中断挂起状态，那么该过程就返回框365。如果发生了任何被使能的事件，如框375中所测试的，那么线程T1就被恢复，如框380所示。否则，处理器将线程T1保持在被挂起状态，并且该过程返回框365。

图4图示了根据一个实施例对资源的分区、复制和共享。可以根据机器中活动线程的变化来分区和退火(组合到一起以由其它线程再次使用)被分区的资源。在图4的实施例中，被复制的资源包括流水线取指令部分中的指令指针逻辑、流水线重命名部分中的寄存器重命名逻辑、状态变量(未示出，但在流水线的各个阶段都引用了)以及中断控制器(未示出，一般与流水线异步)。图4实施例中的共享资源包括流水线调度阶段中的调度器、流水线寄存器读、写部分中的寄存器池、流水线执行部分中的执行资源。此外，追踪高速缓存(Trace Cache)和L1数据高速缓存可以是不考虑线程上下文而根据存储器访问分配的共享资源。在其他实施例中，在高速缓存判断中可能会使用对线程上下文的考虑。图4实施例中的被分区资源，包括流水线排队阶段中的两个队列、流水线收回阶段中的重排缓冲器以及存储缓冲器。线程选择复用逻辑在各个被复制和被分区资源之间变换，以提供对两个线程的合理访问。

在图4的实施例中，当挂起一个线程时，从两个队列中清空与线程1相关的所有指令。然后每一对队列被组合，来向第二线程提供更大的队列。类似地，使来自寄存器池的更多寄存器对第二线程可用，为第二线程释放来自存储缓冲器的更多条目，并使重排缓冲器中的更多条目对第二线程可用。实际上，这些结构被恢复成两倍大小的单个专用结构。当然，使用不同数量线程的实现可能得到不同的比例。

在一些实施例中，线程可分区资源、被复制资源和共享资源可以被布置得不同。在一些实施例中，在共享资源的两端可能没有可分区资源。在一些实施例中，可分区资源可以不被严格地分区，相反可以允许一些指令跨越分区，或者可以允许分区的大小根据在该分区中正被执行的线程或者正被执行的线程的总数而变化。此外，资源的不同混和可以被指定为共享、复制或分区资源。

图5图示了用于模拟、仿真和制造使用所公开技术的设计的各种设计表示或格式。表示设计的数据可能以多种方式来表示该设计。首先，因为在模拟中有用，硬件可以用硬件描述语言或另一种功能描述语言来表示，该语言实际上提供了期望所设计的硬件如何执行的计算机化的模型。硬件模型510可被存储在诸如计算机存储器的存储介质500中，使得可以用模拟软件520来模拟该模型，其中模拟软件520向硬件模型510应用特定的测试包，以确定其是否如希望的那样起作用。在一些实施例中，模拟软件并不被记录、捕获或包含在介质中。

另外，在设计过程的某些阶段可能产生具有逻辑和/或晶体管门的电路级模型。该模型可以类似地被模拟，有时是通过使用可编程逻辑形成该模型的专用硬件模拟器来模拟。更进一步，这种类型的模拟可以是仿真技术。无论如何，可重新配置的硬件是另一个实施例，其可以包括存储有采用所公开技术的模型的机器可读介质。

另外，大多数设计都在某个阶段达到在硬件模型中表示各个设备的物理布置的数据水平。在使用传统半导体制造技术的情况下，表示硬件模型的数据可以是这样的数据，其指定在用来产生集成电路的掩模的不同掩模层上有或没有各种特征。同样，表示集成电路的此数据实现了所公开的技术，因为该数据中的电路系统或逻辑可以被模拟或制造来执行这些技术。

在设计的任何表示中，数据都可以被存储在任何形式的计算机可读介质中。这种介质可以是被调制或产生来传输这种信息的光或电波560、存储器550或者诸如盘之类的磁或光存储540。描述该设计或该设计特定部分的位集是这样的制品，其本身自己就可被销售，或者可以被其他人进一步的设计或制造使用。

于是，公开了用于在多线程处理器中挂起线程的执行的技术。虽然已经在附图中描述和示出了某些示例性的实施例，但应该理解到这些实施例仅仅是对广泛的本发明的解释而非限制，并且本发明不应被限制成所示出和描述的具体构造和布置，因为本领域普通技术人员在研究本公开文本后可以想到各种其他的改进。

Claims

1.一种处理器，包括：

多个线程可分区资源，其每个都可在多个线程之间被分区；

逻辑，所述逻辑从所述多个线程中的第一线程接收程序指令，并且响应于所述程序指令而使所述处理器挂起所述第一线程的执行，并在所述第一线程挂起期间释放所述多个线程可分区资源中与所述第一线程相关联的部分，以被所述多个线程中的其他线程使用。

2.如权利要求1所述的处理器，其中所述程序指令是挂起指令。

3.如权利要求1所述的处理器，其中所述逻辑使所述处理器将所述第一线程挂起所选量的时间。

4.如权利要求3所述的处理器，其中所述所选量的时间是固定量的时间。

5.如权利要求3所述的处理器，其中当所述第一线程被挂起的时候，所述处理器将执行来自第二线程的指令。

6.如权利要求3所述的处理器，其中所述所选量的时间可由从以下技术所组成的组中选择出的至少一种技术来编程：

与所述程序指令一起提供操作数；

烧断熔丝来设置所述所选量；

在解码所述程序指令之前在存储单元中编程所述所选量；

在微代码中设置所述所选量。

7.如权利要求1所述的处理器，其中所述多个线程可分区资源包括：

指令队列；

寄存器池。

8.如权利要求7所述的处理器，还包括：

多个共享资源，所述多个共享资源包括：

多个执行单元；

高速缓存；

调度器；

多个复制资源，所述多个复制资源包括：

多个处理器状态变量；

指令指针；

寄存器重命名逻辑。

9.如权利要求8所述的处理器，其中所述多个线程可分区资源还包括：

多个重排缓冲器；

多个存储缓冲器条目。

10.如权利要求1所述的处理器，其中所述逻辑还使所述处理器响应于事件而恢复所述第一线程的执行。

11.如权利要求3所述的处理器，其中所述逻辑还使得所述处理器忽略事件，直到已经经过了所述所选量的时间。

12.如权利要求1所述的处理器，其中所述处理器以计算机可读介质上的数字格式来实现。

13.一种方法，包括：

在第一线程的执行中接收第一操作码；

响应于所述第一操作码而将所述第一线程挂起所选量的时间；

响应于所述第一操作码而在所述第一线程挂起期间释放多个线程可分区资源。

14.如权利要求13所述的方法，其中所述释放步骤包括：

将所述多个线程可分区资源退火，以形成可由更少线程使用的更大结构。

15.如权利要求14所述的方法，其中所述释放所述多个线程可分区资源的步骤包括：

释放指令队列的分区；

释放来自寄存器池的多个寄存器。

16.如权利要求15所述的方法，其中所述释放所述多个线程可分区资源的步骤还包括：

释放多个存储缓冲器条目；

释放多个重排缓冲器条目。

17.如权利要求13所述的方法，其中所述所选量的时间可由从以下技术所组成的组中选择出的至少一种技术来编程：

与所述第一操作码一起提供操作数；

烧断熔丝来设置所述所选量的时间；

在解码所述程序指令之前在存储单元中编程所述所选量的时间；

在微代码中设置所述所选量。

18.一种系统，包括：

存储多个程序线程的存储器，所述多个程序线程包括第一线程和第二线程，所述第一线程包括第一指令；

耦合到所述存储器的处理器，所述处理器包括多个线程可分区资源和多个共享资源，所述处理器执行来自所述存储器的指令，所述处理器响应于所述第一指令的执行而挂起所述第一线程，并在所述第一线程挂起期间释放部分所述多个线程可分区资源。

19.如权利要求18所述的系统，其中当所述第一线程被挂起的时候，所述处理器将执行来自所述存储器的所述第二线程。

20.如权利要求19所述的系统，其中所述处理器将响应于所述第一指令而将所述第一线程挂起所选量的时间，通过从以下技术所组成的组中选择出的至少一种技术，来选择所述所选量的时间：

与所述程序指令一起提供操作数；

烧断熔丝来设置所述所选量的时间；

在微代码中设置所述所选量的时间。

21.如权利要求18所述的系统，其中所述多个线程可分区资源包括：

指令队列；

寄存器池。

22.如权利要求21所述的系统，其中所述处理器还包括：

多个共享资源，所述多个共享资源包括：

多个执行单元；

高速缓存；

调度器；

多个复制资源，所述多个复制资源包括：

多个处理器状态变量；

指令指针；

寄存器重命名逻辑。

23.如权利要求22所述的系统，其中所述多个线程可分区资源还包括：

多个重排缓冲器；

多个存储缓冲器条目。

24.一种装置，包括：

用于从第一线程接收第一指令的装置；

用于响应于所述第一指令而挂起所述第一线程的装置；

用于在所述第一线程挂起期间释放多个资源的多个分区的装置；

用于在所选量的时间之后对所述多个资源重分区的装置。

25.如权利要求24所述的装置，其中所述第一指令是来自用户可执行程序的宏指令。

26.如权利要求25所述的装置，其中所述多个资源包括寄存器池和指令队列。