CN100440151C

CN100440151C - 用于并行多线程处理的方法和装置

Info

Publication number: CN100440151C
Application number: CNB038024640A
Authority: CN
Inventors: M·阿迪莱塔; D·伯恩斯坦恩; H·威尔金森; G·沃尔里奇; M·罗森布鲁斯
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2002-01-25
Filing date: 2003-01-16
Publication date: 2008-12-03
Anticipated expiration: 2023-01-16
Also published as: CA2473551C; EP1481323A2; HK1072298A1; TWI231914B; TW200307214A; US20030145173A1; KR100613923B1; CA2473551A1; US7181594B2; AU2003209290A1; WO2003065207A2; EP1481323B1; ATE375552T1; KR20040017251A; DE60316774T2; WO2003065207A3; DE60316774D1; CN1820253A

Abstract

本发明描述了一种基于硬件的并行多线程处理的方法。该方法包括将用以包处理的任务分配给可编程引擎并在编程阶段建立响应可编程引擎的流水线。该方法还包括了建立用于可编程引擎上所分配的任务的上下文，并使用诸如CAM的软件控制的高速缓冲存储器以便在驻留在可编程引擎中的下一个临近寄存器之间转移数据。

Description

用于并行多线程处理的方法和装置

技术领域

本发明涉及上下文的流水线操作。

背景技术

并行处理在计算处理中是一种高效的并发事件信息处理的方式。并行处理在计算机中需要同时处理很多程序，而不是顺序处理。在一个并行处理器的上下文中，并行包括了同一时间内处理不止一件事情。与所有的任务都在单个的工作站中顺序地执行的串行处理范例或在特定工作站中执行任务的流水线机器不同，在并行处理中，提供有多台工作站，其中的每个都能同时执行不同的任务。大量工作站同时工作并独立于相同或共用的计算任务的元件。因此，使用或提供并行处理能解决计算任务。

发明内容

本发明旨在解决上述问题。

根据本发明的一种并行多线程处理方法包括：建立编程阶段，每个编程阶段包括至少一个可编程引擎；并且在每个编程阶段：在所述至少一个可编程引擎中分配一个或多个包以供处理，管理多任务的平行处理，包括为多任务的每一个建立上下文，其中所述多任务中至少一个要求多指令执行，基于指令的执行，从多任务中一个的处理切换到多任务中另一个的处理，以及一旦完成了多任务，则将与多任务相关的数据传递给后续的编程阶段。

根据本发明的一种并行多线程处理器包括：在编程阶段中分配的可编程引擎，在每个编程阶段，至少一个可编程引擎执行：接收任务以处理，管理多任务的平行处理，包括为多任务的每一个建立上下文，其中所述多任务中的至少一个要求多指令执行，基于指令的执行，从多任务中一个的处理切换到任务中另一个的处理，以及一旦完成了多任务，则将与多任务相关的数据传递给后续的编程阶段。

附图说明

图1是使用基于硬件的多线程处理器的一种通信系统的结构图。

图2是在图1中基于硬件的多线程处理器中使用的的可编程引擎功能单元的框图。

图3是一个上下文状态改变的框图。

图4是一个上下文寻址存储器(CAM)的框图。

图5是一个CAM处理的说细的框图。

图6是一个上下文流水线处理的简单的框图。

具体实施方式

体系结构

参考图1，一个计算机处理系统10包括一个并行的、基于硬件的多线程网络处理器12。该基于硬件的多线程处理器12被连接到一个存储器系统或存储资源14。存储器系统14包括动态随机存取存储器(DRAM)14a和静态随机存取存储器(SRAM)14b。该处理系统10适用于可被分割成并行的子任务或功能的任务。特别地，该基于硬件的多线程处理器12用于面向带宽而不是面向等待时间的任务。该基于硬件的多线程处理器12具有多个功能微引擎或可编程引擎16，其每个都具有多个由硬件控制的能同时工作并独立工作于特定任务的线程。

可编程引擎16每个都保留了硬件的程序计数器和与程序计数器关联的状态。事实上，虽然在每个可编程引擎16上上下文或线程的相应组能同时激活，但在任何时间只有一个被实际操作。

在此实例中，图1示出了8个可编程引擎16a-16h。可编程引擎16a-16h的每个引擎处理8个硬件线程或上下文。这8个可编程引擎16a-16h与包括了存储资源14和总线接口(未示出)的共享资源一起执行。基于硬件的多线程处理器12包括了一个动态随机存取存储器(DRAM)控制器18a和一个静态随机存取存储器(SRAM)控制器18b。DRAM存储器14a和DRAM控制器18a典型地被用于处理大容量的数据，例如，处理从网络包来的网络有效载荷。SRAM存储器14b和SRAM控制器18b在联网实现中用于低等待时间、快速访问的任务，例如，访问查找表，访问用于核心处理器20的存储器等等。

这8个可编程引擎16a-16h基于数据特性访问DRAM存储器14a或SRAM存储器14b。因此，低等待时间，低带宽的数据被存储在SRAM存储器14b中并从中取出，而对等待时间不重要的更高带宽数据则被存储在DRAM存储器14a中并从中取出。可编程引擎16a-16h可为DRAM控制器18a或SRAM控制器18b执行存诸参考指令。

基于硬件的多线程处理器12还包括了一个用以加载为可编程引擎16a-16h的微码控制的处理核心20。在本实例中，该处理核心20是一个基于XScale^TM的构架。

该处理核心20执行通用目的计算机类型的功能例如处理协议，异常事件，同时额外支持包处理，其中可编程引擎16例如在临界条件下将该包停止以便进行更详细的处理。

该处理核心20有一个操作系统(未示出)。通过该操作系统(OS)，处理核心20能调用功能来在可编程引擎16a-16h上运行。该处理核心20能使用任何所支持的OS，特别是，实时OS。由于该处理核心20以一个XScale^TM的构架来实现，因此可以使用诸如Micorosoft NT real-time，VXWorks和μCOS的操作系统，或通过因特网得到的免费OS的操作系统。

硬件多线程的优点可通过SRAM或DRAM存储器访问来解释。作为一个实例，一个来自可编程引擎16之一的由上文(例如，Thread_0)请求的SRAM访问将使得SRAM控制器18b启动一个对SRAM存储器14b的访问。该SRAM控制器18b访问该SRAM存储器14b，从该SRAM存储器14b中取出数据，并将数据返回到请求的可编程引擎16。

在一个SRAM访问期间，如果可编程引擎16a-16h之一仅有一个能操作的线程，那么该可编程引擎将处在睡眠状态直到数据从SRAM存储器14b中返回。

通过在每个可编程引擎16a-16h中使用硬件上下文交换，该硬件上下文交换使其他具有唯一程序计数器的上下文在同一个可编程引擎中执行。这样，另一个线程，例如Thread_1，就能当第一个线程Thread_0正等待返回读数据时被执行。在执行期间，Thread_1可以访问DRAM存储器14a。当Thread_1在DRAM单元运行时，一个新的线程，例如Threaed_2，能立即在可编程引擎16中运行。Thread_2能运行一定时间直到它需要访问存储器或执行其他一些长等待时间的操作，例如对部线接口的访问。因此，同时地，该多线程处理器12能有一个总线操作，一个SRAM操作，和一个DRAM操作，这些所有的均能通过一个可编程引擎16完成或操作并具有更多的可用线程或上下文来处理更多的工作。

硬件上下文交换也与任务的完成同步。例如，两个线程能访问共享的存储器资源。例如，SRAM存储器14b。每个单独的功能单元之一，例如SRAM控制器18b和DRAM控制器18a，当它们完成来自一个可编程引擎线或上下文的任务时就返回一个操作完成的标志信令。当可编程引擎16a-16h接收到该标志时，可编程引擎16a-16h就能确定开启哪个线程。

基于硬件的多线程处理器12的一个应用实例是作为一个网络处理器。作为一个网络处理器，基于硬件的多线程处理器12与诸如媒体访问控制器(MAC)设备，例如10/100BaseT OctalMAC13a或千兆以太网设备13b的网络设备连接。总地来说，作为一个网络处理器，基于硬件的多线程处理器12能与任何类型的能信设备或接收或发送大量数据的接口连接。能用在联网应用中的计算机处理系统10能接收网络包并能以并行的方式处理这些包。

编程引擎

参考图2，示出了来自可编程引擎16a-16h的一个示范性的编程引擎16a。该可编程引擎16a包括一个控制存储器30，其在一个实例中包括一个具有4096个40比特宽的指令的RAM。该RAM存储了该可编程引擎16a执行的微程序。在控制存储器30中的微程序可通过处理器核心20(图1)加载。

除了对执行线程本地的事件信号外，该可编程引擎16a使用全局的信令状态。根据信令的状态，一个执行线程能将一个信号状态广播给所有的可编程引擎16a-16h。在可编程引擎中的任何一个以及所有的线程都能按这些信令的状态而分叉。这些信令状态可被用来确定一个资源的可用性或一个资源是否适于服务。上下文事件逻辑对这8个线程有一个仲裁。在一个实例中，该仲裁是一个循环机制。其他可以使用的技术包括优先队列或加权公平队列。

如上所述的，可编程引擎16a支持8个上下文的多线程执行。这使得一个线程刚在另一个线程发出一个存储参考信号之后就开始执行并且必须等待直到该参考信号完成才能做更多的工作。多线程执行是保持可编程引擎16高效的硬件执行的关键，这是因为存储等待时间是很重要的。多线程执行允许该可编程引擎16通过执行几个线程中的有用的独立工作来隐藏存储等待时间。

为允许高效的上下文交换，可编程引擎16a具有自己的寄存器组、程序计数器和上下文特定本地寄存器。每个上下文都有一个副本，这降低了从共享存储器和用于每个上下文交换的可编程引擎寄存器中来回移动上下文特定信息的需求。快速上下文交换允许当其他的上下文在等待完成输入-输出(I/O)，典型地为外部存储器访问，或等待来自另一个上下文或硬件单元的信号时一个上下文进行计算。

例如，可编程引擎16a通过保留8个程序计数器和寄存器的8个上下文关联组来执行这8个上下文。存在有6个不同类型的上下文关联寄存器，即，通用寄存器(GPR)32，内部程序代理寄存器(未示出)，静态随机存取存储器(SRAM)输入转移寄存器34，动态随机存取存储器(DRAM)输入转移寄存器36，SRAM输出转移寄存器38，DRAM输出转移寄存器40。

GPR32用于通用编程目的。该GPR32在程序的控制下排他地读和写。GPR32，当在指令中作为一个来源时，给执行的数据通路44提供操作数。当在指令中作为一个目的地时，GPR32用执行数据路径44的结果写入。可编程引擎16a还包括I/O转移寄存器34，36，38和40，这些寄存器被用来在可编程引擎16a和可编程引擎16a的外部的位置，例如DRAM存储器14a，SRAM存储器14b等，之间来回转移数据。

还使用了本地存储器42。本地存储器42是位于可编程引擎16a中的可寻址存储器。本地存储器42在程序控制下排他地读和写。本地存储器42还包括了通过所有的可编程引擎16a-16h共享的变量。共享的变量在各种分配的任务中由可编程引擎16a-16h在功能流水线阶段改变，其将在下面说明。该共享的变量包括一个关键部分，它定义了读一修改一写的时间。该关键部分在计算处理系统10中的执行和使用也将在下面描述。

可编程引擎上下文

可编程引擎16a的每个支持8个上下文的多线程执行。这样做的一个原因是允许一个线程刚在另一个线程发出一个存储参考信号之后就开始执行并且必须等待直到该参考信号完成才能做更多的工作。这个行为是保持可编程引擎16a-16f高效的硬件执行的关键，因为存储等待时间是很重要的。不同的是，如果只支持单个线程的执行，那么可编程引擎将为等待要完成的参考信号的大量周期而空闲，并因此而减低了总计算的吞吐量。多线程执行允许一个可编程引擎通过执行跨几个线程中的的有用的独立工作来隐藏存储等待时间。

可编程引擎16a-16h的每个具有8个可用的上下文。为允许高效的上下文交换，在可编程引擎中8个上下文的每个，都具有自己的寄存器组、程序计数器和上下文特定本地寄存器。每个上下文都有一个副本，这就降低了从共享存储器和用于每个上下文交换的可编程引擎寄存器中来回移动上下文特定信息的需求。快速上下文交换允许一个上下文当其他的上下文在等待I/O，典型地为外部存储器访问，或等待来自另一个上下文或硬件单元的信号时进行计算。

因此，图3显示了用于一个上下文的状态改变100。8个上下文中的每个均是以上描述的状态中的一种。最多，一个上下文在同一时间能处于一种执行状态而许多上下文可处于其他状态的一种：

1)非活动状态(100a)-由于一些应用程序可以不需要所有的8个上下文，因此当一个上下文的CTX_Enable(上下文激活)控制和状态寄存器(CSR)的启用位为“0”时，该上下文处在非活动状态。

2)准备状态(100b)-在这个状态中，虽然上下文作好了执行的准备，但该上下文由于一个不同的上下文仍在执行而不能进行。当执行的上下文转到睡眠状态时，可编程引擎的上下文仲裁器从所有处在准备状态的上下文中选择下一个上下文，从而转到执行状态。该仲裁是一个循环。

3)执行状态(100c)-当一个上下文的数在Active_CTX_Status CSR中时则该上下文是执行状态。执行上下文的程序计数器(未示出)被用来从控制存储器50中取出指令。上下文保持执行状态直到其执行导致它进入睡眠状态的指令。最多，一个上下文在任何时间都能是执行状态。

4)睡眠状态(100d)-上下文等待在CTX_#_Wakeup_Events CSR中指定的外部事件来发生，其中#表示8个不同的上下文例如上下#0到#7，典型地但不限于—个I/O访问。在此状态中，不将该上下文裁决为进入执行状态。

回到图2，每个可编程引擎22包括四种如下所述的32比特的数据路径寄存器。256个通用目的寄存器，12个临近寄存器，512个转移寄存器，以及640个32比特字本地存储器。

通用目的寄存器

可编程引擎16a包括了通用目的寄存器(GPR)52，其用于通用编程的目的。它们在程序的控制下排他地读和写。GPR52，当在指令中用做—个来源时，给执行的数据通路56提供操作数。当在指令中用做一个目的地时，GPR52用执行数据路径56的结果写入。GPR52被物理和逻辑地包括在两个存储体GPR A 52a和GPR B 52b中，如图3所示。

转移寄存器

可编程引擎16a还包括了转移寄存器58和60。转移寄存器4，36，38和40被用来在可编程引擎16和如DRAM，SRAM等的可编程引擎的外部的位置之间来回转移数据。在图2中例举了四种类型的转移寄存器，即输入转移寄存器和输出转移寄存器。

当该输入转移寄存器在指令中用做一个来源时，给执行的数据通路44提供操作数。当输出转移寄存器在指令中用做一个目的地时，用执行数据路径44的结果写入其中。

本地控制和状态寄存器(CSR)

本地控制和状态寄存器(CSR)66在执行数据通路56的外部并保留有特定目的信息。其能由特定的指令(local_csr_re和local_csr_wr)读和写，同时典型地比数据路径寄存器的访问频率低。

临近寄存器

可编程引擎16a还包括128个临近(NN)寄存器54。每个NN寄存器54当在指令中用做一个来源时，也给执行的数据通路44提供操作数。该NN寄存器54要么通过一个外部实体来写入，但不限于一个临近可编程引擎，要么通过相同的驻留有NN寄存器54的可编程引擎16a来写入。该特定寄存器由一个与上下文关联的操作选取，其中该寄存器的数字在指令中被编码，或者作为一个循环操作，通过诸如在CSR寄存器中的NN_Put(NN写地址)和NN_Get(NN读地址)选取。

当先前的临近可编程引擎与作为目的地的NN_Put一起执行一条指令时使用NN_Put寄存器。由此寄存器中的值所选取的NN寄存器被写入，然后增加NN_Put中的值(值到127后转回到0)。在此寄存器中的值与在NN_Get寄存器中的值比较以确定何时断言NN_Full和NN_Empty状态信号。

当NN寄存器54作为一个来源而被访问时使用NN_Get寄存器，其在指令中的来源字段中指定。由此寄存器中的值所选取的NN寄存器54被读出，然后增加NN_Put中的值(值到127后转回到0)。在此寄存器中的值与在NN_Put寄存器中的值比较以确定何时断言NN_Full和NN_Empty状态信号。

特别地，当NN寄存器54作为一个指令的目标时，该指令结果数据就从可编程引擎16a发送到，典型地是到另一个，临近可编程引擎。另一方面，当NN寄存器54作为一个指令的目的地时，该指令结果数据写入到在可编程引擎16a中选择的NN寄存器54。该数据并不象NN寄存器54被用作目的地时那样从该可编程引擎22f中发送出去。该NN寄存器54用在一个上下文流水线方法中，如下所描述。

本地寄存器

可编程引擎16a在本地存储器42中包括了640个32比特字。本地寄存器42是位于可编程引擎16a中的可寻址存储器。本地存储器42在程序控制下排他地读和写。本地存储器42将操作数提供给执行数据路径44作为一个来源，同时接收结果作为一个目的地。特定本地存储器位置的选取是基于一个LM_Addr寄存器53中的值，该值是通过local_CSR_wr指令写入的。每个上下文及其每个工作副本都有两个LM_Addr寄存器53。当一个上下文转到睡眠状态100d时，将工作副本的值放到LM_Addr的上下文副本中。当上下文转到执行状态时，将LM_Addr的副本中的值放到工作副本中。LM_Addr_0或LM_Addr_1的选择在该指令中被选取。通过设置CTX_Enable[LM_Addr_0_Global]和/或CTX_Enable[LM_Addr_1_Global]来使用这两个或一个LM_Addr作为全局也是可能的。当全局使用时，所有的上下文都使用LM_Addr的工作副本以代替它们自己的上下文特定副本。

本地存储器42还包括了可编程引擎16a-16h共享的变量。共享的变量在各种分配的任务中由可编程引擎16a-16h在功能流水线阶段改变。该共享的变量包括一个关键部分，它定义了读-修改-写的时间。

关键部分

可编程引擎16a-16h的流水线阶段包括了由在共享的变量的关键部分和后续包的到达时间之间的差所定义的最小解。分配给关键部分的时间必需少于后结包到达的时间，其确定了流水线阶段的最小解。存储器读的等待时间远远超出了用以最小尺寸包的包到达率，这里存储器读后面跟着用于修改变量的指令，然后跟着存储器写。因此，该关键部分必须保持比后续包的到达时间少。

执行数据路径

可编程引擎16a还包括了执行数据路径44，它能取走一个或两个操作数，执行一个操作，并任选地写回一个结果。来源和目的地可以是GPR32，转移寄存器34、36，38和40，NN寄存器54，以及本地存储器42。该操作是移位，加/减，逻辑运算，乘法，字节排列，和找到第一比特。执行数据路径44还包括一个内容可寻址存储器(CAM)64。

上下文可寻址存储器(CAM)

图4示出了一个CAM结构图102。可编程引擎16a包括了16个具有关联控制逻辑104的条目CAM64。每个条目存储一个32比特值，其能与一个来源操作数相比较。所有的条目并行比较，并且查找结果是一个6比特的值。该6比特的值包括一个与4比特条目数连接的2比特码。查找108的可能结果是两层。第一个结果是一个miss(0)110，其中该查找值不在CAM64中并且该条目数是最近最少使用(LRU)的条目，它可用做一个用于代替的所建议的条目。第二个结果可以是一个hit(1)112，其中查找值是在CAM64中，并且该条目数是一个已经匹配的条目。

LRU逻辑104保留一个用于CAM64的条目使用的时间顺序表。当一个条目被加载或与一个查找108匹配时，其被标记为MRU(最近最常使用)。错过的查找并不修改LRU表。

参考图5，显示的是一个典型的CAM处理120。例如，可编程引擎16a，使用一个16条目的高速缓冲存储器或具有一个LRU代替策略的CAM64来存储在同一时间工作在8个活动上下文或线程上的最近所使用变量的列表。这些线程按序执行，使用一个读阶段122和一个修改-写的阶段(未示出)。在该读阶段122期间，上下文请求一个变量并且该CAM64被检测以了解是否所需的变量已被高速缓冲存储(124)。如果该CAM64表示命中，则不需要读并且CAM64的内容给出了在该CAM中的变量的位置(126)。此外，当此上下文在其修改-写阶段变有效时，变量的更新值将存入高速缓冲存储器中，同时该上下文从CAM64中直接读出该值(128)。

另一方面，如果CAM64表示在读阶段122期间未命中，则开始读取所需变量(130)。因此，剩余7个上下文的执行时间被用来完全隐藏该读(132)的等待时间。而且，该变量在此上下文的修改-写阶段是可用的。由于如果最近被使用过则该变量在CAM64中已经是有效的了，因此就避免了该关键部分的写等待时间。接着，CAM被写或更新(134)。CAM64的内容提供LRU高速缓冲存储器变量的位置，同时新的变量覆盖先前使用的变量(136)。

接着，上下文直接从CAM64(136)中读出其值，并且该上下文返回到读阶段的开始(122)。因此，每个可编程引擎成为了一个流水线阶段，执行包处理的特定任务，同时监视用以特定任务的上下文或变量。

上下文流水线操作

参考图6，一个上下文流水线130流程示出了被分配给一个包或者单元的处理任务的特定部分的可编程引擎16a-16h。该用以特定任务的上下文保留在使用了CAM64a-64c的可编程引擎16a-16h中。该包以一个流水线方式处理，其类似于使用NN寄存器54a-54c的装配线来使数据从一个可编程引擎传到后面临近的可编程引擎。数据从流水线的一个阶段132a传到后面的阶段132b，并接着从阶段132b传到流水线的阶段132c，诸如此类。换句话说，数据传给流水线的下一阶段，以使得处理步骤能在处理器中循环交替。特别地，当一个指令被执行时，下一个指令能被取出，其意味着在任何时间在“管道”中都可以有超过一条的指令，且每个均在不同的处理阶段。

例如，数据能从一个可编程引擎16向前传送到下一个在流水线中使用了NN寄存器54a-54c的可编程引擎16。这种执行流水线处理的方法的优点是，包括在AM64a-64c中的用于每阶段132a-c的信息对流水线阶段的所有8个上下文都是始终有效的。当来自被处理的包的最小数据必须要优先通过上下文流水线130时，可以使用该上下文流水线方法。

其他实施例

可以理解的是，虽然以上的实例已经被详细描述，但前面的描述只是例举而并不限制本发明的范围，本发明的范围由所附权利要求的范围加以限定。其他的方面，优点，和修改均在以下权利要求的范围之内。

Claims

1.一种并行多线程处理方法，包括：

建立编程阶段，每个编程阶段包括至少一个可编程引擎；并且在每个编程阶段：

在所述至少一个可编程引擎中分配一个或多个任务以供处理，

管理多任务的平行处理，包括为多任务的每一个建立上下文，其中所述多任务中的至少一个要求多指令执行，

基于指令的执行，从多任务中一个的处理切换到多任务中另一个的处理，以及

一旦完成了多任务，则将与多任务相关的数据传递给后续的编程阶段。

2.如权利要求1的方法，其中建立用于分配的任务的上下文包括提供一个软件控制的高速缓冲存储器。

3.如权利要求2的方法，其中软件控制的高速缓冲存储器是一个上下文寻址存储器CAM。

4.如权利要求1的方法，进一步包括形成至少一个驻留在可编程引擎的每一个中的下一临近寄存器。

5.如权利要求4的方法，还包括建立多个流水线，其包括将数据从至少一个驻留在可编程引擎之一中的下一临近寄存器转移到驻留在与多个可编程引擎之一中的临近的可编程引擎中的后续下一临近寄存器。

6.如权利要求5的方法，所述其中一个可编程引擎保留有所述流水线当前操作的编程阶段，而临近可编程引擎保留有多个流水线的后续编程阶段。

7.如权利要求1的方法，进一步包括所述可编程引擎在编程阶段中使用的分配的任务中修改变量，其中该变量是由所述可编程引擎的编程阶段使用的共享变量，并包括了用来定义共享变量的读-修改-写时间的关键部分。

8.如权利要求7的方法，进一步包括定义一个通过在共享变量的关键部分和后续包到达时间之间的差所定义的编程阶段的最小解，其中该关键部分少小于后续包到达的时间。

9.如权利要求3的方法，其中所述可编程引擎的每个同时执行多个上下文。

10.如权利要求9的方法，其中该多个上下文顺序执行。

11.如权利要求10的方法，其中该顺序包括一个读阶段和一个写一修改阶段。

12.如权利要求11的方法，其中该上下文寻址存储器CAM包括多个用以监视最近最少被使用的变量的项。

13.如权利要求12的方法，其中读阶段包括：确定该上下文寻址存储器CAM中的共享变量的高速缓冲存储器状态，并且如果该共享变量在该上下文寻址存储器CAM中被高速缓冲存储则更新用于该共享变量的值。

14.如权利要求12的方法，其中该读阶段在多个上下文中的至少一个中从本地存储器读出共享变量。

15.如权利要求14的方法，其中其余的多个上下文通过执行为处理包而分配的其他任务，从而隐藏了读的等待时间。

16.如权利要求14的方法，其中该共享的变量在该上下文寻址存储器CAM中被高速缓冲存储，并对于在多个上下文的至少一个中的修改-写阶段上的处理是可用的。

17.如权利要求1的方法，其中所述至少一个可编程引擎执行与多任务中的第一个任务相关联的指令，并且当与多任务中的第一个任务相关联的指令包含长延迟时间操作的时候，切换到多任务中的第二个任务。

18.如权利要求1的方法，其中所述至少一个可编程引擎执行与多任务中的第一个任务相关联的指令，并且当与多任务中的第一个任务相关联的指令要求对存储器的访问的时候，切换到多任务中的第二个任务。

19.一种并行多线程处理器，包括：

在编程阶段中分配的可编程引擎，在每个编程阶段，至少一个可编程引擎执行：

接收任务以处理，

20.如权利要求19的处理器，其中可编程引擎中的每个包括下一临近寄存器，用来将数据从驻留在最近执行的可编程引擎中的下一个临近寄存器转移到驻留在临近可编程引擎中的随后的下一个临近寄存器。

21.如权利要求20的处理器，其中所述可编程引擎中的每个进一步包括一个上下文寻址存储器CAM。

22.如权利要求21的处理器，其中该上下文寻址存储器CAM包括多个用以临视最近最少被使用的变量的项。

23.如权利要求21的处理器，进一步包括由所述多个可编程引擎的编程阶段使用的共享变量，该共享变量包括了用来定义共享变量的读-修改-写时间的关键部分。

24.如权利要求23的处理器，进一步包括由在共享变量的关键部分和后续包的到达时间之间的差所定义的编程阶段的最小解，其中该关键部分少小于后续包的到达时间。

25.如权利要求21的处理器，其中该多个上下文按顺序执行，该顺序包括一个读阶段和一个写-修改阶段，其中该读阶段包括在该上下文寻址存储器CAM中确定共享变量的高速缓冲存储器状态并且如果该共享变量在该上下文寻址存储器CAM中被高速缓冲存储则更新用于共享变量的值，其中该读阶段在多个上下文的至少一个中从本地存储器读出共享变量。