CN101149675A

CN101149675A - 乘法器

Info

Publication number: CN101149675A
Application number: CNA2006100642259A
Authority: CN
Inventors: V·戈帕尔; G·沃尔里希; W·费格哈利; R·奥塔维
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2005-12-30
Filing date: 2006-12-29
Publication date: 2008-03-26
Also published as: DE602006017589D1; US20110264720A1; EP1966680A2; WO2007078939A2; EP1966680B1; CN101042639A; US8073892B2; ATE484789T1; WO2007078939A3

Abstract

一种电子实现的方法，包括把数字A和B相乘，其中A由片断ai构成以及B由片断b_j构成，其中i和j是大于1的整数。该相乘包括确定至少某些a_ib_j的部分乘积值并且当对于各个i和j的值当a_i＝b_j并且b_j＝a_i时，通过把(1)a_ib_j和(2)a_jb_i之一乘以2来确定a_ib_j和a_jb_i的部分乘积值之和。确定针对a_ib_j和a_jb_i所确定的部分乘积值与所确定的部分乘积值之和的总和并将其存储在存储元件中。

Description

乘法器

背景技术

密码系统保护数据免受有害的接入。密码系统通常包括数据上的数学运算(加密)使得原始数据(明码文本)无法理解(密码文本)。反向数学运算(解密)可从密码文本中恢复原始数据。密码系统覆盖了加密和解密数据的各种应用。例如，密码系统通常用于认证(即，可靠的确认通信方的身份)，数字签名的产生，等。

目前，密码技术严重依赖于密集的数学运算。例如很多方案使用一种被认为模幂(modular exponentiation)算法的模运算，其涉及把较大数字自乘某些次，并且针对一个模来进行简化(即当被给定模数相除时的剩余部分)。数学地，模幂可以被表示为g^e mod M，其中e是指数并且M是模。

因此，乘法和模降低是简易(Straight forward)运算。然而，通常，在这些系统中使用的数字非常大。例如，g^e中的“e”可以长达几百甚至几千比特。对如此大的数字执行运算在时间和计算资源方面都非常昂贵。

附图说明

图1是乘法器的框图；

图2是阐明由该乘法器所确定的部分乘积的框图；

图3是阐明由并行乘法器所确定的部分乘积的框图；

图4是具有耦合到乘法器的乘法处理单元的部件的框图。

具体实施方式

多种密码运算依靠乘法器。例如，模幂(例如，确定g^e mod M)是例如RSA(以Rivest，Shamir和Adelman命名的密码算法)和Diffie-Helman的各种密码算法的核心。例如，在RSA中，公钥是由公指数e-public和模数M构成。私钥是由私指数e-private和模数M构成。为了加密一个消息(例如，分组或分组净荷)，执行下面的运算：

ciphertext＝cleartext^e-public mod M

为了解密一个消息，执行下面的运算：

cleartext＝ciphertext^e-private mod M

cleartext(明文)、ciphertext(密文)、以及公和私指数可以是非常大的数字，使得这些运算在计算方面非常昂贵。

执行模幂的一般方法以例如从左到右的顺序处理指数e中的比特。对于指数串中的每个“0”比特，程序平方当前结果。对于每个“1”比特，程序平方并乘以g。当较大的数字已经被累计时模降低可以在末端执行或者模降低可以被交织在乘法运算中，例如在处理每个指数比特或每几个指数比特之后。在该示例方案中，尽管指数比特的某些部分可能引起非平方乘法，运行时间被发生在每个比特的平方运算所支配。

上述示例模幂算法示意了加密系统实施的性能严重依赖于乘法的效率，尤其是平方运算的效率。图1阐明了乘法器120的实现例子，其在最合适的时钟速率具有较高性能并且是面积有效的。使用乘法器120可以有效地实现对较大数字的各种模幂算法。除了有效的处理一般的操作数乘法，乘法器120还包括逻辑以提高平方运算的性能，潜在的，降低用于执行平方的时钟周期的数量以及在降低时钟周期外降低功率。

如图1所示，乘法器120对两个操作数A 100a和B 100b进行运算。图1显示了操作数A 100a和B 100b由一组片断a_i和b_j组成。对于规则大小的片断，操作数可以表示为

和

。例如，在图1所示的例子中，其中n＝3，A＝a₃x³+a₂x²+a₁x¹+a₀以及B＝b₃x³+b₂x²+b₁x¹+b₀。a_i和b_j的宽度(例如，x的值)可以基于A 100a和B 100b的宽度以及下面的乘法器120部件的数据路径大小进行选择。例如，对于512比特的A 100a和B 100b，x可以被设定为2¹²⁸产生的统一128比特大小的片断。

A 100a和B 100b的值可以存储在各自的FIFO(先入先出)队列，该队列缓存操作数100a和100b。FIFO的宽度可以改变。例如，一个512比特的数字可以存储在8个64比特得FIFO项目中。在每个FIFO中的项目数量可以改变。例如，给定的FIFO可以具有足够的项目来缓存多个乘法问题的多个操作数。例如，FIFO可以具有16个64比特项目，从而两个完全乘法问题的两组操作数可以被同时排列。可以排列的操作数的数量是面积(由于更多项目的更大面积)和性能的折中。如下所述，乘法器120可以同时操作多个乘法问题，从而排列多个操作数的能力可以提高性能。

如图所示，乘法器120可以操作为流水线，其在控制逻辑116的控制下通过乘法器120部件馈送中间结果。乘法器120可以通过为每种片断组合a_ib_j计算部分乘积来执行乘法操作。假设512比特A100a和B100b操作数分割为128比特a_i和b_j片断，乘法器120可以通过对16个a_ib_j的部分乘积求和来计算AxB。

为了确定部分乘积，乘法器120具有并行操作的一组(例如，两个)乘法器102a，102b。乘法器102a，102b可以是NxN无符号整数乘法器(例如，64x64比特乘法器)其中N可以基于操作数的预期大小进行配置。NxN乘法器102a，102b可以是传统的阵列乘法器。如图所示，乘法器102a，102b可以是进位-求和乘法器，其输出两个向量，一个表示结果(不包含到较高有效比特位的任何进位)和一个存储进位。可以推迟两个向量相加，直到需要最后结果时。由于在乘法器120的前端不需要大的进位-传播加法器，该进位/求和结构有利于降低乘法器120所消耗的面积，尽管进位-传播结构可以有选择的被实现。如图1所示，加法器112组合进位以及求和向量从而产生最后的乘法结果。

乘法器102a，102b通过分别在第一周期确定a_i(H)b_j(L)和a_i(L)b_j(L)并且在第二周期确定a_i(H)b_j(H)和a_i(L)b_j(H)来为a_ib_j确定部分乘积，其中符号_(H)和_(L)指示每个相应片断的高阶(H)和低阶(L)比特。乘法器102a，102b把部分乘积输出到寄存器104a，104b。基于各自a_i和b_j片断的有效性来移位所述部分乘积。

寄存器104a，104b的输出被馈送到累加器106，累加器106把部分乘积增加到之前存储的部分乘积结果上。潜在的，寄存器104a，104b的输出发生在每个周期。在其他实现中，寄存器104a，104b可以被累加器代替并每两个周期输出到累加器106。再次，累加器106可以以进位/求和的方式操作。返回到上述512比特的例子，假设每个部分乘积需要两个周期，乘法器120使用32个周期来计算使用乘法器102a，102b的16个部分乘积的每一个。在这样的配置中，累加器106可以有260比特的宽度(例如，256比特+4比特来计算可能超过256比特的中间乘积)。

部分乘积的计算顺序可以被排序，以便在准备好时输出最后结果的最低有效比特。例如(如下所述的图2所示)部分乘积可以按照结果的有效性以升序计算。当一组最低有效比特被累加器106存储从而随后的部分乘积计算并不影响该组比特时，累加器106通过寄存器108把这组比特移动到FIFO 110。例如，在计算a₀b₀后，较低比特(例如，在运行512比特的例子中较低的128比特)可以被移出累加器106，以在FIFO110中排队。累加器106通常并不引出(retire)每个部分乘积计算的比特，因为多个部分乘积可以覆盖最后结果的相同比特。当累加器106引出比特时，累加器106的移位调整存储在累加器106中的数值的有效性并且控制逻辑116相应地调整由乘法器102a，102b馈送入累加器106的部分乘积的移位。最后的部分乘积使得累加器106引出比特串从而清空累加器106。

FIFO 110存储由累加器106引出的进位/保存向量的比特。潜在的，FIFO 110可以实现为一对FIFO，其中一个用于进位向量，另一个用于求和向量。FIFO 110进而馈送入加法器112，加法器112求和进位/保存向量的引出部分。FIFO 110可以平滑到加法器112的比特馈送，从而加法器112可以在每个连续的周期中连续地被馈送以引出部分，直到输出最后的乘法器120结果。如果没有FIFO110，则当一个周期(其不会导致累加器106比特的引出)传输到流水线时，加法器112将停止。相反的，通过用引出的比特填充FIFO 110并且延迟FIFO 110的出列(dequeuing)，FIFO 110可以保证加法器112的连续运算。FIFO 110可以被最小化为仅仅存储足够数量的引出比特从而“跳过”的引出周期并不使加法器110停止，加法器110受限于以下的约束条件：FIFO 110必须足够大来容纳最后周期中引出比特的突发串。例如，在运行例子中，4项目的256比特FIFO110足以保证一旦FIFO 110出列开始，加法器112就被激活，假设为64比特加法器112。

加法器112的输出被馈送到寄存器114以聚集成最后乘积。例如，寄存器114可以馈送一个FIFO(没有显示)或其他电子存储元件(例如寄存器或者存储单元)，所述元件对最后乘积比特排队，以便由该乘法结果的目的设备接收。

由于流水线结构，当已经完成前一问题并且操作数的足够部分已经被排列时，乘法器120可以开始解决新的问题。即，在加法器112完成前一问题的工作前，可以开始解决新的乘法问题。为了容易实现该问题，乘法器首先排列操作数的最低有效字并且在问题的全部操作数被排列之前就可以潜在地开始针对新问题的工作。

乘法器120的运算在控制逻辑116的控制下进行。逻辑116(除了其它操作之外)控制哪些操作数片断被提供到乘法器102a，102b，寄存器104a，104b中部分乘积的移位，累加器106中比特的引出，以及FIFO 110的进列/出列。如下所述，控制逻辑116可以最优化为提高平方运算的性能。

图2阐明了在乘法202和平方204模式中乘法器的运算。如图2所示，在乘法模式202中，A100a的每一项被B100b的每一项相乘，并且基于各项在其操作数内的有效性来移位所得到的部分乘积。如图所示，运算被排序为202a-202p，从而最后的乘法结果的最低有效值可以被首先确定。在示例的序列202a-202p中，假设每个部分乘积计算需要两个周期，那么计算该组部分乘积202a-202p会花费32周期的部分乘积值。

然而，如果A＝B，乘法器120可以降低所确定的部分乘积的数量。即，如果A＝B，则a_ib_j＝a_jb_i。因而只需要计算a_ib_j或a_jb_i之一并且乘2，而不用计算a_ib_j和a_jb_i。因此，如图2所示，如果A＝B，序列204可以为在更一般的乘法序列202中出现的两个数字执行单个部分乘积确定。例如，没有计算a₀b₁202b和a₁b₀202c，序列204仅仅需要计算并移位(乘2)a₀b₁204b。同样的，不用计算a₀b₂202d和a₂b₀202f，序列204仅仅需要计算并移位a₀b₂202c。如图所示，该最优化降低了部分乘积计算的数量，在该例子中从16个202a-202p降低为10个204a-204j。再次，假设每个部分乘积计算需要2个周期，这得到了12周期的速率提高以及与每个操作数100a，100b乘法相关的功率和热量的降低。

即使当A100a和B100b并不相等时上面所示方式的优点也可以适用。例如，只要a_ib_j＝a_jb_i(例如，当a_i＝a_j以及b_i＝b_j或当a_i＝b_j以及a_j＝b_i时)控制逻辑116就可以从以上措施中获益。依赖于比较运算和乘法运算的相对花费，这些片断的比较会使得这种最优化不引人注意。

如图所示，乘法器120可以根据A是否等于B来选择运算的模式。例如，乘法器120可以进行操作数的初始比较运算。例如，乘法器120可以XOR(异或)A100a以及B100b并且对应于0结果选择“平方模式”。然而，该方案需要在开始计算前加载全部的操作数。因此，乘法器120替代地接收一个信号，其指示A＝B或在不考虑其他操作数的值的情况下对A102a或B102b进行平方运算。例如，使用乘法器120的可编程处理元件可以具有一条指定平方运算的指令。该处理元件可以响应于该指令执行进而向乘法器120发送平方信号或消息。潜在的，A102a和B102b可以引用同样的一组存储位置(例如，A的地址＝B的地址或换言之B就是A)。

图2中所示的技术可以被图1中所示的乘法器120的控制逻辑116实现。例如，在两个512比特数字的乘法模式中，控制逻辑116可以调整乘法器120以计算如序列202所示的部分乘积。一个128比特的最低有效字被移出累加器106并在周期{2，6，12，20，26，30}移入到FIFO 110中。在周期32，2个128比特的4倍长字(quadword)被移进FIFO 110。在初始的等待后，加法器112每周期引出一个64比特的结果字，直到在连续的16周期的突发中写出全部的1024比特结果。加法器在周期20开始，并且在其后的每个周期在FIFO110的最前面以全部进位传输的冗余形式引出128比特(求和/进位)字对。加法器112把结果输出到寄存器114。乘法模式的吞吐量受到部分乘积的产生的限制，他们花费了32个周期；从而新的乘法问题可以每32周期被注入。

在平方模式中，控制逻辑116选择部分乘积计算的不同序列204。尤其的，控制逻辑116可以通过i和j索引的比较确定如何处理部分乘积。即，如果i不等于j，则控制逻辑116把馈送到累加器106的a_ib_j乘法块的输出移位一个比特并跳过a_jb_i的随后计算。如果i＝j，则不发生这样的移位。

与一般的乘法相比，在运行的例子中，控制逻辑116在周期{2，4，8，12，16，18}中使128比特的最低有效4倍长字移入到FIFO 110中。在周期20，2个128比特4倍长字在一个突发中被写入FIFO 110。加法器112在周期8开始并在连续的16周期的突发中传送最后的结果。吞吐量仍受限于部分乘积的产生；尽管这被降低到20周期。

图3阐明了对于操作数a_i210a和b_j210b进行操作的乘法器102a，102b的运算212。如图所示，a_i210a和b_j210b是由高和低有效子片段构成-a_i210a由子片段a_i(H)和a_i(L)构成而b_j210b由子片段b_j(H)和b_j(L)构成。在图1所示的乘法器120的示例实现中，其中a_i210a和b_j210b都是128比特并且乘法块102a，102b是64x64乘法器，子片段a_i(H)、a_i(L)、b_j(H)和b_j(L)具有64比特的长度。

如图3所示，乘法器102a，102b可以使用两个周期来计算a_i(H)、a_i(L)、b_j(H)和b_j(L)的每个组合。例如，乘法器102a可以计算a_i(L)b_j(L)212a而乘法器102b同时计算a_i(H)b_j(L)212b。在随后的周期，乘法器102a和102b可以分别同时计算a_i(L)b_j(H)212c和a_i(H)b_j(H)212d。

然而，如图3所示，当a_i＝b_j时，需要更少的部分乘积的乘法。即当a_i＝b_j时，a_i(H)b_j(L)＝a_i(L)b_j(H)。因此，如图3所示，当a_i＝b_j时，a_i(H)b_j(L)项可以被计算214b并被移位(例如，乘以2)从而提供a_i(H)b_j(L)和a_i(L)b_j(H)的部分乘积。因此，由于这时不再需要乘法块102b中的一个，其可以被断电214c(用φ运算指示)。在所示的例子中，断电一个乘法器102a或102b可以为部分乘积计算获得25％的功率降低从而降低产生的热量。断电乘法块102a，102b可以以多种方式执行。例如，时钟输入可以与控制逻辑116输出的使能比特进行与操作(AND)。

更一般的，当a_i(H)＝b_j(L)以及a_i(L)b_j(H)时，即使a_i≠b_j，上述最优化也可以工作。这种实现方式可以将乘法器102a，102b的周期替换为比较运算，其在这些运算的相对时间和功率花费方面是合适的。

上述技术可以以多种方式以及在多种系统中实现。例如，除了图1中所示的乘法器120的结构，该技术可以在其他的专用数字或模拟硬件(例如在诸如Verilog(tm)的硬件描述语言中通过上述的编程技术来确定)、固件、和/或ASIC(特定应用集成电路)或可编程门阵列(PGA)中实现。该技术也可以实现为计算机程序，放置在计算机可读存储介质中，以便由处理器执行。例如，处理器可以是通用处理器。

如图4所示，这些技术可以实现为可以被处理器模块300执行的计算机程序，处理器模块300可以卸下加密运算。如图所示，模块300包括多个可编程处理单元306-312以及一个专用硬件乘法器314。处理单元306-312根据从共享存储逻辑304下载的数据，按照内核302的指示运行程序。其他处理器和/或处理器内核可以向模块300发送命令来指定执行的数据和运算。例如，处理器内核可以向模块300发送命令来根据存储在RAM 316中的g，e和M值来执行模幂。通过向共享存储逻辑304发送指令，内核302可以作出响应，把模幂程序下载到处理单元306-312以及把正进行运算的数据从RAM 316下载到共享存储器304，并且最后下载到处理单元306-312。处理单元306-312依次执行程序指令。尤其的，处理单元306-312可以使用乘法器316来执行程序指令所确定的操作数的乘法或平方。在完成之后，处理单元306-312可以把结果返回到共享存储逻辑304以发送到请求内核。处理器模块300可以被集成在与可编程内核相同的芯片中或不同的芯片中。

如图所示，乘法器314连接到多个处理单元306-312，允许每个单元306-312向乘法器314分派操作数并等待响应。通过使用乘法器314，处理单元306-312可以以各种方式被仲裁。例如，乘法器314可以针对每组操作数而在单元之间进行循环。可选择的，乘法器314在服务其他单元306-312之前可以服务被单个单元排列的所有的未决乘法问题。再次，各种可选方案可以被实现。

图4仅仅阐明了使用上述乘法技术的例子的结构。然而该技术可以被应用在各种其他的结构中，例如一个被编程的传统通用处理器、网络接口卡、网络处理器、图像卡、网络存储设备等。

这里使用的术语电路包括硬连线电路、数字电路、模拟电路、可编程电路等。可编程电路可以操作于计算机程序上。

其他实施例落在下面的权利要求的范围内。

Claims

1.一种电子实现方法，包括：

对数字A和B进行相乘，其中A由片断a_i构成以及B由片断b_j构成，其中i和j是大于1的整数，其中相乘包括：

确定至少某些a_ib_j的部分乘积值；

当对于各个i和j的值有a_i＝b_j并且b_j＝a_i时，通过把(1)a_ib_j和(2)a_jb_i之一乘以2来确定a_ib_j和a_jb_i的部分乘积值之和；

确定针对a_ib_j和a_jb_i所确定的部分乘积值与所确定的部分乘积值之和的总和；以及

把针对a_ib_j和a_jb_i所确定的部分乘积值与所确定的部分乘积值之和的总和存储在存储元件中。

2.根据权利要求1所述的方法，进一步包括：

接收A＝B的指示。

3.根据权利要求1所述的方法，进一步包括：

针对各个i和j的值确定i是否等于j。

4.根据权利要求1所述的方法，其中对数字A和数字B进行相乘包括作为对消息进行加密运算的一部分，以一组运算来执行相乘，以便以指数e对数字x进行求幂。

5.根据权利要求1所述的方法，其中电子实现方法包括一种由乘法器实现的方法，其中乘法器包括并行安排的多个乘法器，多个乘法器中的至少一部分同时确定部分乘积。

6.根据权利要求5所述的方法，其中乘法器包括流水线，包括多个乘法器、接收多个乘法器输出的累加器、缓存累加器输出的队列以及由该队列馈送的加法器。

7.根据权利要求1所述的方法，其中对于a_i＝b_j确定a_ib_j包括：

确定a_i(H)b_j(H)、a_i(L)b_i(L)，以及确定a_i(H)b_j(L)和a_i(L)b_j(H)中的一个。

8.根据权利要求1所述的方法，对数字A和数字B进行相乘包括第一数字A的平方。

9.根据权利要求1所述的方法，其中对于a_ib_j和a_jb_i之一，当对于各个i和j的值a_i＝b_j并且b_j＝a_i时，a_ib_j和a_jb_i中的一个不被计算。

10.一种对数字A和数字B进行相乘的设备，其中A由片断a_i构成以及B由片断b_j构成，其中i和j是大于1的整数，该设备包括逻辑以：

确定至少某些a_ib_j的部分乘积值；

当对于各个i和j的值，当a_i＝b_j并且b_j＝a_i时，通过把(1)a_ib_j和(2)a_jb_i之一乘以2来确定a_ib_j和a_jb_i的部分乘积值之和；

11.根据权利要求10所述的设备，进一步包括用于接收A＝B的指示的逻辑。

12.根据权利要求10所述的设备，其中该设备包括并行安排的多个乘法器，多个乘法器中的至少一部分同时确定a_ib_j的部分乘积。

13.根据权利要求12所述的设备，其中该设备包括一个流水线，包括并行安排的多个乘法器、接收多个乘法器输出的累加器、缓存累加器输出的队列以及由该队列馈送的加法器。

14.根据权利要求10所述的设备，其中对于a_i＝b_j确定a_ib_j包括：

确定a_i(H)b_j(H)、a_i(L)b_i(L)，以及确定a_i(H)b_j(L)和a_i(L)b_j(H)中的仅仅一个。

15.根据权利要求12所述的设备，其中对于a_i＝b_j确定a_ib_j包括：

确定a_i(H)b_j(H)、a_i(L)b_i(L)以及a_i(H)b_j(L)和a_i(L)b_j(H)中的仅仅一个。

16.根据权利要求10所述的设备，其中相乘包括对数字A进行平方。

17.根据权利要求10所述的设备，其中对于a_ib_j和a_jb_i之一，当对于i和j的各个值a_i＝b_j并且b_j＝a_i时，a_ib_j和a_jb_i中的一个不被计算。

18.根据权利要求10所述的设备，该设备具有至少两种乘法模式，第一乘法模式计算每个a_ib_j的部分乘积以及第二平方模式计算少于每个a_ib_j部分乘积。

19.一种计算机程序成品，放置在计算机可读介质上，该程序包括引起数字A的平方的指令，其中A由片断a_x构成，x是大于1的整数，其中相乘包括：

确定至少某些a_ia_j的部分乘积值，其中i和j是大于1的整数；

当对于各个i和j的值当a_i＝a_j并且a_j＝a_i时，通过把(1)a_ia_j和(2)a_ja_i之一乘以2来确定a_ia_j和a_ja_i的部分乘积值之和；

确定针对a_ia_j和a_ja_i所确定的部分乘积值与所确定的部分乘积值之和的总和；以及

把针对a_ia_j和a_ja_i所确定部分乘积值与所确定的部分乘积值之和的总和存储在存储元件中。

20.根据权利要求19所述的计算机程序，其中相乘进一步包括为各个i和j的值确定i是否等于j。

21.根据权利要求19所述的计算机程序，其中计算机程序包括对一个数字求幂的指令。

22.根据权利要求19所述的计算机程序，其中对于a_i＝b_j确定a_ib_j包括：

确定a_i(H)a_j(H)、a_i(L)a_i(L)，以及仅仅确定a_i(H)a_j(L)和a_i(L)a_j(H)之一。

23.根据权利要求19所述的计算机程序，其中对于a_ia_j和a_ja_i中的一个，当对于各个i和j的值当a_i＝a_j并且a_j＝a_i时，a_ia_j和a_ja_i中的一个不被计算。

24.根据权利要求19所述的计算机程序，其中(1)a_ia_j和(2)a_ja_i之一乘以2包括移位(1)a_ia_j和(2)a_ja_i之一。