CN1282435A

CN1282435A - 通过均衡正交映射可视化和自组织多维数据

Info

Publication number: CN1282435A
Application number: CN98812256A
Authority: CN
Inventors: 包约翰; 孟卓
Original assignee: LIANXIANG GUANQUN SOFTWARE CORP
Current assignee: LIANXIANG GUANQUN SOFTWARE CORP
Priority date: 1997-12-15
Filing date: 1998-12-14
Publication date: 2001-01-31
Anticipated expiration: 2018-12-14
Also published as: US6212509B1; WO1999031624A1; ATE368904T1; IL136524A; CN1165869C; EP1038261B1; US20010032198A1; JP3520048B2; CA2312902A1; AU737276B2; IL136524A0; CA2312902C; KR20010033181A; DE69838181T2; KR100343533B1; DE69838181D1; JP2002509303A; BR9813585A; EP1038261A1; US6907412B2

Abstract

本系统提供模式数据的缩减维数映射。映射通过具有非线性神经元的普通单隐蔽层前馈神经网络来进行。按照本发明的一个方案,通过把输出信号的协方差矩阵缩减成对角矩阵或常数乘以单位矩阵的形式,该系统起均衡和组织较低维数输出信号的作用。本发明在相对“拓扑校正”的低维数近似中允许大批复杂多维数据可视化,以减小与类似目的的其它方法有关的随机性,同时保持高效率计算映射。

Description

通过均衡正交映射可视化和自组织多维数据

相关申请

本申请是1995年9月29日申请的共同待审的申请序号为No.08/536059的美国专利的部分继续申请(CIP)。

发明背景

本申请涉及人工智能技术，特别涉及用于组织大批模式数据以便组织模式数据从而便于理解特性的系统。

所说的这个系统有对已获得的例如化学特性信息等经验数据进行分析的特殊应用，并将利用本文引证的特定参考文献来描述。可是，应该懂得，本系统适用于分析任何相关数据集合以便允许其构成单元的可视化和理解。

难以了解大量多特征模式数据含义。实际上该批数据不必较大；即使400个模式的组，六个特征的每一个都相当难以“理解”。自组织的概念涉及这种情况并可利用接近那个任务的两个主要途径进行理解。在一种情况下，努力发现在模式空间中数据是如何分布的，目的是利用多维群集或如果合适的话，利用某些其它的分布更简单地描述大批模式。这是构成适应性共振理论(Adaptive Resonance Theory(ART)和其它群集分析方法基础的主要概念。

在另一种情况中，致力于减少维数。相应的理论是，具有大量特征的初始表达，在其具有彼此几乎重复的几个特征的表达上是多余的。在这种情况下，伴随维数减少的主要特征析取可简化各描述和所有模式。然后在减小的维数空间中适当地实现群集。Karhunen-loeve(K-L)变换、K-L变换的神经网络实施方案、和自动相关映射方法都涉及主要成分分析(PCA)、特征析取和维数减少。

实际上，两个活动流程并不是完全独立的。例如，ART方法在形成其群集中具有强“谁胜谁占有”机理。这种方法被适当看作为“析取的”主要原型，并利用这些较少的主要原型构成较少的描述。特征映射方法的目的是通过横向激励-抑制把类似的模式汇集在一起，以便具有类似特征的模式在减少维数的特征映射中被映射成相邻的区域。该方法群集并减少了维数。共同的目标是使数据自组织成更简单的表达。

本说明书中描述了自组织该相同任务的新方法。其想法是对数据进行非线性映射，使其从原始表达映射成为减少维数的一种表达。利用多层前馈神经网络可适当地实施这种映射。以未监控的方式根据模式描述中总方差恒定的原理可获悉网络参数。

维数减少的概念本身有些奇怪。它允许用一批模式数据的减少维数的描述来表示原始的该批数据。对于线性情况已知其相应的答案，但在一般非线性的情况下细节描述起来更困难。

注意到基于Karhunen-loeve(K-L)变换的主要成分分析(PCA)的概念，标志着导致本发明的进程的开始。数据协方差矩阵的特征向量提供相关数据的非相关表示的基础。主要成分是具有较大特征值的特征，即从一个模式到另一个模式变化较大的那些特征(在已变换的表达中)。如果仅几个特征值较大，那么利用相应于特征向量的那几个特征适当地塑造减少维数的表达，但仍然保持数据中几乎所有的信息。已经发现，利用用于PCA目的的Karhunen-loeve变换涉及许多非平凡问题因而是有价值的。但是在模式识别中，在下列方面是失败的，即所保留的不必是有助于级间辨别的。

随后的某些相关的发展寻求链接PCA、K-L变换和线性神经网络的观点。这种努力寻求通过神经网络计算、利用完全连接的多层前馈网络、借助用于获得权(weights)的反向传播算法、或利用Generalized HebbianLearning算法，实现线性K-L变换。在这种系统中，给出一个正确的目标函数，可以注意到，用于线性链接到任何隐蔽层节点的权为协方差矩阵的特征向量的成分。早期的工作还描述了主要成分随后如何被发现，和该方法如何避免评价可能非常大的协方差矩阵的所有元素的繁杂任务。

早期的工作期望解决：如果允许网络中的神经元也为非线性可能实现的是什么这个问题。其它的努力是寻求解决该问题的答案。在一种情况下，在多层前馈网络中对原始数据模式矢量进行多层变换，但具有非线性内层节点。这种网络的输出层有与输入层相同数量的节点，目的是训练网络以便输出层可复制所有输入端的输入。这提供了所谓的自动相关学习形态。此外，内层之一用作瓶颈层，可能具有强烈减少的节点数。由于节点数量减少的输出可接近地再生输入，因而在所有情况下，在瓶颈层中的节点可被认为是主要成分集合。可以证明这是可接受的观点，只是存在这样的事实，即在这种学习中获得的解答不是唯一的并且根本上不同，这取决于初始条件和在学习阶段中出现的数据模式的顺序。尽管结果是令人感兴趣的，但没有唯一的主要成分集合。

在另一个早期的特征映射方法中，是以另一种方式获得维数的减少。减少维数的空间被适当地限定为两维。然后用点的格网(a grid ofpoints)旋转减少维数的空间，并将模式矢量附着于每一个这些格网点上。从与该问题的模式空间相同的模式空间随机选择n个这些模式矢量。然后根据类似于附着于格网上的参考矢量，分配该问题的模式矢量到减少维数的空间的格点上。这导致过程的生物激励方案，即横向兴奋-抑制的过程。当模式矢量分配到格点时，首先它本质上是随机的因为格网点偶然具有最类似于模式矢量的参考矢量。但一旦进行了分配，那么参考矢量就被修改为还更象输入模式矢量，并且，横向接近格点的所有参考矢量都被修改为更类似于输入模式。以这种方式，模式不久就不再有机会保留；在初始模式空间中类似的模式在减少维数的空间中被有效地汇集在一起。取决于偶然性，有时两个或更多完全不同的区域可组合用于下面的模式：如果事情稍有不同地发展，那么它们应该归属于邻接区域。另一方面，这种性质的结果不妨碍计算任务的目标。

由于MAX-NET在建立群集中执行谁胜谁占有法，并且即使与群集空间中群集中心之间的距离无关，也确实存在横向抑制，因而在本文中涉及数据自组织的ART方法。存在数据压缩，但没有维数减少

按照本发明的第一方案，致力于上述问题和其它问题，提供利用高效率系统将模式维数数据自主缩减到很明确的二维表示的系统。

可以理解，工程中的许多任务都包括从无组织的原始数据中提取有用信息的过程。但是，如上所述，了解多维数据的大量集合的含义是挑战性的任务。困难主要在于不能容易地掌握内部模式关系。可视显示已经成为指导这种分析的一种最有用的工具。可惜，对于维数大于三的情况，不可能以有意义的方式直接实现。

如上所述，为了明白原始数据的意义，必须降低原始数据的复杂性。一般来说，两个主要类型的方法被用于解决这个问题。在第一类型中，使用例如数据模式之间的欧几里德距离的信息，以便利用例如群集或Kohonen自组织映射(SOM)的方法来推断数据模式如何分布在多维空间中。这些方法的重点在于用群集属性或一些其它分布更简明地描述大量数据模式。

方法的第二类型强调维数的缩减，即描述每个数据模式和所有数据模式所必须的特征数量的缩减。想法是原始数据空间的维数或许不都是彼此独立的，即尽管未必在那些已知的维数中，但这些维数可以是正好几个独立固有维数的某些复杂函数。因此，目的在于使用该缩减维数空间来描述模式。属于这种类型的一些方法有通过Karhunen-Loeve(K-L)转换的线性主要成分分析(PCA)、PCA的神经网络的实现、自动相关的映射方法和非线性方差保存(NLVC)映射。这些方法一般试图把高维数空间映射成较低的维数空间。还有相反的方法。一个实例是生成拓扑映射(GTM)，披露于C.M.Bishop，M.Svensen和C.K.I.Williams的名为“GTM：The generative topographic mapping”的论文中。

但是，应该理解，上述两个类型不是完全不同的。群集随后可能用于缩减维数的空间，以进一步帮助数据的理解。SOM方法同时通过在缩减维数特征映射中横向激励限制来收集相似的模式。因此，SOM群集并缩减维数。

除了通过其线性性质进行限制的线性PCA方法以外，把高维数数据映射成更低维数空间中的离散格点或更低维数外形的上述其它方法完全取决于映射参数或两者的初始(通常为随机)选择。

格点映射一般在例如分类和编码应用中是有用的，其中，只要原始数据空间中接近的点在映射中保持靠近，那么数据点的精确相对位置并不十分重要。例如，GTM方法从较低维数中点的格点和一套非线性基础函数开始，假设该函数放射状对称的高斯分布是均匀分布在较低维数空间中。把从较低维数至较高维数的格点的映射假设为这些基础函数的线性加权之和。然后，建议通过以刚刚映射到高维数的那些格点为中心的放射状对称的高斯分布来形成较高维数的概率密度。在有关GTM的Bishop的著作中，假设Bayes规则可以用于颠倒映射和对于较高维数空间中的分布估计各格点的响应性。接着可以用响应性信息再估计较高维数中数据点的似然性。通过把该结果最优化以形成较高维数中已知数据点的分布，获得映射的权参数的迭代学习过程和形成密度分布的高斯分布的宽度参数。利用在学习收敛项上的响应性信息，可以产生观察数据点的较低维数的映射。如果映射函数是平滑和连续的，那么在较低维数中的相邻点在较高维数中将映射成相邻点。但由于对于在较高维数中指定的数据点来说，格点上高斯分布的响应性因映射函数产生的多种形状可能是多种形式的，所以颠倒不一定是真实的。代替一个或几个相邻格点的响应性，数据点在较低维数映射上可以是几个远的格点的响应性。尽管这种映射对于某些分类和相似目的来说还有用，但由于它可能难以解释该映射上格点之间的内插，所以对于最优化来说，使用这种映射可能不恰当。例如由SOM获得的其它格点映射在解释格点之间的内插上也可能有同样类型的困难。

尽管例如自动关联结的映射或NLVC映射的非线性PCA类型的映射没有内插困难，但较低维数映射的外观一般仍取决于初始参数的选择。下面利用NLVC映射作为一个实例说明该相关性。为了获得具有数据点良好分布的映射，多个试验是必要的，直至可以发现令人满意的试验。

按照本发明的第二方案，解决上述复杂性降低问题和其它问题。在这点上，这里说明称为均衡正交映射(EOM)的方法。该方法属于第二类型，并随着考虑内插能力和初始参数的相关性的降低而发展。

EOM方法可以通过反向传播学习过程来实施。下面推导和说明该过程的详细方程式。还论述在获得缩减维数映射中采用EOM的实例以及与采用SOM和NLVC方法的比较。此外，给出两种情况的结果。在一种情况下，输入数据表面上为五维但实际在本质上为2维。在另一情况下，映射用于一批汽油混合物数据，并论证最优化的最终映射的潜在应用。

应该理解，本发明的以下论述针对缩减维数表示为2维情况下的映射，使该表示容易可视化，而且本发明还同样适合其它维数。

发明的公开

按照本发明，提供将多维模式数据组织成为包括神经网络的维数表达的系统。神经网络由神经元节点层组成。这些层包括输入层和输出层以及在它们之间布置的一个或多个隐蔽层。输出层由共用公共内部网络表示的第一和第二非线性节点组成。多维模式数据被接收在神经网络的输入层中。该系统在神经网络的输出层上产生输出信号，该输出信号与接收的多维模式对应。

按照本发明的另一方案，提供使多维模式数据组织成为两维表达，还包括完成神经网络加权的监督学习的系统。

按照本发明的另一方案，提供使多维模式数据组织成为两维表达的方法，该方法包括接收多维模式数据进入神经网络内的步骤，和通过已经被反向传播训练的神经网络输出一个输出信号的步骤。输出信号由一个输出层产生，该输出层由共用公共内部网络表示的第一和第二非线性节点组成。

按照本发明方法的一个有更多限定的方案，提供完成实现上述那样的神经网络训练的步骤。

按照本发明的另一方案，提供将多维模式数据的维数缩减映射的新的方法。该方法通过普通单隐蔽层前馈神经网络施行映射，神经网络带有非线性神经元，但带有不同的目标函数，该函数通过把输出的协方差矩阵简化成对角矩阵或常数乘以单位矩阵的形式来均衡和正交化较低维数的输出，而不指定输出在函数计算中使用的普通网络中应该是什么。由于在该映射中不使用属性信息，所以基本上是非监督的学习过程。这里说明这种映射的详细反向传播学习过程。

按照本发明的另一方案，提供把相对“拓扑结构校正”低维数近似中大量复杂的多维数据可视化的方法，以降低与类似目的的其它方法有关的随机性，同时保持高效率计算的映射。这里说明在获得有意义的2维映射中使用该方法的实例，以及与使用自组织映射(SOM)方法和非线性方差保存(NLVC)映射方法的比较。

本发明的优点在于提供神经网络，该网络允许模式数据的两维表示自动形成。

本发明的再一优点在于产生模式数据的两维表示，该两维表示以明确方式隔离模式数据内配置的有关特性，以便允许人工可视化和编排特征目录。

本发明的又一优点在于供给高效率组织模式数据的神经网络，以便用普通处理硬件进行实时计算。

本发明的另一优点在于供给这样的系统，该系统通过控制方差缩减模式数据维数。

本发明的另一优点在于供给这样的系统，该系统通过把输出的协方差矩阵缩减成对角矩阵或常数乘以单位矩阵的形式缩减模式数据维数。

此外，对于本领域技术人员来说，通过阅读和理解以下详细说明，本发明的其它优点和好处会变得明显。

附图的简要说明

在某些部分和部件的配置中本发明采用物理的形式，在本说明书中将详细描述优选实施例及其方法并在构成说明书一部分的附图中进行展示。

图1表示本发明优选实施例采用的与具有维数缩减的所说非线性方差保存(NLVC)映射相关的初期自动关联网络；

图2表示具有描绘81点的螺旋线的两个周期的三维曲线；

图3表示螺旋线的Karhunen-Loeve(K-L)变换的两维表示；

图4表示具有自动关联映射的螺旋线的两维表示；

图5表示具有非线性方差保存映射的螺旋线的两维表示；

图6表示具有非线性方差保存映射的汽油混合物数据的两维表示；

图7表示相对于催化裂化的异戊烷和重整油含量水平的混合物位置的灵敏度；

图8表示带有非线性方差保存映射的传感器数据的两维表示；

图9表示从“无故障”至“故障”监视连续的传感器分布的轨迹；

图10展示具有非线性方差保存映射的能带隙数据的两维表示；

图11表示基准汽油混合数据表；

图12表示随时间变化的传感器数据分布表；

图13提供半导体晶体结构参数和能带隙的表；

图14表示均衡正交映射(EOM)的网络结构；

图15表示对于具有两个固有维数的五维函数提供解答等式的理论上的两维映射；

图16A-16D表示由自组织映射(SOM)获得的具有两个固有维数的5维函数的缩减维数映射；

图17A-17D表示由非线性方差保存映射获得的同一5维函数的缩减维数映射；

图18A-18D表示由均衡正交映射(EOM)获得的同一5维函数的缩减维数映射；

图19A-19D表示由SOM获得的图11所示的汽油混合数据的缩减维数映射；

图20A-20D表示由NLVC获得的图11所示的汽油混合数据的缩减维数映射；

图21A-21D表示由EOM获得的图11所示的汽油混合数据的缩减维数映射；

图22A表示由EOM获得的六个模式的缩减维数映射；和

图22B表示图22A所示区域的模式值。

优选实施例的详细说明

下面参照用于说明本发明优选实施例目的而非限定目的附图，图1表示在部分(a)中自动相关的方法，而部分(b)表示具有优选实施例提供的维数缩减的非线性方差保存映射。下面单独说明这两个部分。同时说明在初期尝试方法(a)和本优选实施例结构之间的结构上的优点和区别。

在部分(a)中，神经网络10有输入层12和输出层14。在部分(a)的图示中，输入层12由五个节点20、22、24、26和28组成，各节点有其相关的输入。输出层14也如图所示由五个节点30、32、34、36和38组成。各输入层12和输出层14中图示节点的数量不限定于五个。对于这种层，可以选择任何一个大于1的数目，而且这些数值也不必相等。节点的指定数量是非常特殊的应用。神经网络10内配置的任意内层40被缩窄至两个内部节点42和44。根据该图，可以理解存在图示层40形成的所有模式数据的漏斗和颈缩。

转向优选实施例的部分(b)，神经网络100包括输入层102。仅为了说明目的，把输入层102表示成由五个输入神经元110、112、114、116和118形成的多个输入组成。可以理解，所披露的神经网络100的结构不包括与由部分(a)提供的内层40类似的内部。

结构(b)设有由第一神经元132和第二神经元134组成的输出层130。借助于优选实施例的实例，在输出层130上选择两个神经元。该选择允许模式数据的两维表示和可视化。从以下说明中可以理解，优选实施例的输出层完全由共用公共内部网络表示的初期非线性节点组成。与(a)的说明一样，可以理解，按照特定的应用和硬件选择来选择形成输入层102的节点数量。

下面，为了说明的目的，假设从5至2的维数缩减。在自动相关的方法中，应该使用例如图1(a)所示的网络，并应该训练它，使网络用作恒等算子。网络的输出矢量应该总是几乎与输入模式矢量相同。如果数据的固有维数大于2维，那么网络与恒等算子明显不同。该网络按有时称为自监督的方式来训练。

在目前新方法中使用的网络不大复杂，意图在于利用二维表达代替五维表达尽可能保存更多的数据信息。计算2维表达的网络就是图1(b)所示的网络，按照2维表达中方差几乎与5维表达的方差相同的准则来训练。在该方法中，关键在于输出节点是非线性的，而且它们共用公共的内部网络表达。

假设{xp}，p=1，2，…，P，是数据模式矢量的集合，其中，P被限定为正整数，并且数据模式矢量的集合有用下式表示的总方差：

其中：最初维数S=5，

&#60 &#62符号表示在各显示分量的输入数据模式矢量的集合上获得的平均值或平均数(即&#60x_i&#62表示在数据模式矢量的集合上计算的x_ip的平均值)，和

x_ip是数据模式矢量集合的第p成员x_p第i分量。

应该理解，总方差的“度量”是总方差的线性或非线性函数。

下面训练图1(b)所示的网络，以便对于数据模式矢量的相同集合来说，在缩减维数表示中计算的方差尽可能接近V。

利用训练的反向传播算法，逐渐改变输出节点权的表达式通常为：

其中，所有符号有其通常的普通含义。在这方面，O_pj是来自属于第p输入数据模式在输出层之前的层中第j节点的输出信号，η是选择为可提供有效收敛但防止振荡的适当常数值，而δ_pk是对于第p输入数据模式(即方差的灵敏度度量)与对由输出层的第k节点的输出引起的误差E有贡献的成分成正比的值。

当前情况和标准监督的神经网络计算的学习任务之间的差产生在δ_pk的表达式中，在这种情况下(即S形)该表达式被表示为：

在式(3)中，V是输入数据模式的训练集合的计算方差，而在矩形括号内的双求和产生输出、缩减维数、同一数据表示的方差。学习过程的效果在于试图降低增量值，同时尽量使最初的方差和缩减维数的方差之间的差最小。

根据图1的说明，我们记得隐蔽节点显示在网络100的区域150中。如上所述，对于隐蔽层节点来说，对这些节点逐渐提高权的表达式为：

其中，O_pi是在第p输入数据模式的第j层之前的层的第i节点的输出信号。

应该理解，“隐蔽层”可以是非线性函数转换层，例如练习函数链和径向基本函数结构。

数据模式可以被看成模式空间中的矢量，其分量可以根据描述矢量使用的坐标系统在数值上变化，或等效于跨越该空间使用的基矢量。

事实上，数据协方差矩阵的轨迹相对于跨越模式空间的基矢量的线性转换是不变的。本方法允许非线性转换，但设法保存总方差。

在式(3)和式(4A，4B)规定的学习过程中可以进行一些简化。由于主要关心各种模式的相对位置，所以在最初全维数表达中各特征的平均值没有意义。这些值在式(3)中可以被设定为零。这相当于模式矢量的整个分布的作为一个刚性体整体移动，而不损失相对位置信息。

类似地，在式(3)中，适当提前决定模式矢量的缩减维数分布将是一个零均值。这消除了随着继续学习需一直计算改变的平均值的有些麻烦的步骤。在学习中设定作为条件的平均值相当于施加相对分布的整体移动。

尽管式(3)被这样保留，但方差限制实际上相当于信号强度限制。学习包括学习权的单集，该单集将按相同的方式映射所有模式矢量，在尽量接近零的缩减维数空间中努力获得各特征值，仍保存总信号强度或等效的(零均值)方差。

此外，正在进行理论研究，但目前的实践必须考虑更多的是通过结果而不是通过理论来推动和证明。一些表示结果呈现在本论述的这一部分和后续部分中。

对于3维数据缩减至2维数据来说，在本部分中呈现缩减维数自组织的三种不同方法的结果。当然，如果数据本身是3维，那么这是一个要从事的不可思议的行动。另一方面，固有维数在多数情况下一般是未知的，因而这种简单和良好控制的练习可以提供当新的表示维数小于固有维数的表示时会出现什么有关的一些见识。

如果沿三维螺旋线的点按“自组织”2维表达来表示，那么该表达应该象什么呢？换句话说，什么信息被放弃和什么信息被保存呢？

图2表示沿螺旋线的数据点。图3表示该数据的2维自组织K-L描述，图4表示用自动关联映射获得的描述，而图5表示用本方法获得的2维表示。

至少对于这种特殊情况来说，用本非线性方差保存(NLVC)方法获得的缩减维数表示比用自动关联方法获得的这个表示有较少不确定性。

本工作产生维数缩减，同时尽量保存有关交互模式差别的信息。K-L、自动关联和非线性方差保存方法的优点和缺点如下。

K-L转换方法

优点：有很好理解的理论基础。

缺点：协方差矩阵的冗长计算；线性限制导致维数缩减增大时信息有损失。

自动关联方法

优点：理论上基础概念可靠；如果需要可非线性。

缺点：训练时间长，容易过度训练产生误导映射。

非线性方差限制方法

优点：概念上可靠，计算效率高，在没有失真的情况下明显的维数缩减。

缺点：附加的理论研究在推广这个方法和在揭示映射的“拓扑”校正的方面可能是有用的；所有计算结果表明顺序按某些不普通的方式来保存，但该计算结果难以比在该点上的计算结果更精确。

在文献中，有各种研究人员用于评定其群聚效率或分类过程的大量汽油混合数据。这种数据的实例展示在表1中(图11)，其中，各汽油混合物根据其五个组分的量还通过其探测辛烷数来说明。大量五维数据利用本NLVC方法被映射成两维空间。如图6所示，最终的这批数据在两维中容易立刻显示和观察，在理解数据符号化中具有重大的收益。

该曲线适合用作存储器，同时适合用作分类规则公式表示器件，如图6中的直线所示，这些直线好象把高辛烷混合物从低辛烷混合物中分离出来。此外，在该曲线中，容易看出，三个混合物不符合建议的“规则”。值得注意的是在用K-L和自动关联方法获得的映射中观察出对于规则的相似的违反情况。

对于初始五维空间中的改变来说，可以容易地探测两维空间中点位置的灵敏度，该灵敏度的某些表示在图7中描述。该信息在各种不同的合成区域如何中按配方制造其它改善的混合物方面提供指导。

本NLVC维数缩减系统还适合用于把复杂的随时间变化的传感器输出分布图映射成两维空间中的点。此外，随着缩减维数空间中该点的运动，可以检测分布图的性质的改变。

在某个工业设备中，工艺条件由传感器来检测，随时间变化的传感器输出分布图可以用于提供操作是否可能处于或接近“故障”条件的有关信息。在这种学习中，来自一个传感器的分布图被缩减至如表2(图12)所示的五个特性的各模式。制备两批该数据，一批用来“训练”解释方式，另一批用来测试解释方案的有效性。

利用NLVC映射，各分布模式被缩减至2维点，如图8所示，训练集合分布图的整个集合可以在单一2维曲线中显示。

所谓“训练”动作相当于显示在两维空间中已知的各点，无论表示传感器输出分布图的点与“故障”条件有关或与“无故障”条件有关。

对于处理过的数据来说，可以证明，分布图确实是“故障”或“无故障”条件的代表。在图8的曲线中，虽然是非直线地分开，但表示分布图的两种类型的点确实清楚地分开。假设这种情况下，可以容易地用公式表示把新分布图划分为“故障”或“无故障”的规则。如图9所示，该规则根据来自分布图测试集合的点被很好地证实。

对于大量半导体材料来说，表3(图13)中列出四个代表性晶体结构参数的值。还列出了这类材料的电子能带结构中“能带隙”的值。

四个特征晶体结构模式的NLVC映射产生如图9所示的映射。低能带隙材料看来处于映射的左上部分，该分布的研究可能给出关于晶体结构的某些组合可能与低能带隙有关的某些提示。

由于两维显示特别容易理解，在披露本系统时所以特别强调两维显示。三维显示同样由人适当地调节。但所有更高维数的显示对于可视化和“理解”是不透明的。

该新方法在计算上效率非常高。实验结果表明，它是某些强大和有吸引力的“拓扑校正确”方法。

该系统设法保存所有原有方差，同时对缩减维数空间进行非线性映射。按上述方式获得的映射适合用于各种任务，甚至可以用作可视关联存储器，适合存储对象的相似描述和关联方式中对象演变的时间经历描述，以致该存储器区域中新对象的映射应该给出提醒其它什么事情的提不。

在基于方差的方法中，目的在于发现数据的缩减维数映射，对于该映射来说，数据的许多方差被保留，而且对于该映射来说，在新的表示中数据模式矢量的分量尽可能不相关。

可以看出，该方法按一种感兴趣的方式产生与特征映射方法相似的结果。具有相似研究辛烷值的模式在2维缩减维数映射中刚好自动地映射到相邻的区域内。不必考虑群集。相反可以容易地用公式表示很普遍的种类识别规则。但是，缩减维数映射的确向改进的混合物的公式提供指导。

对复杂传感器数据采用的方法再次表示：表现故障条件的模式明显位于2维映射的自组织区域，不同于表现“无故障”的模式。

在上述情况下，种类或特性值必须已经与模式描述强烈有关。缩减维数映射仅使该情况更明显和更容易显现。在另一情况下，把相同的方法应用于稀疏的一批数据，稀疏不仅指没有许多的样品而且指有许多特征值损失了，以致事实上对于该练习来说只有特征的小子集是可用的。，数据是用于一批半导体晶体结构参数，在观察晶体结构“空间”的某些区域是否与低能带隙有关上有意义。缩减的2维映射给出有关对于进一步探测来说哪个区域可能有效果的提示。

下面参照图14至图22说明本发明均衡正交映射(EOM)的第二方案。EOM的目的在于，在尽可能多地映射保护数据的拓扑结构情况下发现和显示数据模式之间的内部模式关系。通过在学习过程期间抑制输出的协方差矩阵的元素值来实现该目的。在训练结束时，输出的协方差矩阵被缩减成常数乘以单位矩阵的形式。这保证了缩减的维数同等重要和相互正交。

如图14所示，EOM方法可以用带有一层隐蔽层的普通的三层前馈网络N来实现。网络N表示均衡正交映射的网络结构，该结构包括输入层、隐蔽层和输出层。节点之间的线是表示相邻层的节点之间的“链”。如上所述，“隐蔽层”可以是非线性函数转换层，例如练习函数链和径向基本结构。

利用反向传播算法来训练网络N。开始时，网络的权随机地产生在区间[-W，W]中。这些权通过学习过程被迭代地调整。

假设{x_p}，p=1，2，…，P，是S维数的输入数据模式矢量的集合。这些数据模式矢量的所有维数的平均方差用下式表示为：

V_{in} = \frac{1}{SP} Σ_{i = 1}^{S} Σ_{p = 1}^{P} {(x_{ip} - &lang; x_{i} &rang;)}^{2}

(式5)其中，“&#60 &#62”表示在各显示分量的所有输入数据模式矢量上获得的平均值或平均数(即&#60x_i&#62表示在数据模式矢量的集合上计算的x_ip的平均值)，而x_ip是数据模式矢量集合的第p成员x_p第i分量。

为了具有说明的一般性，假设在缩减维数的表示中维数为K。因此，输出的协方差矩阵是K×K矩阵。输出的协方差矩阵的各元素(即输出信号)可以写成：

其中：

p=1，2，…，P；

是第p输入数据模式矢量的输出层的第k₁节点的输出信号；

是第p输入数据模式矢量的输出层的第k₂节点的输出信号；

是在输入数据模式矢量集合上计算的O_k1p平均值；

是在输入数据模式矢量集合上计算的O_k2p平均值；

k₁=1至K；

k₂=1至K；

K是缩减维数表达中维数的数量；和

&#60 &#62表示对于各显示分量在输入数据模式矢量的集合上计算的平均值。

由于协方差矩阵的对称性，所以仅需要考虑矩阵的上三角形中的项。目标是使误差E最小，用下式表示为：其中，

根据元素是否在主对角线上按下式给出。

应该指出，r_kk是正的常数，它有提高训练速度的效果，是正的常数，它有提高训练速度的效果。此外，应该理解，通过最小化上述误差函数，在常数乘以实际选项的识别矩阵的情况下，输出的协方差矩阵将按常数乘以对角矩阵的期望形式结束。

常数V_out，kk把与平均输入方差V_in成正比作为目标。式(8)中常数r是松弛因子，该因子通常小于一。通过缩减各维数的输出方差，导致进一步加速训练。由于几乎由来自二次项的信息组成的方差类似系统的能量，所以缩减该方差对应于缓和各维数的能量需要。这缩减了网络的迭代数量，从而实现了期望的误差容差。由于方差还捕获数据的内部模式关系，所以通过使各输出维数的方差与输入方差成正比，这种方法设法尽量保护更多相对位置信息。为了归一化，引入分母，使规定的误差目标与输入方差值无关。

用迭代方法更新权的表达式可以根据求出与权相关的误差E的导数来获得。对于第k和第j层之间的权来说，利用隐蔽的(第j)层和输出(第k)层两者的S形神经元，该权按下式给出：其中，Δw_kj，1是来自对角项的成分，Δw_kj，2是来自第k行的非对角项的成分，而Δw_kj，3是来自第k列的非对角项的成分。这三项的表达式如下：其中，δ_kp是对于第p输入数据模式矢量的与对由输出层的第k节点的输出引起的误差E有贡献的成分成正比的值，而δ_kp，1、δ_kp，2和δ_kp，3是δ_kp的分量。δ_kp，1、δ_kp，2和δ_kp，3(相对于S形函数)按下式给出：

δ_kp，1=4(V_out，kk-r_kkV_m)(&#60O_k&#62-O_kp)O_kp(1-O_kp)其中，O_kp是对于第p输入数据模式矢量的来自输出层中第k节点的输出信号，&#60O_kp&#62是在输入数据模式矢量的集合上计算的O_kp的平均值，而O_jp是对于第p输入数据模式矢量的来自输出层之前的层中第i节点的输出信号。

为了简化符号，组合式(13)、(14)和(15)，并表示为：

δ_kp=δ_kp，1+δ_kp，2+δ_kp，3

(式16)然后，式(7)可以被写成更常见的广义增量规则形式

对于第j和第i层之间的权的误差的另一反向传播如普通网络中那样保持相同，表达式为：其中，δ_jp按下式给出：

δ_{jp} = (Σ_{k = 1}^{K} δ_{kp} w_{kj}) O_{jp} (1 - O_{jp})

。

(式19)

EOM方法从NLVC映射方法进化而来。在NLVC映射中，学习的目标在于保存数据模式说明上的总方差，就是说，学习网络的权，以便输出的总方差和输入的总方差之间的差在某个规定的限度内，即NLVC的误差函数简化为：其中，V_out按下式给出：

而V_in与式(5)相同。利用精确的相同网络结构和反向传播学习算法，参数δ_kp按下式给出：

δ_kp=(V_out-V_in(&#60O_k&#62-O_kp)O_kp(1-O_kp)

(式22)迭代更新的网络权公式与式(17)至(19)的形式相同。

NLVC方法计算效率高，产生的缩减维数映射在例如分类、编目、监视和最优化应用中已显示出作用。

NLVC方法高效率的一个理由在于，方差保存限制相当宽松。的确，式(22)中给出的限制甚至比式(13)给出的限制都弱。但这也有副作用。对于经由不同随机数量仔晶的网络来说，假设有初始权随机产生的不同集合，对于相同输入形成的映射好象完全不同，映射上点的分布常常不均匀，与缩减维数之间强相关。尽管即使从具有点的不均匀分布的映射中仍可以获得一些定性信息，但一般必须进行一些试验，以得到具有点的良好分布的映射。

降低缩减维数之间相关关系的好方式是在映射的学习期间使网络的输出正交化。为了实现该目的，开始的自然点是为了限制网络输出的协方差矩阵的元素值。如果所有非对角项目趋于零，那么输出就彼此正交。利用所有非对角项降低至零，通过把在协方差矩阵的主对角线上的所有元素设定成相等的值，还容易使所有缩减维数有相等的优势。这促使协方差矩阵有相等的特征值和各缩减维数的方差相同。为了在映射期间尽可能多地保存拓扑信息，对于所有通过松弛因子的输入维数来说，可以把主对角线的各元素分配给与输入方差的平均值有关的值。这正是EOM方法所作的事情。

与NLVC方法比较，这种当前用的方法把强得多的限制放在学习过程上。而且，效率的牺牲相当小。例如，当缩减维数为2维，即对于可视显示最有用的K=2时，输出的协方差矩阵是2×2矩阵，与必须按照两种方法计算的两个对角项相比，仅有需要计算的一个非对角项。对于训练的各迭代来说，与采用NLVC相比，在采用EOM的ΔW_kj的计算上，这仅导入大致50％的辅助操作。ΔW_kj的计算对于两种方法来说是相同的。

下面参照图15-图22说明与SOM和NLVC的实例相比采用EOM的实例。对于EOM和NLVC来说，S形神经元在隐蔽层和输出层中都使用。为了使最终的映射可视化，把输出神经元的数量选为2。由于对于真正的多维数据来说，固有维数可以不对应于任何简单的物理量，仅有数据点的相对位置令人感兴趣，所以两个缩减维数的绝对标度不重要。因此，输出被线性映射成512×512象素的图象，而对两个轴未进行标记。

由于理论解是已知的，所以带有两个固有维数的以下简单的5维函数被用作第一测试。

z = \sin (\frac{π}{2} (x_{1} + x_{2} + x_{3})) \cos (2 π (x_{4} + x_{5}))

(式23)在式(23)中，五个变量不都是独立的，而按以下方式相关：

x₁=t₁，x₂=2t₁-1，x₃=1-t₁，x₄=t₂，x₅=1-2t₂其中，t₁和t₂表示函数的两个固有维数，并在区间[0，1]内。在指定范围中随机地产生一百个数据模式，并用作原始数据集。

利用t₁和t₂作为两个轴，用分析方法产生的2维映射如图15所示。在各正方形标记内所示的灰度等级反映(t₁，t₂)对应对的z值。这些数据点的z值范围被线性地映射到白色表示最小和黑色表示最大的256个灰度等级上。

图16-图18表示SOM、NLVC方法和EOM方法的映射结果。用相同的四个随机数仔晶(seed)来获得四个映射。对于SOM来说，使用20×20格栅，把高斯函数用作相邻(横向激励)函数。在映射的学习期间，学习比率因数α(t)从O.9线性减小至0，而相邻核的宽度6(t)则从映射侧长度的一半线性减小至格点之间的1个单位长度。

对于NLVC和EOM来说，隐蔽神经元的数量为15。初始网络权参数对于这两种方法是相等的。对于EOM映射来说，松弛因子r被选择为O.1。

图16A、16B、16C和16D分别表示由SOM获得的式(23)中所示函数的缩减维数映射，其中仔晶=7；仔晶=8；仔晶=4；和仔晶=3。应该理解，“仔晶”是用于产生初始基准矢量的参数。

图17A、17B、17C和17D分别表示由NLVC方法获得的式(23)中所示函数的缩减维数映射，其中仔晶=7；仔晶=8；仔晶=4；和仔晶=3。应该理解，“仔晶”是用于产生初始网络权的参数。

图18A、18B、18C和18D分别表示由EOM方法获得的式(23)中所示函数的缩减维数映射，其中仔晶=7；仔晶=8；仔晶=4；和仔晶=3。应该理解，“仔晶”是用于产生初始网络权的参数。

应该理解，黑点和亮点在由SOM获得的映射中趋向分开，但它们几乎不象理论映射，并且它们彼此也不相似。由于数据点在映射上受限于格点，所以如用分析方法产生的映射所示，有关数据点的五个相对位置的信息被损失。不同的随机数量仔晶也造成最终的映射显得不同。但是，尽管受格点限制，SOM映射一般仍形成映射区域的良好覆盖。

用NLVC方法获得的四个映射中的明显差别表明在初始权的选择和映射的结果之间存在强相关性。但是，根据四个映射的每个映射和用分析方法产生的映射之间紧密的比较，可以看出，尽管四个映射明显不同，但它们通过旋转、反射和压缩都可以从分析上产生的映射中转换出来。就是说，与用分析方法产生的映射相比，尽管作为整体的数据点的分布在这些映射中被扭曲至不同的程度，但数据点的相对位置看来仍保存在其中。换句话说，数据点的拓扑结构看来按某些局部方式保存在这些映射中。但是，图17B、17C、17D的映射中展示的分布的对角线带形状对于较小程度的17A来说意味着在两个缩减维数之间强相关。因此，这些映射未能利用缩减维数的全部能力。尽管根据数据点的相对位置对这些映射进行拓扑校正，但图17D的映射根本没有价值，图17B和17C的映射仅可以用于数据点的某些定性描述。只有图17A的映射显示数据点的相对良好的分布，该分布可以用于例如最优化的定量任务。这四个映射用作说明需要更好的映射方法的实例，该方法不仅要保持映射的拓扑校正，而且还要降低映射的随机性，并充分地利用缩减的维数。

另一方面，用EOM方法获得的四个映射显示出彼此明显的相似性和与分析产生的映射的相似性。除了旋转、反射和自动拟合图象的标度上的差别以外，所有四个映射与分析产生的映射基本上相同。这表明在处理不同的初始条件中EOM方法的可靠性。应注意的一个小细节在于，这些映射中旋转的角度在45°或0°左右。由于理论上数据点的分布形成正方形区域，和在这两个角度上的正方形使两个维数有相等的优势，所以该观察再次保证EOM方法的确实现了充分利用缩减维数的目标。

就计算效率而言，7个用作随机数仔晶的情况用作经验比较的实例。EOM方法对于在178次迭代中收敛来说少用6秒。NLVC方法对于在12次迭代中收敛来说少用2秒，而SOM方法对于100次迭代来说少用117秒。SOM的效率的提高是明显的。尽管EOM比单独NLVC运行的时间长，但如果在NLVC运行的最初不多的试验中未发现令人满意的映射，那么EOM仍可以作为优胜者结束。

在文献中有一批汽油混合物数据，它的一个子集包括具有图11表中给出的所有属性的那些数据。利用自动关联方法和NLVC方法，在维数缩减至2维时，已经表示数据的这种集合使之“自组织”成具有辛烷值大于100的模式和辛烷值在100以下的模式的两个几乎明显不同的区域。

图19A-19D表示分别在仔晶=7、仔晶=8、仔晶=4和仔晶=3情况下按SOM获得的图11表中所示的汽油混合物数据的缩减维数映射。图20A-20D表示分别在仔晶=7、仔晶=8、仔晶=4和仔晶=3情况下按NLVC获得的图11表中所示的汽油混合物数据的缩减维数映射。图21A-21D表示分别在仔晶=7、仔晶=8、仔晶=4和仔晶=3情况下按EOM获得的图11表中所示的汽油混合物数据的缩减维数映射。图22A和图22B表示基于高辛烷值的六个汽油混合物数据模式的缩减维数映射。图22A表示按EOM方法获得的六模式的映射，而图22B表示该区域的模式值。

对于SOM来说，使用10×1O网格，选择的α(t)和σ(t)与上述相同。对于NLVC和EOM来说，使用精确相同网络结构，以获得缩减维数映射。甚至使用相同随机数仔晶。图19至图21表示SOM、NLVC方法和EOM方法的映射结果。各正方形标号内的灰度等级用对应于高辛烷值的较亮的正方形反映该模式的辛烷值。由于仅有26个模式，所以还示出模式序号。

SOM映射再次表示在提供最好结果的图19A的映射下基于辛烷值的数据点的分离达到某种程度。由于映射完全不同，所以初始参数的相关性仍然明显。

NLVC映射再次表明：表示存在相互关系的数据点的分布。然而，所有四个映射表示映射区域的合理覆盖范围以使它们有用，至少用于定性讨论。通过检查正方形标号的灰度等级，可以看出，所有四个映射显示在提供最好结果的图20B的映射情况下亮阴影点和暗阴影点之间分离的某种程度。这与采用不同映射的上述NLVC结果一致。

如期望的那样，EOM映射显示映射区域的更好覆盖范围。高辛烷值数据点和低辛烷值的那些数据点的分离在这些映射上更加明显。但是，在采用ULVC和EOM两种方法获得的映射中，十分明显，如在数学实例的情况中那样，在EOM映射显示比NLVC映射方差小的情况下，在这四个映射中数据点的相对位置未保持相同，尤其如映射所示那样的彼此靠近的那些点。但是，这并不意味着这些映射不能保护数据集的拓扑结构，而是表示数据集的固有维数确实大于2。由于对于更高固有维数的数据集来说，在一个二维映射中不可能显示所有拓扑结构信息，所以不同的映射正好表示来自不同“角度”的投影。这与需要从三侧进行投影的一个部分的方案类似，以显示该部分的拓扑结构。可是，投影过程对于这些维数缩减映射来说是非线性投影过程。

由于数学实例证明：EOM方法基本上维持具有两个固有维数数据的映射不变性，所以在从不同的初始权中获得的映射中除了旋转和反射以外的任何改变都是一种暗示，即数据集的固有维数大于映射的维数。但是，即使某些改变明显，如果这些方差未完全占有优势，那么就不必表达产生的无用映射。由于数据集的不同固有维数可以没有相等的重要性，所以还可以聚集更多的信息。这正是汽油混合数据的情况。与EOM方法获得的四个映射相比，可以看出，具有高辛烷值的模式2、3、13、14、16和22在所有四个映射中都形成独特的群。此外，除了模式13以外的所有上述模式在映射的边缘上至少露面一次。这可以表明目前为止给出最高辛烷值的模式13被五个高辛烷值模式包围，而且与在该区域中可能发现的更高辛烷值混合。由于来自初始网络参数产生的失真，所以这在NLVC映射上不大明显。

这六个模式从集合的剩余部分中分离出来，而EOM映射则从这些模式中产生。图22A表示这种情况。由于相对于辛烷值强度的单独映射，所以六个模式的精确阴影与图21所示的阴影不同。映射确实表明模式13被其它五个模式包围。

二维函数模式利用函数链网的随机矢量来学习。该模式用于在图22A所示的区域中预测辛烷值。图22B表示该结果。该结果表明甚至于更高的辛烷值的点都位于：

d₁=85.51，d₂=173.5。对应期望的辛烷值为：

z=102.4。

(d₁，d₂)值可以被反向映射在具有另一随机矢量函数链路网的最初5-维空间。该结果为：

x₁=0.226，x₂=0.096，x₃=0.058，x₄=0.022，x₅=0.599。应该指出，由于限定在构成网络模式中可获得的模式数量，所以应该认为，上述结果在将来的公式中提供的指导比给出精确的预测更多。

本发明提供新颖独特的方法，以获得按拓扑方式校正缩减维数的映射，该映射可能有助于可视化多维数据模式。由于在初始网络权的选择上明显不同于有类似目的的其它方法，所以该方法被证明可以在最终的映射中缩减随机性。此外，该方法利用选择不同的初始权缩减维数映射，可以容易地显示原来的数据集是否可以被满意地描述。由该方法获得的映射充分利用映射区域，并可以用来代替在各种应用中采用相似目的的其它方法获得的映射。

已经参照优选实施例说明了本发明。显然，对于本领域人员来说，通过阅读和理解本说明书会产生改进和变更。应该指出，所有这些改进和变更都包括在所附权利要求书或其等价物的范围内。

Claims

1．一种将多维模式数据组织成缩减维数的表达的系统，包括：

由多个节点层组成的神经网络，所述多层包括：

由多个输入节点组成的输入层，

隐蔽层，和

由多个非线性输出节点组成的输出层，其中，非线性输出节点的数量小于输入节点的数量；

接收装置，将多维模式数据接收入神经网络的输入层中；

输出装置，相应于接收的多维模式数据，对神经网络输出层的各输出节点产生输出信号；和

训练装置，完成神经网络的训练，其中，训练装置包括通过把输出信号的协方差矩阵缩减成对角矩阵形式从而均衡和正交化输出节点的输出信号的装置。

2．如权利要求1的系统，其中，所述训练装置使用反向传播，以迭代更新相邻层节点之间的链路的权。

3．如权利要求2的系统，其中，在区间(W，-W)中随机地产生所述权。

4．如权利要求3的系统，其中，多维模式数据的所有维数的平均方差为：

V_{in} = \frac{1}{SP} Σ_{i = 1}^{S} Σ_{p = 1}^{P} {(x_{ip} - &lang; x_{i} &rang;)}^{2},

而输出节点的输出信号的协方差矩阵的元素被定义为：

V_{out, k_{1} k_{2}} = \frac{1}{P} Σ_{p = 1}^{P} (O_{K_{1} P} - &lang; O_{k_{1}} &rang;) (O_{k_{2} p} - &lang; O_{k_{2}} &rang;),

其中p=1，2，…，P；

是第p输入数据模式矢量的输出层的第k₁节点的输出信号；

是第p输入数据模式矢量的输出层的第k₂节点的输出信号；

是在输入数据模式矢量集合上计算的

平均值；

是在输入数据模式矢量集合上计算的

平均值；

k₁=1至K；

k₂=1至K；

K是缩减维数表达中维数的数目；和

5．如权利要求4的系统，其中，隐蔽层和输出层之间的权ΔW_kj按照下式被迭代更新：其中，η是被选择为可提供有效收敛但不振荡的适当常数值；

O_jp是因第p输入数据模式矢量而产生的在输出层之前的层中第j节点的输出信号；

E是按下式确定的误差：

E = Σ_{k_{1} = 1}^{K} Σ_{k_{2} = k_{1}}^{K} E_{k_{1} k_{2}},

和

E_{k_{1} k_{2}} = {(\frac{V_{out, kk} - r_{kk} V_{in}}{r_{kk} V_{in}})}^{2},

其中，k₁=k₂=k；k=1，…，K；而r_kk是具有提高训练速度效果的正的常数，

E_{k_{1} k_{2}} = {(\frac{V_{out, k_{1} k_{2}}}{r_{k_{1} k_{2}}} V_{in})}^{2},

其中，k₂＞k₁；k₁=1，…，K-1；k₂=k1+1，…，K；而r_k1k2是具有提高训练速度效果的正的常数；和

δ_kp=δ_kp，1+δ_kp，2+δ_kp，3，其中，δ_kp是对于第p输入数据模式矢量的与对由输出层的第k节点的输出产生的误差E有贡献的成分成正比的值，而δ_kp，1、δ_kp，2和δ_kp，3是δ_kp的分量。

6．如权利要求5的系统，其中：

其中，Δw_kj，1是来自输出的协方差矩阵的对角项的成分，

Δw_kj，2是来自第k行的非对角项的成分，

Δw_kj，3是来自第k列的非对角项的成分，和

O_jp是对于第p输入数据模式矢量的来自输出层之前的层中第j节点的输出信号。

7．如权利要求6的系统，其中：

其中，O_kp是对于第p输入数据模式矢量的来自输出层中第k节点的输出信号，和

&#60O_kp&#62是在输入数据模式矢量的集合上计算的O_kp的平均值。

8．如权利要求5的系统，其中，对于节点层中的第j节点与在其前面层中的第i节点之间的权Δw_ji的误差的反向传播：

{Δw}_{ji} = η \frac{&PartialD; E}{&PartialD; w_{ji}} = \frac{1}{P} Σ_{p = 1}^{P} η δ_{jp} x_{ip}

其中，δ_jp按下式确定：

δ_{JP} = (Σ_{k = 1}^{K} δ_{kp} w_{kj}) O_{JP} (1 - O_{jp})

。

9．一种利用神经网络将多维模式数据组织成为缩减的多维表达的方法，其中所述神经网络具有由多个输入节点组成的输入层、隐蔽层和由多个非线性输出节点组成的输出层，非线性输出节点的数量小于输入节点的数量，所述方法包括：

将多维模式数据接收入神经网络的输入层中；

相应于接收的多维模式数据对神经网络各输出节点产生输出信号；和

通过把输出信号的协方差矩阵缩减成对角矩阵形式，均衡和正交化输出节点的输出信号从而训练神经网络。

10．如权利要求9的方法，其中，所述训练步骤包括反向传播，以迭代更新相邻层节点之间的链路的权。

11．如权利要求10的方法，其中，在区间(W，-W)中随机地产生所述权。

12．如权利要求11的方法，其中，多维模式数据的所有维数的平均方差为：

V_{in} = \frac{1}{SP} Σ_{i = 1}^{S} Σ_{p = 1}^{P} {(x_{ip} - &lang; x_{i} &rang;)}^{2},

输出节点的输出信号的协方差矩阵的元素为：

V_{out, k_{1} k_{2}} = \frac{1}{P} Σ_{p = 1}^{P} (O_{K_{1} P} - &lang; O_{k_{1}} &rang;) (O_{k_{2} p} - &lang; O_{k_{2}} &rang;),

其中p=1，2，…，P；

是第p输入数据模式矢量的输出层的第k₁节点的输出信号；

是第p输入数据模式矢量的输出层的第k₂节点的输出信号；

是在输入数据模式矢量集合上计算的平均值；

是在输入数据模式矢量集合上计算的

平均值；

k₁=1至K；

k₂=1至K；

K是缩减维数表达中维数的数量；和

13．如权利要求12的方法，其中，隐蔽层和输出层之间的权Δw_kj按照下式被迭代更新：其中，η是被选择为可提供有效收敛而不振荡的适当常数值；

O_jp是因第p输入数据模式矢量而产生的来自输出层之前的层中第j节点的输出信号；

E是按下式确定的误差：

E = Σ_{k_{1} = 1}^{K} Σ_{k_{2} = k_{1}}^{K} E_{K_{1} K_{2}}

E_{k_{1} k_{2}} = {(\frac{V_{out, k_{1} k_{2}}}{r_{k_{1} k_{2}}})}^{2}

其中，k₂＞k₁；k₁=1，…，K-1；k₂=k₁+1，…，K；而是具有提高训练速度效果的正的常数；和

14．如权利要求13的方法，其中：

Δ w_{kj, l} = - \frac{&PartialD; E_{kk}}{&PartialD; w_{kj}} = \frac{1}{P} Σ_{p = 1}^{P} η δ_{kp, l} O_{jp}

其中，Δw_kj，1是来自对角项的成分，

Δw_kj，2是来自第k行的非对角项的成分，

Δw_kj，3是来自第k列的非对角项的成分。

15．如权利要求14的方法，其中δ_kp，1、δ_kp，2和δ_kp，3按下式确定：

其中，O_kp是对于第p输入数据模式矢量的来自输出层之前的层中第k节点的输出信号，和

16．如权利要求13的方法，其中，对于节点层中的第j节点和在其前面层中的第i节点之间的权Δw_ji的误差的反向传播是：

Δ w_{ji} = η \frac{&PartialD; E}{&PartialD; w_{ji}} = \frac{1}{P} Σ_{p = 1}^{P} η δ_{jp} x_{jp}

其中，δ_jp按下式确定：

δ_{jp} = (Σ_{k = 1}^{K} δ_{kp} w_{kj}) O_{jp} (1 - O_{jp})

。

17．一种将多维模式数据组织成为缩减维数的表达的系统，包括：

由多个节点层组成的神经网络，所述多层包括：

由多个输入节点组成的输入层，和

接收装置，将多维模式数据接收入神经网络的输入层中；

输出装置，相应于接收的多维模式数据在神经网络的输出层上产生输出信号；和

训练装置，完成神经网络的训练，其中，训练装置保存输出节点总方差的度量，其中，输出节点的总方差被定义为：

V = (1 / P) Σ_{P = 1}^{p = P} Σ_{i = 1}^{j = S} {(x_{ip} - &lang; x_{i} &rang;)}^{2},

其中，{x_p}为数据模式矢量的集合；

p=1，2，…，P；

P被定义为正整数；

&#60x_i&#62表示在数据模式矢量的集合上计算的x_ip的平均值；

S是维数的数目；

x_ip是数据模式矢量集合的第p项x_p的第i分量。

18．如权利要求17的系统，其中，所述训练装置通过逐渐改变输出节点权的反向传播完成神经网络的训练。

19．如权利要求18的系统，其中，所述训练装置还包括按照

Δ w_{kj} = (1 / P) Σ_{p = 1}^{p = P} Δ w_{p, kj} = (1 / P) Σ_{p = 1}^{p = P} η δ_{pk} O_{pj},

在神经网络的输出层上逐渐改变权w_kj的反向传播来训练神经网络的装置，其中，O_pj是因第p数据模式来自输出层之前的层中第j节点的输出信号，

η是被选择为可提供有效收敛但不振荡的适当常数值，和

δ_pk是对于第p输入数据模式矢量的与对由输出层的第k节点的输出引起的误差E有贡献的成分成正比的值。

20．如权利要求19的系统，其中：

δ_{pk} = [V - (1 / P) \underset{q}{Σ} \underset{n}{Σ} (O_{qn} - &lang; O_{n} {&rang;}^{2})] (O_{pk} - &lang; O_{k} &rang;) O_{pk} (1 - O_{pk})

。

21．如权利要求19的系统，其中，所述神经网络还包括由隐蔽节点组成的至少一个隐蔽层，其中，各隐蔽节点的自适应权w_ji根据

Δ w_{ji} = - η \frac{&PartialD; E}{&PartialD; w_{ji}} = \frac{1}{P} Σ_{p = 1}^{p = P} η δ_{pj} O_{pi}

逐渐改进，其中，O_pj是在第p输入数据模式的第j层前面的层的第i节点的输出信号。

22．如权利要求21的系统，其中：

δ_{pj} = (Σ_{k = 1}^{K} δ_{pk} w_{kj}) O_{pj} (1 - O_{pj})

。

23．一种利用神经网络将多维模式数据组织成为缩减的多维表达的方法，其中，所述神经网络具有由多个输入节点组成的输入层、隐蔽层和由多个非线性输出节点组成的输出层，非线性输出节点的数量小于输入节点的数量，所述方法包括：

将数据模式矢量的集合{x_p}接收入神经网络输入层中，其中p=1，2，…，P，并且P被定义为正整数，其中，数据模式矢量的集合有按

V = (1 / P) Σ_{P = 1}^{p = P} Σ_{i = 1}^{i = S} {(x_{ip} - &lang; x_{i} &rang;)}^{2}

定义的总方差，其中{x_p}是数据模式矢量的集合；

p=1，2，…，P；

P被定义为正整数；

&#60x_i&#62表示在数据模式矢量的集合上计算的x_ip的平均值；

S是维数数目；

x_ip是数据模式矢量集合的第p项x_p的第i分量；

通过反向传播来训练神经网络；和

显示来自神经网络输出层的多维输出信号。

24．如权利要求23的方法，其中，通过反向传播来训练神经网络的所述步骤包括按照

Δ w_{kj} = (1 / P) Σ_{p = 1}^{p = P} Δ w_{p, kj} = (1 / P) Σ_{p = 1}^{p = P} η δ_{pk} O_{pj},

在神经网络的输出层上逐渐改变权w_kj，其中，O_pj是因第p数据模式而来自输出层之前的层中的第j节点的输出信号，

η是被选择为可提供有效收敛但避免振荡的适当常数值，和

25．如权利要求24的系统，其中：

δ_{pk} = [V - (1 / P) \underset{q}{Σ} \underset{n}{Σ} (O_{qn} - < O_{n} >^{2})] (O_{pk} - < O_{k} >) O_{pk} (1 - O_{pk})

。

26．如权利要求23的方法，其中，所述神经网络还包括由隐蔽节点组成的至少一个隐蔽层，其中，神经网络的各隐蔽节点的自适应权w根据

Δ w_{ji} = - η \frac{&PartialD; E}{&PartialD; w_{ji}} = \frac{1}{P} Σ_{p = 1}^{p = P} η δ_{pj} O_{pi}

逐渐改善，其中，O_pi是第p输入数据模式的第j层前面的层的第i节点的输出信号。

27．如权利要求26的方法，其中

δ_{pj} = (Σ_{k = 1}^{K} δ_{pk} w_{kj}) O_{pj} (1 - O_{pj})

。

28．如权利要求23的方法，其中，所述多维输出信号是两维输出信号。

29．如权利要求23的方法，其中，所述两维输出信号包括相对于两维轴绘制的数据点。