CN1147116A

CN1147116A - 模式识别方法和系统以及模式数据处理系统

Info

Publication number: CN1147116A
Application number: CN95115730A
Authority: CN
Inventors: 横田登志美; 正嶋博; 葛贯壮四郎; 荒井俊史; 三浦雅树; 郡司圭子; 福永泰
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1994-09-14
Filing date: 1995-09-14
Publication date: 1997-04-09
Anticipated expiration: 2015-09-14
Also published as: CN1091906C; US6385339B1; TW274135B; KR960011770A; US6125206A

Abstract

本发明涉及用于诸如字体等各种模式，能有效进行学习的多用户模式数据处理系统。系统包括一输入模式的输入装置；一字典，用以定义模式和属于模式的属性；一识别装置，用于在从输入字典的模式中取出模式之前，接收输入模式和组属性，并有一相应的组属性由分类输出；以及一字典编辑装置，用以在对模式编辑之前，提取一被用户所属的组公用的模式。

Description

模式识别方法和系统以及模式数据处理系统

本发明涉及可用于诸如字体和声音等各种模式的多用户模式数据处理系统。本发明特别涉及具有学习功能的模式数据处理系统。

本发明还涉及对输入的字体和图形作识别处理的模式识别方法和系统。

例如，在日本特许公开第55-135973号中提出了一种现有技术的模式识别系统。现有技术的学习方法要假设一特定(或单个)用户。例如，采用把必需的数据送入一数据库以作处理的方式，它执行由用户给出的模式学习。

由于这个原因，即使一组中的多个用户成员都同意公用的模式，现有技术还必须对他们公用的模式各别地进行学习。即，若一组中的成员将公用一符号等，使之可用手写输入，则作为这一组成员的各个用户都必须使该符号作模式学习。

作为一个例子，这一组用户组内所公认的字处理器的假名-汉字转换。例如，如果术语“bishamon”要转换成“*BISHAMON”，则这个术语就得各自输入。即，为了增加模式数据处理系统的可操作性，用户本人要亲自让系统学习该模式或要求其他用户这样做。换句话说，除非用户亲自让系统学习该模式或要求其他用户这样做，否则模式数据处理系统的可操作性永远不会增加。

因此，要允许组内其他成员能利用系统的模式学习结果，在增加模式数据处理系统的可操作性而用户不必亲自让系统作模式学习或要求其他用户这样做这一点上有问题。

最好组内的成员都能十分默契或有明确的共同协议以省去他们各自的操作并增加系统的可操作性。即，最好做出不仅单个用户而且多个用户都能普遍广泛使用的多用户模式数据处理系统。

为了这个目的，有下述问题：问题之一是提取被组内多个用户共同使用的模式，问题之二是使共用模式作为该组所属的模式而被学习。

诸如UNIX等现有技术的文件处理系统(filing system)，可做得允许组内的成员以这样的方式来读、写文件，使所准备的文件具有组的属性。然而，现有技术的文件处理系统技术的不利之处在于，该组的系统管理人必须作出以何种方式和如何由字典(dictionary)重写或学习数据的计划，以增加可操作性。

在日本特许公开第56-99583号中又提出另一种现有技术的模式识别系统。这种现有技术是一种获取识别结果的方法，它对各个字体采用多种识别做法，以根据其模式准确地识别这些字体。这种方法根据出现率(appearance rate)由识别作法从多个候选字体中定出一个正确的字体。然而，该方法的一个不利之处在于，如果出现率很低，不管输入的模式有多准确，仍然无法识别。

在日本特许公开第62-15911号中又提出了一种现有技术的模式识别系统。该现有技术是这样一种方法，在一字典中具有什么部分构成什么形状的描述。在日本特许公开第2-56689号中又提出了一种现有技术的模式识别系统。这一现有技术是这样一种方法，即在一字典中有什么笔划是哪些形状连续的描述。这些现有技术都是用这样的方法来使识别结果接近男人写的或女人写的结果的，即采用一图形的一些部分来进行模式识别，该图形由接头或环线构成。然而，在日本特许公开第62-15911号中所揭示的模式识别系统具有不利之处，即如果一个要被识别的连续手写的字体如平假名那样有许多曲线，其伸长的或缩短的部分使它难于预先指明字体的哪些部分造成误识别。在日本特许公开第2-56689号中揭示的模式识别系统具有不利之处，即形状可能的扰动或变形就使系统难于判别其形状，引起误识别。

本发明的模式数据处理系统具有下述三个特色。

本发明的第一个特色是一模式数据处理系统，它包括：一输入装置，用于至少接收给定的模式；一字典，它具有对多个用户以多种形式进行分类的数据；一共用字典；以及一字典编辑装置；其中，字典有用户的一个组属性，如果通过任何输入装置给出的模式符合预定的条件，则字典编辑装置就在字典中编辑数据，并输入与组字典的模式相应的模式和代码，而具有相同组属性的用户可以对于组字典进行存取。

详细些说，上述第一个特色包括一送入模式的输入装置；一具有模式的字典；具有所属模式和所确定组的分类；一属性指明装置，用以指明诸如用户1、用户2、组1、组2以及所有成员的组属性；一识别装置，用以在从送入字典的模式中取出一个与输入模式最相似的一个模式之前接收输入模式和组属性，并将一相应的组属性从分类取出；以及一字典编辑装置，用以在对模式编辑前，取出由一组共用的模式，从而连同用户所属的组将它送入共用字典。

第一个特色的工作描述如下。首先，把诸如字体、声音或代码串等通过输入装置输入的模式与由属性指明装置指明的组属性送入识别装置。接着，当接收输入的模式和组属性而在输出模式所属的分类之前，识别装置从字典中的一些模式中取出最接近输入模式且具有一相应的组属性的模式。分类是一个高于模式的概念，并且至少有一个或更多个模式属于它。如果输入的模式是一代码串，则识别装置在输出一指明与该模式相关联的代码之前将从字典的一些模式中取出一输入的模式。字典编辑装置在取出由组共用的一模式之前要检查字典的内容并连同模式的组属性输入模式。所以，即使属于该组的用户自己没有输入模式，本发明的第一个特色允许进行模式识别和采用模式的模式处理过程。

本发明的第二个特色是一模式数据处理系统它包括：多个输入装置，用以至少接收给定模式；用于存储输入模式以及与输入模式相关的带有优先级的一个或多个代码的一些字典，这些字典是为各个输入装置设置的；以及一个字典查找装置，用以在输出一个或多个作为取出结果的代码和它们的优先级之前，从相应于输入装置的字典和其他字典中取出相应于通过任一输入装置给出的模式的一个代码。

说得详细些，上述第二个特色包括用于输入模式的多个输入装置；一些字典，用于存储输入模式以及与输入模式相应的带有优先级的一个或多个代码，这些字典是对各个输入装置设置的；以及一字典查找装置，用以在它输出代码和代码的优先级之前，在从与输入装置相应的字典和其他字典中取出与输入模式相符或最相似的模式之前，接收通过任一输入装置输入的模式，其中，字典查找装置具有字典优先级，这些优先级是对字典预先设定的优先级。

本发明的第二个特色的工作描述如下。首先，把通过输入装置输入的诸如字体、声音或代码串等模式送入字典查找装置。接着，字典查找装置在接收到输入模式时，在根据字典优先级(它是对给出输出的字典预先设定的)，以优先级来再指定代码之前从与输入了模式的输入装置相应的字典中和存在于其他字典内的模式中取出一个与输入模式相符或最相似的模式。所以，即使用户本人没有把模式输入，第二个特色允许进行模式识别以及采用模式的模式处理过程。

在根据字典优先级指定了优先级之后，即使用户自己的字典和其他用户的字典对于相同的模式有不同的代码，用户仍能在确定其他的字典之前确定自己的字典。

本发明的第三个特色是一模式数据处理系统，它包括：用于至少接收给定模式的多个输入装置；用于存储输入模式和相应于输入模式、带有优先级的一个或多个代码的字典，这些字典是对各个输入装置提供的；以及一字典编辑装置，其中，如果任一字典被更新了，则把更新的输入模式和相应于已更新的输入模式的代码之间的关系输入其他字典。

本发明的第三个特色的工作描述如下。首先，如果字典编辑装置在检查到字典内容之后检测出数据(一输入模式和相应于输入模式带有优先级的一代码)已被更新了，则字典编辑装置就把已更新的数据送入尚未定义已更新的输入模式的其他字典。所以，如果任何一个用户更新了字典的内容，则其他的用户不必由他们自己输入内容即可使用已更新的数据。

接下来，如果根据模式而采用不同的识别方法，则能增加识别准确度的本发明的模式识别装置具有下述特色。

模式识别系统包括多个识别装置；一个归一化装置(normaliz-ing arrangement)，用于把由识别装置得出的距离值归一化；以及一个正确候选者确定装置，用以根据归一化距离值确定正确的候选者。即使对于每一模式，距离值是用最佳识别装置得出的，或者距离值是用一种不同的识别方法得出的，可以将距离值归一化，从而参照距离值可以准确地识别。

接下来，如果一输入模式的一些部分被伸长或缩短了，则能准确识别的本发明的模式识别装置具有下述特色。

本发明的模式识别系统包括：一用以输入一模式的输入装置；一用于对模式进行归一化的归一化装置；一用于把已归一化的模式用折线来作近似的近似化装置(approximating arrangement)；一用于存储以折线作近似的字典模式的字典；一用于将以折线作近似的输入模式与字典模式作比较的距离计算装置；以及一用以由输入模式得出的距离值，对字典模式进行分类的距离分类装置(distance sort-ing arrangement)。距离计算装置的特点是具有一范围对应装置(range correspondence arrangement)，用于将近似的输入模式每个部分与近似的字典模式的各个部分相对应；以及一特殊形状差异计算装置，用于估计一由近似结果的某些部分构成的特殊形状是否在字典模式和输入模式的相应位置处存在。这一特色允许由输入装置输入的模式可由归一化装置进行归一化。归一化的模式由近似化装置用折线来作近似。把由距离计算装置用折线作近似的输入模式与字典模式互相比较。距离分类装置用由输入模式而来的距离值作为识别结果对字典模式进行分类。

范围对应装置(它是距离计算装置的一部分)对于输入模式的每条折线和字典模式作范围相关。特殊形状差异计算装置在比较输入模式与字典模式之前估计字典模式的特殊形状是否存在于与输入模式相应的位置处。即，范围对应装置能吸收诸如部分伸长或缩短等变形。特殊形状差异计算装置也能吸收诸如形状扰动和扭曲等变形。因此，这些特色能进行正确的模式识别。

在附图中：

图1是表示本发明第一实施例的采用一字典的模式数据处理系统结构的方框图；

图2是表示采用一字典的学习装置的方框图；

图3是表示采用一字典的学习装置的方框图；

图4是表示一学习装置5-1例的方框图；

图5是表示本发明过程的流程图；

图6是表示在本发明另一实施例中的学习装置详细结构的方框图；

图7是表示本发明又一实施例的过程的流程图；

图8是表示给出自适应性(adaptability)fi的过程的流程图；

图9是表示本发明采用一字典的又一实施例的手绘图形；

图10是表示本发明采用一字典的又一实施例的手绘图形；

图11是表示采用一字典的一学习装置的方框图；

图12是表示采用一字典的一学习装置的方框图；

图13是表示本发明第三实施例的系统结构的方框图；

图14是表示本发明操作过程的流程图；

图15是表示本发明第五实施例的系统结构的方框图；

图16是表示本发明操作过程的流程图；

图17是表示本发明第六实施例的系统结构的方框图；

图18是表示本发明操作过程的流程图；

图19是表示本发明第七实施例的可变近似点模式识别系统的功能的方框图；

图20是表示本系统结构的功能方框图；

图21是一些具有许多不同的近似点的模式的图；

图22是一张曲线图，表示用不同的近似化装置和不同的匹配装置得到的输入模式和字典模式的距离值的例子；

图23是表示识别控制装置的操作步骤的流程图；

图24是表示近似化控制装置的操作步骤的流程图；

图25是表示距离值归一化装置的处理步骤的流程图；

图26是表示本发明的具有多个模式识别装置的模式识别系统的功能的方框图；

图27是表示本发明的在线字体识别系统结构的方框图；

图28是表示用候选者选择近似化装置近似的模式例的图；

图29A是表示用详细近似化装置近似的字体模式一个例的模式；

图29B是表示用详细近似化装置近似的字体模式另一个例的模式；

图29C是表示用详细近似化装置近似的字体模式又一个例的模式；

图30是表示范围对应装置完成DP匹配的一例的流程图；

图31是表示作为输入字体模式和字典字体模式DP匹配结果的最佳对应的曲线图；

图32是表示图27所示的特殊的形状差异的方框图；

图33是表示处理特殊的形状差异的一个例的流程图；

图34是表示特殊的形状差异处理结果的一个例的一览表；

图35是表示图27所示的形状检查装置处理过程的一个例的流程图；

图36是表示输入模式与字典模式差异的表。

下面结合图1至图18详细描述本发明的多用户模式数据处理设备的实施例。

本发明的第一实施例是一个手写字体输入系统的例子，该系统以在线方式采用一种字体模式识别处理过程。

当然，不用说本发明也能用于识别声音、图形和类似的模式以及代码串模式和字体等等。

首先，参看图1描述第一实施例的结构如下。

本实施例中的系统包括输入装置1、字典2、主存储器3、识别装置4和字典编辑装置5。

输入装置包括多个输入部件1-1、1-2、和1-3，主存储器3有一主存储器3-1。

字典2包括多个考虑到分类和属性的字典2-0、2-1、2-2、2-3、和2-4。

字典编辑装置5有一个学习部件5-1和一个字典编辑装置5-2。

下面描述系统的部件。

输入装置1包括三个输入部件，每个部件至少有一支笔；一块液晶显示屏(LCD)1-1-1；一输入装置1-1-2；一输入装置1-1-3；以及一输入装置1-1-4。

用户应该用笔在板上书写笔划，用以输入一字体模式、指明用户姓名、输入为识别而加以学习的字体以及进行学习而输入指令。

用户用笔书写在板上的笔划显示在输入装置1-1-1的显示屏上。由输入装置1-1-2作出显示过程。输入装置1-1-2由一中央处理单元(CPU)、一只读存储器(ROM)、一随机存取存储器(RAM)、多个CMOS和一存储在ROM中的程序构成。输入装置1也能显示必需的输出数据。

用于本发明的显示器不限于液晶，也可用诸如场致发生(EL)器件等其他类似器件。

用户可以象用纸书写那样使用输入装置。

如上所述，第一实施例的系统是假设多用户使用，因而由多个输入装置1-1、1-2和1-3构成。

输入装置1把诸如字体模式等输入数据以及具有输入数据、加至板上的识别(ID)数据输出至信号线100。附加的ID数据是预先设定的，以识别输入装置。例如，预先各自设置不同的字母数字。用于把ID数据馈至信号线100的输出电路应该用诸如CMOS等电子器件构成。

字典2中存储有模式、模式所属的分类、字体类型以及诸如登记等属性。字典2的数据用属性来分类，以提高识别过程的效率，后面将对此作详细的描述。

分类比模式的级别更高。一个分类至少具有一个属于它的模式。

属性包括用户所参加的一个组的名称。

在第一个实施例中，如图1所示，字典数据按其组别性质(属子用户的数据)划分为“全体成员”2-0、“用户1”2-1、“用户2”2-2、“用户3”2-3和“用户4”2-4。(第一个实施例中的用户是使用系统的一个组中的各个成员)。当然，字典数据还可以根据字体种类等类似属性划分。

在主存储3中提供的主存储器3-1用于指定基于模式识别的属性。

例如，主存储器3由诸如RAM或光盘或磁盘之类的半导体器件构成。

主存储器3-1还用作存储在通过信号线100接收的用户姓名和用户当前使用的ID数据表。主存储器3-1还用作存储应用启动时由应用指定的字体类型。随后主存储器3-1把对应于由每个输入装置1经信号线100输入或接收的某些信号和ID数据的组别和字体类型馈送至信号线100。

识别装置4通过信号线100接收诸如组别和字体类型之类的待识别模式和属性。随后识别装置4在检索待识别模式形状和具有相同组别属性与字体类型模式中的最相似模式之前先经过信号线100查阅字典2的内容。接着识别装置4经信号线100馈送分类属性。

例如，识别装置4由诸如CPU、ROM、RAM和存储于ROM内的程序之类的电子器件构成。

判断模式是否相似是借助于预设的匹配功能来作出评价的。已公开的日本专利申请No.63-254589和2-53193揭示了(1)模式形状的表示以及(2)匹配功能。

例如在上述技术中，应该利用适合汉字笔划点数N的坐标点来表示“模式形状”。在输入的模式与字典内的模式中应该用带有坐标点参数的线性方程来表示“匹配功能”。

如上所述，字典编辑装置5包含字典编辑装置5-1和字典编辑装置5-2。例如，字典编辑装置5由诸如CPU、ROM、RAM以及存储在ROM中的程序之类的电子器件构成。

字典编辑装置5-1经信号线100接收：(1)为识别而学习的模式，(2)学习命令，(3)诸如字体类型和分类之类的模式属性，以及(4)由输入装置1送至主存储器3、再由主存储器3送出的组别属性。随后字典编辑装置5-1将模式的数据输入字典。也就是说，字典编辑装置5-1是学习装置，或者将模式数据输入相应用户的字典模式。

从操作性能观点来看，比较好的作法是使字典编辑装置5-1不仅依照用户操作输入模式数据，而且在出现用户给字体模式识别错误时，能在输入字典之前即自动提取模式数据。

例如，错误识别定义为，如果用户从候选字体中选取了第N个候选字体，那么在识别出所输入的模式之后，第一个候选字体即属识别错误。如上所述，比较好的作法是预先将输入模式作为第N个字体代码输入字典。

字典编辑装置5-2是本发明的核心部分。

字典编辑装置5-2在进行处理之前选检测用户字典的上部从而使该部分能够为组别内所有用户使用。

术语“上部”定义为如果在某一成员的用户字典内输入诸如组别符号标记之类为组别内成员共用的模式时输入数据。

如上所述，利用字体识别系统的实例对第一个实施例作了描述。第一个实施例也可以在配备了多用户下各种模式学习的字典编辑装置5-2的情况下应用于语音模式识别和假名-汉字转换用的通用匹配系统。

图2描述的是表示字典编辑装置5-1处理过程的框图，其中用户1和2输入了各自的手写汉字“門”(门)。

字典2-1和2-2包含由每个用户输入的手写体汉字“門”的模式。也就是说，作为组别1内三位成员中多数的两位成员的字典具有一个共同的模式。

通常，经验事实告诉我们，由大多数人约定俗成的模式对其它人也经常是约定俗成的。

图3描述的是表示处理状态的框图，其中字典编辑装置5-2执行处理，由此先于输入组别1的字典2-4之前在用户字典2-1和2-2内检测到作为上部的模式数据，并从两位用户字典2-1和2-2中删除“门”的汉字模式。

当然，共同的模式没有删除，而是留存或存储在两个用户字典2-1和2-2中。

接下来借助实施例进一步详细描述字典编辑装置5-2的构造。

首先，借助图4和图5描述第一个实施例。

图4描述表示硬件构造的框图。图5描述表示程序的流程图。

第一个实施例中的字典编辑装置5-2包含字典更新检测装置11、组别提取装置12、组别用户提取装置13、字典数据查阅装置14、等同模式数据计数器15、词典更新装置16和将它们互连起来的信号线。例如，这些装置由诸如CPU、ROM、RAM、CMOS和存储在ROM内的程序之类的电子器件构成。

如果字典2中的模式数据得到更新，那么字典更新检测装置11在将数据送至信号线200之前检测更新的模式数据。

例如，在字典编辑装置5-2经信号线与字典编辑装置5-1相连接时，如果字典编辑装置5-1更新了字典2内的数据，那么字典编辑装置5-2就能接收更新的数据。

又如，字典编辑装置5-2能够检查每次更新字典文件的时间，如果在先前更新后作过更新，那么判断字典最近是否更新过，并将新数据与为原先数据进行比较从而得到有差别的数据。有差别的数据存储在主存储器3中。字典装置装置5-2应该将更新的字典作为旧字典存储以供下一次更新时使用。

如果经信号线200接收到模式数据，那么组别提取装置12检查更新模式数据的组别属性或用户。随后组别提取装置12在将有关组别数据送至信号线201之前抽取所有用户属于的组别。其理由是用户可能属于多个组别。如果用户属于多个组别，那么应该提供多组字典。

因此，例如主存储3必须具有预先存储的用户与组别的对应关系。当然，组别提取装置12可以做成具有存储这种对应关系的存储装置。另一种选择是，如果本系统建立在工作站系统上，那么可以利用工作站系统的特点。也就是说，由于安装在工作站上的某些OS(操作系统)具有定义用户与组别关系的特点，所以可以利用此特点。

如果经信号线201接收组别数据，那么组别用户提取装置1 3提取所有属于某一组别的用户。随后组别用户提取装置1 3将用户数据送至信号线202。因此，组别用户提取装置13必须具有预先存储的用户与组别对应关系，从而要求提供存储装置。存储装置可以提供于主存储器3或组别用户提取装置13本身内，如果本系统实现于工作站系统上则可以提供在工作站存储器中。

如果经过信号线200接收模式数据而经过信号线202接收用户数据，那么字典数据查阅装置14查阅属于用户的字典。如果经信号200接收的模式数据和分类与字典中的相同并且如果模式中的形状也与字典中的一样，那么字典数据查阅装置还将信号送至信号线203。模式相似性判断以这样一种方式作出，在将估计值与预定的阈值比较之前字典数据查阅装置14借助于识别装置4中所用匹配功能对模式进行估计。

例如，当估计值变为阈值时，字典数据查阅装置14判断模式形状与字典中的一致。

等同模式数据计数器15在对相似模式计数时经信号线203接收模式形状相似性模式数据。

如果计数满足预定条件，等同模式数据计数器15将接收到的数据送至信号线204上。

等同模式数据计数器15应构造为在计数超过某一自然数N，例如2以上时，将接收到的数据送至信号线204上。在这种情况下，常数N可以是组别成员数的函数，例如N＝成员数×A+B，这里的A和B为实数。

字典更新装置16在将典型的模式数据输入属于组别的用户字典之前经信号线204接收属于同一组别的模式数据和与组别指定有关的数据。

典型模式数据的模式形状以这样一种方式获得，对经信号线203接收的模式数据的所有模式属性加以平均。

如果无法进行平均化处理，例如在模式属性不能用数字表示的字体模式结构化分析中，那么应该采用一个以上的典型模式属性。

字典更新装置16删除经信号线204接收的模式数据。当然，经信号线204接收的模式数据可以不予以删除而将它们保留下来。

图5描述以上述方式构造的字典编辑装置5-2的程序的流程图。

首先，步骤10启动字典更新检测装置11以判断字典是否更新。如果进行过更新，即输入步骤20。步骤20的处理如下。

步骤20启动组别提取装置12以编制字典所的组别列表。步骤30按如下方式进行组别的处理。

也就是步骤40启动组别用户提取装置13以编制属于该组别的用户的用户字典表。

步骤50按如下方式进行用户字典的处理。也就是，步骤60启动字典数据查阅装置14以编制作为更新数据的同一模式数据表。而且，步骤70启动等同模式数据计数器15次对更新过的同一模式数据进行计数。接下来，如果计数值满足预定条件，例如超过作为预定阈值的判断条件，那么步骤80在将更新的同一模式数据输入该组别的用户字典之前启动字典更新装置16。步骤90从用户字典删除更新的同一模式数据。

字典编辑装置5-2频繁地重复上述程序。不同的是，比较好的作法是可将组别高于其它组别的超组别定义为相同的程序可以更新字典。

如上所述，第一个实施例可以实现多用户下各种模式的识别装置从而在多个用户输入等同或相似模式时其它用户也可以使用这些模式。

接下来描述按照本发明的第二个实施例。

第二个实施例为采用所谓的基因算法的细节逼近装置52的结构实例。第二个实施例整个系统的构造示于图1。图6描述表示图1中字典编辑装置5-2详细构造的框图。图7描述表示字典编辑装置5-2程序的流程图。

第二个实施例中的字典编辑装置5-2包含有自适应能力存储器21、双亲模式选取装置22、后代模式生成装置23、操作决定装置24、后代模式装置25、生成替代装置26以及将它们互相连接起来的信号线。这些装置由诸如CPU、ROM、RAM、CMOS以及存贮在ROM内的软件的电子器件构成。

以下描述第二实施例单元装置的功能。

有自适应能力存储器21保存输入字典2中模式数据之的适应能力f_i。

由于在字体识别中频繁使用“自适应能力f_i”较强。“自适应能力f_i”也是在利用识别装置4中匹配评估函数的处理结果中表示相似性的指数。“自适应能力f_i”还是一种衡量“相似性”程度高低、组别属性范围宽窄的参数。例如，由于数据被更多的用户使用，组别数据的自适应能力f_i比各成员数据的要高。如果其它条件一样，一般说来，属于用户模式的自适应能力f_i比属于组别的高，且属于较大组别的要比属于较小组别的高。

如果属于另一个分类的字体模式输入后被错误地识别为第一候选者，那么其自适应能力f_i应确定为一个较低的数值。

对自适应能力f_i的数值可以加以限制从而举例来说使得，同一分类j的自适应能力f_ij总和确定为某一数值。

比较好的作法是应将自适应能力f_i作为模式数据的一个属性存储在图1所示字典2中。

生成替换装置26用作设定时标和在时机到来时更新字典2的数据。时标是满足某条件的一个时刻，例如从先前时刻起用户更新字典积累到一定的程度。

术语“生成替换”源于这样一个事实，当更新字典2时，字典2内模式数n被替换成不同的模式数m，就好象双亲数n生成替换为后代数m。

以下将替换前的模式称为双亲模式，替换后的模式称为后代模式。

生成替换装置26以这样的方式更新字典2的数据，它将生成替换信号送至信号线304以在从字典2删除双亲模式前于后代模式装置25内生成后代模式从而经输入装置101输入后代模式。

接下来，图6中的双亲模式选取装置22包含经信号线304分配的分类j和由后代模式生成装置23经信号线301分配的模式数。随后双亲模式选取装置22查阅图1中字典2的数据以从具有分类j属性的模式数据中选取分配数目的模式数据。

模式数据ij的选取机率取决于自适应能力f_i，由下式给出，

f_i/∑fij

这里∑对所用的i求和。

后代模式生成装置23从信号线301接收生成替换的时标数据。后代模式生成装置23也经信号线302接收操作(包括复制、杂交和变异)和参数数目n。随后后代模式生成装置23在从双亲模式选取装置22中接收双亲模式数目n前将参数数目送至信号线301。

接着，后代模式生成装置23在将其送至信号303上前执行双亲模式数据的操作以生成新的后代数据，包括自适应能力。复制操作是复制双亲模式以生成后代模式。杂交是转录两个双亲模式的部分属性以生成后代模式。变异是生成一个其属性不同于双亲模式的后代模式。这些操作将在后面详述。

操作决定装置24将操作命令和参数数目送至信号线302。

参数数目由操作决定。输出的操作K的概率取决于预定的概率。

后代模式装置25保存包括自适应能力在内经信号线303接收的新模式数据。

图7描述表示字典编辑装置5-2程序的流程图。

步骤110使生成替换装置26在某一时刻告知生成替换时标，比较好的作法是当生成替换装置26检测到诸如用户将新字体输入字典之类的情况发生变化或者在对属于分类的字体进行识别超过一预定次数时设定时标。

分类执行下列处理。

步骤120N重复下列处理以生成N个后代模式。

步骤130使操作决定装置24选择其中之一个操作，包括(1)复制，(2)杂交以及(3)变异选择的作出分别取决于(1)复制、(2)杂交以及(3)变异的概率。例如其值分别为0.5、0.495和0.005。

步骤140选择双亲模式数据。但是双亲模式的数目是不同的，它们取决于操作类型。例如，(1)复制、(2)杂交和(3)变异的双亲模式数据的数目分别为1、2和0。

将一个模式选为双亲模式的判定规则为当模式适应能力较强时其选择概率较大。

步骤150在操作和双亲模式的基础上生成后代模式数据。

现在描述复制、杂交和变异操作。

(1)复制是一种复制双亲模式数据以生成后代模式数据的操作。

(2)杂交是一种从两个集合中每个集合提取一部分组合起来以生成作为后代模式数据的模式。

比较好的做法是杂交点应切在汉字部首处或汉字笔划处。

(3)变异是一种通过将属于另一种分类的模式数据部分代替双亲模式数据部分以生成新字体数据的操作。

在生成N个后代模式后，步骤160用后代模式数据代替双亲模式数据。通常，比较好的做法是使双亲模式数据等于后代模式数据。

接下来借助图8描述如何给出自适应能力。

图中步骤210、230和260情形下更新了自适应能力。这里假定对单个模式的每一笔划给出自适应能力。(每一笔划为构成字体的点或线)。作为一个例子，以下描述根据对笔划给出的自适应能力判定笔划的成后整体模式的自适应能力。

如果属于模式的属性有所改变，特别是扩充的情况，那么步骤212按以下方程对模式给出自适应能力从而使适应能力更强。

f_i＝min(1，f_i＋0.25)

这里min(a，b)是从a和b中选取较小值的函数。

如果属性减少了，步骤213按下面方程对模式给出适应能力，从而使适应能力更弱。

f_i＝max(1，f_i－0.25)

其中(max(a，b)是从a和b中选取较大值的函数。

当然在频率212和213可以不作处理。

如果步骤230识别输入的模式，步骤240按下面方程对输入的模式给出第一个候选字体每一笔划的适应能力。

f_i＝min(1，f_i＋0.25)

而且，步骤250对输入模式给出属于同一分类的第一候选字体的每一笔划的自适应能力。

如果属于同一分类的给定的所有字体的一个与步骤252中给出的样本一致，即如果存在较第一候选字体更小的对于输入模式的距离值的笔划，步骤251按下列方程对输入模式给出自适应能力

f_i＝min(1，f_i＋0.25)

术语“距离值”是在输入模式与字典中的字典模式之间操作的匹配函数的函数值。例如，模式属性用N点近似的从标表示并且如果匹配函数用输入模式与字典模式近似坐标差之总和表示，那么距离值即为总和。

如果字符为步骤260中第一个候选者，但被当作错误识别处理，那么步骤270对于模式给出自适应能力。

f_i＝mam(1，f_i－0.25)。

比较好的做法是，汉字模式更应赋予诸如部首之类亚模式于适应能力而非赋予笔划。

图9和10描示表示对分类字典模式更新实例的手写体。

图10表示根据双亲模式复制、杂交和变异生成的后代模式的实例。

如图9所示，如果有7种字体模式“*a”输入字典并且在生成替换中操作决定以0.5的概率选择复制操作，那么模式P₁以如下概率选择

P₁的自适应能力/(∑P_i的自适应能力)

这里∑对所有i求和。由此生成了后代模式PCI。

借助赋予笔划的自适应能力获得了P_i的适应能力。例如，应通过对赋予笔划的适应能力取平均获得适应能力。

举个例子，如图9所示，赋予笔划的适应能力分别为1、1和1。

因此给出如下的P_i的适应能力

P_i的适应能力＝(1＋1＋1)/3＝1。

对P₂-P₇进行相同的处理。随后它们的适应能力为0.5、1、1、0.5、0.5和0.25。

因此给出如下的P₁的选择概率

P₁的选择概率＝1/(0.5，1，1，0.5，0.5和0.25)0.266。

同样，如图10所示，在进行复制和杂交操作以获得PC2和PC3之前根据适应能力决定的概率选择操作和双亲模式。

就上面所述而言，第一和第二个实施例的处理不仅可以用于字体的模式识别，也可以用子图表、语音等其它方面。

如果字典2分为诸如字体种类之类的分类，那么字典编辑装置5-2可以切换于每个分类。也就是在用户之间高度公用的分类的字典可以积极地去优化，但是对其它字典不作优化。例如在字体识别中，平假名作字典优化，但对其它种类字体不作优化。

即使对于诸如假名汉字转换之类的输入模式的代码串，在作以下三种改变后同样也可以应用本发明。

(1)用汉字转换装置4代替识别装置4。

(2)用对输入代码串的转换代码串定义代替字典2中的数据。

(3)用其它类型的输入装置1和显示6代替输装置1。

如果用于识判装置4的汉字转换装置5经信号线100接收输入的代码串和诸如组别之类的属性，那么它经输入装置101查阅字典2。随后在具有诸如组别之类属性的字典中检索输入的代码串。接着将输入代码串的转换代码串送至信号线100。

字典编辑装置5-2为本发明的核心。

字典编辑装置5-2在处理前检测用户字典的上部从而使得这部分可以为组别内所有用户使用。利用与第一个实施例一样的图4所示结构和图5所示操作完成处理。

术语“上部”定义为由组别成员共同使用的假名-汉字变换模式的输入数据。

例如，如果在用户字典中有一对输入数据共同的假名-汉字转换模式，那么共同的模式抽取出来作为上部以使所有用户、组别内成员使用。

图11和12描述表示假名-汉字转换装置处理实例的框图。与在第一个实施例中一样，字典数据分为“所有成员”2-0、“用户1”2-1、“用户2”2-2、“用户3”2-3和“用户4”2-4。(第一个实施例中用户为使用该系统的组别成员。)当然，字典数据可以按字体类型属性或类似属性划分。

图11描述表示处于两个用户借助字典编辑装置5-1各自输入同一特殊条目的状态的框图。

在图12中，字典编辑装置5-2从图11抽取作为字体代码串“bishamon”的假名一汉字转换应变为“#BISHAMON”的组别协议的状态开始。随后字典编辑装置5-2在将协议从两个用户字典删除前将其输入组别字典从而为组别内所有用户使用。另一种作法是可以将协议输入组别内所有的用户字典。

上面借助假名-汉字转换实例描述了输入模式为代码串的实施例。而且，根据模式和具有所输入模式的字典同样可以将本发明应用于定义一个系统操作。也就是，如果组别内两个以上用户改实际情况用户字典以出于提高操作能力目的而自定义系统操作，那么组别内所有成员都可以获得该自定义的操作能力。

与上述第一实施例不同，本发明的模式数据处理系统可以构造为具有多个由网络连接的手写体输入工作站，每一输入工作站包含集成在一起的输入装置1、字典2、主存储3和识别装置4。

以下借助假名-汉字转换描述下一个实施例。除了上述变化(1)、(2)和(3)以外本发明还可以应用于模式识别系统。本发明可进一步应用于系统操作定义上。

以下描述作为不带组别字典查阅其它用户字典的本发明。

图13描述表示第三个实施例的系统构造的框图。图中，文字处理器包含输入装置1、显示装置6、主存储器3、假名-汉字转换装置4以及字典2。输入装置1包括输入装置1-1和输入装置1-2，显示装置6包括显示装置6-1和6-2，而假名-汉字转换装置4包括处理装置4-1和字典查阅装置4-2。文字处理器可以做成包含附加字典编辑装置5-1以输入用户本身使用的一些特殊条目。

具有输入代码串模式的输入装置1通常为键盘。作为另一种选择，输入装置1可以是从代码菜单上进行选择的鼠标器。作为替换，输入装置1可以是不带显示装置6的如第一个实施例所述具有输入代码串的模式识别系统，代码串为待识别的手写体字体。输入装置1还可以是另一种能包含输入代码串的装置。

字典2具有输入代码串和多个带有优先权的转换串代码(见图14中的字典2(j))。虽然第一个实施例的系统具有字典2自己的属性，但是如果在图13中提供的系统的每个用户的文字处理器具有ID，则字典2不具有自己的属性。

如上所述，假名-汉字转换装置4具有处理装置4-1和字典查阅装置4-2。处理装置4-1经主存储3接收用户从输入装置1输入的输入代码串。随后处理装置4-1在将输入代码串送至字典查阅装置4-2之前截取单独的单词。

字典查阅装置4-2搜索字典2以找到单个单词的输入代码串。由于每个工作站系统的字典2都与网络连接，字典查阅装置4-2搜索字典，包括其中一个文字处理器以找到输入代码串。由于输入代码串可以带有多个定义的转换代码字体串，字典查阅装置4-2在将转换代码串送至处理装置4-1之前设置优先权。

图14描述表示字典查阅装置4-2的操作程序的流程图。首先，步骤401将候选者计算器初始化为0。步骤402重复属于同一组别的所有用户字典的下述处理。处理按照图中所示的字典优先权表依次进行。如果优先权较高的字典具有定义的输入代码串的转换代码，那么就不必对属于组别的所有用户字典进行处理，但可以中断。

图14中属于组别的用户字典实例在文字处理器的字典2(i)和文字处理器3的字典2(j)中具有输入代码串“#bishamon”的定义域。字典2(i)没有定义，但是字典2(j)具有定义的转换代码。

步骤403检查输入代码串是在字典2中是否定义。如果有定义，步骤404使步骤405和406处理所有定义的输入代码串。也就是，步骤计算输入代码串的优先权，输入候选者表(C)中的优先权和转换代码，并更新候选者计算器C。优先权以这样一种方式使用，如图所示字典优先权预先确定并对转换代码的优先权求和。作为另一种选择，可以利用倍数或优先权函数之积计算优先权。

步骤407在将候选者送至步骤408之前对输入候选者表的候选者数C按优先权顺序进行排序。也就是，步骤407按优先权次序排序的候选者表送至处理装置4-1。

作为图14所示候选者表的实例，字典2(i)的用户在自己的字典内并无定义，但可获得转换代码。

处理装置4-1可以具有最高优先权的假名-汉字转换结果。

显示装置6显示由用户通过输入装置1输入的输入代码串。在代码串由假名-汉字转换装置4转换为假名-汉字串后，显示装置6显示假名-汉字转换的字体代码串。

字典编辑装置5-1在编辑字典2之前为各用户进行假名-汉字转换学习。也就是，字典编辑装置5-1的功能是按照假名-汉字转换历史学习输入特殊条目的优先权和具有假名-汉字转换的代码串。

接下来描述本发明第四个实施例。与上述第一个实施例一样，第四个实施例具有集成在一起的组别字典、输入装置1、字典2、主存储3以及假名-汉字转换装置4(或手写输入识别装置4)。

这种系统构造在上述第二个实施例上增加了下述附加装置。也就是，第四个实施例具有附加的字典编辑装置5-2和组别字典2(K)。字典编辑装置5-2和组虽字典2(K)与上述第一个实施例中所用的一样。字典编辑装置5-2的程序也与图5第一个实施例的流程一样。

接下来描述本发明第五个实施例。第五个实施例没有组别字典，而是一种将字典数据分配给其它字典的方法。

图15描述表示第五个实施例系统构造的框图。第五个实施例并未对识别装置4-2作详细描述，而上述图13中第二个实施例的文字处理器的识别装置4-2在查阅其它用户上作了精心设计。范围对应装置53包含只查阅文字处理器字典的普通假名-汉字转换装置4。

第五个实施例具有特别提供用于将字典数据分配给其它字典的字典编辑装置5-2。图16描述表示字典编辑装置5-2操作的流程图。

步骤10观察字典以进行更新。如果更新了任何字典，那么进行以下处理。步骤20制造更新字典的用户的组别表。对所有组别进行以下处理。步骤40制作属于组别的用户字典表。步骤50对所有用户字典执行步骤60。也就是，步骤60输入与更新数据一样的数据(输入代码串的转换代码)。应该注意的是由于用于输入代码串的转换代码已经输入，步骤60应在用于输入代码串的转换代码上增加优先权，而更新数据的转换代码应具有最低的优先权。

接下来，描述本发明第六个实施例。第六个实施例是文字处理器具有提供的字典编辑装置5-2以将字典数据复制到自己字典的方法。

图17描述表示第六个实施例系统构造的框图。第六个实施例具有提供文字处理器的图15中的第五个实施例的字典编辑装置5-2。图18描述表示字典编辑装置5-2操作流程图。

首先，步骤501对输入字典优先权表的所有其它用户字典重复以下过程。步骤502更新而观察其它字典。如果更新过，执行下列处理。步骤503检查自己的字典2是否具有就输入代码而言为其它字典定义过的更新数据。如果没有，步骤504将其它字典更新的数据输入自己的字典。转换码的优先权与上述第三个实施例的相同。

图上具有字典编辑装置5-2操作前后各用户字典2的数据。字典2(i)的用户可以获得自己字典内没有定义的转换码。

以下借助图19-26描述作为本发明在线手写字体识别实例的第七个实施例，其中即使因模式不同而适用的方法不同，也可以提高识别精度。

图21描述表示近似点数目的“#n0”、“9”和“S”数目模式。我们可以看到，随着近似点数增加模式与原始图案越相似。但是当近似点数增加太多时，它的匹配时间延长。而且特别对手写的模糊在识别上是不利的。在图中实例中，近似点的优化数对于“#n0”为5点，对于“9”为9点，对于“S”为7点。也就是，近似点优化数随模式属性不同而不同。因此每一模式必须具有近似点接近精确的优化数。

图22描述表示输入模式和由不同近似装置(近似点数目)和不同匹配装置获得的字典模式的距离值实例的图形。实例为图形“#n0”、“9”和“S”相对于近似点数的距离值。我们可以看到距离值随近似点数目增加而增加。我们还可以看到，距离值的增加与近似点数实际上保持常数关系。就五个近似点的距离值而言，9个近似点的距离值增加10而7个近似点为20。

如上所述，如图21所示优化点数目随模式属性不同而不同。但是一般情况下，较多近似点的匹配其距离值比较低近似点的大。因此我们可以看到如果与随模式不同而不同的优化近似点相比较多优化点匹配获得的距离值是不利的。因此，我们可以看到如果在对由近似点数获得的距离值归一化后进行比较则匹配时间可以缩短而识别精度可以提高。

图19描述表示作为本发明第七个实施例的可变近似点模式识别系统功能的框图。以下大致描述第七个实施例的操作。

笔划(手写数据)可以用针式笔a₂在表(坐标输入装置)a₃上移动输入。表a₃将笔划送往识别控制装置32。识别控制装置32将一个字体的笔划送至近似控制装置33。近似控制装置33在近似装置A37-C39(近似点数目)的优化下对笔划近似。识别控制装置32随后将输入模式的近似(近似点的)与近似字典模式在由匹配装置A34-C36近似下获得距离值之前进行匹配。识别控制装置32随后将获得的距离值送往距离值归一化装置31。距离值归一化装置31对距离值归一化。识别控制装置32随后在将正确候选者存入显示存储器C之前将最小归一化距离选作正确候选者。在将字体显示到显示器(这里是LCDal)上前LCD控制器b从显示存储器中读取上述字体。上面概述的第七个实施例操作细节将在后面描述。

图20描述表示本系统构造的功能框图。本系统的可以完成以下功能，近似模式、距离值计算前的匹配和以如下方式归一化，CPUf在执行前从例如ROMh中读取程序。上述功能将利用流程图详述。

图23描述表示识别控制装置32的操作步骤的流程图。首先，步骤32-1对输入的一个字体的模式取样。步骤32-2使近似控制装置33借助优化近似装置(近似点数)对取样的近似模式近似。接下来，步骤32-3用字典模式对近似输入模式(近似点数)作匹配以获得匹配点数M。步骤32-4使近似匹配装置计算输入模式与字典模式之间的距离值DIST。接下来，步骤32-5使距离值归一化装置31利用预定的函数或方程将距离值DIST归一化为DIST′。步骤32-6对预定字典模式重复步骤32-3至32-5以选择待显示的正确候选者。

接下来，详述上面概述的第七个实施例的操作步骤。

步骤32-1：该步骤以以下方式作为对输入模式取样的例子。该步骤应在LCD上输入框内显示字体。如果用在输入区域内输入字体，那么在存储输入的坐标串(笔划)之前画出的轨迹。该步骤可以在用户中断输入字体之后例如2秒时间，或转至另一字体输入区域或移出字体输入区域之外后检测到输入字体的结束。

步骤32-2：以下利用流程图详述利用优化近似装置(近似点数的)近似输入模式的方法。

步骤32-3：本步骤以例如以下方式使输入模式与具有一定近似点数的字典模式作匹配。该步骤将对近似点数较少的模式插入一些所需的近似点，而对近似点较多的模式则减少一点。或者，它较少近似点r再次近似得到较多近似点。或者，它对较多近似点再次近似得到较少近似点，或者，它对字典模式的近似点数近似输入模式。或者，它对输入模式近似点数再近似字典模式。这里匹配后的近似点数和为匹配点数M。

步骤32-4：本步骤以下述方式借助合适匹配装置计算输入模式和字典模式的距离值DIST。该步骤将输入模式和字典模式送至匹配点数M的匹配装置。匹配装置在将距离值送至识另控制装置32之前获得输入模式与字典模式间的距离值(属性差异)。已经提出了许多种获得输入模式与字典模式间距离值的方法。例如，该步骤获得相关近似点的城市装置值。

步骤32-5：本步骤以例如以下方式利用预定的函数或方程将距离值DIST归一化为DIST′。本步骤利用不同的近似和匹配装置计算同一模式距离值。如果借助近似和匹配装置计算的距离值的差为常数，则该步骤将差加至距离值上。这就能借助特殊的近似和匹配装置将距离值归一化为计算值。上述实例将进一步利用处理流程图详述。

距离值归一化方法的另一个例子是使使用识别装置得到的一组模式的距离值的范围相等。归一化的一种途径是取距离值0和差量，1的正态分布的平均值。用(P₁，P₂，…P_i，…P_n)来表示该组模式。另外，用(D₁，D₂，…，D_i)来表示该组距离值。用X表示该组距离值的平均值。平均值X从(D₁＋D₂＋…＋D_i＋…D_n/n)得到。再者，用V表示差量。差量V从{(D₁－x)²＋(D₂ ²－x)²＋，…＋(D_i－x)²t，…＋(D_n－x)²)/n得到。再，用D₁′表示距离值D_i的归一化距离值。那么归一化距离值D_i′由下式得到：

D_i′＝(D_i－x)/V

距离值归一化方法的再一个例子仍是使使用识别装置得到的一组模式的距离值的范围相等。归一化的一种途径是在0到1范围内产生距离值的分布值。用(P₁，P₂，…，P_i，…，P_n)表示该组模式。另外，用(D₁，D₂，…，D_i，…D_n)表示该组距离值。用D_min表示该组距离值(D₁，D₂，…，D_i，…，D_n)中的最小值，用D_max表示该组距离值(D₁，D₂，…，D_i，…，D_n)中的最大值，用D_i′表示距离值D_i的归一化距离值。那么归一化距离值D_i′由下式得到：

D_i′＝(D_i－D_min)/(D_max－D_min)

不用上述的距离值归一化方法的例子，还可以用另外的把距离值彼此比较的任一种方法。

步骤32-6：该步骤用例如下面的方法选择和显示正确的候选对象，该步骤在以距离值增大顺序选择正确的候选对象进行显示之前，先以距离值增大的顺序对候选字符进行排序。

图24示出了近似控制装置33的工作步骤的流程图。首先步骤33-1对近似点数N初始化。接着，步骤33-2增加近似点数N。步骤33-3用N点近似装置近似取入的模式。条件步骤33-4判别近似模式的近似准确性是否最佳。如果是，步骤33-5输出该近似模式。如果步骤33-4的近似模式的近似准确性不是最佳，则控制返回步骤33-2。

步骤33-1：用例如下面的等式(1)对近似点数N进行初始化。

N＝2P＋1 (P＝1) (1)

步骤33-2：用例如上面的等式P＝P＋1的方法使近似点数N增加。

步骤33-3：用例如下面的方法，用N点近似装置近似取入的模式。该步骤把取入的模式从识别控制装置32送到N点近似装置。接着，N点近似装置在把近似结果送到近似控制装置33之前对取入模式进行例如均分近似操作。可以用不同的方法取代均分近似来进行近似操作。

步骤33-4：用例如下面的方法判别近似的准确性是否最佳。用L表示取入模式的笔划的总长度。另外，用L′表示近似于它的模式的总长度。可以通过检查近似点数是否是满足下面等式的最小数来进行判别。

把一划等分成满足下面等式(2)的最小点数N。

L′≥aL＋b(a和b＝常数)

步骤33-5：如果步骤33-4判别出近似准确性最佳，把近似模式送至识别控制装置32。

如上所述，近似控制装置33的操作步骤可以得到用最佳近似装置近似的模式。

下面描述距离值归一化的例子。

图25示出了距离值归一化装置31的工作步骤的流程图。下面概述该工作流程。如果在步骤31-1，匹配点数M为5，则距离值为5点匹配归一化值P(5)。

步骤31-2把P(5)加到距离值DIST上，得到归一化距离值DIST′。类似地，如果步骤31-3匹配点数M为9，则距离值为9点匹配归一化值P(9)。

步骤31-4把P(9)加到距离值DIST处，得到归一化距离值DIST′。在另外情况下，即，如果匹配点数M为17，则距离值为17点匹配归一化值P(17)。

步骤31-5把P(17)加到距离值DIST上获得归一化距离值DIST′。

本实施例(该方法与图22的实施例相似)可以用于步骤31-2，-4，和-5，把图22用作：

P(5)＝20，

P(9)＝10，

P(17)＝0。

上述距离值归一化方法得到的值实际上等于17点匹配装置用任一匹配装置进行匹配计算得到的值。

上述第7实施例用最佳近似装置和匹配装置对不同的模式能有效和准确地获得距离值。第7实施例还可以比较距离值，在特殊的近似装置和匹配装置用归一化距离值的方法获得距离值时选定正确的候选对象。

下面描述本发明的第8实施例

图26示出了模式识别系统的功能框图，该系统具有诸如字符识别装置，符号识别装置和图形识别装置的多个模式识别装置和距离值归一化装置。下面概述第八实施例的工作情况。如果用户用笔尖a2在图形输入板a3上滑动，笔划(串式坐标数据)进入模式识别系统。笔划通过图形输入板控制器d输入识别控制装置32。识别控制装置32把一个字符的笔划传送到识别装置A33到C35。各识别装置A33到C35用它们各自的字典A36至C38对输入的数据进行模式匹配。在把归一化距离值馈送至识别控制装置32之前，距离值归一化装置31对计算得到的距离值进行归一化。在显示之前，识别控制装置32把较小的归一化距离值选作正确的候选对象。距离值归一化装置31的构成与前述的第7实施例相同。

如图26构成的第8实施例用适合于各种笔划而无需在不同状态下区别输入的笔划的匹配方法可以识别其内混合有字符、符号和图形的笔划。

如上所述，第8实施例仅通过用多个识别装置获得的距离值来确定正确的候选对象。另一方面，第8实施例可以不仅通过距离值，并且通过诸如位置、尺寸、颜色、书写压力、输入速度和识别模式等输入模式的特性来确定正确的候选值。

再一方面，第8实施例可以通过识别结果，不仅是距离值，还通过诸如位置、尺寸、颜色、书写压力、输入速度和识别模式等输入模式的属性来确定正确的候选值。

各识别装置可以制成仅具有不同的近似装置。各识别装置也可以制成具有一个匹配装置和一个字典。各识别装置还可以制成具有一个近似装置和多个匹配装置。

如果设置有多个字典和匹配装置，它可以根据近似装置选择字典和匹配装置，用于识别。

另一方面，它可以根据诸如位置、尺寸、颜色、书写压力、输入速度和识别模式等输入模式的特性来选择字典、近似装置和匹配装置用于识别。

下面参照图27至36描述第9实施例。它是本发明在线字符识别系统的一个例子。在该系统，即使输入的图形被放大或缩小了，也能识别出输入图形。

图27示出了在线字符识别系统的结构的框图。

用户通过手用笔书写输入字符图形，综合输入和显示装置41每隔一单位时间检测笔的坐标。识别启动控制器43把在每个单位时间识别的一个字符的坐标馈送给归一化装置44。归一化装置44把该字符图形的坐标和大小归一化。

候选选择近似装置45大致近似归一化字符图形，例如一笔用6个点。这种图形近似方法可能失去一些输入的原始图形的形状属性，例如，在连续书写时的框线、交点曲线和直线等。然而，该选择方法应当选出这种包括高级别正确的字符的候选对象。候选选择字典48具有以与候选选择近似装置45相同的近似方法存储在其内的用于选择大致近似的候选对象的模式。候选选择装置46从候选选择字典48中选择近似的输入字符图形的候选字符进行候选对象的选择。对于作为一个例子的用6点近似一笔的选择方法来说，它应当在以差值之和增大的顺序选择10个候选对象之前找出每笔的开始和结束坐标与近似点之间的转换矢量之间的差值。候选选择近似装置45、候选选择字典48和候选选择装置46可以用任何的能用少量的属性点和运算操作选出高级别正确的字符的其它功能部件来代替。

细部近似装置52在一些细节上近似归一化字符图形，这样可以保留或利用诸如框线、交点曲线和直线等输入的原始图形的形状属性。作为一个例子，细部近似装置52以这样一种方法近似图形，把一笔笔划用满足下式(2)的最少点数N均分：

L′≥aL＋b (2)

其中L′表示近似后的笔划的长度，L为近似前的笔划的长度。

细部近似装置52可以由任何的能在一些细节上近似归一化字符图形的可以保留或利用诸如框线、交点、曲线和直线等输入的原始图形的形状属性的其它功能装置来代替。可以以较大的点数N来等分笔划以较窄的点间隔进行近似。

候选选择字典-细部字典49的数据能告知候选选择字典48的哪些模式与细部字典51中的模式相同。细部字典51具有原始模式，它产生候选选择字典48的近似模式，用细部近似装置52的近似方法近似原始图形。细部字典阅读装置47读出候选选择装置46选出的候选对象的细部字典模式。

提供上述候选选择近似装置45、候选选择装置46、细部字典阅读装置47、候选选择字典48和候选选择字典-细部字典49是为了预先以高速率进行识别工作通过其轻载过程减少候选对象，操作时没有问题则可以省略这些装置。

范围对应装置53使输入的细部近似的图形对应于以各近似折线形式的字典模式。例如，范围对应装置53以输入的图形和字典模式的转换矢量进行DP匹配。另外，转换矢量，对应物的属性包括近似点的坐标、转换矢量的方向码、方向码差(角变化)、弗里叶(Fouri-er)变换结果和图像数据。可以用在搜寻距离值之和最小的对应物之前检查所有对应物的方法来取代DP匹配。然而，这种方法增加了工作量。对应范围保持装置54把细部近似的输入图形的对应物以各近似折线形式保持到字典模式中。

笔划绝对位置差装置55把输入图形的每笔位置与字典模式作比较，找出它们之间的差值。可用的笔划位置是笔划的起始点，结束点，中点或重心点。相对笔划位置差装置56把输入的图形与字典模式作比较，作为图形笔划的相对位置关系，例如，彼此结束点的接触点、一个结束点与不是另一结束的位置的接触点。笔划的交叉点等来寻找差值。一般形状差装置57寻找近似的输入图形的每条折线与从字典模式来的折线之间的差异。例如，一种可用的差异是一种或多种属性的结合，包括转换矢量、近似点坐标、转换矢量方向码、方向码差(角变化)和弗里叶变换结果等。如果一般形状差装置57使用对应范围保持装置54的结果，则可以提高识别率。

特定形状差装置58是本发明的心脏。特定形状差装置58寻找特定属性差异，如多条折线的框线、交点、曲线和直线等，而一般形状差装置57寻找近似的输入图形的每条折线与来自字典模式的折线之间的差异。即特定形状差装置58在计算特定属性的差异之前先估计在与其对应的输入图形的位置上是否存在字典模式的特定属性。

在计算加权差异之和之前，距离值合计装置61给出上述差异的权重。距离排序装置59用距离值对候选字符进行排序。识别启动控制器43接收排序的结果。然后识别启动控制器43控制LCD控制器42，使综合输入和显示装置41在其上显第一和第二以及以后的候选字符。

图28示出了候选选择近似装置45和细部近似装置52以N点笔划近似方法近似得到的图形的一个例子。候选选择近似装置45把长度除以5，用6点来近似输入原始图形的每条笔划。然后候选选择装置46用下式(3)和(4)寻找笔划差。

[1]开始和结束点坐标：

V(1)＝V(S) (3)

[2]近似点之间的转换矢量：

V^(1)，…，V^(i)，…，V^(N－1) (4)

类似地，细部近似装置52也用N点来近似。然而，N点数应当是足够大的，使得在一些细节上近似，可以保留或利用诸如框线、交点、曲线和直线等输入原始图形的形状属性。

第9实施例中的笔划绝对位置差装置55用等式(3)把输入图形的笔划位置与字典模式作比较，寻找它们的差值。一般形状差装置57用等式(4)寻找近似的输入图形的折线与字黄模式的折线的差值。

图29A至29C示出了细部近似装置52近似得到的字符图形的例子。每个例子都有17个近似点，用以把字符等分成16个部分(N＝17)。该例子具有输入原始图形的形状属性，如框线、交点、曲线和直线等。

图30示出了范围对应装置53进行的DP匹配的例子的流程图。该DP匹配与一般的DP匹配相同，产生属性矢量串V(i)的(i，j)对应数，其中i和j分别为0到I和0到J。DP匹配把对应的差d(i，j)相加，顺序得到阵列g(i，j)。例如，d(3，3)是变量，用以在i＝0到3和j＝0到3的范围内获得最小距离差。

此处，用图28、29A至29C描述的转换矢量作为属性矢量串用下式(5)来定义各相应的差d(i，j)。

d(i，j)＝｜V^(i)－U^(j)｜ (5)

其中V^(i)表示输入图形的转换矢量串，U^(i)为字典模式的转换矢量串。

现在，描述图30的工作步骤。二维阵列g(*，*)用于在DP匹配过程中得到的距离值。阵列g(*，*)用∞初始化。由于图形的两个起始点或者V(0)和U^(0)总是彼此对应，所以把d(0，0)输入g(0，0)。

然后，用i和J从0到I和0到J的各自的循环顺序获得d(0，0)tg(0，0)。

如果所有j均与i相对应，则必须进行大量的运算工作，尤其是对于特殊的对应数。为了能高速率地工作，最好预先用下式(6)来确定用于i的j的范围。

i－r≤j≤i＋r，j≥0 (6)

另外，式(6)范围外的对应数g(i，j)用∞代替。

满足式6的对应物g(i，j)用下面选出的三个对应数D到F中最小的一个来代替。

D：(i－1，j－2)＋2d(i，j－1)＋d(i，j)中最小的即，对应于(i－1，j－2)到(i，j－1)到(i，j)。

E：g(i－1，j－1)＋2d(i，j)中最小的，即对应于(i－1，j－1)到(i，j)。

F：g(i－2，j－1)＋2d(i－1，j)＋d(i，j)中最小的即，对应于(i－2，j－1)到(i－1，j)到(i，j)。

循环重复该过程。出了循环之后，用g(I，J)获得的距离差之和是输入图形转换矢量串V^(i)到字典图形转换矢量串U^(i)最佳对应的距离离值，其中i和J分别为0到I和0到J。存储距离值对应数，得到最佳对应数。

图31示出了对如图29A和29B所示的输入和字典字符图形A和B“*mu”进行DP匹配的结果的最佳对应数的曲线图。由于图29A的“*mu”的起始横划比图29B的短，所以第一转换矢量V^(0)对应于图29B的字典字符模式B“*mu”的转换矢量U^(0)和U^(1)。

图32示出了图27所示的特定形状差装置58的详细结构框图。特定形状切下装置58-1切下诸如框线、交点、曲线和直线等细部近似的输入和字典图形的属性。各交点、框线、曲线和直线检查装置对各属性都有最佳对应数，产生输入图形转换矢量V^(i)到字典模式转换矢量串U^(i)，其中i和j从0到I和0到J。然后，各交点、框线、曲线和直线检查装置在找出与字典模式的转换矢量的差值之前检查各个交点、框线、曲线和直线属性。

特定形状差求和装置58-6把检查装置得到的输入和字典图形的属性的差值相加。而，也可以把特定形状差求和装置58-6找出差值的平均值、最小值或加权和。

图33示出了特定形状差装置58的工作的一个例子和流程图。第9实施例通过注意模式转换矢量串的角度的变化把框线、交点、线曲和直线特性给予转换矢量。

首先，循环i(i＝1到I)获得jcale(i)内的V^(i－1)和V^(i)的角度变化。如果角度变化小于预定阈值THRA，则循环i把RA输入joint(i)，作为负角，另一方面，如果角度变化大于预定阈值THLA，则循环i把LA输入joint(i)作为正角。如果角度变化大于THRA，而小于THLA，则循环i把ST输入joint(i)作为直线。

接着，循环i(i＝1到I)判别jcode(i)。如果RA继续存在，则循环i求角度变化之和。如果该和小于预定阈值THRA，则循环把RL代入vec(i)作为负循环线。如果该和大于预定阈值THRC，则循环i把RC输入Vec(i)作为负曲线。相类似地，对于正角变化，循环i用阈值THLC或THLL把LC或LL输入Vec(i)。

最后，作为一个特点，为了防止循环i去检测由于手写时发生抖动而引起连接点，循环i要搜索的是不形成循环和曲线的单个连接点。也即，循环i搜索这样的连接点：

Vec(i－1)，Vec(i)＝RL/RC/LC/LL，且joint(i)＝RA或LA。

另外，如果在连接点之前和之后Vec(i－1)和Vec(i)的ST的全部连续长度是很短的，则循环i就可判断出是由于在joint(i)中输入之前手写发生抖动而引起的joint(i)是一连接点。

图34示出了特定形状差装置58对图29A的输入字符图形A“*mu”处理结果的表格。表中示出了可以连续地切下V^(5)到V^(8)循环，这与图29C的字典字符形成“*hi”不同。

图35示出了特定形状差装置58-2、特定形状差装置58-3，特定形状差装置58-4和特定形状差装置58-5的工作的一个例子的流程图。如果循环i(i＝1到I)找到字典模式的转换矢量串的Vec(i)内的形状属性，它根据对应于字典范围内的输入图形的vec¹(i)寻找字典和输入图形的差值。如果图形形状属性彼此吻合，则差值为0。如果在快速书写时输入图形的形状紊乱或歪斜，则将获得下面的差值。

图36示出了输入图形与已输入有图形形状的字典的差值表。从表中可以看出，对于形变较大的图形，差值较小，而形变不大的图形，差值较大。如果字典模式为负循环线，输入图形也为负循环线，则差值为0。在其它情况下，差值为20。如果字典模式为负循环线，而输入图形为负曲线，为了进一步在细节上吸收这些形变，把角度变化相加。根据求和值，差值为0到20。

另一方面，可以用表示范围0到1内的相似性的形变程度来代替差值。这种方法是获得图形属性地相似形状的最小值和平均值。

在图29A到29C所似的例子中，如下计算形状差值。

在13至15的i范围内的输入图形A和字典模式B：字典模式为正交点，而输入图形为负曲线，形状差为10。

在1至3的i范围内的输入图形A和字典图形C：字典图形为正交点，而输入图形为负曲线，形状差为10。

在5至9的i范围内的输入图形A和字典模式C：字典模式为负曲线，而输入图形为正框线，形状差为20。

在13至15的i的范围内的输入图形A和字典模式C：字典模式为正交点，输入图形为负曲线。形状差为10。这些形状差之和为40。

因此，可以识别出图形A“*mu”，而仅用与特定形状差装置58不同的结果会产生错误的识别。

Claims

1.一模式数据处理系统，其特征在于包括：一输入装置，用于至少接收给定模式；多个存储器，用于存储给定模式；一处理装置；以及一共用存储器，它做得可由任何一个输入装置来存取；其中，把近似的模式至少存储在两个存储器中，而处理装置存储把模式中的任何一个模式作为典型模式存储在共用存储器中。

2.一模式数据处理系统，其特征在于包括：多个输入装置，用于至少接收给定模式；一字典，它具有为多个用户以多种形式进行分类的数据；一共用字典；以及一字典编辑装置；其中，字典具有用户的一个组属性，如果通过任何输入装置给出的模式符合预定条件，则字典编辑装置就在字典中编辑数据，并输入与在共用字典中的模式相应的模式和代码，而具有相同组属性的用户可以对共用字典进行存取。

3.如权利要求2所述的模式数据处理系统，其特征在于用户的组属性是具有多个用户的一个组的名称，这些用户作为成员属于该组。

4.如权利要求2或3所述的模式数据处理系统，其特征在于，预定条件是由二个或多个具有相同组属性的用户通过输入装置给出的模式具有相应于相同代码的预定关系，以及对给定模式和相应于这些模式的代码进行分类并作为属于用户的数据送入字典。

5.如权利要求4所述的模式数据处理系统，其特征在于，预定关系是，对于模式之间的匹配函数的算得的值不低于预定的阈值。

6.如权利要求1所述的模式数据处理系统，其特征在于，模式包括至少一个手写汉字、假名、字母、数字和符号。

7.如权利要求2所述的模式数据处理系统，其特征在于，由字典编辑装置作的数据编辑是在字典里增删模式。

8.如权利要求2所述的模式数据处理系统，其特征在于，字典还具有增加至输入字典的模式的模式组属性的数据，以及字典编辑装置更新组属性。

9.如权利要求2所述的模式数据处理系统，其特征在于，字典编辑装置还取出两个或更多个模式的部分(这些模式被输入字典并具有相同的代码)以进行产生模式的交叉，或作为一种起始算法进行运算，并把产生的模式至少加至字典或共用字典。

10.如权利要求9所述的模式数据处理系统，其特征在于，字典编辑装置还对输入字典的模式指定自适应性，当自适应性值高时模式以高的频度被处理，而以自适应性递减的次序选择模式以进行交叉。

11.一模式数据处理系统，其特征在于包括：

多个输入装置，用于至少接收给定的模式；

为输入装置设置的一些存储器，用于存储给定模式和相应于模式的带有一个优先级或一些优先级的一个代码或一些代码；以及

一字典查找装置，用于找出与通过任何输入装置给出的模式相应的一个或一些代码，其做法是在输出找到的一个或一些代码以及代码的一个或一些优先级之前查寻与输入装置相应的字典和其他字典。

12.如权利要求11所述的模式数据处理系统，其特征在于字典查找装置具有对多个字典预设的字典优先级，并根据一个或一些优先级输出找出的一个或一些代码以及与这个或这些代码相应的字典优先级。

13.一模式数据处理系统，其特征在于包括：

用于至少接收给定模式的多个输入装置；

分别为输入装置设置的存储器，用于存储给定的模式以及与这些模式相应的带有一个或一些优先级的一个或一些代码；以及

一字典编辑装置，当更新任何字典时，用该装置将已更新的输入模式与相应于此已更新的输入模式的代码之间的关系输入其他字典。

14.如权利要求13所述的模式数据处理系统，其特征在于字典编辑装置在把已更新的输入模式以及与已更新的输入模式相应的代码之间的关系输入其他字典时，指定一新的优先级。

15.具有多个识别装置，用于求出输入模式与一预先存储的字典模式之间的距离值的一模式识别系统，其特征在于包括：

用于根据由至少一个识别装置获得的距离值确定识别结果的装置。

16.具有用于求出输入模式与一预先存储的字典模式之间距离值的多个识别装置的一模式识别系统，其特征在于包括：

用于将距离值归一化的装置；以及

17.具有用于求出输入模式与一预先存储的字典模式之间距离值的多个识别装置的一模式识别系统，其特征在于包括：

用于将距离值归一化的装置；以及

用于根据一个值来确定识别结果，由至少一个识别装置得到的距离值是对该值归一化的。

18.如权利要求17所述的模式识别系统，其特征在于，归一化装置对下述值进行归一化：

由识别装置获得的距离值，从而对于相同的模式使这些值相等；

由识别装置获得的距离值，从而对于一组输入模式使这些距离值的分布相等；或者

由识别装置获得的距离值，从而对于一组输入模式使这些距离值的分布范围相等。

19.具有用于求出输入模式与一预先存储的字典模式之间距离值的多个识别装置的一模式识别系统，其特征在于包括用以确定识别结果的装置，识别结果的确定根据：

由至少一个识别装置获得的一距离值；以及

至少任何一个输入模式的尺寸、输入模式的位置、输入模式的颜色、输入模式的速度、输入模式的书写压力、输入模式的出现频度、识别装置的校正速率以及识别装置的识别方式。

20.具有用于求出输入模式与一预先存储的字典模式之间距离值的多个识别装置的一模式识别系统，其特征在于包括：

用于根据识别结果和由至少一个识别装置获得的距离值确定识别结果的装置。

21.具有用于求出输入模式与一预先存储的字典模式之间距离值的多个识别装置的一模式识别系统，其特征在于包括用以确定识别结果的装置，识别结果的确定根据：

由至少一个识别装置获得的识别结果；以及

至少任何一个输入模式的尺寸、输入模式的位置、输入模式的颜色、输入模式的输入速度、输入模式的书写压力以及识别装置的识别方式。

22.具有用于求出输入模式与一预先存储的字典模式之间距离值的多个识别装置的一模式识别系统，其特征在于包括：

用于挑选一个特别的识别装置的装置。

23.具有用于求出输入模式与一预先存储的字典模式之间距离值的多个近似化装置的模式识别系统，其特征在于包括：

用于挑选一个特别的近似化装置的装置。

24.具有用于求出输入模式与一预先存储的字典模式之间距离值的多个字典的模式识别系统，其特征在于包括：

用于挑选一特别的字典的装置。

25.具有用于求出输入模式与一预先存储的字典模式之间距离值的多个匹配装置的模式识别系统，其特征在于包括：

用于挑选一特别的匹配装置的装置。

26.如权利要求22所述的模式识别系统，其特征在于，识别装置选择装置根据输入模式的位置或输入模式的尺寸，挑选一个特别的识别装置。

27.如权利要求23所述的模式识别系统，其特征在于，近似化装置选择装置根据输入模式的位置或输入模式的尺寸，挑选一个特别的近似化装置。

28.如权利要求24所述的模式识别系统，其特征在于，字典选择装置根据输入模式的位置或输入模式的尺寸，挑选一个特别的字典。

29.如权利要求25所述的模式识别系统，其特征在于，匹配装置选择装置根据输入模式的位置或输入模式的尺寸，挑选一个特别的匹配装置。

30.使用多个识别装置以求出输入模式与一预先存储的字典模式之间距离值的模式识别方法，其特征在于包括：

根据由至少一个识别装置获得的距离值确定识别结果的一步骤。

31.使用多个识别装置以求出输入模式与一预先存储的字典模式之间距离值的模式识别方法，其特征在于包括：

对距离值进行归一化的一步骤；以及

根据一个值确定识别结果的一步骤，由至少一个识别装置获得的距离值是对该值进行归一化的。

32.如权利要求31所述的模式识别方法，其特征在于，归一化装置对下述值进行归一化：

由识别装置获得的距离值，从而使这些值对于相同的模式相等；

由识别装置获得的距离值，从而使距离值的分布对于一组输入模式相等；或者

由识别装置获得的距离值，从而使距离值的分布范围对于一组输入的模式相等。

33.使用多个识别装置以求出输入模式与一预先存储的字典模式之间距离值的模式识别方法，其特征在于包括确定识别结果的步骤，而识别结果的确定根据：

由至少一个识别装置获得的一距离值；以及

任何一个输入模式的尺寸、输入模式的位置、输入模式的颜色、输入模式的输入速度、输入模式的书写压力、输入模式的出现频度、识别装置的校正速率以及识别装置的识别方式。

34.使用多个识别装置以求出输入模式与一预先存储的字典模式之间距离值的模式识别方法，其特征在于包括：

根据识别结果和由至少一个识别装置获得的距离值确定识别结果的一步骤。

35.使用多个识别装置以求出输入模式与一预先存储的字典模式之间距离值的模式识别方法，其特征在于包括确定识别结果的一些步骤，识别结果的确定根据：

由至少一个识别装置获得的一识别结果；以及

任何一个输入模式的尺寸、输入模式的位置、输入模式的颜色、输入模式的输入速度、输入模式的书写压力以及识别装置的识别方法。

36.使用多个识别装置以求出输入模式与一预先存储的字典模式之间距离值的模式识别方法，其特征在于包括：

选择一特别的识别装置的一步骤。

37.使用多个近似化装置以求出输入模式与一预先存储的字典模式之间距离值的模式识别方法，其特征在于包括：

选择一特别的近似化装置的一步骤。

38.使用多个字典以求出输入模式与一预先存储的字典模式之间距离值的模式识别方法，其特征在于包括：

选择一特别的字典的一步骤。

39.一模式识别系统，具有输入一模式的一输入装置；用一些部分对模式作近似的一近似化装置；一字典，在其中预先存储了以一些部分作近似的字典模式；以及一距离计算装置，用于对近似的输入模式与近似的字典模式作比较，其特征在于，距离计算装置包括：

一范围对应装置，用于使近似输入模式的每个部分与近似字典模式的各自的部分相对应；以及

一特殊形状差异计算装置，用于计算特殊形状差异以估计由近似结果的某些部分构成的特殊形状是否在字典模式和输入模式的相应位置处存在。

40.如权利要求39所述的模式识别系统，其特征在于，近似化装置用一些折线来对模式的连续部分作近似。

41.如权利要求39所述的模式识别系统，其特征在于，通过在作近似之前用模拟的方法可以留下或了解模式的一特殊形状。