CN1189839C - 字识别装置、字识别方法和存储介质 - Google Patents
字识别装置、字识别方法和存储介质 Download PDFInfo
- Publication number
- CN1189839C CN1189839C CNB011353406A CN01135340A CN1189839C CN 1189839 C CN1189839 C CN 1189839C CN B011353406 A CNB011353406 A CN B011353406A CN 01135340 A CN01135340 A CN 01135340A CN 1189839 C CN1189839 C CN 1189839C
- Authority
- CN
- China
- Prior art keywords
- feature
- row
- character
- word
- column
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
- G06V30/268—Lexical context
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99932—Access augmentation or optimizing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99936—Pattern matching access
Abstract
特征字典的容量被减小,并作为特征字典被存储。通过对于字符特征,以列或行为单位,对特征矢量分组,使m个列矢量代表列或行特征,并通过分配1~m标记数字降低所述容量。通过用其他行或列特征之和,或用其他行或列特征与执行分组后的区别特征的和来代表行或列特征,或者通过对字符特征进行维数压缩可进一步减小所述字典的容量。通过基于要识别的字列表,合成用于比较的字特征,并比较从输入字中提取的特征与所述合成特征,实现字识别。或者,可以用非线形弹性匹配实现维数不同的输入字与输入字特征之间的比较。
Description
技术领域
本发明涉及字符识别装置中的字识别。
背景技术
近年来,对字符识别装置OCR(光学字符识别)或软件OCR的需求日益增长。
字符识别是一种方法,用这种方法识别手写字时,不是将一个手写字如“东京”分成单独的字符来识别,而是该字本身被整体地识别。用这种方法,即使字符之间有接触时也可以实现高精度的识别。这是识别自由字符间距区中的手写字符串的有效方法之一。根据本发明的一种字识别装置不仅可应用于手写字符识别设备,而且可以应用于广义的字识别设备,如印刷字符识别设备,便携式信息终端的字符识别设备,等等。
已有人建议,例如,由日本专利申请No.11-113733,No.11-330288等提出的通过产生用于比较构成字的字符特征的合成的字特征字典,以及通过与一个输入字特征进行比较,可以作为识别手写字的方法。
上述专利申请No.11-113733公开的发明意在在根据单个字符特征产生字特征字典后,整体地识别输入字的图像,而无需识别构成该输入字图像的单个字符。用这种方法,可通过利用一部小容量的单个字符图像字典实现高精度的字识别。
此外,上述专利申请No.11-330288公开的发明意在通过产生一部字词典来处理输入字图像的字符形状的改变,该字词典是通过合成一个字的多个字特征产生的。
根据日本专利申请No.11-330288公开的传统方法,如果配置一部合成字特征的字符特征字典,可以从字符图像中提取特征,并且所有的特征都被保存,对于每个字符来说,字符特征的位置和宽度都是变化的。
例如,如图1所示,提取水平宽度1/6,2/6,…,6/6的特征(以下称为P/q特征),并且保存提取的所有特征。在这种情况下,每个字符的特征数量为21(计算表达式为:q(q+1)/2)。
例如,加权方向编码直方图特征(weighted direction codehistogram feature)被用作为一个单独字符的特征(参见“利用加权方向编码直方图改善手写日文字符的识别,图案识别”,Tsuruoka等著,IEICE学报D卷,J70-D No.7,pp.1390-1397,1987年7月)。加权方向编码直方图特征是将多个小区中的每个小区的方向编码直方图作为一个特征矢量,一个字符图像被划分到所述多个小区中。例如,如图2所示,在7(长)*7(宽)的网格中用8除以360°得到8个方向,在这8个方向上提取特征数量。每个网格拥有8维方向特征数。例如,图2示出了“东”字的一个3/7特征。
如果合成字特征,则字特征被这样合成,使多个单独字符特征的p/q分数的和为1。例如,对于一个由两个字符组成的字来说,通过增加“特征3/7+特征4/7”,“特征2/7+特征5/7”等合成字特征。例如,如图3所示,如果合成字“东京”的特征,则“东”的3/7特征和“京”的4/7特征加起来就合成了“东京”。
然而,由于必须保存约4,000种的所有字符的字符特征,所述字符特征的位置和宽度是变化的,所以需要几百兆字节的容量,从实用的观点来看这是一个严重的问题。
发明内容
考虑到上述情况开发了本发明。本发明的目的在于提供一种字识别装置和方法,该装置和方法可大大地降低字符特征字典的容量,并加速识别过程。
为了克服上述问题,根据本发明,降低了用于合成字特征的特征字典容量,并且能够达到实用的水平。此外,改进了比较合成字特征与输入字特征的方法,且字符形状的改变由一个被比较部分吸收,因此进一步减小了所述字典的容量。
根据本发明的一种字识别装置包括一个容量减小单元,用于通过减小用来合成字特征的字符特征字典的容量来产生一个特征字典;一个合成单元,用于基于要识别的一个字列表,根据特征字典中的行或列特征合成用于比较的字特征,其中,所述特征字典的容量被所述容量减小单元减小;一个特征提取单元,用于提取输入字的特征;以及一个比较单元,用于比较所述输入字的特征和所述合成字特征,所述输入字的特征由所述特征提取单元提取。
所述容量减小单元通过例如在学习时收集(分组)所有字符(例如,4,000种字符类型)的行或列特征中的相似特征减小所述特征字典的容量。当进行识别时,每次都通过利用已分组和登记的行或列特征来合成构成要识别的各个字符的特征数。
附图说明
图1例示了一个简化字符图像(字符“大”)的字符特征;
图2例示了一个加权方向编码直方图特征;
图3例示了一个字特征的合成;
图4示出了本发明的原理;
图5示出了根据本发明第一优选实施例的性能配置;
图6A和6B说明了以列为单位的特征矢量的分组(No.1);
图7说明了以列为单位的特征矢量的分组(No.2);
图8举例说明了根据第一优选实施例的特征字典的结构;
图9是说明字特征合成过程的流程图;
图10A和10B说明了多列特征的分组;
图11说明了当合成字特征与输入字特征的维数不同时所进行的比较;
图12说明了在网格内以特征为单元进行分组的情形;
图13示出了根据本发明第二优选实施例的性能配置;
图14例示了在第二优选实施例中产生的特征字典的结构;
图15示出了根据本发明的第三优选实施例;
图16示出了实现字识别装置的信息处理装置的硬件配置;和
图17例示了存储介质和载有发送信号的发送介质。
具体实施方式
图4示出了本发明的原理。在图中,附图标记1代表字符特征字典,从输入字符图象中提取的特征矢量存储在其中。附图标记2代表用于减小所述字符特征字典1的容量的容量减小单元。附图标记3代表特征字典,在学习时,其数据量由容量减小单元2降低的列(水平书写)或行(垂直书写)特征被存储于所述特征字典中。
所述容量减小单元2如下所述降低字符特征的数据量。(1)对于存储在所述字符特征字典1中的字符特征,以列或行为单位,对特征矢量分组,相似的特征收集在一起并用m个行或列矢量表示。标识数字1到m分别分配给所代表的矢量(分配标识数字1到m以下称为编码)。
不仅可以通过对一行或一列进行分组而实现编码,而且可以多列为单位进行分组而实现编码。而且,如果不是以行或列为单位对行或列特征进行编码,而是以网格为单位进行编码,就可以进行基于更精确的特征近似的编码。(2)检查是否存在一个组合,借助该组合,某一列特征能被其他列特征之和表示,或是否存在一个组合,借助该组合,某一行特征能被其他行特征的和所表示。如果存在相应的组合,则该行或列特征的标记数字及合成系数存储在所述字典中。
或者,检查是否存在一个组合,借助该组合,某一列特征能被其他列特征和一个区别特征之和表示,或是否存在一个组合,借助该组合,某一行特征能被其他行特征和一个区别特征之和所表示。如果存在相应的组合,则把该行或列特征的标识数字及合成系数存储在所述字典中。
(3)通过变换字符特征预先压缩维数大小,并通过对变换后的特征分组进行编码。
通过在所述特征字典3中保存特征矢量的索引信息,可高速访问所述特征字典。而且,通过按照使用频率的降序排列行或列特征,也可以高速访问所述索引信息。
通过利用特征字典3如下所述实现字识别过程,所述特征字典容量如上所述被减小。
规范化单元4规范输入字,特征提取单元5提取所述输入字的特征。同时,字特征合成单元6基于要识别的预定的字列表,根据存储在所述特征字典3中的行或列特征,合成用于比较的一个字特征。
然后,比较单元7对从所述输入字提取的特征和所述合成字特征进行比较,以实现字识别。
所述比较单元7用非线形弹性匹配对维数不同的字和输入字特征进行比较。结果,字符形状的变化不是被所述字典内的特征矢量吸收,而是由被比较部分吸收,因而进一步减小了所述字典的容量。
也就是说,在传统的字识别中,匹配方法本身难以处理输入字符形状方面的变化。因此,在特征字典中必须为一个字符种类保存多个特征(如上述的3/6特征,4/6特征等。)。同时,上述非线形弹性匹配本身具有吸收字符形状变化的效果,于是应该可以降低特征字典中保存的特征的数量,并可降低所述字典的容量。
下面说明根据本发明的优选实施例。
本发明可由普通的计算机系统实现,这种普通计算机系统包括一个处理设备,一个主存储设备,一个外部存储设备,一个用于读取图像的输入设备,例如扫描仪,键盘等,一个输出设备,如打印机,显示器等,一个通讯接口,等等。用于执行根据本发明的方法的程序,数据等,存储在所述外部设备等中,并且所述程序,数据等被读入所述主存储设备中,以便执行根据本发明的方法。
尽管本发明无论对垂直书写还是水平书写都是有效的,不过这里仅通过以一个水平书写字为对象说明本发明。如果把本发明应用于垂直书写,则只要将下面所述的列矢量变为行矢量即可。
此外,虽然字符特征可以分成几类,但是本发明的对象是能以列为单位分割的特征。而且,通过在网格中垂直排列特征,以列特征的形式处理可以网格为单元分割的特征。
特别地,以列为单位的特征包括一个n维周边特征,一个投影特征等。网格型特征包括一个加权方向编码直方图特征,一个方向元素特征,一个网格特征等。下文将以上述的加权方向编码直方图特征为例进行说明。但是注意,下面的说明中用到的网格的分隔数目,方向的数量等,不限于说明书中的数值。
(1)优选实施例1
在上述特征提取过程的最后阶段,所述加权方向编码直方图特征具有位于,例如为规范化字符图象分割的7(长)*7(宽)网格内的8个方向的特征,也就是说,加权方向编码直方图特征具有7*7*8维的特征。在这里,8个方向表示用8除以360°得到的以45°为单位的方向,如图2和图3所示。
在本优选实施例中,以列为单位对特征矢量分组,以减小字符特征字典的容量。
图5示出了第一优选实施例的性能配置图。
图中,当学习时,从输入字符图像中提取的特征矢量被存入字符特征字典中。
和本优选实施例相关的分组单元12为存储在所述字符特征字典11中的字符特征,以加权方向编码直方图特征的列为单位,对特征矢量分组,以便在学习时减小所述字符特征字典11的容量,如图6A所示。
也就是说,在网格7(长)*1(宽)中的特征矢量(7*8=56维)作为一个单元,类似的特征被收集起来并用m个列矢量代表。于是,标识数字1到m被分别分配给代表的矢量。
图6B例示了所述加权方向编码直方图特征的行矢量数表示法。在该图中,通过以列为单位进行分组而编码得到的m个标识数字分别分配给所述字符特征矢量。在本例中,标识数字(32230,13118,…,6451)分别分配给所述列。
传统的方法用以下的公式来要求列特征,即(字符种类数*每个字符的特征数*列特征数)(例如,假设字符种类数为4000,每个字符的特征数为21,行特征数为7,则列特征为4000*21*7)。然而,根据本发明,能够省去传统方法所要求的上述巨大数量的列特征。仅仅需要比上述数量小得多的m个列特征。稍后将详细描述。
作为一种分组技术,普通的分组技术诸如分级分组,K-方法,LVQ(学习矢量量化)等都可以使用。
被分组并且如上所述被赋予标识数字的m个列矢量被存储在特征字典13中。
下面将参照图7进一步详细说明用于收集由m个列矢量表示的相似特征,以及把标识数字1到m分别分配给代表的矢量的上述过程。
图7的上部示出了一种状态,其中,在从1到7的列单元中,相应地把例如从“秋”到“福”之类的4000个字符的特征分成上述特征矢量(列矢量)。
图7的底部示出了一种状态,其中,从所有字符的列矢量(4000*7个列矢量)中收集相似的矢量,把标识数字分配给所述相似的矢量,并且所述矢量作为代表性矢量存储在容量被减小的特征字典13中。在本例中,例如,字符“秋”的7个列矢量中的第4个列矢量被认为与在“秋”右侧的任何字符的第三个列矢量相似,并且还与其他字符的任何列矢量相似。收集相似的矢量,并将其作为代表性矢量存储在所述容量被减小的特征字典13中,标识数字1被分配给所述代表性矢量。
根据设计者的经验或猜测来确定判断是否存在相似性的标准。
如上所述,相似的矢量被收集到一起,于是数值m就形成了所有字符的列矢量数总数的几分之一到十几分之一。例如,在上述例子中,根据上述传统技术的计算表达式q(q+1)÷2,每个字符的特征数(其位置和宽度变化的字符特征:详细说明参见上文提及的专利申请No.11-330288)为28(=7*(7+1)÷2)。因此,按常规为了处理一个字符形状的变化必须保存数值为784000=字符类型数*列数*28=4000*7*28的列特征。在本优选实施例中,数值m比784000小得多,并且可望约为几万到十万多。
图8例示了上述特征字典13的结构41。该容量减小的特征字典13中有作为索引信息的标识数字和位置信息,如图8所示。所述位置信息指示分别对应于所述标识数字的m个特征矢量的存储位置。
当排列所述标识数字时,按要识别的种类(如地址,名称)预先检查在产生字特征时所需的字符特征的出现频率。所述标识数字按照出现频率降序排列,以便更快地访问所述索引信息。
利用上述容量减小的特征字典13,按如下过程进行字识别。
首先,规范化单元14规范输入字。特征提取单元15从所述输入字中提取一个特征。同时,字特征合成单元16基于要识别的预定字列表(例如当按辖区名执行字识别时的一个辖区名列表等),根据存储在所述特征字典13中的列特征,合成用于比较的字特征。
然后,比较单元17对从所述输入字中提取的特征和所述合成字的特征进行比较,以执行字识别。通过利用欧几里得距离(Euclideandistance)等比较所述输入字特征和所述合成字特征。
如上所述,在该优选实施例中,所述字符特征字典11中的特征矢量以列为单位分组,收集相似的特征,m个列矢量代表所收集的特征,并且对这些特征编码。结果,所述特征字典13的容量被大大地减小了,并能达到实用的水平。
此外,特征矢量的索引信息保存在所述特征字典中,由此能够实现对所述字典的高速访问。
下面将引用一个具体的例子进一步详细说明字识别时(测试时)的上述过程。
在这里,通过以识别地址为例进行说明。地址通常按“都道府县”,“区市郡”,“町村”,“番地”等顺序书写。首先在输入图象中检测辖区中的任何关键字符。提取所述检测出的关键字之前的字符串。在此,如果以“县(辖区)”为例,则“县”包括青森县,秋田县,神奈县等。当作为关键字检测“县”时,其前面的字符串“青森”,“秋田”,“神奈川”等被提取出来。在所述规范化单元14规范提取出来的字符串之后,所述特征提取单元15提取特征数,并把提取的数传递给所述比较单元17。
一个字列表存储在一个未示出的存储区内。“青森”,“秋田”,“神奈川”等作为“县”的名字记录在该字列表中。当然,不仅登记“县”的名字,也登记“都道府县”,“区市郡”,“町村”等的名字。
如果如上例所述检测“县”,所述字特征合成单元16基于所述字列表,顺序选择有关“县”的字如“青森”,“秋田”,“神奈川”等,并且每选择一个字时,利用存储在所述容量减小的特征字典13中的列特征(列矢量),合成被选择字的特征数。所述合成的特征数被传递给所述比较单元13,该单元对所述合成的特征数和由所述特征提取单元15提取的特征数进行比较。
下面将参照图9详细说明由所述字特征合成单元16执行的过程。
图9是例示由字合成单元16执行的过程的流程图。
首先,例如,得到线密度之和的平均值和方差值(标准离差的平方),作为构成从上述字列表(字典)中选出的字的每个字符的特征值(步骤S1)。预先计算并存储所述每个字符的所述特征值。
接着,计算所述字符特征值的比率(步骤S2)。
然后,根据步骤S2中计算出的比率确定要合成的字符特征(步骤S3)。即,确定字的合成比率(将以要合成的相应字符的何种比率产生字)。
至此的过程是由本发明的申请人提交的在先申请(公开号为No.11-330288的日本专利)中建议的过程。根据本发明,接下来的步骤S4和S5中的操作不同于在先申请。
也就是说,在本优选实施例中,构成字的所述字符特征是利用存储在所述容量被减小的特征字典13中的列特征(列矢量)合成的。首先,从所述容量被减小的特征字典13中选出合成所需的列矢量(步骤S4)。接着,根据被选出的列矢量合成所述字符特征(步骤S5)。然后,根据如上所述合成的字符特征,合成字特征(步骤S6)。
在上述的优选实施例中,当列字符被分组时,以宽度为1的列为单位对所述特征矢量分组,如图10A所示。但是,宽度不为1,而是为2,3等的所述列特征可被集体分组。
换句话说,如图10B所示,如果宽度为n,则维数是7(长)*n(宽)*8的特征分组为一个单元。由于列特征单元比宽度为1时的列特征大,所以字合成能更快。
此外,当根据字符特征合成字特征时,使所述合成特征的维数与所述输入字特征的维数相同。即,所述合成字特征与所述输入字的特征被配置为方向维数是7(I)*7(w)*8的特征,并且利用欧几里得距离等进行比较。但是,如图11所示,也可以在维数不同的列特征之问进行比较。
也就是说,可以利用非线性弹性匹配比较所述合成字特征和输入字特征,即使它们的维数不同。作为非线性弹性匹配的一个例子,可以使用DP(动态编程)匹配(对于DP匹配,参见例如“图像识别”pp.62-67,作者N.Funakubo,由Kyoritsu Shuppan有限公司出版)。
结果,如图11所示,即使其特征分别为7(I)*8(w)*8和7(I)*7(w)*8方向维数等,也可以比较所述合成字特征和输入字特征。
通过进行上述比较,所述字典的容量能进一步减小。这是因为字符形状的变化不是由所述字典中的特征矢量吸收,而是由被比较部分吸收。
此外,上述说明涉及利用列矢量作为单元进行的分组。但是,以网格为单位来观察列矢量更精确,而且可以网格为单位进行分组过程。
也就是说,如图12所述,以网格内的特征(8维)为单位进行所述分组过程,而且一个网格中的特征被编码。一个列矢量用7(l)*1(w)的网格表示。结果,所述列矢量由7个标识数字表示。在图12所述的例子中,标识数字(432,123,…,351)被分配给相应的网格(t代表转置)。
通过执行上述的以网格为单位的分组和对特征的编码,可以根据更精确的特征近似分配标识数字。
而且,通过上述的在网格中对特征分组可对网格编码,以便可以列为单位分别对编码网格执行所述分组过程。
即,通过执行如图12所述的分组过程,对网格中的特征编码,并且可以对被赋予标识数字的分别编码的列执行所述分组过程。
(2)优选实施例2
接下来将说明根据本发明的第二实施例,其中在对所述列特征分组后,利用合成系数减小特征字典的容量。
假设编码列矢量(代表性矢量)的数量为m,第“p”个列矢量为fp,且合成系数为ki。这时,检查是否存在合成系数k和列矢量的组合,该组合可以由下述公式(1)表示。如果存在相应的组合,则登记该列矢量的标识数字和该合成系数。
结果,在特征字典中,保存合成系数k,而不是列矢量就足够了,于是减小了所述字典的容量。
图13示出了第二优选实施例的性能配置。
在图13中,如上所述,在学习时,从输入字符图像中提取的特征矢量被存储在特征字典11中。根据本优选实施例的容量减小单元21由上述的分组单元12和合成系数计算单元22配置而成。
所述分组单元12以所述加权方向编码直方图特征的列为单位对特征矢量进行分组,并如上所述,将标识数字1到m分别分配给代表性矢量。
所述合成系数计算单元22检查是否存在合成系数k和列矢量的组合,该组合能用上述公式(1)表示。如果存在相应的组合,则登记该行矢量的标识数字和该合成系数。
如上所述由所述合成系数计算单元22得到的合成系数或列矢量存储在所述特征字典13中。
第二优选实施例的字识别过程以一种与第一优选实施例所述相似的方式执行。即,规范化单元14规范输入字。特征提取单元15从所述输入字中提取一个特征。同时,字特征合成单元16根据存储在所述特征字典13中的列特征合成用于比较的字特征。
然后,比较单元17通过对从所述输入字中提取的特征和所述合成字特征进行比较以执行字识别。
上述比较不仅能在维数相同的合成字特征和输入字特征之间进行,而且也能在维数不同的合成字特征和输入字特征之间进行。
此外,所述分组过程不仅能对宽为1的列特征,而且能对宽为2或3的列特征进行集体分组,或者也可以网格为单位对列特征进行分组。
上述说明是指一个特定的列矢量由其他列矢量的和表示的情形。但是,一个列矢量也可以由其他矢量与区别矢量之和来表示。即,检查是否存在合成系数k和l,一个列矢量,及一个区别矢量的组合,如果假设所述区别矢量为gj,且所述系数为lj,所述组合能由下述的公式(2)表示。如果存在相应的组合,则登记所述合成系数,所述列矢量,以及所述区别矢量。注意,所述区别矢量gj是所述特征矢量中任意特征矢量之差。
这样,一个列矢量可由其他列特征之和,或其他列特征与区别特征(区别特征之和)之和表示,因而一个列特征能够被表示的频率高于用其他列特征之和表示一个行特征的情形。结果,所述字典的容量进一步被减小。
图14例示了第二优选实施例中产生的特征字典13的结构42。如图14所示,容量被减小的字典42(13)把标识数字和位置信息作为索引信息保存在所述字典中。所述位置信息指示m个特征矢量或合成系数k和l的存储位置,分别对应于所述标识数字。如果如上所述用其他列特征之和而不用区别特征表示一个列特征,则所述合成系数l可被设为0。
为了从所述特征字典中读取一个特征矢量,从对应于所述标识数字的位置信息中得到所述特征矢量或所述合成系数k和l的存储位置。如果所述特征矢量存储在所述存储位置,则其被不变地读出。否则如果所述合成系数k和l存储在所述存储位置,则特征矢量计算单元23用上述的公式(1)或(2)计算一个特征矢量。
同样是在该优选实施例中,当排列所述标识数字时,按照与第一优选实施例中相似的方式,预先检查要识别的类型的字符特征的出现频率,当生成字时需要所述字符特征。即,所述标识数字按所述出现频率的降序排列,从而能更快地访问所述索引信息。
(3)优选实施例3
对于一个加权方向编码直方图特征,为了减少包含在所述特征中的信息的冗余度,通过对所提取的7*7*8维初始特征进行特征变换,例如标准判别式分析等,实现维数压缩。结果,特征维数下降,例如,从392降到大约100。如上所述,用特征变换,例如主要元素分析,标准判别式分析等预先变换的特征被分组和编码,由此减小所述字典的容量。
图15示出了第三优选实施例的性能配置图。
在图15中,如上所述,在学习时将从输入字符图像中提取的特征矢量存储在所述特征字典11中。
和本优选实施例相关的容量减小单元31由执行上述维数压缩的维数压缩单元32和先前提到的分组单元12配置而成。
所述维数压缩单元32运用上述的特征变换,例如标准判别式分析等执行维数压缩。如果对一个初始特征执行特征变换,则这一变换不是对一个列矢量而是对所述初始特征本身执行的。
在此,假设初始特征为“f”,变换后的特征为w,及通过标准判别式分析等得到的特征变换矩阵为A。所述特征变换矩阵A由下述公式(3)得到。
A*fi=wi (3)
所述分组单元12执行上述的特征变换,并且对进行维数压缩的特征wi(i=0,…,M,M:初始特征的数量)执行分组过程,得到具有代表性的m(m≤M)个特征矢量,并且将标识数字1到m分配给所述代表性矢量。
如上所述得到的列矢量存储在所述特征字典13中。
第三优选实施例中的字识别过程如下所述。
规范化单元14规范输入字,特征提取单元15提取一个特征,并用上述公式(3)对所提取的特征矢量执行特征变换(维数压缩)。
同时,字特征合成单元16基于要识别的一个预定字列表,根据存储在所述特征字典13中的列特征,合成用于比较的字特征。
然后,比较单元17比较从对其进行特征变换(维数压缩)的所述输入字中提取的特征和所述合成字特征,以执行字识别。
在本优选实施例中,对维数被压缩的特征数分组,从而进一步减少所述字典的容量。
在如图15所示的优选实施例中,在执行了如第二优选实施例所述的分组过程后,得到合成系数,并将其存储在所述字典中。结果,可进一步减小所述字典的容量。
如上所述,根据本发明能获得如下效果。
(1)以行或列特征为单位对字符特征分组和编码,从而大大地减小了特征字典的容量,并使该字典的容量达到实用的水平。
此外,不是以一列为单位,而是以多列为单位对字符特征分组和编码,所以能够高速合成字特征。
而且,不是以列特征,而是以网格为单位对列或行特征编码,所以能够实现基于更精确的特征近似度的编码。
(2)利用非线性弹性匹配比较维数不同的合成字特征和输入字特征,所以字符形状的变化不是由所述字典中的特征矢量而是由被比较部分吸收。从而不需要通过把许多特征矢量登记到所述字典中来吸收字符形状的变化,这导致所述字典容量的进一步减小。
(3)在以行或列特征为单位进行分组后,检查是否存在一个组合,借助该组合,某一列特征能被其他列特征之和表示,或者某一行特征能被其他行特征之和表示。如果存在相应的组合,则该行或列特征的标识数字和一个合成系数被存储在所述字典中,从而进一步减小了所述字典的容量。
此外,检查是否存在一个组合,借助该组合某一列特征能被其他列特征与区别特征之和表示,或者某一行特征能被其他行特征与区别特征之和表示。如果存在相应的组合,则该行或列特征的标识数字和合成系数被存储在所述字典中。结果,列特征或行特征可被表示的频率高于行或列特征仅由其他行或列特征之和所表示的情形,这导致所述字典容量进一步减小。
(4)预先执行字符特征的特征变换以压缩维数,并且通过执行分组过程对变换后的特征编码,从而不需在合成后对字特征执行特征变换。结果,可使整个字识别过程更快。同时,还能降低所述字典的容量。
(5)特征矢量的索引信息保存在所述字典中,由此可对所述字典进行高速访问。
而且,行或列特征按照使用频率降序排列,因此也可以对所述索引信息进行高速访问。
图16例示了实现根据本发明的任何一个实施例的字识别装置的信息处理设备的硬件配置。
根据本发明优选实施例的字识别装置能由如上所述的一个普通的计算机系统实现(本发明不限于这种实现方式,也可由便携式信息处理设备如PDA,手持PC等实现)。
如图16所示的信息处理设备包括一个CPU 51,一个存储器52,一个输入装置53,一个输出装置54,一个外部存储装置,一个介质驱动装置56,一个网络连接装置57等,上述装置通过一条总线58互相连接。本图所示的配置仅只是一个例子,本发明不限于该例。
所述CPU 51是控制整个信息处理设备50的中央处理装置。
所述存储器52是诸如RAM之类的存储器,在程序执行,数据更新等时候,存储器52暂时存储存在所述外部存储装置55(或,便携式存储介质59)中的程序或数据。所述CPU 51利用载入所述存储器52中的程序/数据执行上述过程。
所述输入装置53是例如键盘,鼠标,用于读取字符图像的扫描仪等。
所述输出装置54是例如显示器,打印机等。
所述外部存储装置55是例如磁盘驱动器,光盘驱动器,磁-光盘驱动器等,并且存储用于执行所述字识别装置的上述性能的程序/数据。
所述介质驱动装置56读取存储在便携式存储介质59中的程序,数据等。所述便携式存储介质59是例如FD(软盘),CD-ROM,DVD,磁-光盘等。
所述网络连接装置57通过建立与网络的连接允许向/从外部信息处理设备发送/接收程序,数据等。
图17例示了所述存储介质。
如该图所示,上述存储在所述便携式存储介质59的程序/数据可被载入所述信息处理设备一侧,存储在所述存储器52中并被执行。或者,可通过由所述网络连接装置57连接的网络(因特网等)下载存储在位于外部信息提供者一侧的设备61的存储装置62中的上述程序/数据。
本发明能够由其上记录有上述程序/数据的存储介质(便携式存储介质59等),发送上述程序/数据的网络(发送介质),或经由所述发送介质被发送的发送信号配置而成。
Claims (11)
1.一种用于识别字图像的字识别装置,包括:
一个容量减小单元,用于通过减小用于合成一个字特征的字符特征字典的容量来产生一个特征字典;
一个合成单元,用于基于要识别的一个字列表,根据特征字典中的行或列特征合成用于比较的字特征,其中,所述特征字典的容量被所述容量减小单元减小;
一个特征提取单元,用于提取输入字的特征;以及
一个比较单元,用于对由所述特征提取单元提取的输入字的特征和一个合成的字特征进行比较。
2.如权利要求1所述的字识别装置,其中
所述容量减小单元包括:
一个分组单元,其用于对划分到网格中的一个行或列的相应特征中的相似行或列特征进行分组,并且将一个标识数字分配给一个已分组的行或列特征;以及
一个保存单元,用于保存被分配所述标识数字的特征。
3.如权利要求2所述的字识别装置,其中
在进行所述分组时,不仅仅是以一行或一列为单位,而且还以多行或多列为单位执行所述分组。
4.如权利要求2所述的字识别装置,其中
某一特定的行或列特征由用于已分组的行或列特征的多个其他行或列特征的系数和来描述。
5.如权利要求2所述的字识别装置,其中
某一特定的行或列特征由用于已分组的行或列特征的其他行或列特征以及区别特征的系数和来描述。
6.如权利要求2所述的字识别装置,其中
在对列或行特征分组之前,分别对位于一行或一列中的每个网格的特征编码。
7.如权利要求2所述的字识别装置,其中
当所述字符特征字典的容量被减小时,所述容量减小单元利用字符特征执行分组,其中,预先利用特征变换对所述字符特征执行维数压缩。
8.如权利要求1所述的字识别装置,其中
当配置所述容量被减小的特征字典时,每个行或列特征的标识数字以及其在所述字典中的位置作为索引信息被保存;以及
通过将相应的部分特征排列在所述索引信息之后来配置所述特征字典。
9.如权利要求8所述的字识别装置,其中
当排列行或列特征时,预先检查使用频率高的行或列特征,并且按照使用频率的降序排列所述行或列特征。
10.如权利要求2所述的字识别装置,其中
所述容量减小单元对一个网格的每个特征执行分组。
11.如权利要求1所述的字识别装置,其中
所述比较单元利用非线形弹性匹配比较所述输入字的特征和所述合成字的特征。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP304758/2000 | 2000-10-04 | ||
JP2000304758 | 2000-10-04 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1347060A CN1347060A (zh) | 2002-05-01 |
CN1189839C true CN1189839C (zh) | 2005-02-16 |
Family
ID=18785748
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB011353406A Expired - Fee Related CN1189839C (zh) | 2000-10-04 | 2001-09-29 | 字识别装置、字识别方法和存储介质 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7024042B2 (zh) |
CN (1) | CN1189839C (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050114115A1 (en) * | 2003-11-26 | 2005-05-26 | Karidis John P. | Typing accuracy relaxation system and method in stylus and other keyboards |
JP2005301664A (ja) * | 2004-04-12 | 2005-10-27 | Fuji Xerox Co Ltd | 画像辞書作成装置、符号化装置、データファイル、画像辞書作成方法及びそのプログラム |
EP2281212B1 (en) * | 2008-05-22 | 2019-02-27 | Exxonmobil Upstream Research Company | Seismic horizon skeletonization |
US8107729B2 (en) * | 2009-01-26 | 2012-01-31 | Mitsubishi Electric Research Laboratories, Inc. | Method for improving character outlines using multiple alignment zones |
CN102024138B (zh) * | 2009-09-15 | 2013-01-23 | 富士通株式会社 | 字符识别方法和字符识别装置 |
CN104298982B (zh) * | 2013-07-16 | 2019-03-08 | 深圳市腾讯计算机系统有限公司 | 一种文字识别方法及装置 |
JP6557943B2 (ja) | 2014-01-15 | 2019-08-14 | オムロン株式会社 | 画像照合装置、画像センサ、処理システム、画像照合方法 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60245083A (ja) * | 1984-05-18 | 1985-12-04 | Brother Ind Ltd | 電子辞書 |
US4959870A (en) * | 1987-05-26 | 1990-09-25 | Ricoh Company, Ltd. | Character recognition apparatus having means for compressing feature data |
JP2881866B2 (ja) * | 1989-11-30 | 1999-04-12 | ソニー株式会社 | 手書き文字の認識方法及び装置 |
JP2865210B2 (ja) * | 1989-12-04 | 1999-03-08 | ソニー株式会社 | 文字認識装置 |
JPH05290221A (ja) * | 1992-04-15 | 1993-11-05 | Pioneer Electron Corp | オンライン手書文字認識装置 |
US5590317A (en) * | 1992-05-27 | 1996-12-31 | Hitachi, Ltd. | Document information compression and retrieval system and document information registration and retrieval method |
JP3466689B2 (ja) * | 1994-01-26 | 2003-11-17 | キヤノン株式会社 | 手書き文字認識方法及びその装置 |
IL109268A (en) * | 1994-04-10 | 1999-01-26 | Advanced Recognition Tech | Method and system for image recognition |
TW421764B (en) * | 1996-05-21 | 2001-02-11 | Hitachi Ltd | Input character string estimation and identification apparatus |
US6178396B1 (en) * | 1996-08-02 | 2001-01-23 | Fujitsu Limited | Word/phrase classification processing method and apparatus |
US6275610B1 (en) * | 1996-10-16 | 2001-08-14 | Convey Corporation | File structure for scanned documents |
KR100454541B1 (ko) * | 1998-04-27 | 2004-11-03 | 산요덴키가부시키가이샤 | 수기 문자 인식 방법 및 시스템 |
JP2000181993A (ja) * | 1998-12-16 | 2000-06-30 | Fujitsu Ltd | 文字認識方法および装置 |
JP4237864B2 (ja) | 1999-04-21 | 2009-03-11 | 富士通株式会社 | 単語認識装置 |
JP2001051690A (ja) * | 1999-08-16 | 2001-02-23 | Nec Corp | パターン認識装置 |
JP3879341B2 (ja) | 1999-11-19 | 2007-02-14 | 富士通株式会社 | 単語認識装置 |
-
2001
- 2001-09-12 US US09/949,872 patent/US7024042B2/en not_active Expired - Fee Related
- 2001-09-29 CN CNB011353406A patent/CN1189839C/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN1347060A (zh) | 2002-05-01 |
US7024042B2 (en) | 2006-04-04 |
US20020097915A1 (en) | 2002-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10853565B2 (en) | Method and device for positioning table in PDF document | |
CN1320485C (zh) | 图像检索装置和图像检索装置的关键词赋予方法 | |
CN1207660C (zh) | 手写签名鉴定方法和设备 | |
CN1694099A (zh) | 开采产品支持服务请求 | |
US8874573B2 (en) | Information processing apparatus, information processing method, and program | |
CN1306650A (zh) | 表示多维空间中的接近性数据的系统、方法和计算机程序产品 | |
CN1637775A (zh) | 位置编码的文档图像分析和标签 | |
CN1573926A (zh) | 用于文本和语音分类的区别性语言模型训练 | |
CN1525355A (zh) | 图像处理方法与图像处理系统 | |
CN1445722A (zh) | 基于内容的图像副本检测方法和装置 | |
CN1542655A (zh) | 信息处理装置和信息处理方法、以及存储媒体、程序 | |
CN1610905A (zh) | 针对数据类型依赖处理、自动检测数据类型的方法和装置 | |
CN1625741A (zh) | 可以通过手写检索查询来检索的电子文件管理系统 | |
CN1717685A (zh) | 信息存储与检索 | |
CN1677388A (zh) | 用于逻辑形式的统计语言模型 | |
CN1571977A (zh) | 字符识别 | |
CN1848162A (zh) | 成分信息的可靠性评价方法、系统及程序 | |
CN1904906A (zh) | 地址识别装置和方法 | |
CN1251128C (zh) | 文字列匹配装置和文字列匹配方法 | |
CN1189839C (zh) | 字识别装置、字识别方法和存储介质 | |
CN1091905C (zh) | 文字辨识系统数据库的组建方法 | |
CN1367460A (zh) | 字符串识别装置、字符串识别方法及其存储介质 | |
CN107153670A (zh) | 基于多幅图像融合的视频检索方法及系统 | |
CN1607539A (zh) | 检测墨水输入中列表的系统和方法 | |
CN101030222A (zh) | 模型检索装置及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C06 | Publication | ||
PB01 | Publication | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20050216 Termination date: 20170929 |