CN1098504C - 进行串匹配的方法 - Google Patents

进行串匹配的方法 Download PDF

Info

Publication number
CN1098504C
CN1098504C CN95115969A CN95115969A CN1098504C CN 1098504 C CN1098504 C CN 1098504C CN 95115969 A CN95115969 A CN 95115969A CN 95115969 A CN95115969 A CN 95115969A CN 1098504 C CN1098504 C CN 1098504C
Authority
CN
China
Prior art keywords
string
candidate
distance
lower bound
strings
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN95115969A
Other languages
English (en)
Other versions
CN1131302A (zh
Inventor
R·赫尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HP Inc
Original Assignee
Hewlett Packard Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Co filed Critical Hewlett Packard Co
Publication of CN1131302A publication Critical patent/CN1131302A/zh
Application granted granted Critical
Publication of CN1098504C publication Critical patent/CN1098504C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques

Abstract

一种改进了的把一个查询串与多个候选串匹配的方法,是以一低计算强度的下界估计来代替高计算强度的串编辑距离的计算。两个串间的串编辑距离的下界估计是通过给较短的串加上填充字符来使两个长度相等来计算的。然后串的元素被排序,并把相应元素的替换费用相加。

Description

进行串匹配的方法
本申请关系到串匹配的一般领域,更具体地关系到使用串编辑距离的下界估计的一种串匹配方法。
串匹配是比较两个串以便确定它们在多大程度上相似。一种普遍使用的对串的相似性的测度是“串编辑距离”。简单地说,串编辑距离衡量把一个串编辑为另一个串的“费用”。串编辑距离将在后面详述。
计算串编辑距离的最普遍使用的方法叫做“动态编程”。动态编程的准确特性已为人知,在此申请中不再详述。动态编程以及所有这样的串编辑距离算法都是计算量大。在商业设备中,计算资源总是受费用的限制,因此希望尽可能减少应用程序对计算资源的需求:为了维持用户输入的响应时间在可接受的水平上,这一点经常是关键的。
一个具有有限的处理能力并运行一个串匹配应用的设备就是在一欧洲申请(其申请号94304890)中由同一申请人所描述的“草书匹配”设备。“草书匹配”是搜索电子墨水的样本“草书”而不先把它们翻译成ASCII字符的操作。一幅草书是用户用电子输入笔直接写在屏上输入的。这里串匹配是用来将一个代表一幅输入草书的串,即查询串,与代表先前输入的一系列草书的串,即候选串相比较。匹配操作的目的是恢复与候选串之一相联的一个数据对象(例如电话号码)。如果减少了计算串编辑距离所需的处理,就可以在这一设备降低用户输入的响应时间。
串编辑距离还用于很多其它的串匹配应用。很多商业字处理器就利用串编辑距离计算,如像DNA比较程序。在后者,候选串可能是一个“长”距离候选串的子串。所有这些应用都会从减少执行串匹配所需的计算量中获益。
因此本发明的目标就是改进串匹配的方法。
根据本发明,我们提供了一个查询串和一个侯选串相匹配的方法,该方法包括对候选串的串编辑距离的下界估计的计算,其中计算下界估计包含如下步骤:
—通过给较短的串加上填充元素使两串长度相等;
—根据两个串的内部元素的值把两个串排序;
—计算两个串的对应位置的元素的替换费用的总和。
这一方法的优点在于它对处理的需求比先前技术的串匹配方法要少。
在本发明的第一实施例中,串匹配操作包含如下步骤:
—计算查询串与所述侯选串之一之间的串编辑距离,并把所述的候选串存起来作为当前的最佳匹配串。
—计算剩下的每一个候选串的一个下界估计距离并衡量结果,以便:
—如果下界估计距离比当前最佳匹配距离的候选串大,则候选串被丢弃;
—否则计算查询串与当前候选串之间的串编辑距离,并保留当前候选串或者当前最佳匹配串,哪一个离查询串的串编辑距离小,哪一个就作为当前最佳匹配候选串;
—存储最终的最佳候选串。
在本发明的第二实施例中,通过执行一个初始步骤,即对每一个候选串计算它与查询串的下界估计距离,并根据下界距离对候选串排序;然后查询串的下界估计距离超过当前最佳匹配距离的所有候选串丢掉,这样便提高了串匹配操作的效率。
在本发明的第三实施例中,还包含一个步骤,即在执行第一次串编辑距离的计算之前丢弃所有的下限估计距离大于一个预定义的门限距离的那些所述候选串。
对本发明在草书匹配领域的具体实施例,将参考如下的图以举例方式来描述。
图1显示了一个使用根据本发明的串编辑距离的下界估计的手持式草书匹配设备的例子;
图2是图1的设备的草书匹配子系统的简化方框图;
图3是传统的串匹配方法的流程图;
图4是显示本发明使用的串匹配方法的流程图;
图5a显示了把第一个两字符的串映射到第二个两字符的串的合法的串编辑序列;
图5b显示了一个使用“交叉”的非法的串编辑序列;
图6是一个显示根据本发明的计算串编辑距离的下界的算法的流程图;
图7是一个计算两个整数代码串的下界估计距离的例子;
图8是本发明进一步改进串匹配操作的方法的第二个应用的流程图;
图9是本发明包含一个门限步骤以进一步加速计算的方法的第三个应用的流程图。
在图1中显示的一个手持式“草书匹配”设备10是作为一个具有有限计算能力的设备的例子,在此设备中本发明可以用来减少计算时间。
设备10包含一个笔敏感的屏幕12和一支输入笔11用来往屏幕上写。设备包含一个微处理器,例如Intel 80386,来执行普通控制功能,如初始化。该设备还包含一个基于处理器的串匹配子系统20,后者把电话号码和名字与用输入笔11在屏幕12上写入的编码的草书匹配。
现在参考图2详细描述草书匹配子系统20。草书匹配子系统包含一个计算一个输入草书的查询串表达式的编码器21。该查询串被输入到匹配器23,此匹配器用来计算它与前面存储的一组候选串22之间的串编辑距离。“距离得分”是对每一个候选串22相对于查询串计算的,其结果24用来确定最佳匹配。图2中名字“Dan””被匹配到相应于“Dan”的候选串,因为这两个串之间的距离得分最低。这一侯选串连同它相联的电话号码作为最佳匹配被返回。
草书匹配操作的编码方面的问题不是本发明的论题,不再详述。
现在参考图3的流程图给出对传统的匹配操作的描述,它有如下步骤:步骤31:把编码的查询串加载到匹配器;步骤32:装入第一候选串;步骤33:使用一种计算量大的技术,例如动态编程来计算两个串之间的串编辑距离,并把它存起来。步骤34:串编辑距离被存储。
对第2个及后面的候选串重复步骤32-34,直到所有的候选串都被处理完;步骤35:将离查询串的串编辑距离最小的候选串作为最佳匹配返回。
在传统方法中,计算串编辑距离必须对每个候选串都执行,因而大大地增加了总体计算量的需求。
图4勾划出了使用本发明的一个改进的串匹配方法。这一实施例在可能的地方需要用低计算强度的“下界估计距离”计算来替换高计算强度的串编辑距离计算。下界估计距离是对串编辑距离的计算的近似,保证不会超越它所近似的串编辑距离的大小。这个的计算强度比串编辑距离小得多。由此可见,如果计算出的下界估计距离比当前最佳匹配的串编辑距离大,就没有必要计算这个候选串的实际的串编辑距离。这是正确的,因为实际的串编辑距离总是大于或等于下界估计距离。
因此在图4中:步骤41:装入查询串;步骤42:装入第一个候选串;步骤43:计算查询串与第一候选串之间的串编辑距离;步骤44:这个候选串作为当前最佳匹配存起来;步骤45:装入下一个候选串;步骤46:计算它与侯选串之间的下界估计距离;如果下界估计比当前最佳匹配的串编辑距离大,该侯选串可以立即消除,并在步骤45中装入下一个候选串。步骤47:如果下界估计距离比当前最佳匹配的串编辑距离小,那么必须计算候选串的串编辑距离。
当下界估计比当前最佳匹配的串编辑距离小时,必须计算候选串的串编辑距离,以便在当前最佳匹配与候选串之间进行有意义的比较。
如果候选串的串编辑比当前最佳匹配的小,则方法转回到步骤44,候选串成为当前最佳匹配。
否则,候选串被丢弃,在步骤45装入下一个候选串。
此方法被重复,直到所有的候选串都被处理完。
这一方法保证从候选串的集合中找出最佳匹配串。
从前面描述中知,作为一个有效的抛弃准则,有必要使下界估计接近低估,但是决不能超过实际的串编辑距离。理论上有很多方法计算对串编辑距离的下界估计。下界估计的一例是“0”,它是所有串编辑距离的下界。但是“0”不是一个串编辑距离的好的估计,因为它不能成为有效的抛弃准则。我们提供了一个计算下界估计的方法,它提供了对串编辑距离非常接近的近似,但计算强度小得多。
通过对串编辑距离的更详尽的解释可以获得对本发明更好的理解。
一个“串编辑序列”通过一系列“替换”(Sub),“删除”(del)和“插入”(Ins)操作,把一个串变换成另一个串。图5a显示了一例,其中一个两字符的串使用合法的串编辑序列映射到另一个两字符的串。图中串a1b1可以通过三个合法编辑序列之一映射到串a2b2
1.del(a1),sub(b1,b2),ins(a2)
2.del(b2),sub(a1,a2),ins(b1)
3.del(a1),del(b1),ins(b2),ins(a2)其中sub(a,b)即用b替换a。
三个编辑操作中的每一个都赋予一个“费用”。费用的选取纯粹依赖于应用,并由系统设计者制定。“串编辑距离”就定义为把一个串转换成另一个串所需的编辑操作的费用的最小值和。如果插入和删除操作的费用选为统一的,即插入操作的费用等于删除操作的费用;而且替换操作的费用选为对称,即Sub(a,b)的费用等于Sub(b,a)的费用,并且比一个插入加一个删除的费用的和小;图5a的串编辑距离将是上面的序列1或2的总费用。
对于图5a的简单情况,串编辑序列1和2的最小费用是容易识别的。但在实际应用中,涉及更长的串,而且编辑费用的赋值方式也更为高级,找出串编辑序列的最小费用变得更复杂。为了找出最小和,使用动态编程来考虑所有可能的合法的串编辑序列的费用。
图5b显示了第四种可能的串编辑序列,它使用了交叉替换sub(a1,a2),sub(b1,b2)。这个串编辑序列的总费用较低,但不允许这样。禁止交叉替换是使用动态编程的前提。如果允许交叉替换,例如在处理打字转置的情况,那么搜索串编辑序列的最小费用将更为复杂,这个算法的计算强度甚至比采用动态编程更大。
本发明的下界估计距离放松了交叉的限制,并且如果可能的话,使用交叉允许一个串中的每个元素被另一个串的一个元素所替换。但是下界估计计算不搜索交叉替换的所有可能组合。反而利用一个过程以确定基于两个串的顺序所用的交叉。这样的结果费用保证比相应的串编辑距离小。
下面的讨论是S()代表替换费用,i()代表插入费用,d()代表删除费用。
下界估计距离算法做出五个假设:
1.串x和y包含从集S提取的元素序列,象整数集一样具有总体顺序。
2.在元素xi,yi∈S上的所有编辑操作的费用大于或等于0。即
S(xi,yj)≥0
i(xi)≥0
d(xi)≥0
3.两个元素的替换费用小于或等于插入一个和删除另一个的费用,即
S(xi,yj)≤i(yj)+d(xi)
4.有一个空值Φ,对于元素来说,这样用Φ替换一个元素xi的费用小于或等于插入或删除xi的费用,即
S(xi,Φ)≤d(xi)
和S(Φ,xi)≤i(xj)
另外,如果需要串编辑距离及其下界在两个串的次序中是对称的,则
5.编辑操作费用应当对称
i(xi)=d(xi)
和S(xi,yj)=S(yj,xi)
计算串编辑距离的下界估计的算法如图6的流程图所示。在步骤61和62装入串。在步骤63通过往较短的串加入填充(空)元素来使各串长度相等。在步骤64,两个串都按内部元素次序排序。然后在串的相应位置中的元素的替换费用总和在步骤65进行计算。
这一方法比动态编程的计算费用小得多。
针对两个整数代码串的这个算法应用的一例,如图7所示,费用如下:
S(xi,yj)=|xi-yj|
d(xi)=|xi|
i(yj)=|yj|
Φ=0
应用图6的方法:串C2填以空元素。对齐之后两个串被排序,此例中用升序。相应元素的替换费用的总和,对整数来说,就是简单地把它们之间的距离幅度加起来。
对于精于此道的人会很清楚,对图4的串匹配算法应用本发明所带来的改进在很大程度上依赖于侯选串被处理的顺序。在最坏情况下,以串编辑距离的降序安排候选串的处理。那么对每个候选串,下界估计距离和串编辑距离两者都要计算,结果其处理需求超过了传统的需求。但是,在实际的设备上这种情况不会频繁发生,使得平均起来说,使用本发明的串匹配算法估计串编辑距离在总体的处理上比传统算法少是可能的。
本发明还可以应用于解决如图8所示的顺序问题。图中,在预处理步骤81-83中,对每一个候选串计算其下界估计距离,在步骤84所有的候选串以它们的下界估计距离的升序分类。然后此方法根据图4继续进行。这一改进不仅消除了上述的最坏情况顺序,而且进一步降低了处理需求。这是因为一旦循环到达与查询串的下界距离超过了当前最佳匹配距离的第一个候选串时,所有剩下的候选串都被丢弃。
图9的流程图显示了如何进一步使用本发明所提供的机会来进一步减少在串匹配应用的处理需求。这是在步骤91对每一个候选串都计算下界估计,然后候选串象图8一样以它们的下界估计的升序排序。但是接着应用一个门限操作步骤93,以便马上丢弃所有那些具有下界估计距离比某个预定门限大的候选串。佘下的候选串然后在步骤94用前面图4描述的本发明方法进行匹配。
门限可以选择为某个绝对水平,或者可能是相对水平,例如候选串集合的最低下界估计。这种启发式的战略不能保证找到最佳匹配。下界估计距离的顺序不能完全预测候选串到某个查询串的串编辑距离,而且一个启发式门限有时候可能消除那些下界估计距离较高但对应于最小费用的串编辑距离的候选串。但是,这种方法的潜在优势在于有可能以可以接受的匹配错误水平而设置一个适当的门限。
因此能以多种方式使用下界估计来减少串匹配操作的处理需求。

Claims (5)

1.一个查询串与一个候选串相匹配的一种串匹配方法,包含计算串之间的串编辑距离的下界估计方法,其特征在于计算下界估计包含:通过向较短的串添加填充元素使两个串等长;
根据其元素的值对查询串和候选串排序,
计算两个串的相应位置元素的替换费用的和。
2.根据权利要求1的方法,其特征在于,进一步包含如下步骤:
计算一个查询串与多个候选串(43)之一之间的串编辑距离并把所述候选串存起来作为当前最佳匹配串;
对每一个剩下的候选串计算所述下界估计距离(46)并比较结果使得:
如果下界估计距离大于当前最佳匹配距离则该候选串被丢弃;
否则计算查询串与当前候选串(47)之间的串编辑距离,并保持当前候选串或当前最佳匹配串,哪一个离查询串的串编辑距离更小,哪一个作为当前的最佳匹配候选串;
存储最终的最佳匹配候选串。
3.根据权利要求2的一种方法,其特征在于,包含一个初始步骤来对每一个候选串依次计算离查询串的下界估计距离(83)将所述候选串按下界估计距离排序(84)。
4.根据权利要求3的一种方法,其特征在于,还包含一个这样的步骤:在执行第一个串编辑距离的计算之前丢弃所有所述的下界估计距离大于一个预定的门限距离的那些候选串(93)。
5.一个草书匹配设备(10)实现了根据前面的权利要求之一的一种方法。
CN95115969A 1994-10-28 1995-10-24 进行串匹配的方法 Expired - Fee Related CN1098504C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP94307977A EP0709801B1 (en) 1994-10-28 1994-10-28 Method for performing string matching
EP94307977.2 1994-10-28

Publications (2)

Publication Number Publication Date
CN1131302A CN1131302A (zh) 1996-09-18
CN1098504C true CN1098504C (zh) 2003-01-08

Family

ID=8217892

Family Applications (1)

Application Number Title Priority Date Filing Date
CN95115969A Expired - Fee Related CN1098504C (zh) 1994-10-28 1995-10-24 进行串匹配的方法

Country Status (5)

Country Link
US (1) US5761538A (zh)
EP (1) EP0709801B1 (zh)
JP (1) JP3067980B2 (zh)
CN (1) CN1098504C (zh)
DE (1) DE69422406T2 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100452042C (zh) * 2006-06-23 2009-01-14 腾讯科技(深圳)有限公司 数字串模糊匹配的方法

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6295524B1 (en) * 1996-10-29 2001-09-25 Nec Research Institute, Inc. Learning edit distance costs
US6272243B1 (en) * 1997-09-15 2001-08-07 Motorola, Inc. Method and apparatus for entering characters into a writing recognizer
US6499036B1 (en) * 1998-08-12 2002-12-24 Bank Of America Corporation Method and apparatus for data item movement between disparate sources and hierarchical, object-oriented representation
US6556984B1 (en) * 1999-01-19 2003-04-29 International Business Machines Corporation Hierarchical string matching using multi-path dynamic programming
EP1269357A4 (en) * 2000-02-22 2005-10-12 Metacarta Inc SPANISH CODING AND DISPLAYING INFORMATION
US6718325B1 (en) 2000-06-14 2004-04-06 Sun Microsystems, Inc. Approximate string matcher for delimited strings
JP2004515002A (ja) * 2000-11-30 2004-05-20 ヤン・ミン・ポク ニューラル・コルテックス
SE0104318L (sv) * 2001-12-18 2003-06-19 Anoto Ab Address matching
US7287026B2 (en) * 2002-04-05 2007-10-23 Oommen John B Method of comparing the closeness of a target tree to other trees using noisy sub-sequence tree processing
US6917932B2 (en) * 2002-05-01 2005-07-12 International Business Machines Corporation Dynamic optimization of multi-feature queries
US7925987B2 (en) * 2002-05-14 2011-04-12 Microsoft Corporation Entry and editing of electronic ink
US7158675B2 (en) * 2002-05-14 2007-01-02 Microsoft Corporation Interfacing with ink
US20030214553A1 (en) * 2002-05-14 2003-11-20 Microsoft Corporation Ink regions in an overlay control
US8166388B2 (en) 2002-05-14 2012-04-24 Microsoft Corporation Overlaying electronic ink
US7010522B1 (en) 2002-06-17 2006-03-07 At&T Corp. Method of performing approximate substring indexing
US20040002849A1 (en) * 2002-06-28 2004-01-01 Ming Zhou System and method for automatic retrieval of example sentences based upon weighted editing distance
US7734565B2 (en) * 2003-01-18 2010-06-08 Yahoo! Inc. Query string matching method and apparatus
US7756847B2 (en) * 2003-03-03 2010-07-13 Koninklijke Philips Electronics N.V. Method and arrangement for searching for strings
EP1763799A1 (en) * 2004-05-19 2007-03-21 Metacarta, Inc. Systems and methods of geographical text indexing
US7359895B2 (en) * 2004-11-18 2008-04-15 Industrial Technology Research Institute Spiral string matching method
US8200676B2 (en) 2005-06-28 2012-06-12 Nokia Corporation User interface for geographic search
US20070085716A1 (en) * 2005-09-30 2007-04-19 International Business Machines Corporation System and method for detecting matches of small edit distance
US9411896B2 (en) * 2006-02-10 2016-08-09 Nokia Technologies Oy Systems and methods for spatial thumbnails and companion maps for media objects
US7797326B2 (en) * 2006-04-18 2010-09-14 International Business Machines Corporation Method of obtaining data samples from a data stream and of estimating the sortedness of the data stream based on the samples
US7869657B2 (en) * 2006-06-12 2011-01-11 D & S Consultants, Inc. System and method for comparing images using an edit distance
US7870140B2 (en) * 2006-06-12 2011-01-11 D&S Consultants, Inc. System and method of incorporating user preferences in image searches
US20080010273A1 (en) * 2006-06-12 2008-01-10 Metacarta, Inc. Systems and methods for hierarchical organization and presentation of geographic search results
US8027549B2 (en) * 2006-06-12 2011-09-27 D&S Consultants, Inc. System and method for searching a multimedia database using a pictorial language
US20080140348A1 (en) * 2006-10-31 2008-06-12 Metacarta, Inc. Systems and methods for predictive models using geographic text search
US20080056538A1 (en) * 2006-08-04 2008-03-06 Metacarta, Inc. Systems and methods for obtaining and using information from map images
US9286404B2 (en) * 2006-06-28 2016-03-15 Nokia Technologies Oy Methods of systems using geographic meta-metadata in information retrieval and document displays
US9721157B2 (en) * 2006-08-04 2017-08-01 Nokia Technologies Oy Systems and methods for obtaining and using information from map images
US20080065685A1 (en) * 2006-08-04 2008-03-13 Metacarta, Inc. Systems and methods for presenting results of geographic text searches
US8311341B1 (en) 2006-11-29 2012-11-13 D & S Consultants, Inc. Enhanced method for comparing images using a pictorial edit distance
US20080123901A1 (en) * 2006-11-29 2008-05-29 D&S Consultants, Inc. Method and System for Comparing Images Using a Pictorial Edit Distance
US8504546B2 (en) * 2006-11-29 2013-08-06 D&S Consultants, Inc. Method and system for searching multimedia content
US7921120B2 (en) 2006-11-30 2011-04-05 D&S Consultants Method and system for image recognition using a similarity inverse matrix
US7773811B2 (en) * 2006-12-06 2010-08-10 D & S Consultants, Inc. Method and system for searching a database of graphical data
US20090171936A1 (en) * 2007-12-28 2009-07-02 Sybase, Inc. System, Method, and Computer Program Product for Accelerating Like Conditions
US20090234852A1 (en) * 2008-03-17 2009-09-17 Microsoft Corporation Sub-linear approximate string match
US8150161B2 (en) * 2008-09-22 2012-04-03 Intuit Inc. Technique for correcting character-recognition errors
US8275600B2 (en) * 2008-10-10 2012-09-25 Google Inc. Machine learning for transliteration
JP5942856B2 (ja) * 2011-02-02 2016-06-29 日本電気株式会社 結合処理装置、データ管理装置及び文字列類似結合システム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL230090A (zh) * 1957-08-14
US3127588A (en) * 1959-04-24 1964-03-31 Bell Telephone Labor Inc Automatic reading of cursive script
NL265383A (zh) * 1960-05-31
US3133266A (en) * 1960-06-14 1964-05-12 Bell Telephone Labor Inc Automatic recognition of handwriting
US3200373A (en) * 1960-11-22 1965-08-10 Control Data Corp Handwritten character reader
US4328561A (en) * 1979-12-28 1982-05-04 International Business Machines Corp. Alpha content match prescan method for automatic spelling error correction
CA1280215C (en) * 1987-09-28 1991-02-12 Eddy Lee Multilingual ordered data retrieval system
US5313527A (en) * 1991-06-07 1994-05-17 Paragraph International Method and apparatus for recognizing cursive writing from sequential input information
US5459739A (en) * 1992-03-18 1995-10-17 Oclc Online Computer Library Center, Incorporated Merging three optical character recognition outputs for improved precision using a minimum edit distance function
EP0691623B1 (en) 1994-07-04 2001-10-04 Hewlett-Packard Company, A Delaware Corporation Scribble matching
US5434932A (en) * 1994-07-28 1995-07-18 West Publishing Company Line alignment apparatus and process
US5553272A (en) * 1994-09-30 1996-09-03 The University Of South Florida VLSI circuit structure for determining the edit distance between strings

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100452042C (zh) * 2006-06-23 2009-01-14 腾讯科技(深圳)有限公司 数字串模糊匹配的方法

Also Published As

Publication number Publication date
CN1131302A (zh) 1996-09-18
EP0709801A1 (en) 1996-05-01
US5761538A (en) 1998-06-02
DE69422406T2 (de) 2000-05-04
JPH08185482A (ja) 1996-07-16
EP0709801B1 (en) 1999-12-29
JP3067980B2 (ja) 2000-07-24
DE69422406D1 (de) 2000-02-03

Similar Documents

Publication Publication Date Title
CN1098504C (zh) 进行串匹配的方法
CN1207664C (zh) 对语音识别结果中的错误进行校正的方法和语音识别系统
CN1488120A (zh) 用于识别手写字符的方法、装置和计算机程序
CN1163840C (zh) 利用判定树减少手写体识别器差错
EP0151316A2 (en) On-line recognition method and apparatus for a handwritten pattern
CN101036298A (zh) 静态赫夫曼解码的系统和方法
CN1352774A (zh) 用于中文的标记和命名实体识别的系统
CN1163841C (zh) 在线手写中文字识别装置
CN1040693A (zh) 手写字符识别装置及方法
CN1239260A (zh) 使用多分辨率模型的手写字符记录
CN112100982B (zh) Dna存储方法、系统和存储介质
CN1051633A (zh) 目标识别系统
CN1106620C (zh) 信息处理方法和设备
CN101056993A (zh) 用于转录作图的基因识别标签(gis)分析方法
CN1279796A (zh) 字符识别装置
CN110688998A (zh) 票据识别方法及装置
US6226411B1 (en) Method for data compression and restoration
CN111814781A (zh) 用于对图像块识别结果进行校正的方法、设备和存储介质
CN1035844C (zh) 在字符识别系统中选取候选字符的方法
Stahl et al. Induction of modular classification rules: using Jmax-pruning
CN1020213C (zh) 联机手写字符识别装置
Gagie et al. Compressing and indexing aligned readsets
US20220050664A1 (en) Systems, methods, and devices for the sorting of digital lists
CN1452098A (zh) 文档分类系统及其实现程序
CN1131768A (zh) 数据处理系统和数据处理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee