CN1705958A - 提高基于表单的数据录入系统中的识别精度的方法 - Google Patents

提高基于表单的数据录入系统中的识别精度的方法 Download PDF

Info

Publication number
CN1705958A
CN1705958A CNA2003801014868A CN200380101486A CN1705958A CN 1705958 A CN1705958 A CN 1705958A CN A2003801014868 A CNA2003801014868 A CN A2003801014868A CN 200380101486 A CN200380101486 A CN 200380101486A CN 1705958 A CN1705958 A CN 1705958A
Authority
CN
China
Prior art keywords
pct
data
territory
described method
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2003801014868A
Other languages
English (en)
Inventor
乔纳森·利·纳珀
保罗·拉普斯顿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Silverbrook Research Pty Ltd
Original Assignee
Silverbrook Research Pty Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Silverbrook Research Pty Ltd filed Critical Silverbrook Research Pty Ltd
Publication of CN1705958A publication Critical patent/CN1705958A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/174Form filling; Merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/226Validation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/142Image acquisition using hand-held instruments; Constructional details of the instruments
    • G06V30/1423Image acquisition using hand-held instruments; Constructional details of the instruments the instrument generating sequences of position coordinates corresponding to handwriting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • G06V30/333Preprocessing; Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

本发明涉及一种解释输入到基于表单的数据录入系统的数据的方法,包括将所录入的数据解码成特定表单域以使其信息内容可被确定,所述信息内容处于相容机器可读格式,其中对数据的所述解码包括确定信息内容的一个或多个可能值,某些预定的可能结果被给予了相对较高的是正确的概率,并且所述预定可能结果依赖于特定表单域的前后关系。

Description

提高基于表单的数据录入系统中的识别精度的方法
本发明涉及在解释录入到基于表单的数据录入系统中的数据领域提高识别精度的方法。
发明背景
许多不同的系统需要用户通过一个或多个不同装置来交互并提供数据。在线系统包括在互联网网页上发现的那些,而离线系统包括手写表单创建,其中手写表单在以后由适合的设备来扫描和解释。其他在线系统包括语音识别系统,其中响应于特定的提示,用户被提示说话。
与亦公知为自然语言系统的这种数据输入系统有关的问题包括由于不同的用户以不相容的方式说话、书写或不然录入数据所造成的噪声和歧义。
交叉引用
涉及本发明的各种方法、系统和设备被公开于本发明的申请人或受让人提交的以下共同未决的申请中。所有这些共同未决的申请的公开内容在此引入作为交叉参考。
5October 2002:Australian Provisional Application 2002952259“Methods and Apparatus(NPT019)”.
15October 2002:PCT/AU02/01391,PCT/AU02/01392,PCT/AU02/01393,PCT/AU02/01394and PCT/AU02/01395.
26November 2001:PCT/AU01/01527,PCT/AU01/01528,PCT/AU01/01529,PCT/AU01/01530and PCT/AU01/01531.
11October 2001:PCT/AU01/01274.
14August2001:PCT/AU01/00996.
27November 2000:PCT/AU00/01442,PCT/AU00/01444,PCT/AU00/01446,PCT/AU00/01445,PCT/AU00/01450,PCT/AU00/01453,PCT/AU00/01448,PCT/AU00/01447,PCT/AU00/01459,PCT/AU00/01451,PCT/AU00/01454,PCT/AU00/01452,PCT/AU00/01443,PCT/AU00/01455,PCT/AU00/01456,PCT/AU00/01457,PCT/AU00/01458 and PCT/AU00/01449.
20October 2000:PCT/AU00/01273,PCT/AU00/01279,PCT/AU00/01288,PCT/AU00/01282,PCT/AU00/01276,PCT/AU00/01280,PCT/AU00/01274,PCT/AU00/01289,PCT/AU00/01275,PCT/AU00/01277,PCT/AU00/01286,PCT/AU00/01281,PCT/AU00/01278,PCT/AU00/01287,PCT/AU00/01285,PCT/AU00/01284 and PCT/AU00/01283.
15September 2000:PCT/AU00/01108,PCT/AU00/01110 and PCT/AU00/01111.
30June 2000:PCT/AU00/00762,PCT/AU00/00763,PCT/AU00/00761,PCT/AU00/00760,PCT/AU00/00759,PCT/AU00/00758,PCT/AU00/00764,PCT/AU00/00765,PCT/AU00/00766,PCT/AU00/00767,PCT/AU00/00768,PCT/AU00/00773,PCT/AU00/00774,PCT/AU00/00775,PCT/AU00/00776,PCT/AU00/00777,PCT/AU00/00770,PCT/AU00/00769,PCT/AU00/00771,PCT/AU00/00772,PCT/AU00/00754,PCT/AU00/00755,PCT/AU00/00756 andPCT/AU00/00757.
24May2000:PCT/AU00/00518,PCT/AU00/00519,PCT/AU00/00520,PCT/AU00/00521,PCT/AU00/00522,PCT/AU00/00523,PCT/AU00/00524,PCT/AU00/00525,PCT/AU00/00526,PCT/AU00/00527,PCT/AU00/00528,PCT/AU00/00529,PCT/AU00/00530,PCT/AU00/00531,PCT/AU00/00532,PCT/AU00/00533,PCT/AU00/00534,PCT/AU00/00535,PCT/AU00/00536,PCT/AU00/00537,PCT/AU00/00538,PCT/AU00/00539,PCT/AU00/00540,PCT/AU00/00541,PCT/AU00/00542,PCT/AU00/00543,PCT/AU00/00544,PCT/AU00/00545,PCT/AU00/00547,PCT/AU00/00546,PCT/AU00/00554,PCT/AU00/00556,PCT/AU00/00557,PCT/AU00/00558,PCT/AU00/00559,PCT/AU00/00560,PCT/AU00/00561,PCT/AU00/00562,PCT/AU00/00563,PCT/AU00/00564,PCT/AU00/00565,PCT/AU00/00566,PCT/AU00/00567,PCT/AU00/00568,PCT/AU00/00569,PCT/AU00/00570,PCT/AU00/00571,PCT/AU00/00572,PCT/AU00/00573,PCT/AU00/00574,PCT/AU00/00575,PCT/AU00/00576,PCT/AU00/00577,PCT/AU00/00578,PCT/AU00/00579,PCT/AU00/00581,PCT/AU00/00580,PCT/AU00/00582,PCT/AU00/00587,PCT/AU00/00588,PCT/AU00/00589,PCT/AU00/00583,PCT/AU00/00593,PCT/AU00/00590,PCT/AU00/00591,PCT/AU00/00592,PCT/AU00/00594,PCT/AU00/00595,PCT/AU00/00596,PCT/AU00/00597,PCT/AU00/00598,PCT/AU00/00516,PCT/AU00/00517 and PCT/AU00/00511.
现有技术描述
US 5237628描述了一种光学识别系统,其能够识别机器打印的字符但不能识别手写字符,以通过定位机器打印的域(field)标识符来定位数字图像中的表单域。一旦域已被标识,则离线手写字符识别被用于识别每个域中的各个字符。
US5455872公开了一种基于域的识别系统,其能够选择用于与表单中的特定域一起使用的分类符的最优类型(例如约束手印、无约束手印、无约束草书)。该系统使用适应性加权系统和置信值来确定要使用的最佳分类符。
US5235654描述了一种结合表单限定能力与字符识别处理器的系统。
SiberSystems提供了一种利用表单限定语言的产品,其使用人工智能技术来推断出现在表单上的不同域类型。
发明概述
一般而言,本发明提供了本发明涉及一种解释输入到基于表单的数据录入系统的数据的方法,包括将所录入的数据解码成特定表单域以使其信息内容可被确定,所述信息内容处于相容机器可读格式,其中对数据的所述解码包括确定信息内容的一个或多个可能值,某些预定的可能结果被给予了相对较高的是正确的概率,并且所述预定可能结果依赖于特定表单域的前后关系。
优选地,对数据的所述解码是对所写数据或语音数据进行的。
所述解码可在线进行,其中解码与数据录入同期进行,或者离线进行,其中解码在数据录入之后的某个时间进行。
优选地,特定表单域已与之关联了可能解码数据的预定词典,并且所述词典可被用于约束解码过程以使特定解码必须存在于词典中,或者应当至少有它是这样的某个概率。
优选地,某些可能解码可被给予较高的是正确的概率。其实例可以是姓名域,其中Smith具有比Smithfield高的是正确解码的概率。
本发明的实施例所提供的优点在于,通过基于数据所录入的域的前后关系来解码数据输入,在自然语言系统中可实现对数据输入的较为成功的识别。
附图简述
为了较好地理解本发明并理解如何实施它,现在将参照附图仅通过举例来描述本发明,在附图中:
图1示出具有两个输入域的典型表单;
图2示出具有两个不同输入域的另一个典型表单;并且
图3a和3b示出两个不同但相似的手写样本。
优选实施例详述
在优选实施例中,本发明被配置成与Netpage联网计算机系统一起工作,其详述在我们的共同未决申请中给出,具体而言包括2002年5月30日提交的题为“Sensing Device”的PCT申请WO0242989、2002年5月30日提交的题为“Interactive Printer”的PCT申请WO0242894、2002年2月21日提交的题为“Interface Surface Printer Using Invisible Ink”的PCT申请WO0214075、2002年5月30日提交的题为“Apparatus For InteractionWith A Network Computer System”的PCT申请WO0242950以及2003年4月24日提交的题为“Digital Ink Database Searching Using HandwritingFeature Synthesis”的PCT申请WO03034276。将理解,相对于基本系统,不是每个实施都将必然体现在这些申请中描述的所有或即使大部分特定细节和扩展。然而,该系统以其最完整的形式被描述以帮助理解本发明的优选实施例和方面起作用的前后关系。
简而言之,Netpage系统的优选形式通过利用显隐编码纸的页和光学成像笔提供了对在线信息的交互式纸基接口。Netpage系统所产生的每个页都被唯一地标识并存储在网络服务器上,并且使用Netpage笔进行的与纸的所有用户交互都被捕获、解释和存储。数字打印技术方便了Netpage文档的按需打印,从而使交互式应用被开发。Netpage打印机、笔和网络基础结构提供了对传统基于屏幕的应用和在线发行服务的纸基替换,并且支持用户界面功能性,如超文本导航和表单输入。
典型地,打印机通过宽带连接从发行商或应用提供商接收文档,其是以红外标签的显隐型式打印的,所述标签的每个都对页上的标签的位置和唯一的页标识符进行编码。当用户在页上书写时,成像笔解码这些标签并将笔的运动转换成数字墨。数字墨在无线通道上被传送到中继基站,然后被发送给网络以便于处理和存储。所述系统使用页的所述描述来解释数字墨,并且通过与应用交互来执行所请求的动作。
应用通过发行文档来提供内容给用户,并且处理用户提交的数字墨交互。典型地,应用响应于用户输入而产生一个或多个交互式页,其被传送到网络以被存储、再现和最终作为输出打印给用户。Netpage系统允许通过提供用于以下的服务来开发复杂的应用:文档发行,再现和递送,经鉴定的事务处理和安全支付,手写识别和数字墨搜索,以及使用生物测定技术的用户验证,如签名校验。
本发明的实施例可在在线或离线情况下工作以解码自然语言输入数据。这样的输入数据可采取手写、口说字的形式或其他非约束的输入形式。
为描述的目的,“在线”指的是实时,即与数据输入同期而解码输入数据的系统。换句话说,解码过程能够对动态信息起作用,如组成所写字符的各种笔画的轨迹。典型的在线系统是互联网网页,其中输入例如以借助于指示笔和适当图形输入板录入的手写字符的形式被接受。
为描述的目的,“离线”指的是输入数据被记录但直到以后的某个时间不进行解码的系统。换句话说,解码仅能够对输入的静态表示起作用,如所写字符的位图图像。典型的离线系统是手写表单数据捕获系统,其中用户使用手写和常规笔来完成表单,并且在以后的时间,所完成的表单被扫描和处理以提取其中的编码的数据。
如已经指出的,使用自然语言输入系统为系统设计者提出了许多问题。存在大范围的不同书写风格,不但因人而异,而且甚至是在同一人在不同场合或使用不同书写工具的情况下。同样,存在语音的各种各样的口音、语调、方言和音调,每个都使得难以区分来自不同说话者的语音输入。
本发明的实施例提供了一种用于提高各种自然语言数据输入系统中的识别精度的方法。所述提高是通过基于域本身的某些属性来约束可在特定域中录入的可能数据集而实现的。在一个实施例中,约束可以是绝对的,这是因为在域中录入的数据必须在与该域关联的限定数据集中找到。
在其他实施例中,约束可以是部分的,这在因为较大的加权被给予在限定数据集中找到的数据输入。在这些情况下,如果数据条目被解码并被发现不存在于较高权重的结果的列表中,则它仍被接受,而在先前的实施例中,这样的结果将被低估(discount)。
在基于表单的数据录入系统中,表单包括一个或多个域,其每个都能够接收数据条目。在以下描述中,为方便起见,本发明的实施例将主要根据被设置成接收手写输入的系统来描述,但技术人员将认识到,其他形式的数据输入,如话音,亦可得益于本发明的实施例。
图1示出典型的表单100,其旨在从两个分离的域110、120捕获姓名信息。标志为“名字”的域110被提供以捕获来自给出其名字的用户的输入。标志为“姓”的第二域120被提供以捕获来自给出其姓的用户的输入。
在第一种情况下,关联的处理系统,不论在线或离线,能够解码输入数据,并且基于在域标志“名字”中隐含的信息来约束可能的结果。处理系统被提供有常见名字的数据库,因此当手写输入被解码时,较大的加权被给予存在于常见名字数据库中的所解码的输入的可能值。举例来说,特定的用户可被叫做“Greg”。然而,在该特定书写风格中,其名字可能看起来象是“Grey”。
图3a示出表单域中用户对其名字的再现的图形表示。图3b示出同一用户将如何再现词“Grey”,并且显然两个表示很相似,而当与“Grey”的“y”比较时,差异仅在于“Greg”中的末字母“g”的封闭的上部分。
当处理系统设法解码和解释所写输入时,较大的加权被给予“Greg”,因为这更象是合法的名字。注意在此情况下,“Grey”是将在可接受词的词典中发现但不可能展示在常见名字列表中的词。以这种方式,通过给予在其他合法词之上的对常见名字的偏好来约束数据已产生了正确结果。在可能有两个或多个结果并且全部出现在约束列表中的其他情况下,用户可被提示重新录入数据,或者被呈现选项以从可能结果列表中选择可能结果中的正确结果。
相同的过程可适合于有可能在不同表单中发现的不同域。以下非详尽示例列表详述了几个域和可被应用于解码过程以提高从给定输入产生正确结果的可能性的约束种类。当然,本领域的技术人员将认识到,根据其特定特性,不同域可具有被应用于其的前后关系约束。
域标志串     前后关系处理
名字、名等   常见名字的大列表可广泛而公开地用于作为在识别期间
             限定处理约束的词典来使用。常常从普查数据得出的这
             些列表包括关联的先验概率,从而使常见名字,如“John”
              和“David”被较为频繁地匹配。如果指示书写者性别的
              来自表单或其他地方的附加信息可用,则分离的男性和
              女性列表可被用于进一步提高识别精度。
              注意在识别期间,可允许词汇表以外的词(即未出现在
              姓名词典中的姓名)以确保不常见且唯一拼写的姓名仍
              可被正确识别。这可通过以下而做到:组合词典编码与
              概率语法模型(如字符元语法(character n-gram)),其包
              含有关通常在姓名中发现的字符序列的先验概率的信
              息。
姓、姓氏、家  类似于以上域,但使用姓词典。注意在西方姓名中,跨
姓等          越人群通常有大得多的姓的可变性,因此词汇表以外的
              词的概率必须比用于名字识别高。
地址          大多数地址遵循常规型式(例如住宅号码,之后是街道
              名称和街道类型)。在识别进行时通过例如使用常规表达
              匹配或通过改变合法字符集(即数位唯一,字母唯一,“/”
              被允许或不被允许等),识别系统可在解码期间采用这种
              型式。
              除此之外,地址中的一些元素亦可借助于词典来解码,
              如街道类型(“街道”、“路”、“场所”、“大街”、“新月形”、
              “广场”、“山”等)或者街道名称(常见街道名称包括
              “主要”、“教堂”、“北”、“主干”等)。
郊区、城镇等  郊区和城镇的完整列表可自由而公开地用于大多数地
              区。该信息可结合其他信息而使用,如州或邮政编码/邮
              区编码信息(如果可用)以进一步减少识别的可选项。
              例如,如果已确认了居住国家是例如澳大利亚,则仅有
              用于州或区的下一级划分的七个可能值。一旦该域已被
              解码,则那个州/区内的郊区或城镇的进一步约束词典可
              被用于模仿可能的结果。
州            如果国家/地区已知,则州的列表可用。每个州都可被给
              予人来自那个州的可能性上的先验概率对应(即大的人
              口多的州可被给予较高的先验概率)。如果邮政编码/邮区
              编码已知,则可使用进一步的约束。
电话号码      电话号码遵循可在识别期间使用的常规型式(例如“(##)
              ####-####”)。另外,用于电话号码的合法字符集被约束
              到数字唯一,从而进一步限制了潜在的识别可选项。
邮区/邮政编   给定国家内的邮区/邮政编码通常遵循特定型式。例如:
码            在澳大利亚,邮政编码总是四个数位长;在USA是五个
              数位;而在UK是一个或多个字母,然后是两个或多个
              数字,然后再次是一个或多个字母的混合。如果对应的
              州和郊区选项可用,则附加的解码约束可用。
国家、地区等  可能国家/地区标志的完整列表是公开可用的。
生日、出生日  所写的日期通常遵循常规型式,并具有单独由数字组成
期、其他日期  或由数字和定界字符,如“-”或“/”组成的约束字符集
电子邮件、电  电子邮件地址遵循特定型式并具有适当指定的字符集。
邮、电子邮件  可被用于匹配电子邮件地址的示例常规表达是
地址等        “/^([a-zA-Z0-9_\.\-])+\@(([a-zA-Z0-9\-])+\.)+([a-zA-
              Z0-9])+$/”.
              除此之外,电子邮件联系信息亦可用于用户(例如使用
              Microsoft Windows Messaging API(MAPI)),则电子邮件
              地址的列表可在识别期间被用作词典。类似地,常见电
              子邮件域名(例如“hotmail.com”、“yahoo.com”、
              “email.com”等)可被用作词典条目以指导识别。
信用卡、信用  信用卡号具有特定格式(例如“####-####-####-####”)
卡号等        和约束字符集。另外,通常有亦可在识别期间被使用的
              验证规则(例如校验数位检验)。例如,如果对于信用卡
              号识别有两个等概率结果,则校验数位验证在选择正确
              结果中可能是有用的。
语言/现场     世界上所所说的语言列表是自由可用的,并且目前被许
              多网表单所使用。一旦特定书写者的语言已知,它可被
              用于改进对其他类型输入的处理。其实例包括用于文本
              识别的不同的语言特定的词典(例如英语、德语、法语
              等)、改变合法识别字符集(例如允许一些西欧语言所使
              用的重音字母),以及改变用于日期识别的格式。
除了使用公用或专用词典以外,特定域标志亦可随着时间的过去而编制其自己的词典,从而使用先前识别的响应来指导和约束未来的数据条目。以这种方式,采用本发明实施例的系统可提高其识别能力,这是因为它们随着时间的过去而起作用,并且“学习”解码过程的较为可能的结果。以这种方式,例如随着时间的过去而变得较为普及的姓名可被给予较高的先验加权。
大多数表单限定格式支持许多不同的域类型,如文本域、选择列表域、组合域(即组合文本输入与选择列表的域)、签名域、复选框、按钮等。域类型给出期望输入数据类型的某种指示(例如文本输入域指示文本条目)。如果文档格式允许数据类型被明确限定(例如XML/XForms),则识别系统可使用该信息来约束识别过程。
除了域类型以外,表单常常还包含有关在每个域中应录入的数据类型的信息。该信息通常被包含在与特定域关联的属性中。其一个实例是一般与列表输入域关联的选择串的集合。这些串表示用户必须从中做出选择的选项,并且可在识别期间被用作词典元素。类似地,对组合域的识别可与字符语法组合而使用选择串的词典以允许识别除了在选项列表中所列的那些以外的词。
标准的输入域亦可包含可在识别进程(procedure)中进行帮助的属性。例如,一些输入域类型具有旗标,其指示所录入的值必须是数字的,从而向识别系统表示所识别的字符集应仅包括数位。输入域亦可包含掩码属性,其是指示输入必须匹配指定型式的串(例如,“####AA”需要录入四个数位,然后是两个大写的字母顺序的字母,如“2002CY”)。该掩码可被用于在串中的每个偏差处约束合法识别字符集并由此提高识别精度。
许多表单指定可被用于指导识别过程的验证参数。例如数字输入域可指定可被用于约束识别结果的最小和最大值。其他域可约束当用户已将值录入到域中时执行的验证程序码(例如JavaScript)。该码可被执行多次,其中每个单独的识别结果作为一个参数,从而允许放弃不符合验证要求的潜在可替换结果。
除了使用标准表单域属性来改进识别过程以外,还可通过使用定制属性将识别特定的信息添加给域。该信息仅当使用识别系统来处理表单输入时被使用。这样,表单仍可在需要时正常使用(例如通过网浏览器使用键盘进行的数据录入),这是因为定制属性被忽略;然而,如果需要识别,则定制参数可被用于改进识别结果。
定制域属性的一些实例包括字符集定义(其中用于域的合法字符集被明确定义)和常规表达。如果使用视觉线索来显示或打印域以指导字符间距(例如表单上的框,其中每个框必须包含单个字符),所述指导的参数可与域关联为定制属性以帮助手写识别的字符分割阶段。例如,通过指定边界长方形的坐标和使用字符框用于输入的域中的行和列的数目,可向识别系统通知每个字符的期望位置,从而允许进行较为精确的识别。
有关前后关系处理和语言模化的信息亦可被编码于定制属性中。一些手写识别系统使用语言模型的组合来帮助识别手写文本(例如元语法字符模型,标准词典,用户特定的词典)。这些模型通常使用一组加权来组合,该加权指示使用每个指定模型将正确解码输入词的可能性。然而,当可根据期望输入来定制加权时产生最精确的结果。通过包括语言模型权重来作为用于域的定制属性,可通过在每表单或甚至每域的基础上调节模型权重来实现较为精确的识别。
为允许对识别进程的较多控制,定制验证程序码(例如JavaScript)可与域关联,其在已完成手写识别进程之后在每个潜在结果上执行,从而允许选择最适当的结果。然而,不是使用布尔验证函数(即串合法或无效),该函数可返回指示所述串将被录入的概率的置信值。该概率可与字符分类进程组合以选择最适当的识别结果。以这种方式,即使解码结果具有与之关联的低置信值,如果其他检验确认它是有效响应,则它仍可被系统接受。简单的布尔途径可导致合法输入被低估。
对该方案的改进是在系统识别每个字符时定义由识别者调用的语言模型概率函数。这允许识别系统在识别进程中在早期剪除不可能或无效的识别串,从而允许高效地识别长文本串。在识别进程中,通过考虑所识别的字符的不同组合而产生了大量的潜在结果。典型地,对于每个字母位置,有大量的潜在字符可选项。结果,识别系统通常使用定向搜索(beamsearch)技术,从而使每个字母位置处的n个最佳可选项被考虑,其中n典型地处于10和100之间。这样,每个位置处的n个最可能的结果被存储,而其余的被放弃。
然而,在每个步骤选择n个最佳结果需要在每个步骤而不是在已完成识别进程之后来自语言模型的验证,否则被语言模型限定为不可能或未必可能的高得分串可被保留而有效但低得分的串被放弃。结果,经改进的语言模型函数应当能计算和返回子串概率,从而使识别者可在每个步骤组合字符分类概率与子串概率,并由此选择n个最可能的串。这种灵活途径允许实施几乎任何语言模型,包括词典和字符马尔可夫模型。
以下部分描述如何提取数据以用于各种一般使用的表单定义格式,包括HTML、XForms和PDF(Adobe可移植文档格式)。
超文本置标语言(HTML)是标准的置标符号集,其被用于定义想要显示在万维网浏览器中的文本和图形页的格式。HTML是万维网联盟(W3C)的正式推荐,并且被定义在1999年12月24日的W3C“HTML4.01规范”中。XHTML,作为XML应用的HTML的改订,与HTML很相似,并且被定义在2002年8月1日的W3C“XHTML 1.0可扩展超文本置标语言(第二版)”,并且类似地,SGML,其被定义在ISO“信息处理-文本和办公系统-标准通用置标语言(SGML)”,1986年的ISO8879。
用于表单的一些示例HTML代码在以下给出(该代码可在浏览器中产生的输出的实例在图1中给出)。
          <html>
          <form ACTION=″cgi-bin/form.exe″METHOD=post>
          <p><b>Please Enter Your Name</b></p>
          <p>First Name:<INPUT TYPE=″TEXT″NAME=″FirstName″
          CUSTOM=″Hello″></p>
          <p>Last Name:<INPUT TYPE=″TEXT″
          NAME=″LastName″></p>
          <p><INPUT TYPE=″SUBMIT″NAME=″Submit″></p>
          </form>
          </html>
通常,与输入域关联的域标志可从HTML文档源容易地得出。一般而言,域标志紧接着在输入域定义(如以上所示)之前出现为正常文本。在其他情况下,再现文档的布局可被分析以确定哪些文本标志应与哪些输入域关联(例如当表被用于表单布局时)。另外,与许多输入元素关联的“姓名”属性可包含将允许确定域类型的文本。
标准HTML包含许多元素,其可被有用地用作对识别系统的暗示。一些实例包括:
·可被用于限制识别文本的长度的INPUT元素的“最大长度”属性,
·表示有效输入串集的与SELECT元素关联的OPTION元素(其可在识别期间用作词典条目),以及
·可被用于限定字符间距指导的TEXTAREA元素中的“行”和“列”属性(例如加框输入,其中每个字母必须被写在分离的框中)。
除此之外,定制属性亦可被容易地添加给HTML域元素(例如CUSTOM=“Hello”),这是因为处理一个页的浏览器和其他系统必须忽略未知的属性。以这种方式,表单设计者可将定制元素添加给HTML源代码,其将仅由识别系统使用并将被“哑”浏览器安全地忽略。
XFORMS是标准的表单定义语言,其由W3C定义并描述在2002年8月21日的“XForms 1.0”W3C工作草案中。XForms已被发展为HTML表单的后继者,并且通过允许相同的表单在台式计算机、手持装置、信息设备甚至是纸上起作用来实施装置独立的表单。为此,与HTML不同,XForms确保了数据定义被保持与演示分离。XForms代码的实例在以下给出。该代码可在浏览器中产生的输出的实例在图2中给出。
    <xform>
    <submitInfo action=″form.exe″method=″post″/>
    </xform>
    <input xform=″payment″ref=″cc″>
    <caption>Credit Card Number</caption>
    </input><input xform=″payment″ref=″exp″>
    <caption>Expiration Date</caption>
    </input><submit xform=″payment″>
    <caption>Submit</caption>
    </submit>
以与HTML类似的方式,可通过检查输入域定义中的标题元素从XForms代码得出域标志。除此之外,XForms亦支持类似于先前针对HTML所述的输入域元素,包括列表选择元素“<selectOne>”和“<selectMany>”和关联的“<item>”元素,其可在识别处理期间用作词典条目。
XForms规范包括用于域输入的数据类型集,包括日期、货币、数字、串、时间和URI类型。该信息可由识别系统用于提高识别精度。类似地,所述规范包括数据属性(例如当前值(currency)、小数位、整数等)和验证属性(最小值、最大值、型式、范围),其可被用于进一步改进识别结果。
可移植文档格式(PDF)是Adobe定义的文档格式,其已成为用于基于互联网的文档发布的事实上的标准。最近,Adobe已添加了交互式元素,其允许用于在线使用的表单定义。
象HTML和XForms一样,PDF表单元素具有特定类型(例如文本、签名、组合框、列表框),其限定元素的表现并由此可被用作用于手写识别系统的指导。它们亦包含域名称(例如“/T(名字)”),其可包含指示要录入到域中的数据类型的有用标志。列表和组合域包含限定有效选择串的选项集(“/Opt[(Option1)(Option2)]”。
附加域属性包括格式区分符(例如数字、百分比、日期、时间、邮区编码、电话号码、社会保障号等)以及当数据已被录入到域中时执行的JavaScript验证码。定制属性亦可被容易地结合在域定义中,如以上所示(“/CUSTOM ATTRIBUTE(Hello World)”)。
可使用适当的经编程和设定条件的微处理器来实施本发明的实施例。这样的微处理器可形成专门设计用于在字符识别环境下工作的定制系统的一部分,或者它可以是通用计算机,如台式PC、其亦能执行其他较为一般的任务。
根据以上描述,对本领域的普通技术人员将显然的是可在本发明的范围内进行各种修改。
本发明包括在此明确公开的任何新特征或特征组合或者其任何通用化形式,而不管它是否涉及要求权利的发明或解决所针对的任何或所有问题。

Claims (16)

1.一种解释输入至基于表单的数据录入系统的数据的方法,包括将所录入的数据解码成特定表单域以使其信息内容可被确定,所述信息内容处于相容机器可读格式,其中对数据的所述解码包括确定信息内容的一个或多个可能值,某些预定的可能结果被给予了相对较高的是正确的概率,并且所述预定可能结果依赖于特定表单域的前后关系。
2.如权利要求1所述的方法,其中对数据的所述解码是与数据录入同期而进行的(在线)。
3.如权利要求1的所述的方法,其中对数据的所述解码是在数据录入之后的某个时间进行的(离线)。
4.如前述权利要求的任何一项所述的方法,其中数据录入是通过手写字符和话音之一或两者来实现的。
5.如前述权利要求的任何一项所述的方法,其中特定表单域已关联了其可能解码数据的预定词典,所述词典被用于约束解码过程。
6.如权利要求5所述的方法,其中词典中的某些条目被指定了是正确解码数据的较高概率。
7.如权利要求5或6的任一项所述的方法,其中所述域是姓名域,并且预定词典包括与所选姓名关联的性别的指示。
8.如权利要求5或6的任一项所述的方法,其中所述域是地址域,其具有分等级设置的子域以使子域中的被解码条目可被用于约束另一个子域中的条目。
9.如权利要求5或6的任一项所述的方法,其中所述域是电话号码域,并且被约束以使唯一有效数据仅包括数字。
10.如前述权利要求的任何一项所述的方法,其中所述域是信用卡号,其中唯一有效数据包括固定数目的数字,所述数字进一步可通过使用校验和来校验。
11.如前述权利要求的任何一项所述的方法,其中所述域来自包括以下的组:邮区/邮政编码;国家;日期;电子邮件地址;和/或语言。
12.如前述权利要求的任何一项所述的方法,其中所述系统是使用以下标准化文件格式之一来实施的:HTML、XML、PDF和XForms。
13.如前述权利要求的任何一项所述的方法,其中定制验证程序与所述域关联,该定制验证程序在一可能值上被执行。
14.如权利要求13所述的方法,其中定制验证程序是JavaScript程序。
15.如前述权利要求的任何一项所述的方法,其中域掩码与所述域关联,该域掩码检验可能值符合预定串型式。
16.如前述权利要求的任何一项所述的方法,其中可能值从选择列表或组合列表得出,包含先前识别的响应。
CNA2003801014868A 2002-10-15 2003-10-10 提高基于表单的数据录入系统中的识别精度的方法 Pending CN1705958A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
AU2002952106 2002-10-15
AU2002952106A AU2002952106A0 (en) 2002-10-15 2002-10-15 Methods and systems (npw008)

Publications (1)

Publication Number Publication Date
CN1705958A true CN1705958A (zh) 2005-12-07

Family

ID=28047674

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2003801014868A Pending CN1705958A (zh) 2002-10-15 2003-10-10 提高基于表单的数据录入系统中的识别精度的方法

Country Status (7)

Country Link
US (2) US20060106610A1 (zh)
EP (1) EP1552468A4 (zh)
JP (2) JP2006503353A (zh)
CN (1) CN1705958A (zh)
AU (1) AU2002952106A0 (zh)
CA (1) CA2502261A1 (zh)
WO (1) WO2004036488A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101315627B (zh) * 2007-05-30 2010-06-16 凌群电脑股份有限公司 数据录入方法及系统
CN103777860A (zh) * 2012-10-17 2014-05-07 三星电子株式会社 移动终端和基于用户输入控制所述移动终端的方法
CN107977404A (zh) * 2017-11-15 2018-05-01 上海壹账通金融科技有限公司 用户信息筛选方法、服务器及计算机可读存储介质

Families Citing this family (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6883168B1 (en) 2000-06-21 2005-04-19 Microsoft Corporation Methods, systems, architectures and data structures for delivering software via a network
US7155667B1 (en) * 2000-06-21 2006-12-26 Microsoft Corporation User interface for integrated spreadsheets and word processing tables
US7000230B1 (en) 2000-06-21 2006-02-14 Microsoft Corporation Network-based software extensions
US7346848B1 (en) 2000-06-21 2008-03-18 Microsoft Corporation Single window navigation methods and systems
US6948135B1 (en) 2000-06-21 2005-09-20 Microsoft Corporation Method and systems of providing information to computer users
US7191394B1 (en) 2000-06-21 2007-03-13 Microsoft Corporation Authoring arbitrary XML documents using DHTML and XSLT
US7624356B1 (en) 2000-06-21 2009-11-24 Microsoft Corporation Task-sensitive methods and systems for displaying command sets
JP2004046375A (ja) * 2002-07-09 2004-02-12 Canon Inc 帳票処理装置および帳票処理方法ならびにプログラム
US20040073690A1 (en) 2002-09-30 2004-04-15 Neil Hepworth Voice over IP endpoint call admission
US7359979B2 (en) 2002-09-30 2008-04-15 Avaya Technology Corp. Packet prioritization and associated bandwidth and buffer management techniques for audio over IP
US7370066B1 (en) 2003-03-24 2008-05-06 Microsoft Corporation System and method for offline editing of data files
US7415672B1 (en) 2003-03-24 2008-08-19 Microsoft Corporation System and method for designing electronic forms
US7913159B2 (en) 2003-03-28 2011-03-22 Microsoft Corporation System and method for real-time validation of structured data files
US7296017B2 (en) 2003-03-28 2007-11-13 Microsoft Corporation Validation of XML data files
JP4240293B2 (ja) * 2003-05-27 2009-03-18 株式会社ソニー・コンピュータエンタテインメント マルチメディア再生装置およびマルチメディア再生方法
US20040268229A1 (en) * 2003-06-27 2004-12-30 Microsoft Corporation Markup language editing with an electronic form
US7451392B1 (en) 2003-06-30 2008-11-11 Microsoft Corporation Rendering an HTML electronic form by applying XSLT to XML using a solution
US7406660B1 (en) 2003-08-01 2008-07-29 Microsoft Corporation Mapping between structured data and a visual surface
US7334187B1 (en) 2003-08-06 2008-02-19 Microsoft Corporation Electronic form aggregation
US8819072B1 (en) 2004-02-02 2014-08-26 Microsoft Corporation Promoting data from structured data files
US7430711B2 (en) * 2004-02-17 2008-09-30 Microsoft Corporation Systems and methods for editing XML documents
US7318063B2 (en) * 2004-02-19 2008-01-08 Microsoft Corporation Managing XML documents containing hierarchical database information
US7496837B1 (en) 2004-04-29 2009-02-24 Microsoft Corporation Structural editing with schema awareness
US7281018B1 (en) 2004-05-26 2007-10-09 Microsoft Corporation Form template data source change
US7774620B1 (en) 2004-05-27 2010-08-10 Microsoft Corporation Executing applications at appropriate trust levels
US7978827B1 (en) 2004-06-30 2011-07-12 Avaya Inc. Automatic configuration of call handling based on end-user needs and characteristics
US8923838B1 (en) 2004-08-19 2014-12-30 Nuance Communications, Inc. System, method and computer program product for activating a cellular phone account
US8154518B2 (en) * 2004-08-31 2012-04-10 Research In Motion Limited Handheld electronic device and associated method employing a multiple-axis input device and elevating the priority of certain text disambiguation results when entering text into a special input field
US7477238B2 (en) * 2004-08-31 2009-01-13 Research In Motion Limited Handheld electronic device with text disambiguation
US7692636B2 (en) 2004-09-30 2010-04-06 Microsoft Corporation Systems and methods for handwriting to a screen
US7584417B2 (en) * 2004-11-15 2009-09-01 Microsoft Corporation Role-dependent action for an electronic form
US7712022B2 (en) 2004-11-15 2010-05-04 Microsoft Corporation Mutually exclusive options in electronic forms
US7721190B2 (en) 2004-11-16 2010-05-18 Microsoft Corporation Methods and systems for server side form processing
US7904801B2 (en) 2004-12-15 2011-03-08 Microsoft Corporation Recursive sections in electronic forms
US7937651B2 (en) 2005-01-14 2011-05-03 Microsoft Corporation Structural editing operations for network forms
US7725834B2 (en) 2005-03-04 2010-05-25 Microsoft Corporation Designer-created aspect for an electronic form template
US8010515B2 (en) 2005-04-15 2011-08-30 Microsoft Corporation Query to an electronic form
WO2006123575A1 (ja) * 2005-05-19 2006-11-23 Kenji Yoshida 音声情報記録装置
US8200975B2 (en) 2005-06-29 2012-06-12 Microsoft Corporation Digital signatures for network forms
US20080208964A1 (en) * 2005-07-27 2008-08-28 Mikhail Vasilyevich Belyaev Client-Server Information System and Method for Providing Graphical User Interface
US7484173B2 (en) * 2005-10-18 2009-01-27 International Business Machines Corporation Alternative key pad layout for enhanced security
WO2007048053A1 (en) * 2005-10-21 2007-04-26 Coifman Robert E Method and apparatus for improving the transcription accuracy of speech recognition software
US8751145B2 (en) * 2005-11-30 2014-06-10 Volkswagen Of America, Inc. Method for voice recognition
US8001459B2 (en) 2005-12-05 2011-08-16 Microsoft Corporation Enabling electronic documents for limited-capability computing devices
US9386154B2 (en) 2007-12-21 2016-07-05 Nuance Communications, Inc. System, method and software program for enabling communications between customer service agents and users of communication devices
US8838549B2 (en) * 2008-07-07 2014-09-16 Chandra Bodapati Detecting duplicate records
US8218751B2 (en) 2008-09-29 2012-07-10 Avaya Inc. Method and apparatus for identifying and eliminating the source of background noise in multi-party teleconferences
US9846690B2 (en) * 2009-03-02 2017-12-19 International Business Machines Corporation Automating interrogative population of electronic forms using a real-time communication platform
EP2452252A1 (en) * 2009-07-09 2012-05-16 Eliyahu Mashiah Content sensitive system and method for automatic input language selection
KR101597289B1 (ko) * 2009-07-31 2016-03-08 삼성전자주식회사 동적 화면에 따라 음성을 인식하는 장치 및 방법
KR20110114861A (ko) * 2010-04-14 2011-10-20 한국전자통신연구원 우편물 접수 장치
US8391464B1 (en) 2010-06-24 2013-03-05 Nuance Communications, Inc. Customer service system, method, and software program product for responding to queries using natural language understanding
US9619534B2 (en) * 2010-09-10 2017-04-11 Salesforce.Com, Inc. Probabilistic tree-structured learning system for extracting contact data from quotes
US20130047261A1 (en) * 2011-08-19 2013-02-21 Graeme John Proudler Data Access Control
DE102013201973A1 (de) 2012-02-22 2013-08-22 International Business Machines Corp. Verteilte Anwendung mit Vorwegnahme von Server-Antworten
US9229919B1 (en) * 2012-03-19 2016-01-05 Apttex Corporation Reconciling smart fields
DE102012020610A1 (de) 2012-10-19 2014-04-24 Audi Ag Kraftwagen mit einem Handschrifterkennungssystem
US8958644B2 (en) * 2013-02-28 2015-02-17 Ricoh Co., Ltd. Creating tables with handwriting images, symbolic representations and media images from forms
CN105365416A (zh) * 2014-08-29 2016-03-02 北京华夏聚龙自动化股份公司 一种自助填单机的打印校准方法
JP6629678B2 (ja) * 2016-06-16 2020-01-15 株式会社日立製作所 機械学習装置
JP2020154778A (ja) * 2019-03-20 2020-09-24 富士ゼロックス株式会社 文書処理装置及びプログラム
US11360990B2 (en) 2019-06-21 2022-06-14 Salesforce.Com, Inc. Method and a system for fuzzy matching of entities in a database system based on machine learning
US11557139B2 (en) * 2019-09-18 2023-01-17 Sap Se Multi-step document information extraction
US10832656B1 (en) * 2020-02-25 2020-11-10 Fawzi Shaya Computing device and method for populating digital forms from un-parsed data
WO2022043675A2 (en) * 2020-08-24 2022-03-03 Unlikely Artificial Intelligence Limited A computer implemented method for the automated analysis or use of data

Family Cites Families (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4712174A (en) * 1984-04-24 1987-12-08 Computer Poet Corporation Method and apparatus for generating text
US4864618A (en) * 1986-11-26 1989-09-05 Wright Technologies, L.P. Automated transaction system with modular printhead having print authentication feature
US5051736A (en) * 1989-06-28 1991-09-24 International Business Machines Corporation Optical stylus and passive digitizing tablet data input system
JPH04195670A (ja) * 1990-11-28 1992-07-15 Toshiba Corp 手書き文字認識かな漢字変換方式
JP2992127B2 (ja) * 1991-06-21 1999-12-20 キヤノン株式会社 文字認識方法及び装置
CA2078423C (en) * 1991-11-19 1997-01-14 Per-Kristian Halvorsen Method and apparatus for supplementing significant portions of a document selected without document image decoding with retrieved information
JP3355440B2 (ja) * 1991-12-27 2002-12-09 株式会社日立製作所 ペン入力方法、ペン入力装置および情報処理システム
US5852434A (en) * 1992-04-03 1998-12-22 Sekendur; Oral F. Absolute optical position determination
US5477012A (en) * 1992-04-03 1995-12-19 Sekendur; Oral F. Optical position determination
US5235654A (en) * 1992-04-30 1993-08-10 International Business Machines Corporation Advanced data capture architecture data processing system and method for scanned images of document forms
TW401567B (en) * 1992-10-09 2000-08-11 Matsushita Electric Ind Co Ltd Certifiable optical character recognition
JPH06290301A (ja) * 1993-04-01 1994-10-18 Olympus Optical Co Ltd 文字/図形認識装置
US6535897B1 (en) * 1993-05-20 2003-03-18 Microsoft Corporation System and methods for spacing, storing and recognizing electronic representations of handwriting printing and drawings
BR9405791A (pt) * 1993-12-01 1995-12-12 Motorola Inc Processo combinado baseado em dicionário e de conjunto de caracteres semelhantes para reconhecimento de caligrafia
JPH07320002A (ja) * 1994-05-27 1995-12-08 Sanyo Electric Co Ltd 文字認識装置
US5687254A (en) * 1994-06-06 1997-11-11 Xerox Corporation Searching and Matching unrecognized handwriting
JP3366443B2 (ja) * 1994-06-14 2003-01-14 新日鉄ソリューションズ株式会社 文字認識方法および装置
US5652412A (en) * 1994-07-11 1997-07-29 Sia Technology Corp. Pen and paper information recording system
JPH0830730A (ja) * 1994-07-13 1996-02-02 Fujitsu Ltd 文字認識処理装置
CA2155891A1 (en) * 1994-10-18 1996-04-19 Raymond Amand Lorie Optical character recognition system having context analyzer
US5661506A (en) * 1994-11-10 1997-08-26 Sia Technology Corporation Pen and paper information recording system using an imaging pen
AU6502896A (en) * 1995-07-20 1997-02-18 Dallas Semiconductor Corporation Single chip microprocessor, math co-processor, random number generator, real-time clock and ram having a one-wire interface
JPH0991083A (ja) * 1995-09-22 1997-04-04 Casio Comput Co Ltd 筆記データ入力装置
JPH09223195A (ja) * 1996-02-06 1997-08-26 Hewlett Packard Co <Hp> 文字認識方法
US5692073A (en) * 1996-05-03 1997-11-25 Xerox Corporation Formless forms and paper web using a reference-based mark extraction technique
US5850480A (en) * 1996-05-30 1998-12-15 Scan-Optics, Inc. OCR error correction methods and apparatus utilizing contextual comparison
US5983351A (en) * 1996-10-16 1999-11-09 Intellectual Protocols, L.L.C. Web site copyright registration system and method
US6157935A (en) * 1996-12-17 2000-12-05 Tran; Bao Q. Remote data access and management system
JP3006545B2 (ja) * 1997-06-09 2000-02-07 日本電気株式会社 オンライン文字認識装置
US6518950B1 (en) * 1997-10-07 2003-02-11 Interval Research Corporation Methods and systems for providing human/computer interfaces
US6330976B1 (en) * 1998-04-01 2001-12-18 Xerox Corporation Marking medium area with encoded identifier for producing action through network
US6256410B1 (en) * 1998-07-30 2001-07-03 International Business Machines Corp. Methods and apparatus for customizing handwriting models to individual writers
US6964374B1 (en) * 1998-10-02 2005-11-15 Lucent Technologies Inc. Retrieval and manipulation of electronically stored information via pointers embedded in the associated printed material
GB2345783B (en) * 1999-01-12 2003-04-09 Speech Recognition Company Speech recognition system
AUPQ439299A0 (en) * 1999-12-01 1999-12-23 Silverbrook Research Pty Ltd Interface system
US6822639B1 (en) * 1999-05-25 2004-11-23 Silverbrook Research Pty Ltd System for data transfer
US7233320B1 (en) * 1999-05-25 2007-06-19 Silverbrook Research Pty Ltd Computer system interface surface with reference points
KR100752257B1 (ko) * 1999-06-30 2007-08-29 실버브룩 리서치 피티와이 리미티드 양방향 프린터 계정
JP2001236451A (ja) * 2000-02-21 2001-08-31 Oki Data Corp 電子帳票作成システム
SE519356C2 (sv) * 2000-04-05 2003-02-18 Anoto Ab Förfarande och anordning för informationshantering
US7154638B1 (en) * 2000-05-23 2006-12-26 Silverbrook Research Pty Ltd Printed page tag encoder
US6956970B2 (en) * 2000-06-21 2005-10-18 Microsoft Corporation Information storage using tables and scope indices
US7006711B2 (en) * 2000-06-21 2006-02-28 Microsoft Corporation Transform table for ink sizing and compression
US6698660B2 (en) * 2000-09-07 2004-03-02 Anoto Ab Electronic recording and communication of information
US20020062342A1 (en) * 2000-11-22 2002-05-23 Sidles Charles S. Method and system for completing forms on wide area networks such as the internet
US20020107885A1 (en) * 2001-02-01 2002-08-08 Advanced Digital Systems, Inc. System, computer program product, and method for capturing and processing form data
US6950555B2 (en) * 2001-02-16 2005-09-27 Parascript Llc Holistic-analytical recognition of handwritten text
US20030007018A1 (en) * 2001-07-09 2003-01-09 Giovanni Seni Handwriting user interface for personal digital assistants and the like
US7246060B2 (en) * 2001-11-06 2007-07-17 Microsoft Corporation Natural input recognition system and method using a contextual mapping engine and adaptive user bias
US7020320B2 (en) * 2002-03-06 2006-03-28 Parascript, Llc Extracting text written on a check
US6867786B2 (en) * 2002-07-29 2005-03-15 Microsoft Corp. In-situ digital inking for applications
US20040036681A1 (en) * 2002-08-23 2004-02-26 International Business Machines Corporation Identifying a form used for data input through stylus movement by means of a traced identifier pattern
US7343042B2 (en) * 2002-09-30 2008-03-11 Pitney Bowes Inc. Method and system for identifying a paper form using a digital pen

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101315627B (zh) * 2007-05-30 2010-06-16 凌群电脑股份有限公司 数据录入方法及系统
CN103777860A (zh) * 2012-10-17 2014-05-07 三星电子株式会社 移动终端和基于用户输入控制所述移动终端的方法
CN107977404A (zh) * 2017-11-15 2018-05-01 上海壹账通金融科技有限公司 用户信息筛选方法、服务器及计算机可读存储介质
CN107977404B (zh) * 2017-11-15 2020-08-28 深圳壹账通智能科技有限公司 用户信息筛选方法、服务器及计算机可读存储介质

Also Published As

Publication number Publication date
EP1552468A4 (en) 2007-07-11
JP2009123243A (ja) 2009-06-04
AU2002952106A0 (en) 2002-10-31
US20060106610A1 (en) 2006-05-18
WO2004036488A1 (en) 2004-04-29
CA2502261A1 (en) 2004-04-29
EP1552468A1 (en) 2005-07-13
JP2006503353A (ja) 2006-01-26
US20040078756A1 (en) 2004-04-22

Similar Documents

Publication Publication Date Title
CN1705958A (zh) 提高基于表单的数据录入系统中的识别精度的方法
CN1205572C (zh) 对拼写、打字和转换错误具有容错能力的将一种文本形式转换为另一种文本形式的语言输入体系结构
US7660466B2 (en) Natural language recognition using distributed processing
CN1259632C (zh) 纠正文本文档的文本输入的方法和系统
Hockey Electronic texts in the humanities: principles and practice
US8504350B2 (en) User-interactive automatic translation device and method for mobile device
CN1384940A (zh) 以无模式输入将一种文本形式转换成另一种文本形式的语言输入体系结构
CN1607491A (zh) 使用操纵杆输入中文的系统和方法
CN1495609A (zh) 在计算机生成文档中提供语境感测工具和帮助内容
CN1232226A (zh) 句子处理装置及其方法
CN1770144A (zh) 机器翻译系统及方法
CN1688999A (zh) 根据书写文本进行基于可缩放神经网络的语言识别
JP2006092027A (ja) 文字認識装置、文字認識方法および文字認識プログラム
CN1732461A (zh) 基于要素的多个文件的分析系统和方法
CN1799020A (zh) 信息处理方法和设备
Thammarak et al. Automated data digitization system for vehicle registration certificates using google cloud vision API
CN1269060C (zh) 处理和重复使用中文古籍的方法及其所采用的计算机软硬件系统
CN1323003A (zh) 盲人用的汉语智能计算机系统
AU2003266850B2 (en) Method of improving recognition accuracy in form-based data entry systems
CN1174365C (zh) 手写文字字库
KR101638953B1 (ko) 온라인상 텍스트 자동분석·수정시스템
JP2000090193A (ja) 文字認識装置および項目分類方法
CN1120408C (zh) 一种计算机结构声读汉字输入方法
CN1206581C (zh) 混合输入方法
JP5001459B1 (ja) 文章発声装置、通信システム、プログラム、及び、文章発声制御方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20051207