CN101331476A - 用于手写字符识别的基于书写变体的书写者自适应 - Google Patents
用于手写字符识别的基于书写变体的书写者自适应 Download PDFInfo
- Publication number
- CN101331476A CN101331476A CNA2006800471874A CN200680047187A CN101331476A CN 101331476 A CN101331476 A CN 101331476A CN A2006800471874 A CNA2006800471874 A CN A2006800471874A CN 200680047187 A CN200680047187 A CN 200680047187A CN 101331476 A CN101331476 A CN 101331476A
- Authority
- CN
- China
- Prior art keywords
- allographs
- data
- hand
- recognizer
- sorter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/32—Digital ink
- G06V30/36—Matching; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/231—Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/28—Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/02—Input arrangements using manually operated switches, e.g. using keyboards or dials
- G06F3/023—Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
- G06F3/0233—Character input methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/03—Arrangements for converting the position or the displacement of a member into a coded form
- G06F3/033—Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
- G06F3/0354—Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor with detection of 2D relative movements between the device, or an operating part thereof, and a plane or surface, e.g. 2D mice, trackballs, pens or pucks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
- G06V10/7625—Hierarchical techniques, i.e. dividing or merging patterns to obtain a tree-like representation; Dendograms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/809—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/142—Image acquisition using hand-held instruments; Constructional details of the instruments
- G06V30/1423—Image acquisition using hand-held instruments; Constructional details of the instruments the instrument generating sequences of position coordinates corresponding to handwriting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1914—Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries, e.g. user dictionaries
Abstract
所要求保护的主题提供了帮助分析和/或识别手写字符的系统和/或方法。一接口组件接收至少一个手写字符。一个性化组件可基于与手写风格相关的书写变体来训练分类器以提供对该至少一个手写字符的手写识别。另外,该个性化组件可采用任何适当的组合器来提供经优化的识别。
Description
背景
计算机硬件、软件和联网的技术进步已经产生了能够从基本上世界上任何地方彼此通信的高效的、成本有效的计算系统(例如,台式计算机、膝上型计算机、手持式计算机、蜂窝电话、服务器……)。这些系统持续进展成更可靠的、稳健的且用户友好的系统。结果,越来越多的企业和消费者正在购买计算机并将其用作对传统的纸件和口头媒体的可行电子替换来交换信息。许多企业和消费者正在充分利用计算技术以提高效率并降低成本。例如,消费者可扫描并储存文档、创建带有文本覆盖的数字图像相册、搜索并检索特定信息(例如,具有各种类型的数据的网页)、上传来自数码相机的图片、查看财务报表、发送和/或接收数字传真、交换通讯(例如,电子邮件、聊天室、IP语音……)等等。
结果,这些计算系统和/或设备结合了各种用于输入信息的技术和/或方法。计算系统和/或设备利用诸如但不限于键盘、键区、触摸垫、触屏、扬声器、指示笔(例如,扫描笔)、书写垫……来便于输入信息。然而,利用用户手写的输入设备会带来每一用户不能相似地利用数据输入技术(例如,书写)的用户个性化缺陷。
用户的手写可以像用户那样独特,其中这一独特性可用于识别目的。在各种计算系统和/或设备中实现的商业手写识别系统试图通过利用包括来自多个完全不同的用户的数据在内的大型训练数据集来减少书写者变化的影响。即使在有来自多达1500个用户的手写样本可用的情况下,在手写中也有足够的变化来唯一地识别每一用户。
从机器学习的观点来看,这种变化使得手写识别对于计算机而言是困难的。尽管用户内字符(例如,来自同一用户)具有较小的变化,但是用户间字符(例如,来自不同用户)具有很大的变化,并且造成了识别错误。结果,从得自一组用户(即使有数百个用户)的训练数据中学习并不必然会产生很好地推广到未看到过的手写风格的模型。使用通用(例如,书写者无关)识别器的计算机识别体验对于具有罕见的书写风格的用户而言尤其拙劣。对于该不良性能的一种解释是经训练的通用识别器是不完善的,因为它未学习去识别未看到过的用户的书写风格。
改善识别器对于未看见过的书写风格的性能的一种实用方法是书写者自适应(或个性化)。个性化使得识别器能够通过收集来自用户的附加数据样本并从中进行学习来自适应到特定用户的手写。很清楚,这是对用户所需的训练样本的数量、所实现的差错率的降低、以及对用户而言察觉到的不便之间的折衷。训练数据的量越大,个性化识别器也就越好,但是对基于样本输入和/或利用这些样本的训练的用户也就越不便。
概述
以下提出了本发明的简化概述以便提供对此处所描述的某些方面的基本理解。本概述并不是所要求保护的主题的广泛综述。它并不旨在确定所要求保护的主题的关键或重要要素,也不旨在勾画本发明的范围。其唯一的目的是以简化的形式提出所要求保护的本发明的某些概念,作为以后提出的更详细描述的序言。
本发明涉及利用书写变体(例如,字符形状和/或风格)训练的分类器来帮助识别与手写相关联的字符的系统和/或方法。一个性化组件可经由一接口来接收与手写字符相关的数据,其中该个性化组件可通过采用用书写变体数据训练的分类器来提供对手写字符的优化的识别。该书写变体数据可以是,例如,与一手写风格相关的自动生成和/或手动生成的数据。该个性化组件可提供书写者自适应,其中书写者自适应可以是将通用(例如,书写者无关)手写识别器转换成具有对任何特定用户的改进的准确度的个性化(例如,书写者相关)识别器的过程。
此外,该个性化组件通过采用用书写变体数据训练的第一分类器以及用非书写变体数据训练的第二训练器来提供优化的手写识别,其中该第一分类器和该第二分类器的输出可被组合。输出组合可以由例如线性组合器、组合分类器、支持矢量机、线性分类器、一系列规则等来实现。输出组合提供了对手写的增强的识别和/或分析。此外,输出组合的采用可通过利用用户手写样本来优化。
根据所要求保护的主题的一方面,该个性化组件还可利用生成书写变体数据的书写变体组件来训练至少一个分类器以提供经优化的手写识别。该书写变体组件可以自动、手动或以其任意组合来生成书写变体数据。例如,可以实现群集来自动从手写字符中标识书写变体(例如,字符形状和/或风格)和/或书写变体数据。在另一示例中,书写变体数据可利用手写专家来手动提供,以提供与手写相关联的类型和/或风格。此外,该书写变体组件可以使用例如使用动态时间扭曲(DRW)作为距离度量的分层附聚群集方法来标识字符书写风格(例如,书写变体和/或书写变体数据)。
根据所要求保护的主题的另一方面,该个性化组件还可利用一分类器组件来利用根据本发明的至少一个分类器。该分类器组件可以利用可用书写变体数据训练的第一分类器。例如,该第一分类器可以是神经网络。该分类器组件还可利用可用非书写变体数据训练的第二分类器。通过同时采用第一和第二分类器两者,可利用一组合组件来将完全不同的输出相组合。该组合组件可利用诸如线性组合器、组合分类器、线性分类器、支持矢量机等各种组合技术。在所要求保护的主题的其它方面,提供了帮助分析与一特定用户相关联的手写字符的方法。
以下描述和附图详细阐明了所要求保护的主题的某些说明性方面。然而,这些方面仅指示了可采用本发明的原理的各种方式中的几种,并且所要求保护的主题旨在包括所有这些方面及其等效方面。当结合附图考虑时,从以下本发明的详细描述中,所要求保护的主题的其它优点和新颖特征将变得显而易见。
附图简述
图1示出了利用经书写变体训练的分类器来帮助识别与手写相关联的字符的示例性系统的框图。
图2示出了帮助利用书写变体数据来采用手写字符识别的示例性系统的框图。
图3示出了帮助可视化与对一字符的群集相关联的结果的二叉树的框图。
图4示出了可根据所要求保护的主题来利用的与各种手写风格相关联的表的框图。
图5示出了帮助利用书写变体分类器和基础分类器的示例性系统的框图。
图6示出了根据本发明的帮助采用个性化器支持矢量机的示例性系统的框图。
图7示出了帮助采用线性组合器来实现未个性化识别器的示例性系统的框图。
图8示出了帮助采用个性化器支持矢量机来识别手写字符的示例性系统的框图。
图9示出了根据本发明的图表结果。
图10示出了帮助利用经书写变体训练的分类器来识别与手写相关联的字符的示例性系统的框图。
图11示出了用于用书写变体数据来训练至少一个分类器以提供手写识别的示例性方法。
图12示出了帮助提供经优化的手写识别的示例性方法。
图13示出了其中可采用所要求保护的主题的新颖方面的一示例性联网环境。
图14示出了可根据所要求保护的主题来采用的示例性操作环境。
详细描述
参考附图来描述所要求保护的主题,在全部附图中,相同的参考标号用于表示相同的元素。在以下描述中,出于解释的目的,陈述了众多具体细节以提供对本发明的全面理解。然而,很明显,所要求保护的主题可以在没有这些具体细节的情况下实施。在其它情况中,以框图形式示出了公知的结构和设备以便于描述本发明。
如此处所使用的,术语“组件”、“系统”、“接口”等指的是计算机相关的实体,其或者是硬件、软件(例如,在执行中)和/或固件。例如,组件可以是运行在处理器上的进程、处理器、对象、可执行码、程序和/或计算机。作为说明,运行在服务器上的应用程序和该服务器都可以是组件。一个或多个组件可驻留在进程中,并且组件可位于一台计算机上和/或分布在两台或多台计算机之间。
此外,所要求保护的主题可被实现为方法、装置或制品,它们使用标准编程和/或工程技术来产生控制计算机实现所公开的主题的软件、固件、硬件或其任意组合。如此处所使用的术语“制品”旨在包含可从任何计算机可读设备、载体或介质访问的计算机程序。例如,计算机可读介质可包括但不限于,磁存储设备(例如,硬盘、软盘、磁带……)、光盘(例如,紧致盘(CD)、数字多功能盘(DVD)……)、智能卡以及闪存设备(例如,卡、棒、密钥驱动器……)。另外,应当理解,可采用载波来承载诸如在发送和接收电子邮件或访问如因特网或局域网(LAN)等网络时使用的计算机可读电子数据。当然,本领域的技术人员将认识到,可对该配置作出许多修改而不背离所要求保护的主题的范围或精神。此外,此处使用词语“示例性”来意指用作示例、实例或说明。此处被描述为“示例性”的任何方面或设计并不一定要被解释为相对于其它方面或设计是优选或有利的。
现在转向附图,图1示出了帮助利用经书写变体训练的分类器来识别与手写相关联的字符的系统100。系统100可包括能用书写变体数据来训练分类器(未示出)的个性化组件102,其中这一训练有助于识别手写字符。书写变体数据可以是,例如,与手写风格相关的自动生成和/或手动生成的数据。个性化组件102可以经由接口组件104(此处称为“接口104”)接收与手写样本相关的手写字符和/或数据,并至少部分地基于在训练分类器时对书写变体数据的采用来提供经优化的手写识别。例如,接收到的数据可以是来自用户的手写的任何字符和/或输入。例如,各种计算设备和/或系统利用手写输入,诸如但不限于图形输入板、便携式数据助理(PDA)、移动通信设备、指示笔、扫描笔、具有触屏能力的交互式显示设备等等。
个性化组件102可提供书写者自适应,其中书写者自适应可以是将通用(例如,书写者无关)手写识别器转换成具有对任何特定用户的改进的准确度的个性化(例如,书写者相关)识别器的过程。个性化组件102可以用来自特定用户的几个样本来实现该自适应技术,而常规技术利用来自若干书写者和/或用户的大量数据来训练通用识别器。
书写变体数据可以手动、自动和/或以其任何组合来生成。例如,书写变体数据可以采用任何适当的群集技术(以下讨论)来自动生成。换言之,可以实现用于通过群集来从手写字符中标识书写变体(例如,字符形状和/或风格)的自动化方法。在另一示例中,书写变体数据可以利用手写专家来手动提供以提供与手写相关联的类型和/或风格。
另外,个性化组件102可以用书写变体数据来训练分类器,并结合非基于书写变体的分类器实现这些结果以提供经优化的手写识别。换言之,个性化组件102可以无缝地与现有识别器(例如,手写字符识别器)集成并采用来自个人的新样本对其进行同等的改进。例如,个性化组件102可以将一字母和/或字符与一特定风格和/或书写变体进行匹配,而非简单地匹配一字母。由此,个性化组件102可以利用在给定用户的书写样本和/或示例的情况下可学习的映射技术和/或功能。个性化组件102可利用来自常规和/或传统分类器的输出来应用映射功能和/或技术以提供每一字母和/或字符的概率以便优化手写识别。
此外,系统100可以包括任何适当和/或必要的接口组件104,该组件提供了各种适配器、连接、通道、通信路径等以便将个性化组件102集成到实际上任何操作和/或数据库系统中。另外,接口组件104可以提供能够与个性化组件102、数据、手写数据、与经优化的手写识别相关联的数据以及经优化的手写识别交互的各种适配器、连接、通道、通信路径等。
图2示出了帮助利用书写变体数据来采用手写字符识别的系统200。系统200可包括个性化组件202,该组件可通过利用书写变体数据训练分类器来提供经优化的手写识别。个性化组件202可经由接口104接收与手写字符和/或符号相关的数据,其中个性化组件202可通过采用通过书写变体训练的分类器来推断和/或识别该字符和/或符号。另外,个性化组件202还可结合用非书写变体训练的分类器来利用通过书写变体训练的分类器。可以理解,个性化组件202可以基本上类似于如在图1中描述的个性化组件102。
个性化组件202可以包括自动、手动和/或以其任意组合来生成书写变体和/或书写变体数据的书写变体组件204。可实现用于通过群集来从手写字符中标识书写变体(例如,字符形状和/或风格)的自动化方法。在另一示例中,书写变体数据可以利用手写专家来手动提供以便提供与手写相关联的类型和/或风格。
此外,书写变体组件204可使用例如使用动态时间扭曲(DTW)作为距离度量的分层附聚群集方法来标识字符书写风格(例如,书写变体)。书写变体组件204可标识和/或找出要根据本发明来采用的任何适当的书写变体数据和/或书写风格。在基于西方拉丁语的手写领域内存在巨大的手写风格变化。然而,可以存在可被称为“书写变体的”用户可松散地遵照的手写字符风格。已经试图构建西方手写风格的分类表,但是至今为止没有一种尝试是存在的。这可以与机器印刷字体形成对比,在机器印刷字体中,例如,可以有对字体和风格的伪标准分类。尽管如此,在任何特定国家的学校系统中,仍在教授少数手写风格,并且在任何给定的学区中采用一特定的风格。
分层群集技术可用于从数据中学习字母手写风格。存在两种主要方法:1)检测粗略子风格的自顶向下方法;以及2)自底向上群集方法。书写变体组件204可以例如至少部分地基于可在系统200(例如,识别器)中直接使用的所获得的风格知识来采用自底向上方法。
手写字母X={x1,x2,...,xM}的群集C可以定义数据到一组K个不相交集合{c1,c2,...,cK}的划分,使得 群集C是对每一字母和/或符号独立地计算的。分层群集算法产生嵌套群集[C1,C2,...,CM]的分层结构,使得Cm-1是Cm的一个子集。该分层结构可以用M步来构建,其中步骤m处的群集可以从步骤m-1处产生的群集产生。在步骤1处,样本集合X中的每一成员和/或一部分成员可表示其自己的一个群集。使用两个群集的相异点函数D(ck,ck’),可由书写变体组件204应用以下算法:a)初始化C1={{x1},{x2},...,{xM}},其中每一样本本身是一个群集;以及b)对于m=2,....,M:通过合并Cm-1中两个最相似的群集ckmin和ck’min来获得新群集Cm。最接近的群集可由(kmin,k′min)=arg min(k,k′),k≠k′D(ck,ck′)来定义。
群集相异点函数D(ck,ck′)可以按照墨水样本相异点函数D(xk,xk′)来定义。每一墨水样本可首先被各向同性地归一化并在一固定大小的矩形内居中。对于墨水样本k(包括例如S个笔画)以及k′(包括例如S′个笔画):
其中P和P′是样本k、k′的相应的重新采样的坐标矢量,N是采样点的个数。矢量P中的元素p具有三个坐标(x,y,θ),其中x、y是点p的笛卡尔坐标,而θ是同一点处的斜率的估计。
采用此定义,具有不同笔画计数的墨水样本直到真正的最后之前都可能不会被合并在同一群集中。在真正的最后,合并实际上已停止。
可以理解,利用最大值而非平均值或最小值来将具有不同笔画数的两个墨水样本之间的距离定义为∞有利于紧凑的群集。
出于可视化的目的,一墨水样本可被选为群集代表。对每一群集的所选的代表可以是该群集的中心。对群集ck的中心x~k可被定义为相对于其余的群集成员墨水样本具有最小中值距离的墨水样本。
简要地参考图3,图3示出了帮助可视化与对一字符的群集相关联的结果的二叉树300的框图。从书写变体组件204得到的与对每一字母和/或符号的群集相关的结果可以由称为相异点树图(dissimilarity dendogram)的二叉树300来可视化。二叉树300可以是所得的字母“K”的树图的一个示例。可以理解,二叉树300可以包含一笔画出现的次序和/或与笔画的色调相关联的浓度和/或明度。
书写变体组件204可以自动生成与书写变体相关的群集,并且进一步确定所采用的群集数。例如,对每一字母和/或符号的群集数可通过定义阈值Dmax来确定,高于该阈值,不能出现进一步的群集合并。换言之,合并停止时的活动群集表示相应字母的风格。因此,所得风格数可以在各个字母之间不同,取决于字母和/或符号形状的相异性。
简要地转向图4,示出了可根据所要求保护的主题利用的与各种手写风格相关联的第一表400和第二表402。第一表400可以是书写变体组件204所利用的当被应用于一较大的墨水样本集时的分层群集算法的结果。第一表400示出了对于字母q、t和X的所得风格以及在美国(US)书写者之中的相对频率。可以理解,第一表400是一个示例,并且本发明并不限于此。换言之,个性化组件202可将这些风格映射到美国学校所教授的风格。
此外,可以理解和明白,已知的学校手写风格标准描述了一字母采用其最终形式的外观,而不考虑一字母是如何绘出的方式。然而,笔画次序和笔画方向(迹线)可以提供可在如上所述书写变体组件204的群集阶段期间考虑的有价值的信息。
第二表402示出了对于字母q、t和X的风格的示例以及其在英国(UK)书写者之中的相对频率。通过比较美国和英国风格(例如,分别是第一表400和第二表402),可形成以下主观观察结果:1)两个集合中的主导风格对于大多数字母看上去是相同的,尽管频率不同(例如,所示的对于字母q的美国和英国风格可示出一反例);2)某些边缘(例如,低频)风格可存在于一个集合中但不在另一集合中;以及3)即使边缘风格出现在两个集合中,其频率看上去也是明显不同的。
当应用于分层群集时对DTW距离阈值的每一选择可允许图2的书写变体组件204产生一组不相交的群集。该距离阈值越大,所获得的群集数就越少。例如,可选择阈值792来获得对于100个字符(例如,包括欧元和英镑符号的可打印ASCII字符)的2002个独特群集。有了2002个群集以及100个字符,对每一字符可以有表示该字符的各种书写形式的大约20种书写变体。
返回到图2,个性化组件202可以包括可采用要利用从书写变体组件204生成的书写变体数据来训练的至少一个分类器的分类器组件206。另外,分类器组件206可利用可在书写变体数据上训练的第一神经网络分类器,以及可在非书写变体数据上训练的第二神经网络分类器,其中第一和第二神经网络分类器两者的输出可通过采用组合组件208(以下讨论)来组合。可以理解,分类器组件206可包括与利用非书写变体数据、书写变体数据和/或其任意组合来训练分类器相关的任何合适的组件和/或数据。
此外,分类器组件206可采用特征矢量作为对至少一个分类器的输入。每一手写字符可被视为表示连续笔画的(x,y,t)段的序列。接连书写的一个或多个笔画可构成一字符。例如,可处理每一手写字符以获得六十五(65)个多项式特征。可以理解,对于所要求保护的主题可应用并利用任意适当和/或替换的“特征化”。
用于字符的墨水首先可通过在字符的底部切断墨水而被拆分成各段。因此,分段可在y坐标到达最小值并开始在另一方向上移动的地方发生。每一段然后可以用切比雪夫(Chebyshev)多项式的形式来表示。可从每一字符获得包含65个特征的特征矢量。这些特征矢量然后作为输入被馈入与分类器组件206相关联的每一神经网络。
分类器组件205还可利用书写变体数据和特征矢量中的至少一个来训练至少一个分类器。可以理解,分类器组件206可以采用第一识别器和第二识别器,其中第一和第二识别器可以利用特征矢量来训练。然而,还可以理解和明白,本发明不受以下示例的限制。换言之,分类器组件206可以采用利用书写变体数据训练的至少一个分类器来提供经优化的手写识别。
转向图5,示出了包括级联的神经网络和线性分类器的第一识别器500(例如,神经网络,书写变体神经网络(NN))。神经网络500具有2002个输出,并且可被训练以将字符特征矢量504映射到字符书写变体。线性组合器(书写变体折叠器)506可以使用梯度下降来训练,以将2002个书写变体折叠回100个字符类。线性折叠器506可以被认为是书写变体-NN的一部分。第二识别器502可以是不使用书写变体信息并且可被训练为直接将特征矢量504映射到输出类的神经网络(例如,基础NN)。这两个神经网络都可以是各自具有两层的多层感知器(MLP)。书写变体NN 500可具有1024个隐藏节点,而基础NN 502可具有600个隐藏节点。可以理解和明白,可使用后向传播来用互熵作为误差函数训练神经网络。
回头参考图2,个性化组件202可包括将与分类器组件206利用的至少一个分类器相关联的输出相组合的组合组件208。注意,两个神经网络(例如,图5的书写变体NN 500和基础NN 502)具有完全不同的体系结构。此外,书写变体NN 500可以使用书写变体数据来训练,而后者则不然。由于这些差异,可以预期到这两个分类器所产生的误差是明显不同的。由此,组合组件208使用这两个分类器所构建和/或采用的任何组合器将有可能具有低于其中任何一个的差错率。
在一个示例中,组合组件208可采用线性技术210来组合至少两个输出集。简单线性分类器(例如,线性组合器,它可以是线性技术210)可以组合书写变体NN和基础NN的输出,这包括书写者无关(未个性化的)识别器。为进一步提高准确度,书写变体分类器输出也可被直接馈入组合组件208。
在另一示例中,组合组件208可利用个性化器技术212来组合与至少两个分类器相关联的输出。个性化器技术212可以将书写者无关识别器自适应到提供新训练样本的当前用户。换言之,个性化器技术212可以与两个神经网络(以上讨论)级联,其中线性组合器(例如,由线性技术210实例化)可以用个性化器技术212来替换,使得来自神经网络的输出被个性化器技术212接收并利用。
可以理解,尽管个性化器技术212可以替换线性技术210,但是可利用能够从数据中学习的任何适当的组合分类器和/或技术来替换线性组合器。组合组件208可采用任何适当的组合分类器,其中这一组合分类器可以从数据中学习(例如,当替换线性技术210的时候)。可以理解和明白,可出于至少以下原因对个性化器技术212选择支持矢量机(SVM):1)推广-SVM的推广特性是公知的。由于从用户收集的(每一类)样本数可能非常少(例如,通常少于例如10或15),因此重要的是可以用这些少数样本来实现推广。与SVM形成对比,训练神经网络来用非常有限的训练数据进行良好的推广可能是有挑战性的;2)规则化-用小数据集实现良好推广的最常见的方法是规则化。SVM提供了一种自然的规则化方式。可使用模型选择过程来有效地控制容量并减少过度适合(over-fitting)的机会;3)多类-当前多类SVM可使用几个二类SVM来构建。这可允许在每一类的基础上对准确度进行更好的控制。由于仅线性组合器可被个性化,因此并非所有的二类SVM都是必需的。可以仅仅集中在包括具有最高混乱性的那几对类上;4)复杂度-当使用一对一方法时,二类分类器的数目与C(n,2)成正比地增长(例如,O(n2))。SVM中的支持矢量可以是用户提供的样本的一个子集。由此,即使可能的类和分类器的数量迅速增长,支持矢量的总数也可由用户样本的数量来界定,这可能是较小的。此外,由于组合器可被个性化,因此可构建C(n,2)个分类器的较小的子集。所丢弃的每一分类器可由指示要改为使用未个性化的识别器的输出的单个位来表示(例如,对于丢弃的对,在SVM投票期间,相应的未个性化组合器输出对可以进行比较以获得投票)。
简要地参考图6,示出了根据本发明的帮助采用个性化器支持矢量机的示例性系统600的框图。由此,个性化器(SVM)可以替换如上所述的线性技术。
系统200可利用各种数据集来提供实验结果。例如,可利用以下数据集来提供经优化的手写识别(例如,个性化实验)。1)第一集合(例如,非个性化集合)包括来自215个用户的200,000个手写字符。非个性化数据可用于构建非个性化识别器。2)第二集合(例如,个性化集合)包括来自21个用户(例如,不包括在来自第一集合的215个用户中)的84,000个样本。个性化集合可被设计成用于评估个性化技术。
给定以下内容,两个集合中的数据可均匀地分布在100个可能的西方手写字符类上:
ABCDEFGHIJKLMNOPQRSTUVWXYZ
abcdefghijklmnopqrstuvwxyz
0123456789
两个数据集中的墨水样本可被特征化(以上对于特征矢量讨论)以获得描述书写变体组件204所采用的字符的特征矢量。该特征矢量可用于如上所述地构建识别器。
来自非个性化集合的200,000个墨水样本可如上对于书写变体组件204所描述地分层地群集。可以实现例如阈值792来获得2002个书写变体。这些群集可用于对200,000个样本中的每一个分配书写变体标签。
通用识别器可包括两个分类器:a)书写变体NN(还包括书写变体折叠器),以及b)基础NN。非个性化集合可以被混洗并被拆分成3部分:要用于训练的160,000个样本,要用于确认(例如,用于确定何时停止训练)的20,000个样本,以及要用于测试的其余20,000个样本。通用识别器对非个性化数据集的报告的准确度是来自20,000测试集的准确度。在每一幅图中,在分类器上指示的第一个百分比值是测试集的差错率。
书写变体NN(例如,见图5的500)可以是两层的多层感知器(例如,双曲正切非线性度),其具有在隐藏层内的1024个节点以及2002个输出节点(例如,每一书写变体一个输出节点)。书写变体折叠器可以是将书写变体NN输出映射到100个输出类的简单线性组合器。基础NN(例如,见图5的502)也可以是两层的多层感知器(例如,双曲正切非线性度),其具有600个隐藏节点和100个输出(例如,每一输出类一个输出)。
分类器(例如,书写变体NN、书写变体折叠器以及基础NN)可以使用例如后向传播和互熵作为误差度量而在非个性化集合上独立地训练。所有权重可在例如[-0.05,0.05]中随机地均匀初始化,并且在以下实验中使用例如0.001的学习速率。
通用组合器可以是具有2202个输入和100个输出的简单线性分类器。通用组合器输入包括书写变体NN(2002)、书写变体折叠器(100)和基础NN(100)的输出。
个性化器可以是使用多达C(100,2)=4950个2类SVM的100类SVM。可对21个用户中的每一个训练一独特的个性化器。个性化数据集中的84,000个样本可对21个用户中的每一个产生每字符40个样本。可使用多达每字符15个样本来训练个性化器。其余的每字符25个样本可单纯地用于测试目的。可以理解,典型的用户可能不会提供多于每字符15个样本来训练个性化器。然而,具有较大的测试集(例如,每字符30个样本)可以提供评估个性化识别器的性能的可靠方式。
利用k=5,10,以及15个用户样本(每一类),可以对每一用户构建三个不同的个性化器。这些k个样本的集合可以被递增地选择(例如,可通过向k=5的集合添加5个新样本来获得k=10的集合)。k个样本不仅能用于训练识别器,而且还能用于规则化识别器。可使用ceil(k/2)个样本来进行训练,并可使用floor(k/2)个样本来进行模型选择。如图6所示实现RBF内核。SVM模型选择可使用例如简单的网格搜索来执行,其中C在{2-5,2-4,...,214,215}中,而γ在{2-10,2-9,...,23,24}中。来自给出floor(k/2)个样本(例如,不用于训练SVM)上的最佳差错率的模型的(C,γ)参数可被选择用于个性化器。该差错率作为个性化识别器的差错率来报告(以下讨论)。
基础NN(如可以在图5的502处见到的)可以在非个性化数据集(例如,包含215个用户)上训练,并且达到7.8%的测试差错率。当在来自个性化数据集中的21个用户(不包括在215个用户中)的数据上测试时,该差错率增加到9.36%。这是差错率的20%的相对增加。差错率的这一较大的增加清楚地表明手写风格的用户间变化要远小于用户内变化。
书写变体分类器可试图不仅预测字符标签,而且还可预测字符的书写风格。在非个性化数据集上,书写变体分类器可达到24.65%的差错率,这可被解释为非常大的差错率。
然而,当2002个字符风格被折叠成其相关联的100个字符类(例如,实现简单的级联折叠器)时,差错率降至8.25%。对于任何给定字符,简单折叠器可以返回对应于该字符的书写变体输出之和。
可以理解,较好的折叠器可以解决不同类之间的易混淆的书写变体。当采用一简单线性折叠器(例如,在所有2002个输出上学习的加权和)时(可在图5的500处见到),非个性化测试差错率降至5.9%。然而,个性化测试集上的差错率显著地升到11.40%。这一差错率的增加(93%)要大于对基础识别器所观察到的增加(20%),这表明书写变体分布在非个性化数据集中的215个用户和个性化数据集中的21个用户之间明显变化。然而,即使书写变体分布变化,对于任何新用户,分类器输出上的概率分布也可基本类似于若干样本上的分布。换言之,尽管差错率增加,但新用户的差错是可预测的。由此,个性化器可学习减少这些差错。
图7示出了帮助采用线性组合器来实现未个性化识别器的示例性系统700的框图。该系统可包括手写字符和/或符号702、特征704、基础NN 706、书写变体分类器708、书写变体折叠器710(也称为“allog折叠器710”)以及线性组合器712。字符和/或手写符号702可以与特征704一起使用,其中可应用特征矢量(如上所述)。未个性化组合器可以是取书写变体分类器708的2002个输出、书写变体折叠器710的100个输出以及来自基础分类器706的100个输出作为输入的线性分类器。这些输入可被映射到100个输出类。未个性化组合器在非个性化数据集上可实现5.8%的测试差错率,并在个性化数据集上可实现相应的9.51%测试差错率。性能得到略微的改进。
图8示出了帮助采用个性化器支持矢量机来识别手写字符的示例性系统800的框图。系统800示出了可采用基本类似于以上描述并特别在图6中所述的个性化器(SVM)的个性化器(SVM)的个性化识别器。该独特的个性化识别器可以对个性化数据集中的21个用户的每一个来构建。个性化器可以将平均差错率从9.51%减少到5.64%。该差错率的超过40.6%的相对减少表明该个性化器对于调整对每一个别用户的识别器是有效的。
转向图9,示出了根据本发明的图表结果。图表902和图表904示出了在使用15个样本进行个性化之前和之后对每一用户的差错率。图8的个性化器可对21个用户中的20个减少差错率。然而,在一个用户(例如,与图表902相关联的用户12)上,差错数略微增加了3.7%(例如,相对增加)。
用于每一个性化器的训练时间可以少于300秒(例如,5分钟)。每一成对SVM分类器(例如,对第一类取8个样本,对第二类取8个样本)可花费大约0.27毫秒在3.0GHz处理器的机器上训练。训练4950个成对分类器可花费1.33秒。然而,这可使用网格搜索对用于模型选择的255个(C,γ)设置中的每一个重复。使用更高级的模型选择方法可将该时间减少一个或两个数量级。此外,训练时间的减少可以通过仅构建对应于混乱矩阵中的最大值的成对分类器来实现。没有混乱的类对可从个性化器中丢弃。当所有未个性化差错率都低于15%时,对于所利用的100个类问题,该简单方法可以产生超过6倍的速度提高。此外,这一方法可在类的数量非常大时实现。例如,东亚语言(例如,日语、中文、韩语等)通常具有几千个字符。用户可能期望仅对大多数误识别的字符提供几个样本。此外,大多数用户可仅利用这些字符的一小部分。
在个性化期间,对用户所需的样本数越大,个性化差错率就越低,但是用户不便也越大。此外,改进的速率随着样本数的增加而消失。可用来自每一用户的5、10和15个样本(例如,每一字符)来重复个性化实验。图表906可示出作为用户样本数的函数的个性化差错率。
个性化差错率对于来自用户的5、10和15个样本是7.37%、6.06%和5.64%。这些值可以分别对应于23%、36%和41%的相对减少。差错率的降低在前5个样本中可以最高。差错率在15个样本之后持续降低。然而,给定改进速率,看上去从用户收集多于10或15个样本可能不能保证后续的差错率降低,尽管这可由特定的用户偏好来确定并且在本发明上不受限制。
在另一示例中,可通过对基于墨水的失真的有判断力的使用来扩大训练样本数。可从现有墨水样本(来自非个性化集合)假设或构建简单失真模型。该模型然后可用于产生用户样本中的10-20个折叠。使用失真对设计基于图像的分类器是有效的。
图10示出了采用智能来帮助利用经书写变体训练的分类器识别与手写相关联的字符的示例性系统1000的框图。系统1000可包括个性化组件1002、接口组件104、数据、以及经优化的手写识别,这些可基本类似于在先前各图中所描述的相应的组件、数据以及识别。系统1000还包括智能组件1004。智能组件1004可以由个性化组件1002用于利用书写变体分类器和非书写变体分类器提供经优化的手写字符识别。例如,智能组件1004可推断手写字符、手写字符的劣化、地区特有包、与书写变体的关联等等。
可以理解,智能组件1004能够从一组通过事件和/或数据捕捉的观察中推出或推断系统、环境和/或用户的状态。例如,推断可用于标识特定的上下文或动作,或可生成状态的概率分布。推断可以是概率性的-即,基于数据和事件的考虑计算感兴趣的状态的概率分布。推断也可以指用于从一组事件和/或数据组成更高级事件的技术。这类推断导致从一组观察的事件和/或储存的事件数据构造新的事件或动作,无论事件是否在相邻的时间上相关,也无论事件和数据是来自一个还是若干个事件和数据源。各种分类(显式和/或隐式训练的)方案和/或系统(例如,支持矢量机、神经网络、专家系统、贝叶斯信任网络、模糊逻辑、数据融合引擎……)可用于执行关于所要求保护的主题的自动化和/或推断的动作。
分类器是将输入属性矢量x=(x1,x2,x3,x4,xn)映射到该输入属于一个类的置信度的函数,即f(x)=confidence(class)。这一分类可采用基于概率和/或基于统计的分析(例如,分解成分析效用和成本)来预测或推断用户期望自动执行的动作。支持矢量机(SVM)是可采用的分类器的一个示例。SVM通过找出可能输入空间中的超曲面来操作,其中,超曲面试图将触发准则从非触发事件中分离出来。直观上,这使得分类对于接近但不等同于训练数据的测试数据正确。可采用其它定向和非定向模型分类方法包括,例如,单纯贝叶斯、贝叶斯网络、决策树、神经网络、模糊逻辑模型以及提供不同独立性模式的概率分类模型。此处所使用的分类也包括用于开发优先级模型的统计回归。
呈现组件1006可提供各种类型的用户界面以便于用户与耦合到个性化组件1002的任何组件之间的交互。如所述,呈现组件1006是可与个性化组件1002一起使用的单独实体。然而,可以理解,呈现组件1006和/或类似的查看组件可以被结合到个性化组件1002和/或一单独的单元中。呈现组件1006可以提供一个或多个图形用户界面(GUI)、命令行界面等等。例如,可呈现向用户提供对数据进行加载、导入、读取等的区域或手段并可包括呈现这些动作的结果的区域的GUI。这些区域可包括已知的文本和/或图形区域,包括对话框、静态控件、下拉菜单、列表框、弹出菜单、编辑控件、组合框、单选按钮、复选框、按钮、以及图形框。另外,可采用帮助呈现的工具,诸如用于导航的垂直和/或水平滚动条以及用于确定一区域是否可被查看的工具栏按钮。例如,用户可以与耦合到个性化组件1002的一个或多个组件交互。
用户还可例如经由诸如鼠标、滚球、键区、键盘、笔和/或语音激活等各种设备来与各区域交互以选择并提供信息。通常,诸如键盘上的按钮或回车键等机制可用于随后输入信息以启动搜索。然而,可以理解,所要求保护的主题不限于此。例如,仅仅高亮一复选框可启动信息传送。在另一示例中,可采用命令行界面。例如,该命令行界面可提示(例如,经由显示画面上的文本消息和音频音调)用户通过提供文本消息来输入信息。用户然后可提供合适的信息,诸如对应于该界面提示中提供的选项的字母数字输入,或对提示中所提出的问题的回答。可以理解,该命令行界面可结合GUI和/或API一起使用。另外,该命令行界面可以结合具有有限图形支持和/或低带宽通信信道的硬件(例如,显卡)和/或显示器(例如,黑白以及EGA)一起使用。
图11-12示出了根据所要求保护的主题的方法。为了简化解释,该方法被示出并描述为一系列动作。可以理解和明白,本发明不受所示的动作和/或动作的次序的限制,例如,动作可以按各种次序和/或并发地发生,以及与此处未示出和描述的其它动作一起发生。此外,并非所有示出的动作都是实现根据所要求保护的主题的方法所必需的。另外,本领域的技术人员可以理解和明白,方法可经由状态图或事件被替换地表示为一系列相互关连的状态。另外,还应当理解,以下且在整个说明书中公开的方法能够被储存在制品上以便于将这些方法传输并转移到计算机。如此处所使用的术语制品旨在包含可从任何计算机可读设备、载体或介质访问的计算机程序。
图11示出了用书写变体数据来训练至少一个分类器以提供手写识别的方法1100。在参考标号1102处,可生成书写变体数据。书写变体数据可以自动地、手动地和/或以其任意组合来生成。例如,书写变体数据可以采用任何适当的群集技术(以上讨论)来自动生成。换言之,可实现用于通过群集从手写字符中标识书写变体(例如,字符形状和/或风格)的自动方法。在另一示例中,书写变体数据可以利用手写专家来手动提供,以便基于例如地理区域、学区、语言和书写风格等来提供与手写相关联的类型和/或风格。可以理解,可以存在称为“书写变体”的用户可松散地遵照的手写字符风格。已经尝试了构建西方手写风格的分类表,但是至今没有一种尝试存在。尽管如此,在任何特定国家的学校系统中,仍在教授少数手写风格,并且在任何给定的学区中采用一特定的风格。
在参考标号1104处,可利用书写变体数据来训练分类器。例如,书写变体神经网络(NN)识别器可以与线性分类器级联,其中来自NN的输出可以将字符特征矢量映射到字符书写变体数据。可使用该书写变体数据来训练线性组合器(例如,书写变体折叠器)。可以理解,该经书写变体训练的分类器可以与经非书写变体训练的分类器组合以提高对于手写识别的准确度。在参考标号1106处,可通过采用用书写变体数据训练的分类器来对手写字符提供经优化的手写识别。
图12示出了帮助提供经优化的手写识别的方法1200。在参考标号1202处,可接收其上可实现手写识别的手写字符。在参考标号1204处,可创建书写变体并且可利用特征矢量。该书写变体可以自动地、手动地和/或以其任意组合来创建。例如,该书写变体可以利用群集(例如,如上所述)来自动创建。
在参考标号1206处,可用书写变体数据来训练第一分类器,并且可用非书写变体数据来训练第二分类器。第一分类器可以是书写变体分类器(例如,如上所述的书写变体NN)。第二分类器可以是基础分类器(例如,如上所述的基础NN)。在参考标号1208处,可组合第一和第二分类器的输出。输出组合可通过诸如但不限于线性分类器(例如,lin组合器)、个性化器、RBF内核、支持矢量机(SVM)等的任何适当的组合器来实现。通过组合第一和第二分类器的输出,可对接收的手写字符提供优化且出众的手写识别。
为了提供用于实现所要求保护的主题的各方面的附加上下文,图13-14及以下讨论旨在提供其中可实现本发明的各方面的合适的计算环境的简要、概括描述。例如,如在先前各图中所描述的,利用用书写变体数据训练的至少一个分类器来提供经优化的和/或增强的手写识别的个性化组件可在这一合适的计算环境中实现。尽管所要求保护的主题是在可运行在本地计算机和/或远程计算机上的计算机程序的计算机可执行指令的一般上下文中描述的,然而本领域的技术人员可以认识到,本发明也可结合其它程序模块来实现。一般而言,程序模块包括执行特定的任务和/或实现特定的抽象数据类型的例程、程序、组件、数据结构等等。
此外,本领域的技术人员可以理解,本发明的方法可以采用其它计算机系统配置来实施,包括单处理器或多处理器计算机系统、小型机、大型计算机,以及个人计算机、手持式计算设备、基于微处理器和/或可编程消费电子产品等等,其每一个可以在操作上与一个或多个相关联的设备通信。所示的所要求保护的主题的各方面也可以在其中某些任务由通过通信网络链接的远程处理设备来执行的分布式计算环境中实施。然而,本发明的某些(如果不是全部)方面可在独立计算机上实施。在分布式计算环境中,程序模块可以位于本地和/或远程存储器存储设备中。
图13是所要求保护的主题可与其交互的示例计算环境1300的示意框图。系统1300包括一个或多个客户机1310。客户机1310可以是硬件和/或软件(如,线程、进程、计算设备)。系统1300也包括一个或多个服务器1320。服务器1320也可以是硬件和/或软件(如,线程、进程、计算设备)。例如,服务器1320可容纳线程,以通过使用本发明执行变换。
客户机1310和服务器1320之间的一个可能的通信可以是适用于在两个或多个计算机进程之间传输的数据分组的形式。系统1300包括可用于便于在客户机1310和服务器1320之间通信的通信框架1340。客户机1310操作上连接至可用于储存对客户机1310本地的信息的一个或多个客户机数据存储1350。类似地,服务器1320操作上连接至可用于储存对服务器1320本地的信息的一个或多个服务器数据存储1330。
参考图14,用于实现所要求保护的主题的各方面的示例性环境1400包括计算机1412。计算机1412包括处理单元1414、系统存储器1416和系统总线1418。系统总线1418将包括但不限于系统存储器1416的系统组件耦合至处理单元1414。处理单元1414可以是各种可用处理器的任一种。双微处理器和其它多处理器体系结构也可用作处理单元1414。
系统总线1418可以是若干种总线结构类型的任一种,包括存储器总线或存储器控制器、外围总线或外部总线、和/或使用各类总线体系结构的局部总线,这些体系结构包括但不限于,工业标准体系结构(ISA)、微通道体系结构(MCA)、扩展ISA(EISA)、智能驱动电子设备(IDE)、VESA局部总线(VLB)、外围部件互连(PCI),卡总线、通用串行总线(USB)、高级图形端口(AGP)、个人计算机存储卡国际协会总线(PCMCIA)、火线(IEEE1394)以及小型计算机系统接口(SCSI)。
系统存储器1416包括易失性存储器1420和非易失性存储器1422。基本输入/输出系统(BIOS)包括如在启动时帮助在计算机1412内的元件之间传输信息的基本例程,通常储存在非易失性存储器1422中。作为说明而非局限,非易失性存储器1422可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器1420包括担当外部高速缓存的随机存取存储器(RAM)。作为说明而非局限,RAM以许多形式可用,如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDR SDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)以及存储器总线动态RAM(RDRAM)。
计算机1412也包括可移动/不可移动、易失性/非易失性计算机存储介质。例如,图14示出了盘存储1424。盘存储1424包括但不限于,诸如磁盘驱动器、软盘驱动器、磁带驱动器、Jaz驱动器、Zip驱动器、LS-100驱动器、闪存卡或记忆棒等设备。另外,盘存储1424可单独包括存储介质或与其它存储介质组合,其它存储介质包括但不限于,诸如紧致盘ROM设备(CD-ROM)、CD可记录驱动器(CD-R驱动器)、CD可重写驱动器(CD-RW驱动器)或数字多功能盘ROM驱动器(DVD-ROM)等光盘驱动器。为便于盘存储设备1424连接到系统总线1418,通常使用可移动或不可移动接口,如接口1426。
可以理解,图14描述了担当用户和合适的操作环境1400中描述的基本计算机资源之间的中介的软件。这类软件包括操作系统1428。操作系统1428可储存在盘存储1424中,它用于控制并分配计算机系统1412的资源。系统应用程序1430利用操作系统1428通过储存在系统存储器1416或盘存储1424上的程序模块1432和程序数据1434对资源的管理。可以理解,本发明可用各种操作系统或操作系统的组合来实现。
用户通过输入设备1436向计算机1412输入命令和信息。输入设备1436包括但不限于,诸如鼠标、跟踪球、指示笔、触摸垫等定点设备、键盘、话筒、操纵杆、游戏垫、圆盘式卫星天线、扫描仪、TV调谐卡、数码相机、数码摄像机、web摄像头等等。这些和其它输入设备通过系统总线1418经由接口端口1438连接到处理单元1414。接口端口1438包括,例如,串行端口、并行端口、游戏端口以及通用串行总线(USB)。输出设备1440使用与输入设备1436相同类型端口中的某一些。由此,例如,USB端口可用于向计算机1412提供输入,并从计算机1412输出信息到输出设备1440。提供了输出适配器1442以说明存在一些输出设备1440,如监视器、扬声器和打印机,以及需要特殊适配器的其它输出设备1440。输出适配器1442包括,作为说明而非局限,提供输出设备1440和系统总线1418之间的连接装置的显卡和声卡。应当注意,其它设备和/或设备的系统提供了输入和输出能力,如远程计算机1444。
计算机1412可以使用到一个或多个远程计算机,如远程计算机1444的逻辑连接在网络化环境中操作。远程计算机1444可以是个人计算机、服务器、路由器、网络PC、工作站、基于微处理器的电器、对等设备或其它常见的网络节点等等,并通常包括相对于计算机1412所描述的许多或所有元件。为简明起见,仅对远程计算机1444示出了存储器存储设备1446。远程计算机1444通过网络接口1448逻辑上连接至计算机1412,然后通过通信连接1450物理地连接。网络接口1448包含诸如局域网(LAN)和广域网(WAN)等有线和/或无线通信网络。LAN技术包括光纤分布式数据接口(FDDI)、铜缆分布式数据接口(CDDI)、以太网、令牌环等等。WAN技术包括但不限于,点对点链路、诸如综合业务数字网(ISDN)及其变体等电路交换网络、分组交换网络以及数字用户线(DSL)。
通信连接1450指用于将网络接口1448连接到总线1418的硬件/软件。尽管为说明的清晰性,示出通信连接1450在计算机1412内,然而它也可以对计算机1412是外部的。仅出于示例性目的,连接到网络接口1448所必需的硬件/软件包括内部和外部技术,如包括常规电话级调制解调器、线缆调制解调器和DSL调制解调器的调制解调器、ISDN适配器和以太网卡。
上文所描述的包括本发明的示例。当然,不可能为了描述所要求保护的主题而描述组件或方法的每一可想象的组合,但是本领域的普通技术人员可以认识到,本发明的许多另外的组合和置换是可能的。因此,所要求保护的主题旨在包含落入所附权利要求书的精神和范围中的所有这样的改变、修改和变化。
特别地,关于由上述组件、设备、电路、系统等执行的各种功能,除非另外指明,否则用于描述这些组件的术语(包括对“装置”的叙述)旨在对应于执行所描述的组件的指定功能的任何组件(例如,功能上等效),即使在结构上不等效于所公开的执行此处所示的所要求保护的主题的示例性方面中的功能的结构。在这一点上,还将认识到,本发明包括系统以及具有用于执行所要求保护的主题的各种方法的动作和/或事件的计算机可执行指令的计算机可读介质。
另外,尽管本发明的具体特征是仅参考几种实现中的一种来公开的,但是如对任何给定或特定应用所需且有利的,这一特征可以与其它实现的一个或多个其它特征组合。此外,就在说明书和权利要求书中使用术语“包括”及其变体而言,这类术语旨在以与术语“包含”类似的方式为包含性的。
Claims (20)
1.一种帮助分析手写的系统,包括:
接收至少一个手写字符的接口组件;以及
基于与手写风格相关的书写变体数据来训练一分类器以提供对所述至少一个手写字符的手写识别的个性化组件。
2.如权利要求1所述的系统,其特征在于,还包括生成书写变体数据的书写变体组件。
3.如权利要求2所述的系统,其特征在于,所述书写变体组件利用群集技术自动生成书写变体数据。
4.如权利要求2所述的系统,其特征在于,所述群集技术的结果被可视化为二叉树和相异性树图中的至少一种。
5.如权利要求3所述的系统,其特征在于,所述群集技术是利用动态时间扭曲作为距离度量的分层附聚群集方法。
6.如权利要求1所述的系统,其特征在于,还包括采用第一识别器的分类器组件,所述第一识别器是利用多项式特征技术来提供其输入的书写变体神经网络(书写变体NN)。
7.如权利要求6所述的系统,其特征在于,所述书写变体NN是利用书写变体数据来训练的。
8.如权利要求6所述的系统,其特征在于,所述第一识别器和所述书写变体NN利用简单折叠器、线性折叠器和书写变体折叠器中的至少一个。
9.如权利要求6所述的系统,其特征在于,所述分类器组件采用第二识别器,所述第二识别器是利用多项式特征技术来提供其输入的基础神经网络(基础NN)。
10.如权利要求9所述的系统,其特征在于,所述基础NN是利用非书写变体数据来训练的。
11.如权利要求9所述的系统,其特征在于,还包括能够组合所述第一识别器输出和所述第二识别器输出的组合组件。
12.如权利要求11所述的系统,其特征在于,所述组合组件采用线性组合器和线性分类器中的至少一个。
13.如权利要求11所述的系统,其特征在于,所述组合组件采用能够从数据中学习的组合分类器。
14.如权利要求13所述的系统,其特征在于,所述组合分类器是支持矢量机。
15.如权利要求14所述的系统,其特征在于,所述支持矢量机利用来自用户的手写样本进行学习以便最优地组合所述第一识别器输出和所述第二识别器输出。
16.如权利要求1所述的系统,其特征在于,所述个性化组件考虑因边缘引起的质量劣化来推断所述手写字符。
17.如权利要求1所述的系统,其特征在于,所述书写变体数据可以至少部分地基于以下的至少一个:地理区域、学区、语言以及书写风格。
18.一种帮助提供手写识别的机器实现的方法,包括:
生成书写变体数据;
利用所述书写变体数据来训练第一分类器;以及
提供对手写字符的经优化的手写识别。
19.如权利要求18所述的方法,其特征在于,还包括:
接收手写字符;
自动创建书写变体数据并应用一特征矢量;
用非书写变体数据来训练第二分类器;以及
利用线性组合器、个性化器、支持矢量机(SVM)、以及组合分类器中的至少一个来组合所述第一和第二分类器的输出。
20.一种帮助分析手写的机器实现的系统,包括:
用于接收至少一个手写字符的装置;以及
用于基于与手写风格相关的书写变体数据来训练一分类器以提供对所述至少一个手写字符的手写识别的装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/305,968 US7646913B2 (en) | 2005-12-19 | 2005-12-19 | Allograph based writer adaptation for handwritten character recognition |
US11/305,968 | 2005-12-19 | ||
PCT/US2006/048404 WO2007075669A1 (en) | 2005-12-19 | 2006-12-18 | Allograph based writer adaptation for handwritten character recognition |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101331476A true CN101331476A (zh) | 2008-12-24 |
CN101331476B CN101331476B (zh) | 2012-07-11 |
Family
ID=38173552
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2006800471874A Active CN101331476B (zh) | 2005-12-19 | 2006-12-18 | 帮助分析手写的系统和方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US7646913B2 (zh) |
EP (1) | EP1969487B1 (zh) |
JP (1) | JP5255450B2 (zh) |
KR (1) | KR101411241B1 (zh) |
CN (1) | CN101331476B (zh) |
WO (1) | WO2007075669A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109784330A (zh) * | 2019-01-03 | 2019-05-21 | 北京百度网讯科技有限公司 | 招牌内容识别方法、装置及设备 |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AUPR824401A0 (en) * | 2001-10-15 | 2001-11-08 | Silverbrook Research Pty. Ltd. | Methods and systems (npw002) |
US7418128B2 (en) * | 2003-07-31 | 2008-08-26 | Microsoft Corporation | Elastic distortions for automatic generation of labeled data |
US7646913B2 (en) * | 2005-12-19 | 2010-01-12 | Microsoft Corporation | Allograph based writer adaptation for handwritten character recognition |
US7886266B2 (en) * | 2006-04-06 | 2011-02-08 | Microsoft Corporation | Robust personalization through biased regularization |
US20080199084A1 (en) * | 2007-02-19 | 2008-08-21 | Seiko Epson Corporation | Category Classification Apparatus and Category Classification Method |
CN101373519B (zh) * | 2007-08-20 | 2011-01-19 | 富士通株式会社 | 字符识别装置和方法 |
US8116569B2 (en) * | 2007-12-21 | 2012-02-14 | Microsoft Corporation | Inline handwriting recognition and correction |
US8255822B2 (en) * | 2007-12-21 | 2012-08-28 | Microsoft Corporation | Incorporated handwriting input experience for textboxes |
US8064702B2 (en) * | 2007-12-21 | 2011-11-22 | Microsoft Corporation | Handwriting templates |
US8335381B2 (en) * | 2008-09-18 | 2012-12-18 | Xerox Corporation | Handwritten word spotter using synthesized typed queries |
US9465985B2 (en) | 2013-06-09 | 2016-10-11 | Apple Inc. | Managing real-time handwriting recognition |
US20140363082A1 (en) * | 2013-06-09 | 2014-12-11 | Apple Inc. | Integrating stroke-distribution information into spatial feature extraction for automatic handwriting recognition |
US9495620B2 (en) | 2013-06-09 | 2016-11-15 | Apple Inc. | Multi-script handwriting recognition using a universal recognizer |
US9384403B2 (en) | 2014-04-04 | 2016-07-05 | Myscript | System and method for superimposed handwriting recognition technology |
US9524440B2 (en) * | 2014-04-04 | 2016-12-20 | Myscript | System and method for superimposed handwriting recognition technology |
KR20160073146A (ko) | 2014-12-16 | 2016-06-24 | 주식회사 디오텍 | 혼동행렬을 이용한 필기인식 단어 보정 방법 및 장치 |
US9665769B2 (en) * | 2015-08-18 | 2017-05-30 | International Business Machines Corporation | Handwriting recognition with natural user input on multitouch surfaces |
KR102482850B1 (ko) * | 2016-02-15 | 2022-12-29 | 삼성전자 주식회사 | 전자 장치 및 전자 장치의 필체 교정 기능 제공 방법 |
CN107239786B (zh) | 2016-03-29 | 2022-01-11 | 阿里巴巴集团控股有限公司 | 一种字符识别方法和装置 |
DK179329B1 (en) | 2016-06-12 | 2018-05-07 | Apple Inc | Handwriting keyboard for monitors |
WO2018092957A1 (ko) * | 2016-11-21 | 2018-05-24 | 주식회사 알고리고 | 신경망 모델에서 입력값에 대한 재학습 여부 결정 방법, 장치 및 프로그램 |
JP2018112839A (ja) * | 2017-01-10 | 2018-07-19 | 富士通株式会社 | 画像処理プログラム、画像認識プログラム、画像処理装置、画像認識装置、画像認識方法、及び画像処理方法 |
KR102053885B1 (ko) * | 2018-03-07 | 2019-12-09 | 주식회사 엘렉시 | 판서 분석 시스템 및 방법과 어플리케이션 |
KR101989960B1 (ko) * | 2018-06-21 | 2019-06-17 | 가천대학교 산학협력단 | 복수 개의 기계학습 모델을 사용한 실시간 필기 인식 방법, 이를 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체 및 실시간 필기 인식 시스템 |
KR20200101481A (ko) * | 2019-01-28 | 2020-08-28 | 삼성전자주식회사 | 전자 장치 및 그의 필체 보정 방법 |
KR20200103236A (ko) | 2019-02-22 | 2020-09-02 | 삼성전자주식회사 | 수기에 기반한 입력을 디스플레이하기 위한 방법 및 장치 |
US11194467B2 (en) | 2019-06-01 | 2021-12-07 | Apple Inc. | Keyboard management user interfaces |
KR20220088166A (ko) * | 2020-12-18 | 2022-06-27 | 삼성전자주식회사 | 복수의 사용자 환경에서 필기 입력 인식 방법 및 장치 |
EP4057182A1 (en) * | 2021-03-09 | 2022-09-14 | Société BIC | Handwriting feedback |
US11914673B2 (en) | 2021-10-05 | 2024-02-27 | Prince Mohammad Bin Fahd University | System to identify authorship of handwritten text based on individual alphabets |
KR20230080120A (ko) * | 2021-11-29 | 2023-06-07 | 삼성전자주식회사 | 전자 장치 및 전자 장치에서 필기 정보 마스킹 및 언마스킹 방법 |
Family Cites Families (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4701960A (en) | 1983-10-28 | 1987-10-20 | Texas Instruments Incorporated | Signature verification |
US4972496A (en) | 1986-07-25 | 1990-11-20 | Grid Systems Corporation | Handwritten keyboardless entry computer system |
FR2604004B1 (fr) | 1986-09-11 | 1990-05-11 | Anatex | Procede de reconnaissance d'ecriture manuscrite |
US5369737A (en) | 1988-03-21 | 1994-11-29 | Digital Equipment Corporation | Normalization of vectors associated with a display pixels of computer generated images |
JPH02263275A (ja) | 1989-04-03 | 1990-10-26 | Kiyadeitsukusu:Kk | 手書き文字の登録パターン作成方式 |
JPH04253259A (ja) * | 1991-01-29 | 1992-09-09 | Kawasaki Steel Corp | ニューラルネットワークの学習方法 |
JPH04279965A (ja) * | 1991-03-07 | 1992-10-06 | Koizumi Sangyo Kk | パターン認識装置 |
US5105468A (en) | 1991-04-03 | 1992-04-14 | At&T Bell Laboratories | Time delay neural network for printed and cursive handwritten character recognition |
US5285506A (en) | 1991-04-30 | 1994-02-08 | Ncr Corporation | Method of recording a handwritten message |
US5544257A (en) | 1992-01-08 | 1996-08-06 | International Business Machines Corporation | Continuous parameter hidden Markov model approach to automatic handwriting recognition |
US5442715A (en) | 1992-04-06 | 1995-08-15 | Eastman Kodak Company | Method and apparatus for cursive script recognition |
US5502774A (en) | 1992-06-09 | 1996-03-26 | International Business Machines Corporation | Automatic recognition of a consistent message using multiple complimentary sources of information |
US5287417A (en) | 1992-09-10 | 1994-02-15 | Microsoft Corporation | Method and system for recognizing a graphic object's shape, line style, and fill pattern in a pen environment |
US5528699A (en) | 1992-11-24 | 1996-06-18 | Nippondenso Co., Ltd. | Information medium recognition device |
US5491758A (en) | 1993-01-27 | 1996-02-13 | International Business Machines Corporation | Automatic handwriting recognition using both static and dynamic parameters |
US5649068A (en) * | 1993-07-27 | 1997-07-15 | Lucent Technologies Inc. | Pattern recognition system using support vectors |
JP2673871B2 (ja) * | 1993-08-26 | 1997-11-05 | 日本アイ・ビー・エム株式会社 | ニューラル・ネットワークによるパターン認識方法及び装置 |
DE69425412T2 (de) * | 1993-11-23 | 2001-03-08 | Ibm | Anlage und Verfahren zur automatischen Handschrifterkennung mittels eines benutzerunabhängigen chirographischen Labelalphabets |
US5854855A (en) * | 1994-09-09 | 1998-12-29 | Motorola, Inc. | Method and system using meta-classes and polynomial discriminant functions for handwriting recognition |
US5764797A (en) | 1995-04-25 | 1998-06-09 | Microsoft Corporation | Method and system for modeling handwriting using polynomials as a function of time |
US6094506A (en) | 1995-10-25 | 2000-07-25 | Microsoft Corporation | Automatic generation of probability tables for handwriting recognition systems |
US5926566A (en) * | 1996-11-15 | 1999-07-20 | Synaptics, Inc. | Incremental ideographic character input method |
US5884294A (en) * | 1997-04-18 | 1999-03-16 | Northrop Grumman Corporation | System and method for functional recognition of emitters |
US5889523A (en) | 1997-11-25 | 1999-03-30 | Fuji Xerox Co., Ltd. | Method and apparatus for dynamically grouping a plurality of graphic objects |
US6320985B1 (en) | 1998-07-31 | 2001-11-20 | International Business Machines Corporation | Apparatus and method for augmenting data in handwriting recognition system |
US7336827B2 (en) * | 2000-11-08 | 2008-02-26 | New York University | System, process and software arrangement for recognizing handwritten characters |
AUPR824401A0 (en) * | 2001-10-15 | 2001-11-08 | Silverbrook Research Pty. Ltd. | Methods and systems (npw002) |
CN1647079A (zh) * | 2002-04-19 | 2005-07-27 | 计算机联合思想公司 | 使用神经网络进行数据挖掘 |
SE0202446D0 (sv) * | 2002-08-16 | 2002-08-16 | Decuma Ab Ideon Res Park | Presenting recognised handwritten symbols |
US7184591B2 (en) * | 2003-05-21 | 2007-02-27 | Microsoft Corporation | Systems and methods for adaptive handwriting recognition |
WO2005024711A1 (en) * | 2003-09-05 | 2005-03-17 | Gannon Technologies Group | Systems and methods for biometric identification using handwriting recognition |
JP4231375B2 (ja) * | 2003-10-03 | 2009-02-25 | 日本電信電話株式会社 | パターン認識装置、パターン認識方法、パターン認識プログラムおよびパターン認識プログラムを記録した記録媒体。 |
KR100621845B1 (ko) * | 2004-04-07 | 2006-09-14 | 김계영 | 필기문자 자동인식을 통한 언어교육시스템 및 그 방법 |
JP2005309920A (ja) * | 2004-04-23 | 2005-11-04 | Alliance Group Inc | 多数決装置及びその学習方法と多クラス識別装置 |
US7646913B2 (en) * | 2005-12-19 | 2010-01-12 | Microsoft Corporation | Allograph based writer adaptation for handwritten character recognition |
US7724957B2 (en) * | 2006-07-31 | 2010-05-25 | Microsoft Corporation | Two tiered text recognition |
-
2005
- 2005-12-19 US US11/305,968 patent/US7646913B2/en active Active
-
2006
- 2006-12-18 KR KR1020087013987A patent/KR101411241B1/ko active IP Right Grant
- 2006-12-18 JP JP2008547437A patent/JP5255450B2/ja active Active
- 2006-12-18 EP EP06845796.9A patent/EP1969487B1/en active Active
- 2006-12-18 WO PCT/US2006/048404 patent/WO2007075669A1/en active Application Filing
- 2006-12-18 CN CN2006800471874A patent/CN101331476B/zh active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109784330A (zh) * | 2019-01-03 | 2019-05-21 | 北京百度网讯科技有限公司 | 招牌内容识别方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
KR101411241B1 (ko) | 2014-06-24 |
US20070140561A1 (en) | 2007-06-21 |
US7646913B2 (en) | 2010-01-12 |
EP1969487A1 (en) | 2008-09-17 |
CN101331476B (zh) | 2012-07-11 |
JP2009520305A (ja) | 2009-05-21 |
KR20080086449A (ko) | 2008-09-25 |
EP1969487A4 (en) | 2015-08-12 |
EP1969487B1 (en) | 2019-09-04 |
JP5255450B2 (ja) | 2013-08-07 |
WO2007075669A1 (en) | 2007-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101331476B (zh) | 帮助分析手写的系统和方法 | |
CN101496036B (zh) | 两层文本识别系统和方法 | |
CN104205126B (zh) | 对手写字符的无旋转识别 | |
US7580551B1 (en) | Method and apparatus for analyzing and/or comparing handwritten and/or biometric samples | |
Bertolini et al. | Reducing forgeries in writer-independent off-line signature verification through ensemble of classifiers | |
Man et al. | Use of data mining methods to detect test fraud | |
JP2009506464A (ja) | 筆跡入力のスタイルを意識した使用 | |
Liu et al. | Document image classification: Progress over two decades | |
Das et al. | Determining attention mechanism for visual sentiment analysis of an image using svm classifier in deep learning based architecture | |
Mo et al. | Weighted pseudo labeled data and mutual learning for semi-supervised classification | |
Prevost et al. | Hybrid generative/discriminative classifier for unconstrained character recognition | |
JP5237110B2 (ja) | 論理構造およびレイアウトに基づくオフラインの文字認識 | |
Fu et al. | Multilinguistic handwritten character recognition by Bayesian decision-based neural networks | |
Rajpal et al. | Deep learning model for recognition of handwritten Devanagari numerals with low computational complexity and space requirements | |
Li et al. | Face recognition using improved pairwise coupling support vector machines | |
Javidi et al. | A modified decision templates method for Persian handwritten digit recognition | |
Li et al. | Multi-class SVM classifier based on pairwise coupling | |
Pruthvi et al. | Convolution neural network for predicting alphabet sign language and comparative performance analysis of cnn, knn, and svm algorithms | |
Awaida et al. | Automatic check digits recognition for Arabic using multi-scale features, HMM and SVM classifiers | |
Sober-Mira et al. | Pen-based music document transcription | |
Shivthare et al. | Multimodal Biometric in Computer Vision | |
Agarwal et al. | Greedy search for active learning of OCR | |
Fornés et al. | Hand drawn symbol recognition by blurred shape model descriptor and a multiclass classifier | |
Mishra et al. | Classifying Chart Based on Structural Dissimilarities using Improved Regularized Loss Function | |
Chandarana et al. | Indian Sign Language Recognition with Conversion to Bilingual Text and Audio |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
ASS | Succession or assignment of patent right |
Owner name: MICROSOFT TECHNOLOGY LICENSING LLC Free format text: FORMER OWNER: MICROSOFT CORP. Effective date: 20150423 |
|
C41 | Transfer of patent application or patent right or utility model | ||
TR01 | Transfer of patent right |
Effective date of registration: 20150423 Address after: Washington State Patentee after: Micro soft technique license Co., Ltd Address before: Washington State Patentee before: Microsoft Corp. |