CN1079832A - 检索表意文字及相关联词典条目的方法和系统 - Google Patents

检索表意文字及相关联词典条目的方法和系统 Download PDF

Info

Publication number
CN1079832A
CN1079832A CN92111341A CN92111341A CN1079832A CN 1079832 A CN1079832 A CN 1079832A CN 92111341 A CN92111341 A CN 92111341A CN 92111341 A CN92111341 A CN 92111341A CN 1079832 A CN1079832 A CN 1079832A
Authority
CN
China
Prior art keywords
stroke
literal
feature
group
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN92111341A
Other languages
English (en)
Other versions
CN1035084C (zh
Inventor
胡百熙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Publication of CN1079832A publication Critical patent/CN1079832A/zh
Application granted granted Critical
Publication of CN1035084C publication Critical patent/CN1035084C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/274Converting codes to words; Guess-ahead of partial word inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Abstract

汉字等表意文字的查找方法和系统。计算机显 示分别关于待检文字的首笔和末笔几何特征,及其几 何界限与笔划总数的四个问题。计算机还显示有关 该文字中各由两笔形成的交叉数这第五个问题。一 旦用户对此作出选择,计算机便进行检索,消去不符 合所选特征的文字。完成检索后,计算机显示有所选 特征和笔划总数的所有文字。当显示文字过多时,用 户可输入对第五个问题的回答,以便计算机可进一步 检索和消去部分文字,便于用户有效识别所需文字。

Description

本发明一般地涉及从数据库检索字符的一种方法和系统。更具体地说,本发明涉及根据与所选的几何特征集和待查寻的文字笔划总数有关的输入信息,从一词典数据库检索诸如汉字等表意文字的一种方法和系统。本发明有效检索很少几个字符便可供用户有效地识别所需字符。
不象英文,中文是没有字母的。汉字由多个笔划组成。笔划的形状是相当不规则的。各种各样的变化也是丰富的。因此,要在一个词典中查找出一个特定的字是极其困难的。在传统的词典中,第一部分或有时为最重要的部分,称之为每个字的“部首”是从该文字抽出的。具有相同笔划数的“部首”被排在同一组内。有相同部首的文字被排在同一组内。每一组中将具有较少笔划的字排在具有较多笔划字的前面。为了从传统词典中查出一个特定的文字,人们首先必须确定那个字的正确部首,然后,一边记着其笔划数,一边匆匆看过具有相同部首的文字目录。
这种传统词典存在几个缺点。首先,在一标准的中文词典中,有200个以上的部首。虽然具有相同笔划数的部首被排在同一组内,但往往难以确定一个特定字的正确部首。有一些字根据常识判断应该归于具有某一特定部首的字符组内,但没任何明显的理由却归入了具有不同部首的另一组字符中。因此,有时十分令人不解,而且常常在花费了大量时间之后仍不能找到正要找的文字。
本发明为从一词典数据库检索诸如汉字之类的表意文字提供一种方法和系统。本发明的词典数据库储存一字符集合(collection    of    chararters)连同其相应发音和解释条目。词典数据库是这样预先排列的,以使每个字符与指定所选几何特征集的多个存储域及其笔划总数有关。根据本发明,一个计算机系统利用由用户提供的有关待查找文字的几何特征和笔划总数的输入信息。计算机检索和找出符合该特性描述和具有所提供的予定总数范围内特定笔划数的所有文字,以供用户识别所需文字。
根据本发明的一个方面,计算机要求用户指定待检索文字的所选几何特征集及其笔划总数。所选几何特征集包括第一和最后笔划的特征以及该文字范围内的任何几何界限。所选集还要包括与该文字中各由两划形成的交叉数有关的一个可任选问题。本发明承认:任一汉字的第一笔划是仅有的四种可能性之一,而最后一划是仅有的五种可能性之一。此外,本发明判定:绝大多数汉字包含有限几种全封闭的几何界限。
根据本发明的另一方面,计算机用消去法检索整个数据库。此时计算机检索和显示具有与用户指定几何特性相同的所选集以及具有用户所提供的一个预定总数范围内的特定笔划数的所有文字。这样,即使用户错误给出有关该文字的准确总笔划数信息,系统适应这类错误并仍然对包含要查找文字的所有文字进行检索。
根据本发明的又一方面,若检索出和供识别的显示文字太多,则用户可选择回答所述可任选问题,以使计算机可进行进一步消除。在用户辨认出正确文字后,则象任何传统词典一样,计算机显示该文字的相应发音和种种解释条目。
对本发明其他性能和优点的进一步理解可参考说明书和附图其余部分而获得。
图1A为可实施本发明的一个计算机系统的方块图;
图1B示出怎样存储汉字的几个实例,连同在本发明的词典数据库中指定所选特性与笔划总数的相关存储域。
图2A表示当计算机准备为某一字进行检索时,在屏幕上所显示的五个问题集。
图2B表示在另一个具有与图2A所示同样的另一些问题的实施例中,对图2A的第三个问题的替换问题。
图3A-3F表示当图3A中所示文字被检索时,本发明的检索过程。
图4通过一流程图,图解说明本发明。
本发明可在如图1A的系统100之类的计算机系统上实施,该系统包括一中央处理器101,主存储器102,I/O控制器103,屏幕或显示器104,大容量存储器105,键盘106,指示装置107和一输出装置108。系统100的各部件通过系统总线109或类似的体系结构进行通信。
操作时,用户通过键盘106和/或指示装置107输入命令,该指示器可为鼠标,跟踪球,数字化图形输入板,或类似装置。计算机显示诸如汉字等的表意文字,其他数据通过诸如阴极射线管之类的屏幕104。从通常为打印机或绘图机的输出装置108可获得屏幕104上的这些文字的硬拷贝。在一最佳实施例中,采用一个适当编程的IBM    PC-兼容个人计算机(可从Armonk,N.Y.的IBM公司买到)在MS-DOS和开窗口(windows)(可从Redmond,wash的微软件公司买到)操作下运行。
本发明包括一个数据库,该数库据将大约11500个文字集合,以其原形及其相应发音和解释条目形式储存在诸如主存贮器102之类的存储器中。中华人民共和国(PRC)所用简体字也存入该数据库。除了对简体字序号附加字母“A”之外,每个传统文字及其相应简体(若有的话)都一起被存储并赋予同一序号。图1B表示如何将文字存入词典数据库的几个实例。这些文字被予先排列以使数据库中的每个文字与指定该文字所选的几何特征集的多个存储域有关。这些特征包括待检索文字的第一和最后笔划以及任何几何界限的特征,其笔划总数,和在该文字中各由两笔划构成的交叉数(若有的话)。所存贮的一个文字的第一和最后一笔的特征是基于标准书写次序而且连同其笔划总数均是在一般词典中已得到大量证明的。若第一笔划是复杂的,则存储其第一部分的特征。同理,若最后笔划是复杂的,则存贮其最后部分的特征。图1B的项目(e)表示一个有复杂的第一和最后笔划的文字实例,。这些特征在下面予以更详细地解释。
在这个交互式计算机系统中,用户为检索一特定文字及其相应的词典条目而选择字搜索功能之后,则如图2A所示,屏幕104显示一组有关该文字所选的几何特征集连同预选的多个选择回答以及其笔划总数等问题。
参照图2A,本发明承认任一汉字的第一划仅是图2A第一行所示四种可供选择的特征之一,这四种特征为:(a)水平笔划(b)竖划,(c)较小,倒置刀痕状(inverse    slash-shaped)笔划或一个点,和(d)向下往左斜移的弯曲刀痕状笔划,(即,一撇)。本发明还承认:任一汉字的最后笔划仅是图2第二行所示的五种可供选择形式之一,这五种形式即为:(a)横划(b)竖划(c)较小倒置的刀痕状笔划或一点,(d)向下往左斜移的弯曲砍痕状笔划或其变化形式和(e)向下往右斜移的弯曲砍痕状笔划或其变化形式。最后笔划的选择项(d)和(e)的变化形式示于括号中。
此外,本发明判明:大多数汉字包含如图2A之第三行所示的有限几种全封闭式几何界限。对于这些几何界限的不同选择说明于下表1中。
表1
选择项    说明
(a)    没有完全封闭的几何界限
(b)    至少一个诸如内部无笔划的正方或长方形之类的全封闭几
何界限。
(c)    至少一个诸如内部有一竖划的正方或长方形之类的全封闭
几何界限。
(d)    至少一个诸如内部有一横划的正方或长方形之类的全封闭
几何界限。
(e)    至少一个诸如内部有两个垂直或大致垂直笔划的正方或长
方形之类的全封闭几何界限。
(f)    至少一个诸如内部有两水平笔划的正方或长方形之类的全
封闭几何界限
(g)    至少一个诸如内部带有两笔划形成的一交叉的正方或长方
形之类的全封闭几何界限。
(h)    至少一个诸如内部带有多于两笔划的正方或长方形之类的
全封闭几何界限。
(i)    至少一个全封闭的不规则几何界限。
图2A中的第四行涉及该文字的笔划总数。由于如下面将说明的本发明适应限界误差的需要,故笔划总数不必绝对精确。图2a中的第五行为一任选问题。该问题是关于由文字中每两个笔划构成的交叉数。该问题除外文字中两笔划构成“T”形的情况。
用户使用键盘106或鼠标107,以便移动光标在不同的选择方案中进行选择。用户首先通过在对第一个问题诸答案中作一适当选择来给定该文字的第一笔划的特征。一旦作出该选择,计算机便检索包含词典数据库中所有文字的第一笔划的整个存储域。在数据库中仅仅是那些具有相应于所选特征的第一笔划的文字被选出,以形成供进行进一步筛选的第一组文字。其余文字被删去。在此期间,用户通过在第二个问题的答案中作另一适当选择而给定该文字最后笔划的特征。以类似方式,根据该最后笔划选择,计算机检索包含第一组文字的最后笔划的整个存储域。在第一组中仅仅是那些具有相应于所选特征的最后笔划的那些文字被选出,以形成供进行进一步筛选的第二组文字。再次消去其余文字。在计算机进行查寻的同时,用户通过在第三个问题的不同选择方案中作出所有可适用的选择来给定该文字范围内任何几何界限的特征,因为一个文字可能包含一种以上的几何界限。在选择几何界限时,用户必须给定作为整个文字范围内的最大可能界限,而不是作为较小的局部界限。见图1B项目(b)中,例如,该文字包含一个具有一个内部交叉的几何界限。一定不要以为包含四个内部无笔划的小界限。计算机一旦接收对几何界限的给定选择信息,便检索包含第二组所有文字的几何界限的整个存储域。在第二组中只有那些具有相应于给定界限的所有几何界限的文字被选出以形或供进一步筛选的第三组文字。再一次消去其余文字。在此期间,用户输入该文字的笔划总数。计算机一旦接收该总数便检索包含第三组文字之笔划总数的整个存储域。在第三组中只有那些具有与输入或在该输入的予定范围内的笔划总数相同的文字被选出,以形成第四组文字,以供任何可能的进一步筛选之用。在一最佳实施例中,为适应正确笔划总数计数时的可能误差之需,所述予定范围是在比用户输入值少一划和比其多一划之间。
完成检索过程之后,计算机在屏幕上显示所有第四组文字,以便用户辨认该文字。此时,若屏幕上只显示出几个文字,用户可选择不去回答第五个任选问题。反之,若用户发现屏幕上显示出过多文字,则他或她可输入给定该文字交叉数的回答。在后一种情况下,计算机为进一步消去第四组文字中不符合该说明的文字进行类似检索并显示那些作为第五组的文字。接着,用户从屏幕显示辨认正确文字。然后计算机象任何一般词典一样显示该文字的相应读音和解释项目。
在PRC中所用的简体字,可以如上所述的相同方式从词典数据库找出。根据本发明,计算机用进行检索时所用的同一方法处理所有简化或传统文字。传统和简体字,以先出现传统字再出现简体字的方式独立地显示在屏幕上。无论用户想要找传统文字还是简体字,计算机总是以简体字包含在括号内的方式显示同一字的两种形式。
在另一实施例中,计算机显示如图2A所示的同样五个问题,只是除外与如图2B所示和下表2所解释的包括六个选择项文字几何界限相关的多种选择项回答。
表2
选择项    解释
(a)    非完全封闭的几何界限
(b)    至少一个诸如内部无笔划的正方形或长方形的全封闭几何
界限。
(c)    至少一个诸如内部有一划的正方形或长方形之类的全封
闭几何界限。
(d)    至少一个诸如内部有两划的正方形或长方形之类的全封闭
几何界限
(e)    至少一个诸如内部多于两划的正方形或长方形之类的全
封闭几何界限。
(f)    至少一个全封闭的非规则几何界限
通过举一个实例可更好地理解本发明。假设从一个例如包含图3B所示16字集合的词典数据库检索具有图3A所示几何特征和笔划总数的文字。计算机首先显示图2A所示那组问题。用户首先选择有关第一笔划问题的选择项(a)。基于这一选择,计算机检索整个图3B中的表并消去不满足该说明条件的文字。于是如图3c所示,选出只有7个文字的第一组,以供进一步筛选。
与此同时,用户选择有关最后笔划之问题的选择项(a)。然后计算机对图3c中的七个文字进行又一次完整的检索,并消去不符合该说明的文字。这样,只选出如图3D所示的四个文字组成的第二组,以供进一步筛选。在进行检索的同时,用户选择有关该文字范围内的几何界限的问题选择项(b)。计算机基于这一选择,执行另一次检索。在图3D所示的第二组中,只有两个文字满足该说明而被选出,以形成如图3E所示的第三组文字,供更进一步筛选之用。其余两个文字被消去。此时,用户对有关笔划总数的问题以输入“5”作为回答。于是计算机根据该笔划总数对图3E中的两个文字进行又一次检索。在此例子中,图3E中只有一个所示文字具备笔划总数为5的条件。因此,在屏幕上显示出这个文字。由于只有一个文字-正确的文字显示于屏幕上,故用户不必回答为进一步消去而提出的第五个任选问题。在用户辨认该文字之后,计算机象任何常规词典那样显示相应读音和解释项目。
图4通过流程图来说明本发明。在步骤401,计算机在屏幕上显示有关第一和最后笔划之几何特征,和待检索文字的任何全封闭几何界限,及其笔划总数的四个问题和关于该文字中各由两笔形成的交叉数的一个任选问题。此外,计算机对有关第一和最后笔划及该文字的任何几何界限的前三个问题中的每个问题都显示一组相关的多个可选回答。在步骤402,计算机一旦接收由用户给定的关于第一笔划特征的选择,便对词典数据库中与接收到的有同样第一笔划的所有文字进行检索,以形成供进一步筛选的第一组文字并消去其余文字。在步骤403,计算机一接收到由用户给定的对最后笔划特征的选择便对整个第一组文字进行检索。仅仅那些与接收到的有同样最后笔划的文字被选出,以构成第二组。其余文字被消去。在步骤404,计算机一接收到由用户给定的几何界限的选择,便检索整个第二组文字。仅仅选出与所接收的具有同样几何界限的那些文字,构成第三组。再次消去其余文字。在步骤405,计算机一接收到由用户输入的笔划总数便对整个第三组文字进行检索。仅仅选择与所输入的具有总数相同或多一笔或少一笔的文字来构成第四组。在步骤406,计算机将第四组文字显示在屏幕上,以供用户识别。此时,若只显示出几个文字,则用户可选择:忽略第五个可选问题并辨认正确文字。反之,若用户发现屏幕上显示出过多文字,则他或她可输入对第五问题的回答。在后一种情况下,如图4步骤407所示,计算机进行对整个第四组文字的最后检索,以构成第五组。只有那些具有正好相同交叉数的文字显示在屏幕上,供用户识别。在步骤408经用户识别出正确文字之后,计算机便象任何常规词典那样显示该文字的相应读音及解释条目。至此,计算机已准备好可对某一不同文字进行另一次检索。
虽然已参照最佳实施例对本发明进行了描述,但还存在对本领域技术人员来说是显而易见的各种替换和改进。例如,与数据库中每个文字相关的存储域不必存储该文字的精确几何特征。它们可简单地存储那些特征的数字和/或字母意义。同样,以类似方式还可查找与汉字相似的其它种类的表意文字。因此,本发明范围并不局限于实施例,而是由所附权利要求书确定。

Claims (51)

1、一种从给定和储存每个文字的所选几何特征集和笔划总数的数据库中检索文字的方法,该方法包括以下步骤:
(a)请用户给定所选的几何特征集,这些特征包括待检索文字的任何几何界限的特征和所述文字的笔划总数;
(b)通过所述数据库对具有与用户所指定特征相同的所选几何特征集并具有在包含所述总数的一个所述总数之予定范围内的特定笔划数的所有文字进行检索;和
(c)检索所有所述文字,以供用户识别所述文字。
2、如权利要求1的所述方法,其特征在于步骤(b)中的所述予定范围为在少于所述总数1笔至多于所述总数1笔之间。
3、如权利要求1的所述方法,其特征在于:所选几何特征集还包括所述文字的第一笔划的特征。
4、如权利要求1的所述方法,其特征在于:所述所选几何特征集还包括所述文字最后笔划的特征。
5、如权利要求1的所述方法,其特征在于:所述所选几何特征集还包括所述文字的第一笔划和一最后笔划的特征。
6、如权利要求5的所述方法,其中步骤(b)包括:
通过所述数据库对具有与用户指定的相同的第一笔划的所有文字进行检索,以形成第一组;
通过所述第一组检索与用户给定的相同最后笔划特征的所有文字,以形成第二组;
通过所述第二组检索几何界限与用户给定的特征相同的所有文字,以形成第三组;和
通过所述第三组检索在所述总数的所述予定范围内有特定笔划数的所有文字,以形成第四组。
7、如权利要求6的所述方法,还包括:显示所述第四组中的全部文字,供用户识别所述文字。
8、如权利要求7所述方法,其中步骤(a)包括:使得在用户发现所述第四组包括许多文字时能有选择给定所述文字中各由两笔划构成的交叉数的机会,同时其中步骤(b)还包括通过所述第四组检索具有与用户给定的相同交叉数的所有文字,以形成第五组。
9、如权利要求8的所述方法,还包括显示所述第五组中的全部文字,以供用户识别所述文字的步骤。
10、如权利要求9的所述方法,其中步骤(a)还包括:
至少显示分别有关:所述第一笔划之特征,所述最后笔划之特征,任何几何界限的特征,和所述笔划总数这四个问题以及一个有关所述交叉数的任选问题;和
至少显示三组予选的多个可选回答,其每一组与关于所述第一和最后笔划和所述任何几何界限的所述问题之一有关,以供用户识别。
11、如权利要求10的所述方法,还包括显示以传统文体与简体两种形式的所述文字及其相应读音和解释条目。
12、从贮存文字集的数据库检索文字的一种方法,包括以下步骤:
(a)予先排列所述数据库以使所述数据库中的每个文字与指定包括任何几何界限及其笔划总数的所述几何特征集的多个存储域有关,同时所述几何界限特征包括至少以下六种:
不存在任何几何界限,
至少一种内部无笔划的几何界限,
至少一种内部有一笔的几何界限,
至少一种内部有两划的几何界限,
至少一种内部有多于两划的几何界限,和
至少一种不规则的几何界限,
(b)请求用户给定所选几何特征集,包括基于最大界限的所述6种几何界限中所有适合的界限以及待检索文字的笔划总数;
(c)通过所述数据库检索具有与用户给定的相同的所选几何特征集及在一包含所述总数的所述笔划总数予定范围内的特定笔划数之所有文字;和
(d)对所有所述文字进行修正检索,供用户识别所述文字。
13、如权利要求12所述的方法,其中所选每个文字的几何特征集还包括:第一笔划特征,该特征是仅仅包括水平笔划,垂直笔划,较小的反向刀痕形笔划和往下斜向左移的弯曲刀痕状笔划及其变型,这四种笔划之一。
14、如权利要求12的所述方法,其中每个文字所选几何特征集还包括一最后笔划的特征,该特征仅为下述五种之一,有:水平笔划,垂直笔划,较小反向刀痕形笔划,倾斜向下左移的弯曲刀痕形笔划及其变型,和倾斜向下右移的弯曲反向刀痕形笔划及其变型。
15、如权利要求12所述方法,其中每个文字的所选几何特征组还包括:
仅为下述四种之一的第一笔划特征,这四种包括:水平笔划,垂直笔划,较小的反向刀痕形笔划,和倾斜向下左移的弯曲刀痕形笔划及其变型;和
仅为下述五种之一的最后笔划特征,这五种包括:水平笔划,垂直笔划,较小的反向刀痕形笔划,倾斜向下左移的弯曲刀痕形笔划及其变型,和倾斜向下右移的弯曲反向刀痕形笔划及其变型。
16、如权利要求15所述方法,其中步骤(C)中所述予定范围在比所述总数少一笔划与多一笔划之间。
17、如权利要求15的所述方法,其中步骤(c)包括:
通过所述数据库检索具有与用户给定的相同的第一笔划的所有文字,以形成第一组;
通过所述第一组检索具有与用户给定的相同的最后笔划的所有文字,以形成第二组;
通过所述第二组检索具有与用户给定的相同的那些几何界限的所有文字,以形成第三组;和
通过所述第三组检索具有在所述总数之所述予定范围内的特定笔划数的所有文字,以形成第四组。
18、如权利要求17所述的方法,进一步包括:显示所述第四组中的所有文字,以供用户识别所述文字。
19、如权利要求18的所述方法,其中步骤(b)包括:当用户发现所述第四组包括许多文字时能有可能给定所述文字中各由两笔构成的交叉数,而且其中步骤(c)还包括通过所述第四组检索具有与用户所给定的相同交叉数的所有文字,以形成第五组文字。
20、如权利要求19的所述方法,还包括显示所述第五组的全部文字,以便由用户识别所述文字。
21、如权利要求20所述的方法,其中步骤(b)还包括:
至少显示分别关于所述第一笔划特征,所述最后笔划特征,任何几何界限特征和所述笔划总数的四个问题以及关于所述交叉数的一个任选问题;和
至少显示三组予选的多个可选择回答,其每一组与关于所述第一和最后笔划和所述任何几何界限的所述问题之一相关联,以供用户识别。
22、如权利要求21所述的方法,还包括:以传统字体与简体两种方式显示所述文字及其相应的读音和解释条目。
23、从贮存文字集合的数据库检索文字的方法,该方法包括以下步骤:
(a)予先排列所述数据库以使所述数据库中每个文字是同给定包括任何几何界限特征及其笔划总数的所选几何特征集的多个存储域相关联,所述几何界限的特征至少包括以下9种:
不存在任何几何界限,
至少一个内部无笔划的几何界限,
至少一个内部有一垂直笔划的几何界限,
至少一个内部有一水平笔划的几何界限,
至少一个内部有两个垂直笔划的几何界限,
至少一个内部有两个水平笔划的几何界限,
至少一个内部有两笔划形成的一个交叉的几何界限,
至少一个内部有两笔以上笔划的几何界限,和
至少一个不规则几何界限;
(b)请用户指定所选的几何特征集,这些特征包括基于待检索文字的最大界限与笔划总数的所述九种类型几何界限的所有可用特征;
(c)通过所述数据库检索具有与用户指定的相同所选几何特征集和在包含所述总数的所述笔划总数之予定范围内的一个特定笔划总数的所有文字;和
(d)对所有所述文字进行修正检索以供用户识别所述文字。
24、如权利要求23所述的方法,其中每个文字的所选几何特征集还包括:为仅有的四种类型之一的第一笔划特征,该四种类型包括水平笔划,垂直笔划,较小的反向刀痕状笔划和倾斜向下左移的弯曲刀痕状笔划及其变型。
25、如权利要求23所述的方法,其中每个文字所选几何特征集还包括仅有的五种类型之一的最后笔划之特征,该五种类型包括水平笔划,垂直笔划,较小的反向刀痕状笔划,弯曲的向下倾斜左移的刀痕状笔划及其变型和一弯曲的倾斜向下右移的反向刀痕状笔划及其变型。
26、如权利要求23所述的方法,其中每个文字的所选几何特征集还包括:
仅有的四种类型之一的第一笔划的特征,该四种类型包括水平笔划,垂直笔划,较小的反向刀痕状笔划,弯曲的向下倾斜左移的刀痕状笔划及其变型;
仅有的五种类型之一的最后笔划的特征,该五种类型包括水平笔划,垂直笔划,较小的反向刀痕状笔划,弯曲的倾斜向下左移的刀痕状笔划及其变型,和弯曲的倾斜向下右移的反向刀痕状笔划及其变型。
27、如权利要求26所述的方法,其中步骤(c)的所述予定范围是在比所述总数少一笔划至比所述总数多一笔划之间。
28、如权利要求26所述的方法,其中步骤(c)包括:
通过所述数据库检索具有与用户所指定的相同第一笔划的所有文字,以形成第一组;
通过所述第一组检索具有与用户所指定的相同最后笔划的所有文字,以形成第二组;
通过所述第二组检索具有与用户指定的相同几何界限的所有文字,以形成第三组;和
通过所述第三组检索具有在所述总数的所述予定范围内的特定笔划数的所有文字,以形成第四组。
29、如权利要求28所述方法,还包括:显示所述第四组的所有文字,供用户识别所述文字。
30、如权利要求29的所述方法,其中步骤(b)包括使用户在发现所述第四组包括许多文字时可选择给定所述文字中各由两笔划构成的交叉数,而且其中步骤(c)还包括通过所述第四组检索具有由用户指定的同样交叉数的所有文字,以形成第五组。
31、如权利要求30所述的方法,还包括显示所述第五组的所有文字,以供用户识别所述文字。
32、如权利要求31所述的方法,其中步骤(b)还包括:
显示至少四个下述问题,该四个问题分别有关所述第一笔划的特征,所述最后笔划的特征,任何几何界限的特征和所述笔划总数,并显示一个有关所述交叉数的任选问题;和
显示至少三组予选的多种选择回答,其每一组与有关所述第一和最后笔划以及所述任何几何界限的所述问题之一相关联,以供用户识别。
33、如权利要求32所述的方法,还包括以传统字体和简化体两种形式显示所述文字及其相应的读音和解释条目。
34、一个用于检索文字的计算机系统,该系统包括:
用于贮存包含特征集的数据库的装置,所述数据库被予先排列以使所述数据库中的每个文字与多个指定包含该文字的任何几何界限特征及其笔划总数的所选几何特征集的存储域相关联,所述几何界限特征至少包括下述六种类型:
不存在任何几何界限;
至少一个内部无笔划的几何界限,
至少一个内部有一笔划的几何界限,
至少一个内部有两笔划的几何界限,
至少一个内部多于两笔划的几何界限,和
至少一个不规则几何界限;
用于使用户能指定所选几何特征集的输入装置,所述特征集包括基于待检索文字的最大界限和笔划总数的所述六种几何界限的所有可用界限;
响应所述输入装置的装置,用于通过所述数据库搜索具有与用户指定几何特征相同的所选几何特征集和具有在包含所述总数的所述总数予定范围内的特定笔划数的所有文字;和
响应所述检索装置的装置,用于修正检索所有所述文字供用户识别所述文字。
35、如权利要求34的所述计算机系统,其中每个文字的所选几何特征集还包括一个第一笔划的特征,该第一笔划特征是仅有的四种类型之一,该四种类型包括水平笔划,垂直笔划,较小的反向刀痕状笔划,和弯曲的向左下方斜移的刀痕状笔划及其变型。
36、如权利要求34所述的计算机系统,其中所述每个文字的所选几何特征集还包括仅有五种类型之一的最后笔划特征,这五种类型包括水平笔划,垂直笔划,较小的反向刀痕状笔划,弯曲的向左下方斜移的刀痕状笔划及其变型,和弯曲的向右下方斜移的反向刀痕状笔划及其变型。
37、如权利要求34所述的计算机系统,其中所述每个文字的所选几何特征集还包括:
仅有四种类型之一的第一笔划特征,该四种类型包括水平笔划,垂直笔划,较小的反向刀痕状笔划,和弯曲的向左下方斜移的刀痕状笔划及其变型;和
仅有五种类型之一的最后笔划特征,这五种类型包括水平笔划,垂直笔划,较小的反向刀痕状笔划,弯曲的向左下方斜移的刀痕状笔划及其变型,和弯曲的向右下方斜移的反向刀痕状笔划及其变型。
38、如权利要求37所述的计算机系统,其中所述予定范围是在少于所述总数一笔与多于所述总数一笔之间。
39、如权利要求37的所述计算机系统,还包括:响应所述修正检索装置的装置,用以显示所有已检索出文字供用户识别所述文字。
40、如权利要求39所述的计算机系统,其中所述输入装置使用户在发现显示出许多文字时能选择给定该文字中每两笔构成的交叉数,而且所述修正检索装置通过所述许多文字检索具有与用户所给定的相同交叉数的所有文字,以形成特定组,而且所述显示装置显示所述特定组中的所有文字,供用户识别所述文字。
41、如权利要求40的所述计算机系统,其中所述显示装置最初至少显示四个问题,这四个问题分别关于所述第一笔划的特征,所述最后笔划的特征,任何几何界限的特征和所述笔划总数,以及还显示一个有关所述交叉数的任选问题连同至少三组予选的多种选择回答,其每个组与有关所述第一和最后笔划以及所述任何几何界限的所述问题之一相关联,以供用户识别。
42、如权利要求41所述的计算机系统,其中所述数据库还包括对每个文字的读音和解释款目,而且所述显示装置以传统字体和简体两种形式显示所述文字及其相应读音和解释款目。
43、用于检索文字的计算机系统,该系统包括:
用于储存包含一个特征集合的数据库的装置,所述数据库被预先排列,以使所述数据库的每个文字是同指定一个包括任何几何界限特征及其笔划总数的所选几何特征的多个存储域相关联,所述几何界限特征至少包括以下九种类型:
不存在任何几何界限,
至少一个内部无笔划的几何界限,
至少一个内部有一垂直笔划的几何界限,
至少一个内部有一横的几何界限,
至少一个内部有两竖的几何界限,
至少一个内部有两横的几何界限,
至少一个内部由两笔形成的一个交叉的几何界限,
至少一个内部多于两笔划的几何界限,和
至少一个不规则几何界限;
输入装置,用于使用户能识别所选几何特征集,所述特征集包括基于待检索文字的最大界限和笔划总数的所述九种类型几何界限中所有可用界限,
响应所述输入装置的装置,用于通过所述数据库对具有与用户所指定特征相同的所选几何特征集以及具有在包含所述总数的所述笔划总数之予定范围内的一个特定笔划数的所有文字进行检索;和
响应所述检索装置用于修正检索所有所述文字的装置,供用户识别所述文字。
44、如权利要求43所述的计算机系统,其中每个文字的所选几何特征集还包括仅有四种类型之一的第一笔划特征,读四种类型特征包括水平笔划,垂直笔划,较小的反向刀痕状笔划和弯曲的向左下方斜移的刀痕状笔划及其变型。
45、如权利要求43所述的计算机系统,其中每个文字所选的几何特征集还包括仅有的五种类型之一的最后笔划特征,这五种类型特征包括水平笔划,垂直笔划,较小的反向刀痕形笔划,弯曲的向左下方斜移的刀痕状笔划及其变型和弯曲的向右下方斜移的反向刀痕状笔划及其变型。
46、如权利要求43所述计算机系统,其中每个文字的所选几何特征集还包括:
仅有的四种类型之一的第一笔划特征,该四种类型特征包括水平笔划,垂直笔划,较小的反向刀痕状笔划,弯曲的向左下方斜移的刀痕状笔划及其变型;和
仅有的五种类型之一的最后笔划特征,该五种类型特征包括水平笔划,垂直笔划,较小的反向刀痕状笔划,弯曲的向左下方斜移的刀痕状笔划及其变型,和弯曲的向右下方斜移的反向刀痕状笔划及其变型。
47、如权利要求46所述的计算机系统,其中所述予定范围是在比所述总数少一笔至多一笔之间。
48、如权利要求46所述的计算机系统,该系统还包括:
响应所述修正检索装置的装置,用于显示所有检索出的文字,以供用户识别所述文字。
49、如权利要求48所述的计算机系统,其中所述输入装置使用户在发现所显示的文字很多时能选择给定该文字中各由两笔构成的交叉数;其中所述修正检索装置通过所述许多文字检索具有与用户给定交叉数相同的所有文字,以形成一个特定组,而且所述显示装置显示所述特定组中的所有文字,以供用户识别所述文字。
50、如权利要求49的所述计算机系统,其中所述显示装置开始显示至少四个问题,这四个问题分别关于所述第一笔划特征,所述最后笔划特征,任何几何界限特征,及所述笔划总数,然后显示一个有关所述交叉数的任选问题,连同至少三组予选的多种选择回答,其每一组与关于所述第一和最后笔划和所述任何几何界限的所述问题之一相关联,以供用户识别。
51、如权利要求50的所述计算机系统,其中所述数据库还包括对每个文字的读音和解释条目,而且所述显示装置以传统体和简体两种形式显示所述文字及其相应读音和解释条目。
CN92111341A 1992-06-09 1992-09-30 检索表意文字及相关联词典条目的方法和系统 Expired - Fee Related CN1035084C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US07/896,480 US5255189A (en) 1992-06-09 1992-06-09 Method and system for retrieving ideographic characters and the associated dictionary entries
US896,480 1992-06-09

Publications (2)

Publication Number Publication Date
CN1079832A true CN1079832A (zh) 1993-12-22
CN1035084C CN1035084C (zh) 1997-06-04

Family

ID=25406291

Family Applications (1)

Application Number Title Priority Date Filing Date
CN92111341A Expired - Fee Related CN1035084C (zh) 1992-06-09 1992-09-30 检索表意文字及相关联词典条目的方法和系统

Country Status (5)

Country Link
US (1) US5255189A (zh)
EP (1) EP0574110A1 (zh)
JP (1) JPH064595A (zh)
CN (1) CN1035084C (zh)
CA (1) CA2097966A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101807284A (zh) * 2010-03-16 2010-08-18 许祥鸿 一种互联网络电视的业务数据检索方法
CN105677718A (zh) * 2015-12-29 2016-06-15 北京汉王数字科技有限公司 文字检索方法及装置

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5649027A (en) * 1992-07-24 1997-07-15 Microsoft Corporation Recognition of handwritten words
US6014615A (en) * 1994-08-16 2000-01-11 International Business Machines Corporaiton System and method for processing morphological and syntactical analyses of inputted Chinese language phrases
US5893133A (en) * 1995-08-16 1999-04-06 International Business Machines Corporation Keyboard for a system and method for processing Chinese language text
US5933800A (en) * 1996-12-09 1999-08-03 Eten Information System Co., Ltd. Apparatus for recording user behavior in an inputting scheme
US6292770B1 (en) 1997-01-22 2001-09-18 International Business Machines Corporation Japanese language user interface for messaging system
US7257528B1 (en) 1998-02-13 2007-08-14 Zi Corporation Of Canada, Inc. Method and apparatus for Chinese character text input
US6393445B1 (en) * 2001-01-04 2002-05-21 Institute For Information Industry System for transforming Chinese character forms in real-time between a traditional character form and a simplified character form
CA2856847A1 (en) * 2011-11-25 2013-05-30 Adrianna Janell JACKSON Oil compositions and methods for increasing hair growth and/or preventing hair loss

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4298957A (en) * 1979-06-28 1981-11-03 Xerox Corporation Data processing system with character sort apparatus
US4484305A (en) * 1981-12-14 1984-11-20 Paul Ho Phonetic multilingual word processor
US4602878A (en) * 1983-07-20 1986-07-29 Iograph Corporation Ideographic word processor
US4684926A (en) * 1984-05-14 1987-08-04 Yong Min Wang Universal system of encoding chinese characters and its keyboard
EP0215929A1 (en) * 1985-03-29 1987-04-01 LO, Shui-Yin Improved method and apparatus for specifying and forming characters
US4829583A (en) * 1985-06-03 1989-05-09 Sino Business Machines, Inc. Method and apparatus for processing ideographic characters
JPS62216511A (ja) * 1986-03-18 1987-09-24 Nec Corp 自動利得制御装置
US4972496A (en) * 1986-07-25 1990-11-20 Grid Systems Corporation Handwritten keyboardless entry computer system
GB8629908D0 (en) * 1986-12-15 1987-01-28 Kemano Ltd Words & characters computer input device
JP2667435B2 (ja) * 1987-05-01 1997-10-27 株式会社リコー 領域抽出方法
US4873625A (en) * 1987-11-17 1989-10-10 International Business Machines Corporation Method and apparatus for extending collation functions of a sorting program
US5034989A (en) * 1987-12-11 1991-07-23 Loh Shiu Chang On-line handwritten character recognition apparatus with non-ambiguity algorithm
WO1990002992A1 (en) * 1988-09-05 1990-03-22 Ronald Howard Thomas Symbol definition apparatus
US5050121A (en) * 1990-01-22 1991-09-17 Vaughan H W Communication system which uses characters that represent binary-coded decimal numbers

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101807284A (zh) * 2010-03-16 2010-08-18 许祥鸿 一种互联网络电视的业务数据检索方法
CN105677718A (zh) * 2015-12-29 2016-06-15 北京汉王数字科技有限公司 文字检索方法及装置
CN105677718B (zh) * 2015-12-29 2019-04-09 北京汉王数字科技有限公司 文字检索方法及装置

Also Published As

Publication number Publication date
CA2097966A1 (en) 1993-12-10
CN1035084C (zh) 1997-06-04
US5255189A (en) 1993-10-19
JPH064595A (ja) 1994-01-14
EP0574110A1 (en) 1993-12-15

Similar Documents

Publication Publication Date Title
US6725223B2 (en) Storage format for encoded vector indexes
CN1149501C (zh) 提供对装入字体的选择性访问的字体管理方法
US8261200B2 (en) Increasing retrieval performance of images by providing relevance feedback on word images contained in the images
CN1035084C (zh) 检索表意文字及相关联词典条目的方法和系统
CN1221139A (zh) 计算机系统中提供提示的方法
JPS6037945B2 (ja) 階層木構造のテキストを順序構造で表示する方法
US5842197A (en) Selecting a qualified data repository to create an index
US6349147B1 (en) Chinese electronic dictionary
CN1018773B (zh) 汉字信息计算机处理方法
CN1019425B (zh) 中文输入装置及其键盘
US8238351B2 (en) Method for determining a most probable K location
US8516004B2 (en) Method for processing K node count fields using an intensity variable
CN1384426A (zh) 电脑汉字典码输入方法
CN1132115C (zh) 动态建立快速索引的方法
US7676330B1 (en) Method for processing a particle using a sensor structure
CN1048346C (zh) 词典检索装置
US20070288496A1 (en) K engine - process count after build in threads
CN1373431A (zh) 显示生字的方法及显示数字文章的电子装置
EP0569188A1 (en) Accessing a computer database
CN1770100A (zh) 汉语编程中程序代码的记忆式快速检索及列表输入方法
CN1318784A (zh) “一字加四笔”中文词语手写输入方法
CN1378160A (zh) 多维分层矩阵检索和显示方法
CN1155885C (zh) 在可携带式电子产品上读取数据库扩展信息的方法
CN1402158A (zh) 电子字典的字/词查询方法
CN1350223A (zh) 一种遥控器中文拼音输入方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee