CN1198225C - 关键字提取系统及采用该系统的文本检索系统 - Google Patents

关键字提取系统及采用该系统的文本检索系统 Download PDF

Info

Publication number
CN1198225C
CN1198225C CNB981159095A CN98115909A CN1198225C CN 1198225 C CN1198225 C CN 1198225C CN B981159095 A CNB981159095 A CN B981159095A CN 98115909 A CN98115909 A CN 98115909A CN 1198225 C CN1198225 C CN 1198225C
Authority
CN
China
Prior art keywords
text
individual character
catalogue
relevant
individual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CNB981159095A
Other languages
English (en)
Other versions
CN1206158A (zh
Inventor
佐藤光弘
野口直彦
菅野祏司
野本昌子
稻叶光昭
福重贵雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN1206158A publication Critical patent/CN1206158A/zh
Application granted granted Critical
Publication of CN1198225C publication Critical patent/CN1198225C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/912Applications of a database
    • Y10S707/917Text
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99932Access augmentation or optimizing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Abstract

便于文本检索系统中进行搜索的系统。系统为构成文本库的每个文本生成文本中所用每个单字的单字ID以及相应单字的单字出现计数。系统为构成文本库的任一文本中所用的每个单字生成总的单字出现计数和包含文本计数,它表示包含该单字的文本数。对于所选文本中所含的每个单字,利用该单字出现计数、总的单字出现计数和包含文本计数计算重要度。按照重要度顺序对所选文本中所含的单字排序。至少有一部分排序单字作为所选关键字显示。

Description

关键字提取系统及采用该系统的文本检索系统
技术领域
本发明涉及文档检索系统,尤其涉及一种文档检索系统的子系统,它用以接收从文本库中选出的一批文档(或文本)的目录,并提供按所选一组文本的重要度排列的关键字目录。
背景技术
为了检索最好在常规文本检索系统内包含所需信息的一个或多个文本,用户必须利用能最佳体现所需文本的关键字输入合适的查询请求。然而,对用户而言这些关键字几乎不可能想到。尤其是对所需文本的领域并不熟悉的人而言更是如此。为此,迄今已采取了各种措施,通过一种含有由用户输入关键字的词典(例如辞典、同义字词典等)显示有关的相关字,帮助用户作进一步的检索。然而,由于所获得的相关字取决于事先制作的字典,故获得与所需文本特征对应的的相关字是很难的。再者,利用所获得的相关字进行查询请求不会始终能成功地检索至少一个所需文本。
发明内容
因此,本发明的目的在于提供一种用于文档检索系统的相关关键字发生系统,用以接收从文本库中选出的一批文档(或文本),并提供一种按所选一组文本的重要度排序的关键字目录,以便于有效和迅速的文档检索。
上述目的是利用一种帮助用户在文本检索系统检索文本库的方法和系统实现的,该文本检索系统具有接收查询请求并返回已检索文本的文本ID目录的功能。该方法包括如下步骤:
为构成文本库的每个文本管理与用于每个所述文本的单字、组合单字和句子(以下统称为“单字”)有关的局部统计信息;
管理与构成文本库的任何文本中所用单字有关的总统计信息;
用户从文本库中选择至少一个文本;
利用对所选文本的局部统计信息和总统计信息,为所选文本中包含的每个单字计算重要度;
按照重要度顺序对所选文本中包含的单字排序;
显示预定数量的已排序的单字作为相关关键字;以及
利用相关关键字帮助用户进入查询请求。
附图说明
从以下结合附图对本发明的较佳实施例的描述中,本发明的目的和优点将更加清楚。其中
图1是示意性方框图,表示用以实施本发明的一台计算机的典型设置;
图2是一个示意图,表示文档检索系统2的一种典型的软件设置,其中根据本发明加入了相关的关键字提取系统100;
图3是一个示意图,表示文本属性表每条记录的典型结构;
图4是一个示意图,表示由图2所示统计信息处理器200所生成和保留的词典和表;
图5是一个流程图,表示处理器200的第一程序的操作,当一个新文档文本加到DDB70时,调用该程序以维护词典210和表格220和230;
图6是一个流程图,表示处理器200的第二程序的操作,当将文档文本Ti从DDB70中删除时,调用该程序以维护表格220和230;
图7是一个流程图,表示与用户交互工作的文档检索系统2的操作流程;
图8是一个示意图,表示图7所示步骤320和330中所执行的一例处理;
图9是一个示意图,表示用于第一种实施例修改中的另一种总的统计表230a的一种典型结构;
图10是一个示意图,表示用于为文本Ti计算第一和第二种权重的一种单字位置表270的结构;
图11是一个流程图,表示根据本发明的一个实施例用以计算权重PWr(Wj)的子程序400的一种典型操作;
图12是一个示意图,表示在计算权重LWr(Wj)时用以代替步骤408的一个步骤;
图13是一个流程图的一部分,表示通过修改图7所示实施例的某些部分所获得的一个较佳实施例,其中将步骤314a连接到图7所示步骤312和350,将步骤332连接到图7所示步骤340形成一个完整的流程图;
图14是一个示意图,表示一个典型的网络,根据本发明的原理可以在该网络上实施相关关键字提取系统和文档检索系统。
附图中,凡出现在一张图以上的相同元件用相同的参照号表示。
具体实施方式
图1是一个示意性方框图,表示根据本发明的相关关键字提取系统或文档检索系统的一种典型的硬件设置。图1中,硬件1可以是任何合适的计算机系统,它较佳地包括中央处理单元(CPU)10;主存储器20;一个或多个大容量存储器30,存储根据本发明的相关关键字提取系统或文档检索系统的软件;人机接口40,分别提供至/自显示器50和输入装置60的接口。计算机系统1进一步包括互连部件10至40的地址和数据总线15。大容量存储器30至少包括硬盘32以及可选择地包括光盘(例如CD-ROM)装置34。输入装置60可以包括键盘、鼠标等等。
图2是一个示意图,表示根据本发明的结合了相关关键字提取系统100的一个文档检索系统2的典型软件配置图。图2中,文档检索系统2包括:文档数据库(DDB)70,后者包括多个文档文本;数据库管理系统(DBMS)80,它至少包括检索功能或程序82;以及相关关键字提取系统100。软件部分70、80和100较佳地存储在大容量存储器30的硬盘32内。注意,文档数据库70可以存储在光盘34内,这样,该文档数据库就便于与另一文档数据库交换。
文档数据库(DDB)70中,上述文档文本与各个文本ID T1,T2,…,TM有关,其中M是记录在DDB70内的文本数。以下将与文本ID为Ti(i为1至M的一个数)有关的文本称为“文本Ti”。而且,DDB70较佳地包括一个文本属性表,它包含用于每个文本T1至TM的记录710,如图3所示。文本属性表的每条记录710包括文本ID字段711和其它字段712,其他字段712包括了关于由文本ID字段内的文本ID标识的文本的各种属性数据。该属性数据例如包括文本的题目、作者、分类号等等。另外,替代让DDB包括文本属性表,每个文本的属性数据可分别作为字段包括在一条记录中或作为文件题头的一部分包括在包含该文本的一个文件中。
DBMS80和/或检索程序82分别可以是适合文档数据库70的数据库管理系统和/或检索系统的任一种。检索程序82的所需功能包括以下3种搜索功能:(a)通过指定所需文本的文本ID的搜索(直接搜索),(b)通过指定上述文本属性的一个或多个数值的搜索,以及(c)通过指定关键字或关键字与一个或多个文本属性值的组合的布尔表达式进行搜索。这样,DBMS80和/或检索程序82或者是限定所有权的一种,或者是商业上可供的一种,只要其具有上述所需功能。
相关关键字提取系统100包括3部分,即统计信息处理器200、相关关键字发生器300以及用户界面400,它在显示器50屏幕(未图示)上显示各种信息(例如检索结果、相关关键字等等),并允许用户通过输入装置60输入指令和数据(例如查询请求)。
图4是一个示意图,表示由统计信息处理器200生成和维护的词典和表格。统计信息处理器70生成和维护词典210,后者包含用于DDB70中文本T1至TM的任一个的单字(即,如英文中的名词、动词、形容词和副词)。除了单字,词典210可以包含复合词和短语。词典210的每条记录包括由Wj(j=1,2,…,N)表示的单字ID和相应单字,其中N为词典210内包含的单字、复合词和短语的总数。
处理器200还为DDB70的每个文本Ti生成一个参照词典210的局部统计表220。用于文本Ti的局部统计表220的每条记录包括至少曾经出现在文本Ti的一个单字的单字ID(表示为Wj)的字段,以及表示文本Ti内单字Wj出现次数的单字Wj的单字出现(WO)计数,它表示为“WOi(Wj)”。
处理器200进一步生成和维护参照局部统计表220的总统计表230。总统计表230的每条记录包括出现在DDB70的文本T1至TM中任一文本的一个单字的单字ID(表示为Wj)字段,表示整个文本T1至TM中单字Wj的出现次数并表示为“TO(Wj)的单字Wj的总的单字出现(WO)计数,以及表示含有单字Wj的文本数的包含文本计数CT(Wj)。
图5是一个流程图,它表示处理器200的第一程序202的操作,当有一个新的文档文本加到DDB70时即调用它维护字典210和表格220和230。当新文本TM+1加到DDB70时,图1所示的CPU10按步骤260启动图5所示的第一程序202。步骤260,CPU10为文本TM+1生成一个局部统计表220(以下称为“表TM+1220”),它实际上可以是一个文件。在以下步骤中,第一程序202扫描新文本TM+1内的每个单字,仅仅处理能够用作关键字诸如上述名词、动词、形容词、副词、复合词和短语之类的单字。然而,为了简化的缘故,我们将采用“单字”表示能够用作关键字的这种单字。然后,步骤262,CPU10读得文本TM+1中的第一个单字并进入判断步骤264。
步骤264,CPU10进行测试,检查在词典210内是否发现读得的单字。如是,CPU10进入步骤266,在生成表TM+1220内记录该单字例如Wj。特别是,若单字Wj出现在表TM+1中,CPU10增加单字Wj在表TM+1内的单字出现计数WOM+1(Wj)。否则,CPU10为单字Wj增加一条记录到表TM+1220,并将WO计数WOM+1(Wj)设为1。如果步骤264的测试结果为非,CPU10进入步骤268,其中,CPU10为单字增加一条记录至词典210,将单字ID设置为WN+1。然后,CPU10为单字WN+1增加一条记录至表TM+1220,并在步骤270将WO计数WOM+1(WN+1)设置成1。完成步骤266或270后,CPU10进入判断步骤272,其中CPU10进行测试以检查文本TM+1中的所有单字是否已被处理。如否,步骤274,CPU10读得文本TM+1中的下一单字并返回步骤264。这样,CPU10重复由步骤274和264至272组成的循环,直至文本TM+1的末尾。
如果步骤272的测试结果为是,步骤276,CPU10根据表TM+1220更新总统计表230,使表TM+1的内容加到表230。尤其是,由CPU10识别总统计表230的一条记录,该表具有与局部统计表TM+1220所含每个单字ID(即Wj)相同的单字ID。在表230的经识别的记录(对Wj)中,CPU10更新总出现计数字段和包含文本的计数字段的数值如下:
TO(Wj)<=TO(Wj)-Woi(Wj)和
CT(Wj)<=CT(Wj)-1
然后,CPU10删除局部统计表Ti。在完成步骤282后,CPU10结束第二程序204。
这样,就由统计信息处理器200维护词典210、局部和总统计表220和230。总统计表230使之能立即获得DDB70中所有文本内的单字,诸如“internet”的出现总数以及包含该单字的文本数。而且,用于文本ID例如为0010之文本的局部统计表220使之能立即获得第0010号文本中一单字如“WWW”的出现次数。由相关关键字发生器300使用局部统计表220和总统计表230。
图7是一个流程图,它表示与用户交互工作的文档检索系统2的操作流程。当启动文档检索系统2时,在步骤310,CPU10首先提示用户输入查询请求。步骤312,用户按众所周知的方式输入查询请求,例如,指定所需文本的文本ID,指定上述文本属性的一个或多个数值、或者利用关键字或组合关键字和一个或多个文本属性数值而指定布尔表达式。步骤314,检索程序82根据查询请求搜索DDB70,并在显示器50上按众所周知的方式显示已发现文本上的各种信息。同时,CPU10按约定的方式提供找到文本的文本ID的所选文本目录。步骤318,CPU10提示用户从已发现的文本(或搜索报告目录)中选择至少一个所需文本(或最好包含其所需信息的文本),以获得包含所选文本之文本ID的所选文本目录。
步骤320,根据该所选文本目录,相关关键字发生器300利用所列文本的总表230和局部表220,为所选文本目录中列出的文本目录中所包含的每个单字(Wj)计算所检索的含有Wj的文本计数RCT(Wj)以及重要度I(Wj),如图8所示。假设所选文本目录中的文本ID表示为RTr(r=1,2,…,R,其中R为所检索的文本数),则单字Wj的重要度,即I(Wj)定义为
I ( Wj ) = C &times; &Sigma; r = 1 R { WOr ( Wj ) &times; IDF ( Wj ) } &times; RCT ( Wj ) - - - - ( 1 )
其中,C为常数,WOr(Wj)为检索文本RTr中单字Wj的出现次数,RCT(Wj)为含有单字Wj的所检索的文本数(以下称为“所检索的含Wj的文本计数”)IDF(Wj)为众所周知的索引,称为“反文本频率(inverse document frequency)”,并定义为:
IDF(Wj)=1-log(CT(Wj)/M)                           (2)
以下称为“单字Wj的IDF值”,其中,CT(Wj)为含有单字Wj的DDB70的文本数,M为与图4有关的上述DDB70的文本数。
如果单字Wj出现在更多的文本中,此意味着单字Wj更为常用,于是Wj的IDF值变得更小。为此,IDF(Wj)在相当广的范围内有助于抑制文本中常用单字的重要度。由于I(Wj)包括因子RCT(Wj),出现在多个检索文本中的单字重要度,即单字Wj的I(Wj)变高。换句话说,所检索文本的有更多特征的单字被赋予更高的重要度。注意,等式(1)中的单字出现计数WOr(Wj)可以用含有单字Wj的文本RTr的某种大小来归一化,例如用文本RTr中的字母数、单字种数以及所有单字的出现总数等任一数字归一化。
现在回到图7,步骤330,相关关键字发生器300按重要度以降序对表250的记录排序,产生排序表260。同时,发生器300显示一个预定数,即具有最高重要度的10条记录。除了重要度外,发生器300可以显示用于计算重要度的各种统计信息。还注意,所获得的关键字和相应的重要度可以存储起来作为用户的历史资料。此举使用户的兴趣和倾向范围能表示为由关键字和相应重要度定义的矢量。这些矢量可以用于各种应用,例如对文档数据库的搜索。
为了更好地理解相关关键字发生器300的操作,假设所选文本目录包含了3个文本ID,例如0010、0341和1734。图8是一个示意图,它表示相关关键字发生器300是如何产生相关关键字的。注意,为了便于理解尽管在图8中将实际单字用作单字ID字段的值,最好实际将单字ID数据用作单字ID字段的值。而且,假设等式(1)中的常数C为1,DDB70中的文本数M为10,000。
然后,发生器300利用用于文本0010、0341和1734的局部统计表220和总统计表230,为检索文本0010、0341和1734中所含每个单字(Wj)计算上述检索到的含有Wj的文本计数RCT(Wj)以及重要度I(Wj)。例如,取单字“applet”,发生器300为单字“applet”搜索局部统计表0010、0341和1734,以发现有两张局部表含有“applet”,即,RCT(applet)=2。由于“applet”的IDF值是由等式(2)计算得到:
    IDF(applet)=1-log(CT(applet)10,000)
                  =1-log(86/10,000)
                  =5.756
故从等式(1)计算得到“applet”的重要度:
   I(applet)=(2×5.756+6×5.756)×2
           =92.096
对于其它每个单字(Wj),按相同的方式计算RCT(Wj)和I(Wj)。按重要度的降序对表250排序形成表260。
回到图7,步骤340,CPU10提示用户或者输入进一步的查询请求,或者结束搜索。如果用户希望继续搜索,用户界面400较佳地允许用户或者单击预定的图标,以执行自动搜索,或者通过选择一个或多个所显示的相关关键字形成查询请求。步骤340,如果用户选择自动搜索,则在步骤350,用户界面400利用具有最高重要度的预定量,如3个相关关键字产生查询请求。步骤340,如果用户选择一个或多个所显示的相关关键字,则用户界面400立即产生查询请求。步骤350后,CPU10返回步骤314。
注意,步骤352可以省略。即,CPU10可以在结束过程前自动存储关键字。再者,步骤354可以插入在步骤330与340之间或步骤340与350之间,而不是位于图7所示的位置。
如果用户决定结束搜索,则步骤352,用户界面询问用户是否希望存储该相关关键字。如是,在步骤354,用户界面400存储表260用作今后使用,且用户界面400结束其操作。否则,用户界面400将简单地结束其操作。
这样,文档检索系统2和相关关键字提取系统100使高精度文档检索成为可能,同时确保对至少一个文档的检索。迄今,我们已经讨论了本发明的基本实施例。故,以下我们将讨论对上述实施例的各种修改。由于以下的变换基本上与上述实施例相似,故下面的讨论仅仅集中于其中的不同方面。
修改1
图9是一个示意图,它表示用于第一种修改实施例的另一种总统计表230的一个典型结构。图9中除了表230a配备了两个附加的字段用以包括包含Wj的文本相对DDB70所有文本的比例,即CT(Wj)/M,以及例外标记表示是否应当把单字Wj排除在相关关键字外,即排除在重要度计算外,表230a与图4所示的表230相同。如果用于单字Wj的例外标记例如为1,则对单字Wj省略了图7所示步骤320的过程。由此可以防止具有例外标记的单字对重要度计算有不利的影响,并提高处理速度。
有许多方法确定将例外标记设置成1的标准。一种方法就是在比例CT(Wj)/M等于或大于0.5时将标记设置成1。另一种方法就是在CT(Wj)=1时将标记设置成1,此意味着单字Wj仅出现在一个文本中。
而且,根据单字的数量特征,例如单字的长度,可以设置一个以上的阈值。尤其是,对于多于4个字符的单字,如CT(Wj)/M≥0.5;或者对于4个字符及其以下的单字,如CT(Wj)/M≥0.3,例外标记可以设置成1。
根据该修改,只能获得高度利用的关键字。而且,系统操作也加速。
修改2
在第二种修改中,重要度I(Wj)用与步骤318中所选文本的每个(RTr)相关的权重(Wr)加权。尤其是,根据以下等式计算I(Wj):
I ( Wj ) = C &times; &Sigma; r = 1 R { Wr &times; WOr ( Wj ) &times; IDF ( Wj ) } &times; RCT ( Wj ) - - - - ( 3 )
为了实现这一点,相关关键字发生器300必须接收权重W1,W2,…,WR以及所选文本目录(RT1,RT2,…,RTR)。为此,检索程序82必须具有按等级形式提供搜索结果的功能。如果按一致程度的顺序提供所检索的文本ID,则可以将第一等级文本的权重(W1)设置为10,将第二等级文本的权重(W2)设置为9,等等。
另外,在利用多个文本ID进行直接搜索的情况下,用户界面400可以让用户输入一个值(例如可5级变化),表示对每个文本(RTr)以及文本ID的估计。在此情况下,可能有5级用作文本的权重,或者可以与5个预定的权重值有关。
注意,权重值可以为-1。例如,在直接搜索的情况下,允许用户为高度相关的文本将权重设置为2,为无关的文本将权重设置为-1。这样可以减少包含在相关文本和无关文本中但不是共用的单字的重要度。
修改3
第三种修改适用于利用第二查询条件集合来执行两个搜索的情况,该第二查询条件集合比第一查询条件集合更为精确,即它适用于第一所选文本目录(或文本集合A)比第二所选文本目录(或文本集合B)含有更多文本ID的情况。这样,就有文本集合B文本集合A DDB70的关系。在此情况下,我们引入了由下式定义的单字Wj,DI(A,B,Wj)的分配指数。
DI(A,B,Wj)={(MA/CTA(Wj))×(CTB(Wj)/MB)}    (4)
其中,MA和MB分别是文本集合A和B中的文本数,CTA(Wj)和CTB(Wj)分别是文本集合A和B中含有单字Wj的文本数。
第三种修改中的重要度12(Wj)定义为:
I2(Wj)=DI(A,B,Wj)×I(Wj)                   (5)
如果单字Wj大多分布于集合A,极少分布于集合B,则指数DI(A,B,Wj)变大。这种大大提高分配指数值的单字有助于集合B的选择性。在此情况下,此种单字可被视为更多的具有集合B的特征的关键字。
现在回到图8,假设所选文本目录219为文本集合B,文本集合A包括由100个文本组成的集合B,以下每个单字出现在文本集合A的相应数量的文本中,
    CTA(applet)=10
    CTA(internet)=28
    CTA(CGI)=9
    CTA(WWW)=14
    CTA(JAVA)=20
    CTA(SUN)=5
    CTA(script)=10
根据等式(5),按如下计算第三种修改中的重要度。
    S2(applet)=92.096*{(100/10)*(2/3)}
            =613.973
    S2(internet)=57.258*{(100/28)*(3/3)}
              =204.493
用同样方法我们获得:
    S2(CGI)=85.274
    S2(WWW)=45.107
    S2(JAVA)=923.220
    S2(SUN)=266.200
    S2(script)=58.500
按降序对上述重要度排序产生:
S2(JAVA)=923.220
S2(applet)=613.973
S2(SUN)=266.200
S2(internet)=204.493
S2(CGI)=85.274
S2(script)=58.500
S2(WWW)=45.107
此例中,如果将最重要的3个单字取作相关关键字,则将取出单字“JAVA”、“applet”和“SUN”。
注意,尽管由等式(4)提供了分配指数,但也可以由任何合适的表达式提供分配指数,诸如当单字Wj分布于集合B中的多个文本和集合A中的极少文本中时取较大值。
修改4-重要度加权
本修改中,用各种权重αW(Wj)对重要度I(Wj)(或I2(Wj))加权,其中,α为表示权重种类的参数。
用于单字Wj的第一和第二种权重取决于所选文本目录219中列出的每个文本(RTr)中出现的Wj的位置。为此,为每个文本RTr计算第一和第二种权重,并表示为αWr(Wj)。因此,利用权重αWr(Wj)计算重要度如下:
I ( Wj ) = C &times; &Sigma; r = 1 R { &alpha;Wr ( Wj ) &times; WOr ( Wj ) &times; IDF ( Wj ) } &times; RCT ( Wj ) - - - - ( 6 )
图10是一个示意图,它表示用以为文本Ti计算第一和第二种权重的单字位置表270的一种结构。用上述局部统计表220生成和更新表270。单字位置表270的每条记录包括:EXISTING WORD字段,它为每个出现的单字包含现有单字(较佳地为单字ID);EXISTING LOCATION字段,它包含了现有单字的位置,其从文本开头起以单字数(或单字计数)计量;EXISTNG PART字段,它包含一个数值表示现有单字位于题目、子题目和文本Ti主体的哪一部分。单字位置表270的各个记录已经较佳地按现有位置字段值的降序排序。
利用与单字Wj所出现的文本RTr部分有关的权重因子计算第一种权重。该文本部分存储在EXISTING PART字段中。此种权重表示为PWr(Wj)(因为权重实际上是为检索的文本计算的,PW后的后缀改变为r,它提供给检索的文本)。如果DDB70中的每个文本包括题目、子题目和正文,则对于文本RTr,用于计算单字Wj的重要度的权重因子F1、F2和F3例如分别设置为:
    如单字Wj出现于题目中时为3,
    如单字Wj出现于子题目中时为2,
    如单字Wj出现于正文中时为1。
图11是一个流程图,它表示根据本发明所示实施例用以计算权重PWr(Wj)的一个子程序的典型操作。在图7所示步骤320中,子程序400被调用用于每个r值。当调用子程序400时,步骤402,CPU10将PWr(Wj)的值设置为0。步骤404中,CPU10从开头为Wj搜索单字位置表RTr270的现有部分字段。如果步骤406在记录中发现单字Wj,CPU10为PWr(Wj)的值增加一个与步骤408中记录的现有部分字段的值有关的权重因子Fw(本例中w=1,2或3)。然后,步骤410,CPU10恢复对Wj的搜索并返回步骤406。如果步骤406中未发现单字Wj,则CPU10结束操作并返回。在此为文本RTr确定PWr(Wj)的值。
利用同Wj出现位置与先前(或开头)文本搜索中已用作查询请求关键字的单字出现位置之间距离(按单字计数)有关的权重因子计算第二种权重。该单字出现位置存储在EXISTING LOCATION字段中。此权重表示为LWr(Wj)。在此情况下,例如将用以计算单字Wj重要度的权重因子F1、F2和F3设置为:
如距离为两个单字以内为3,
如距离为3个单字至10个单字范围内为2,
如距离为10个单字以上为1。
在此权重方案中,除了步骤408,基本上根据图11所示的流程图计算每个r值的权重LWr(Wj)。
尤其是,如果K个关键字用于先前搜索中的查询请求,则CPU10为K个关键字的每一个计算一个距离,并将对应于所计算距离的K个权重因子的总和加到LWr(Wj)如图12中的步骤418所示。
第三种权重可以采用AW(Wj)。单字Wj的权重AW(Wj)取决于单字Wj的属性。例如,将权重AW(Wj)设置为:
如单字Wj为专用名词时为5,
如单字Wj为普通名词时为4,
如单字Wj为形容词时为2,
如单字Wj或为动词或为副词时为1,
其它情况时为0。
由于权重AW(Wj)与文档文本无关,故通过简单地将(Wj)乘以AW(Wj)用该权重为重要度加权。
以下将参照图13描述其它一些修改。
修改5-为搜索结果分等级
图13的步骤314中,CPU10(该步骤中在检索程序82的控制下)用一种预定方式简单地输出所选文本目录219,不在显示器50的屏幕上显示该搜索结果。步骤315,CPU10以一致性程度为序对所选文本目录219进行排序。尤其是,CPU10为目录219中所包含的每个文本(RTr)计算一致性程度(用DCr表示)。一致性程度DCr给出如下:
DCr = &Sigma; r = 1 R { WOr ( Wj ) &times; IDF ( Wj ) }
其中,W1,W2,…,WM为包括在步骤312查询请求中的单字。
步骤317中,CPU10在显示器50的屏幕上显示已排序的目录。在此情况下,CPU10可以仅显示已排序目录的一部分。步骤318中,CPU10提示用户从显示的排序目录中选择所选文本,以获得包含所选文本之文本ID的所选文本目录。
如以上结合图7所述,用户可以重新使用适合于DDB70的关键字执行进一步的搜索。由于确定此关键字包含在DDB70中,故按照该实施例的搜索导致对至少一个文本的检索。
修改6
参见图13,步骤332,CPU10对置于包含关系的已排序的关键字表260的关键字进行过滤。尤其是判断,或者在表260所取出的单字中间,或者在表260所取出的任一单字与预定一组中任一单字之间是否存在任何包含关系。如果存在任何此种关系,前一情况下包括在包含关系中的所取出单字之一,以及后一情况下包括在包含关系中的所取出单字均不显示。例如,预定一组单字可以是先前搜索中已经在查询请求中用作关键字的单字。
如果有以下任何一种情况,则判断单字A包含在单字B中。
(a)单字A与B开头相互一致且单字A比单字B短。
(b)单字A与B结尾相互一致且单字A比单字B短。
(c)单字A是单字B的一部分且单字A和B无论开头和结尾均不相互一致。
(d)单字(或短语)A和B满足以上(a)至(c)的任一条件且单字A是短语B的一个组成部分。
例如,根据标准(a),判断“东京”是“东京都”的一个构词成分。同样,根据标准(b),“发壳”是“新发壳”的一个构词成分,根据标准(c),“感谢”是“大感谢祭”的一个构词成分。注意,对于判断英语中的构词成分,标准(d)是必需的。根据标准(d),判断单字“artificial”和“intelligence”是单字“artificial intelligence”的构词成分,但单字“art”和“tell”不是。
如果根据上述标准判断任何两个单字或短语置于包含关系,则采取以下的措施:
(a)将较长的单字(或短语)选作关键字。
(b)将较短的单字(或短语)选作关键字。
(c)将更重要的单字(或短语)选作关键字。
(d)将较短的(按单字计数)短语以及较长的(按单字计数)短语与较短的短语之间的差别用作关键字(或关键短语)。
如果发现“artificial”与“artificial intelligence”之间的包含关系,则按照标准(d)将“artificial”和“intelligence”用作关键字。在提取的关键字之间有包含关系的情况下,可以采用上述任何一种措施。然而,对于在预定词组中包含任何单字的包含关系只有措施(c)才可行。
根据此修改,从关键字词组中排除意义上或用法上相同的单字,允许降低相关关键字的冗余度。
修改7
通过属性或统计信息对提取的关键字分类。可以将部分语言用作属性。例如,专用名词与其它单字分别显示。另外,按照同义字辞典分类可以将提取的关键字分类显示。
当按统计信息分类时,可以根据每个所提取的关键字的出现数对提取的关键字分类。例如,如果通过判断该单字是否在整个文本库中出现80%对提取的关键字进行分类,则允许用户确定事先利用该单字作进一步搜索的效果。
而且,在利用同义字辞典而不是所示词组进行分类的情况下,位于辞典中较高结节的单字可以作为代表性单字显示。同样,在提取的关键字由统计信息分组的情况下,更广泛分布于每个词组中的单字可以作为代表性单字而不是词组显示。
还可以有其它的修改。例如,在上述实施例中是利用单一计算机实施文档检索系统的。然而,文档检索系统也可以在网络系统上实施,如图14所示。在此系统中,将用户界面存储在每台客户计算机或终端70上,文档检索系统的其余部分则存储在服务器1a上。

Claims (74)

1.一种在文本检索系统中帮助用户搜索文本库的方法,所述文本检索系统的功能包括接收查询请求和返回所检索文本的文本ID目录;其特征在于所述方法包括:
为构成文本库的每个文本生成与用于每个所述文本的单字有关的局部统计信息;
生成与构成文本库的任何文本中所用单字有关的总统计信息;
用户从文本库中选择至少一个文本,以提供具有所选文本之文本ID的所选文本目录,所述选择是通过下述步骤实现的:
使用用户确定的检索条件来发出查询请求,以获得检索出的文本的目录,以及
从所述检索出的文本中选择至少一个文本;
利用对所选文本的局部统计信息和所述总统计信息,为所选文本中包含的每个单字计算重要度;
按照重要度顺序对所选文本中包含的单字排序;
显示预定数量的已排序的单字作为相关关键字;以及
利用相关关键字提示用户输入进一步的查询请求。
2.如权利要求1所述的方法,其特征在于,所述生成局部统计信息的步骤包括以下步骤,即,把每个所述文本中所用的每个单字的单字ID以及与所述单字ID有关的单字出现计数包括在所述局部统计信息中,所述单字出现计数表示每个所述文本中所用的每个所述单字在该文本中的出现数;
所述生成总统计信息的步骤包括以下步骤,即,把在构成所述文本库的任一所述文本中所用的每个单字的单字ID、总的单字出现计数、以及与任何所述文本中所用的每个单字的单字ID有关的包含文本计数包括在所述总统计信息中,所述总的单字出现计数表示在构成所述文本库的所有文本中出现的总数,所述包含文本计数表示含有任何所述文本中所用的每个所述单字的文本数,以及
所述方法进一步包括这样的步骤,即限定所述重要度,使所述重要度与为所述检索出的文本所取的所述单字出现计数的总数、所检索出的文本数、以及为所检索出的文本中包含的每个所述单字限定的一个量成正比,当各所述单字出现在构成所述文本库的越多个文本中时,所述量变得越小。
3.如权利要求2所述的方法,其特征在于所述限定所述重要度的步骤包括用下式表示所述重要度的步骤:
I ( Wj ) = C &times; &Sigma; r = 1 R { WOr ( Wj ) &times; IDF ( Wj ) } &times; RCT ( Wj )
其中,Wj为所述检索出的文本中所含每个所述单字的单字ID,C为常数,WOr(Wj)为每个所述检索出的文本RTr中的每个所述单字Wj的单字出现计数,RCT(Wj)为包含各所述单字Wj的所检索出的文本数,IDF(Wj)为所述量,RTr为每个所检索出的文本的文本ID,其中r=1,2,…,R,其中R是所检索出的文本数。
4.如权利要求1所述的方法,其特征在于所述用户选择至少一个文本的步骤包括如下步骤:
所述用户利用其慎重考虑后产生的检索条件提供查询请求,以获得所检索文本的目录;以及
所述用户从所述检索文本中选择所述至少一个文本。
5.如权利要求1所述的方法,其特征在于包括如下步骤:
所述用户提出进一步的查询请求以获得较小目录作为所述目录的子集;
利用与所述目录中列出的检索文本中所用单字有关的统计信息以及与所述较小目录中列出的文本中所含单字有关的统计信息,为所述检索文本中所含每个单字计算分配指数,所述分配指数如此定义,如果所选文本中所含每个单字分配于所述较小目录中列出的较多文本中而分配于较少所选文本中,则所述指数变得较大;以及
用所述分配指数对所述重要度加权。
6.如权利要求5所述的方法,其特征在于所述分配指数表示为{(MA/CTA(Wj))×(CTB(Wj)/MB)},其中,MA和MB分别为所述目录和所述较小目录中列出的文本数,CTA(Wj)和CTB(Wj)分别为所述目录和所述较小目录中列出的文本数,它含有所选文本中所含每个单字Wj。
7.如权利要求2所述的方法,其特征在于所述目录按所选文本的一致性程度排序,其中所述方法进一步包括接收所述已排序的目录并向所述已排序目录的所述检索文本分配预定权重的步骤,所述表示重要度的步骤包括用所述预定权重为所述单字出现计数WOr(Wj)加权的步骤。
8.如权利要求2所述的方法,其特征在于进一步包括如下步骤:
向每个所选文本分配一个权重,其中,所述计算重要度的步骤包括用分配给每个所选文本的权重为用于每个所选文本的所述单字出现计数加权的步骤。
9.如权利要求1所述的方法,其特征在于进一步包括如下步骤:
对包含在所选文本内的每个所述单字进行测试,观察包含该单字的文本数是否位于预定范围;以及
如果所述单字未通过所述测试,将所述单字排除在所述候选的相关关键字外。
10.如权利要求9所述的方法,其特征在于进一步包括将与所述单字的数量特征有关的数值用作所述预定范围的步骤。
11.如权利要求10所述的方法,其特征在于所述数量特征为所述单字的长度。
12.如权利要求9所述的方法,其特征在于进一步包括使所述单字的每个第二预定范围的数量特征与含有该单字的所述文本数的不同的预定范围相联系的步骤,其中,所述进行测试的步骤包括将与所述单字的数量特征所落入的第二预定范围有关的所述不同的预定范围之一用作所述预定范围的步骤。
13.如权利要求2所述的方法,其特征在于进一步包括如下步骤:
为构成所述文本库的每个文本记录构成所述文本库的每个文本中的每个单字的每次出现,以及所述每次出现的每个文本的一部分;
为每个所述文本的每个可能部分分配预定的权重因子;以及
为每个所述文本累积与每个所述单字每次出现的部分有关的所述预定的权重因子,对每个所述单字产生按文本的权重,其中,所述定义重要度的步骤包括用所述按文本的权重为所述单字出现计数加权的步骤。
14.如权利要求1所述的方法,其特征在于进一步包括如下步骤:
为构成所述文本库的每个文本记录构成所述文本库的每个文本中的每个单字的每次出现,以及每个文本中所述每次出现的位置;
为每个文本中每个所述单字的每次出现,计算所述位置与所述查询请求中所用每个关键字位置之间的距离;
为每个预定的距离范围分配预定的权重因子,以及
为构成所述文本库的每个文本累积与每个所述单字的每次出现的每个关键字的所述距离有关的所述预定权重因子,对每个所述单字产生按文本的权重,其中,所述定义重要度的步骤包括用所述按文本的权重对每个单字出现计数加权的步骤。
15.如权利要求1所述的方法,其特征在于进一步包括用与所选文本中每个所述单字的属性有关的权重对所述重要度加权的步骤。
16.如权利要求1所述的方法,其特征在于进一步包括如下步骤:
如果在任何两个已排序的单字中或者在任何已排序的单字与所述查询请求中所用任何关键字之间发现任何包含关系,则根据预定标准选择两个单字之一。
17.如权利要求16所述的方法,其特征在于进一步包括指定所述预定标准比较所述包含关系中包含的所述两个单字之间的长度的步骤。
18.如权利要求16所述的方法,其特征在于进一步包括指定所述预定标准比较所述包含关系中包含的所述两个单字之间重要度的步骤。
19.如权利要求16所述的方法,其特征在于,所述选择两个单字之一的步骤包括在所述两个单字之间选择较短的单字和/或差异的步骤。
20.如权利要求3所述的方法,其特征在于进一步包括如下步骤:
根据所述查询请求和所述目录中的关键字,按所选文本的一致程度为所述目录排序;以及
为所述已排序目录中的每个所选文本分配一个预定权重,其中,所述表示重要度的步骤包括用与每个所述文本RTr有关的预定权重之一为所述单字出现计数WOr(Wj)加权的步骤。
21.如权利要求1所述的方法,其特征在于所述显示预定数量的已排序的单字作为相关关键字的步骤进一步包括按所述排序单字属性将所述已排序的单字分类为相同关键字组进行显示的步骤。
22.如权利要求1所述的方法,其特征在于所述显示预定数量的已排序的单字作为相关关键字的步骤进一步包括通过对所述已排序单字的统计数据将所述已排序单字分类为相同关键字组进行显示的步骤。
23.如权利要求1所述的方法,其特征在于所述显示预定数量的已排序的单字作为相关关键字的步骤进一步包括通过辞典将所述已排序单字分类为相同关键字组进行显示的步骤。
24.如权利要求21至23任一项所述的方法,其特征在于所述显示预定数量的已排序的单字作为相关关键字的步骤进一步包括显示典型关键字代替所述关键字组的步骤。
25.如权利要求1所述的方法,其特征在于所述帮助用户的步骤包括根据来自用户的预定输入,利用至少一部分预定量的所述相关单字,自动产生所述查询请求的步骤。
26.如权利要求1所述的方法,其特征在于进一步包括存储所述预定量的相关单字,以及根据来自所述用户的预定输入显示所存储的预定量的所述相关单字的步骤。
27.一种在文本检索系统中帮助用户搜索文本库的系统,所述文本检索系统的功能包括接收查询请求和返回所检索文本的文本ID目录;其特征在于所述系统包括:
统计信息处理器(200),用于为构成文本库的每个文本生成与用于每个所述文本的单字有关的局部统计信息,并生成与构成文本库的任何文本中所用单字有关的总统计信息;
输入装置(60),允许用户从文本库中选择至少一个文本,以提供具有所选文本之文本ID的所选文本目录,所述用户通过使用相关关键字来输入查询请求;
中央处理单元(10),利用对所选文本的局部统计信息和所述总统计信息,为所选文本中包含的每个单字计算重要度,并按照重要度顺序对所选文本中包含的单字排序;以及
显示器(50),用于显示具有最高重要度的预定数量的已排序的单字作为所述相关关键字。
28.如权利要求27所述的系统,其特征在于,所述统计信息处理器(200)还用于把每个所述文本中所用的每个单字的单字ID以及与所述单字ID有关的单字出现计数包括在所述局部统计信息中,所述单字出现计数表示每个所述文本中所用每个所述单字的出现数;
所述统计信息处理器(200)还用于把在构成所述文本库的任一所述文本中所用的每个单字的单字ID、总的单字出现计数、以及与任何所述文本中所用的每个单字的单字ID有关的包含文本计数包括在所述总统计信息中,所述总的单字出现计数表示在构成所述文本库的所有文本中出现的总数,所述包含文本计数表示含有任何所述文本中所用的每个所述单字的文本数,以及
所述中央处理单元(10)进一步用于限定所述重要度,使所述重要度与为所检索出的文本所取的所述单字出现计数的总数、所检索出的文本数、以及为所检索出的文本中包含的每个所述单字限定的一个量成正比,当每个所述单字出现在构成所述文本库的越多个文本中时,所述量变得越小。
29.如权利要求28所述的系统,其特征在于所述中央处理单元(10)用下式表示所述重要度:
I ( Wj ) = C &times; &Sigma; r = 1 R { WOr ( Wj ) &times; IDF ( Wj ) } &times; RCT ( Wj )
其中,Wj为所述检索出的文本中所含每个所述单字的单字ID,C为常数,WOr(Wj)为每个所述检索出的文本RTr中的每个所述单字Wj的单字出现计数,RCT(Wj)为包含各所述单字Wj的所检索出的文本数,IDF(Wj)为所述量,RTr为每个所检索出的文本的文本ID,其中r=1,2,…,R,其中R是所检索出的文本数。
30.如权利要求27所述的系统,其特征在于所述输入装置(60)允许所述用户利用其慎重考虑后产生的检索条件提供查询请求,以获得所检索文本的目录;以及允许所述用户从所述检索文本中选择所述至少一个文本。
31.如权利要求27所述的系统,其特征在于,
所述中央处理单元(10)根据判断所述用户提出的进一步的查询请求已经引起所述功能返回较小目录作为所述目录的子集,利用与所述目录中列出的检索文本中所用单字有关的统计信息以及与所述较小目录中列出的文本中所含单字有关的统计信息,为所述检索文本中所含每个单字计算分配指数,所述分配指数定义成如果所选文本中所含每个单字分配于所述较小目录中列出的较多文本中而分配于较少所选文本中,则所述指数变得较大;并且
所述中央处理单元(10)用所述分配指数对所述重要度加权。
32.如权利要求31所述的系统,其特征在于所述分配指数表示为{(MA/CTA(Wj))×(CTB(Wj)/MB)},其中,MA和MB分别为所述目录和所述较小目录中列出的文本数,CTA(Wj)和CTB(Wj)分别为所述目录和所述较小目录中列出的文本数,它含有所选文本中所含每个单字Wj。
33.如权利要求28所述的系统,其特征在于所述目录按所选文本的一致性程度排序,其中所述中央处理单元(10)接收所述已排序的目录并向所述已排序目录的所选文本分配预定权重,并用所述预定权重为所述单字出现计数WOr(Wj)加权。
34.如权利要求28所述的系统,其特征在于所述中央处理单元(10)允许用户向每个所选文本分配一个权重,并用分配给每个所选文本的权重为用于每个所选文本的所述单字出现计数加权。
35.如权利要求27所述的系统,其特征在于,
所述中央处理单元(10)对包含在所选文本内的每个所述单字进行测试,观察包含该单字的文本数是否位于预定范围;以及根据判断所述单字未通过所述测试,将所述单字排除在候选的相关关键字外。
36.如权利要求35所述的系统,其特征在于,所述中央处理单元(10)将与所述单字的数量特征有关的数值用作所述预定范围。
37.如权利要求36所述的系统,其特征在于所述数量特征为所述单字的长度。
38.如权利要求35所述的系统,其特征在于,所述中央处理单元(10)使所述单字的每个第二预定范围的数量特征与含有该单字的所述文本数的不同的预定范围相联系,并将与所述单字的数量特征所落入的第二预定范围有关的所述不同的预定范围之一用作所述预定范围。
39.如权利要求28所述的系统,其特征在于,
所述中央处理单元(10)为构成所述文本库的每个文本记录构成所述文本库的每个文本中的每个单字的每次出现,以及所述每次出现的每个文本的一部分;为每个所述文本的每个可能部分分配预定的权重因子;为每个所述文本累积与每个所述单字每次出现的部分有关的所述预定的权重因子以对每个所述单字产生按文本的权重;以及用所述按文本的权重为所述单字出现计数加权。
40.如权利要求27所述的系统,其特征在于,
所述中央处理单元(10)为构成所述文本库的每个文本记录在构成所述文本库的每个文本中每个单字的每次出现,以及每个文本中所述每次出现的位置;为每个文本中每个所述单字的每次出现,计算所述位置与所述查询请求中所用每个关键字位置之间的距离;为每个预定的距离范围分配预定的权重因子的装置;为构成所述文本库的每个文本累积与每个所述单字的每次出现的每个关键字的所述距离有关的所述预定权重因子以对每个所述单字产生按文本的权重;以及用所述按文本的权重对每个单字出现计数加权。
41.如权利要求27所述的系统,其特征在于所述中央处理单元(10)用与所选文本中每个所述单字的属性有关的权重对所述重要度加权。
42.如权利要求27所述的系统,其特征在于所述中央处理单元(10)根据判断在任何两个已排序的单字中或者在任何已排序的单字与所述查询请求中所用任何关键字之间发现任何包含关系,则根据预定标准选择所述包含关系中所含两个单字之一。
43.如权利要求42所述的系统,其特征在于所述中央处理单元(10)指定所述预定标准比较所述包含关系中包含的所述两个单字之间的长度。
44.如权利要求42所述的系统,其特征在于所述中央处理单元(10)指定所述预定标准比较所述包含关系中包含的所述两个单字之间重要度。
45.如权利要求42所述的系统,其特征在于,所述中央处理单元(10)在所述两个单字之间选择较短的单字和/或差异。
46.如权利要求29所述的系统,其特征在于,
所述中央处理单元(10)根据所述查询请求和所述目录中的关键字,按所选文本的一致程度为所述目录排序;为所述已排序目录中的每个所选文本分配一个预定权重;以及用与每个所检索文本RTr有关的预定权重之一为所述单字出现计数WOr(Wj)加权。
47.如权利要求27所述的系统,其特征在于所述中央处理单元(10)按所述排序单字属性将所述已排序的单字分类为相同关键字组进行显示。
48.如权利要求27所述的系统,其特征在于所述中央处理单元(10)通过对所述已排序单字的统计数据将所述已排序单字分类为相同关键字组进行显示。
49.如权利要求27所述的系统,其特征在于所述中央处理单元(10)通过辞典将所述已排序单字分类为相同关键字组进行显示。
50.如权利要求47至49任一项所述的系统,其特征在于所述显示器(50)显示典型关键字代替所述关键字组。
51.如权利要求27所述的系统,其特征在于所述中央处理单元(10)根据判断来自用户的预定输入,利用至少一部分预定量的所述相关单字,自动产生所述查询请求。
52.如权利要求27所述的系统,其特征在于进一步包括存储所述预定量的相关单字的主存储器(20);
所述显示器(50)根据来自所述用户的预定输入显示所存储的预定量的所述相关单字。
53.一种根据至少一个先前搜索提供关键字,能帮助用户搜索文本库的文本检索系统,其特征在于所述文本检索系统包括:
构成所述文本库的多个文本;
统计信息处理器(200),用于为构成所述文本库的每个文本生成与每个所述文本中所用单字有关的局部统计信息,以及生成与构成所述文本库的任一所述文本中所用单字有关的总统计信息;
输入装置(60),允许所述用户提出查询请求,所述用户通过使用相关关键字来输入查询请求;
中央处理单元(10),根据所述查询请求提供具有所选文本的文本ID的目录,利用所述检索文本的局部统计信息和总统计信息为所选文本目录中列出的所选文本中包含的每个单字计算重要度,按所述重要度为所选文本中包含的所述单字排序,以及管理与构成所述文本库的所述文本有关的属性信息;
显示器(50),用于显示具有最高重要度的预定量的所述已排序的单字作为所述相关关键字。
54.如权利要求53所述的系统,其特征在于,所述统计信息处理器(200)包含多个局部统计表,每个表与构成所述文本库的所述文本之一有关,局部统计表与包含每个所述文本中所用每个单字的单字ID的每个所述文本有关,以及单字出现计数与所述单字ID有关,所述单字出现计数表示每个所述文本中每个所述文本中所用每个所述单字的出现数,
并且,所述统计信息处理器(200)包含总统计表,以存储构成所述文本库的任一所述文本中所用每个单字的单字ID,总的单字出现计数以及与任一所述文本中所用每个所述单字的单字ID有关的包含文本计数,所述总的单字出现计数表示构成所述文本库的所有文本中的总的出现数,所述包含文本计数表示包含任一所述文本中所用每个单字的文本数,其中
所述重要度与为所选文本所取的所述单字出现计数总数以及为所选文本中所含每个单字定义的一个量成正比,当每个所述单字出现在构成所述文本库的越多个所述文本中时,所述量变得越小。
55.如权利要求54所述的系统,其特征在于所述重要度I(Wj)定义为:
I ( Wj ) = C &times; &Sigma; r = 1 R { WOr ( Wj ) &times; IDF ( Wj ) } &times; RCT ( Wj )
其中,Wj为所述检索出的文本中所含每个单字的单字ID,C为常数,WOr(Wj)为每个所检索出的文本RTr中的每个单字Wj的单字出现计数,RCT(Wj)为包含各所述单字Wj的所检索出的文本数,IDF(Wj)为所述量,RTr为每个检索出的文本的文本ID,其中r=1,2,…,R,其中R是所检索出的文本数。
56.如权利要求55所述的系统,其特征在于所述输入装置允许所述用户利用其慎重考虑后产生的检索条件提供查询请求,以获得所检索文本的目录;以及允许所述用户从所述检索文本中选择所述至少一个文本。
57.如权利要求53所述的系统,其特征在于所述中央处理单元(10)根据判断在所述第一查询请求已经产生具有第一所选文本之第一文本ID的第一目录,以及具有第二所选文本之第二文本ID的第二目录后所提出的第一查询请求和第二查询请求,使所述第二目录为所述第一目录的子集,利用与所述第一所选文本中所用单字有关的统计信息以及与所述第二所选文本中所用单字有关的统计信息,计算所述第一所选文本中所含每个所述单字的分配指数,所述分配指数定义成如每个单字分配于所述第二目录列出的多个文本并分配于少量的所述定义所选文本时,所述单字的分配指数变得较大;并且
所述中央处理单元(10)用所述分配指数对所述重要度加权。
58.如权利要求57所述的系统,其特征在于所述分配指数表示为{(MA/CTA(Wj))×(CTB(Wj)/MB)},其中,MA和MB分别为所述目录和所述较小目录中列出的文本数,CTA(Wj)和CTB(Wj)分别为所述目录和所述较小目录中列出的文本数,它含有所选文本中所含每个单字Wj。
59.如权利要求54所述的系统,其特征在于所述目录按所选文本的一致性程度排序,其中所述中央处理单元(10)接收所述已排序的目录并向所述已排序目录的所选文本分配预定权重,用所述预定权重为所述单字出现计数加权。
60.如权利要求53所述的系统,其特征在于所述中央处理单元(10)对包含在所选文本内的每个所述单字进行测试,观察包含该单字的文本数是否位于预定范围,以及根据判断所述单字未通过所述测试,将所述单字排除在候选的相关关键字外。
61.如权利要求54所述的系统,其特征在于所述中央处理单元(10)为构成所述文本库的每个文本管理构成所述文本库的每个文本中的每个单字的每次出现,以及所述每次出现的每个文本的一部分;为每个所述文本的每个可能部分分配预定权重因子;为每个所述文本累积与每个所述单字每次出现的部分有关的预定权重因子以对每个所述单字产生按文本的权重;以及用所述按文本的权重为所述单字出现计数加权。
62.如权利要求53所述的系统,其特征在于所述中央处理单元(10)为构成所述文本库的每个文本管理在构成所述文本库的每个文本中每个单字的每次出现,以及每个文本中所述每次出现的位置;为每个文本中每个所述单字的每次出现,计算所述位置与所述查询请求中所用每个关键字位置之间的距离;为每个预定的距离范围分配预定的权重因子;为构成所述文本库的每个文本累积与每个所述单字的每次出现的每个关键字的所述距离有关的所述预定权重因子以对每个所述单字产生按文本的权重;以及用所述按文本的权重对每个单字出现计数加权。
63.如权利要求53所述的系统,其特征在于所述中央处理单元(10)用与所选文本中每个所述单字的属性有关的权重对所述重要度加权。
64.如权利要求53所述的系统,其特征在于所述中央处理单元(10)根据判断在任何两个已排序的单字中或者在任何已排序的单字与所述查询请求中所用任何关键字之间发现任何包含关系,则根据预定标准选择所述包含关系中包含的两个单字之一。
65.如权利要求63所述的系统,其特征在于所述中央处理单元(10)指定所述预定标准比较所述包含关系中包含的所述两个单字之间的长度。
66.如权利要求63所述的系统,其特征在于所述中央处理单元(10)指定所述预定标准比较所述包含关系中包含的所述两个单字之间重要度。
67.如权利要求63所述的系统,其特征在于,所述中央处理单元(10)在所述两个单字之间选择较短的单字和/或差异。
68.如权利要求55所述的系统,其特征在于所述中央处理单元(10)根据所述查询请求和所述目录中的关键字,按所选文本的一致程度为所述目录排序;为所述已排序目录中的每个所选文本分配一个预定权重;以及用与每个所检索文本RTr有关的预定权重之一为所述单字出现计数WOr(Wj)加权。
69.如权利要求53所述的系统,其特征在于所述中央处理单元(10)按所述排序单字属性将所述已排序的单字分类为相同关键字组进行显示。
70.如权利要求69所述的系统,其特征在于所述显示器(50)显示典型关键字代替所述关键字组。
71.如权利要求53所述的系统,其特征在于所述中央处理单元(10)根据判断来自用户的预定输入,利用至少一部分预定量的所述相关单字,自动产生所述查询请求。
72.如权利要求53所述的系统,其特征在于进一步包括存储所述预定量的相关单字的主存储器(20);
所述显示器(50)根据来自所述用户的预定输入显示所存储的预定量的所述相关单字。
73.如权利要求53所述的系统,其特征在于进一步包括适合于可分离大容量存储介质的存储介质驱动器,其中,所述构成文本库的多个文本被存储在所述可分离大容量存储器之一内。
74.如权利要求53所述的系统,其特征在于进一步包括两路通信装置,所述系统分配于服务器和客户系统上。
CNB981159095A 1997-07-02 1998-07-02 关键字提取系统及采用该系统的文本检索系统 Expired - Lifetime CN1198225C (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP17682297A JP3607462B2 (ja) 1997-07-02 1997-07-02 関連キーワード自動抽出装置及びこれを用いた文書検索システム
JP176822/1997 1997-07-02
JP176822/97 1997-07-02

Publications (2)

Publication Number Publication Date
CN1206158A CN1206158A (zh) 1999-01-27
CN1198225C true CN1198225C (zh) 2005-04-20

Family

ID=16020456

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB981159095A Expired - Lifetime CN1198225C (zh) 1997-07-02 1998-07-02 关键字提取系统及采用该系统的文本检索系统

Country Status (6)

Country Link
US (1) US6212517B1 (zh)
EP (1) EP0889419B1 (zh)
JP (1) JP3607462B2 (zh)
KR (1) KR100304335B1 (zh)
CN (1) CN1198225C (zh)
DE (1) DE69833238T2 (zh)

Families Citing this family (159)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3664874B2 (ja) * 1998-03-28 2005-06-29 松下電器産業株式会社 文書検索装置
IL126373A (en) 1998-09-27 2003-06-24 Haim Zvi Melman Apparatus and method for search and retrieval of documents
JP2000132560A (ja) * 1998-10-23 2000-05-12 Matsushita Electric Ind Co Ltd 中国語テレテキスト処理方法及び装置
JP3760057B2 (ja) * 1998-11-19 2006-03-29 株式会社日立製作所 複数文書データベースを対象とした文書検索方法および文書検索サービス
JP3603721B2 (ja) * 1999-02-25 2004-12-22 日本電信電話株式会社 データ検索支援方法及び装置及びデータ検索支援プログラムを格納した記憶媒体
US6408294B1 (en) * 1999-03-31 2002-06-18 Verizon Laboratories Inc. Common term optimization
AU4328000A (en) 1999-03-31 2000-10-16 Verizon Laboratories Inc. Techniques for performing a data query in a computer system
US8275661B1 (en) 1999-03-31 2012-09-25 Verizon Corporate Services Group Inc. Targeted banner advertisements
US8572069B2 (en) 1999-03-31 2013-10-29 Apple Inc. Semi-automatic index term augmentation in document retrieval
JP3747133B2 (ja) 1999-04-14 2006-02-22 キヤノン株式会社 携帯端末及びその制御方法及びその記憶媒体
JP3368237B2 (ja) * 1999-04-14 2003-01-20 キヤノン株式会社 コード処理方法、端末装置及び記憶媒体
JP2000298677A (ja) * 1999-04-14 2000-10-24 Canon Inc 情報検索方法、情報検索装置および記憶媒体
JP3327877B2 (ja) 1999-04-14 2002-09-24 キヤノン株式会社 情報提供方法、情報提供システム、端末装置および情報提供プログラムを格納した記憶媒体
JP3376311B2 (ja) 1999-04-14 2003-02-10 キヤノン株式会社 情報提供方法および情報提供システム
JP3558267B2 (ja) * 1999-05-06 2004-08-25 株式会社エヌ・ティ・ティ・データ 文書検索装置
US6385611B1 (en) * 1999-05-07 2002-05-07 Carlos Cardona System and method for database retrieval, indexing and statistical analysis
US7844594B1 (en) 1999-06-18 2010-11-30 Surfwax, Inc. Information search, retrieval and distillation into knowledge objects
US6718363B1 (en) * 1999-07-30 2004-04-06 Verizon Laboratories, Inc. Page aggregation for web sites
JP3725373B2 (ja) * 1999-08-04 2005-12-07 富士通株式会社 単語重要度計算装置、文書検索装置、単語重要度計算プログラムを記録したコンピュータ読み取り可能な記録媒体および文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP3855551B2 (ja) * 1999-08-25 2006-12-13 株式会社日立製作所 検索方法及び検索システム
US6701310B1 (en) * 1999-11-22 2004-03-02 Nec Corporation Information search device and information search method using topic-centric query routing
US6751612B1 (en) * 1999-11-29 2004-06-15 Xerox Corporation User query generate search results that rank set of servers where ranking is based on comparing content on each server with user query, frequency at which content on each server is altered using web crawler in a search engine
US20020059223A1 (en) * 1999-11-30 2002-05-16 Nash Paul R. Locator based assisted information browsing
NL1013793C1 (nl) * 1999-12-08 2001-06-11 Eidetica B V Documentenzoeksysteem met automatische veldselectie en veldgestuurde documentsortering.
US6845369B1 (en) * 2000-01-14 2005-01-18 Relevant Software Inc. System, apparatus and method for using and managing digital information
JP4608740B2 (ja) * 2000-02-21 2011-01-12 ソニー株式会社 情報処理装置および方法、並びにプログラム格納媒体
US7428500B1 (en) * 2000-03-30 2008-09-23 Amazon. Com, Inc. Automatically identifying similar purchasing opportunities
US7007232B1 (en) * 2000-04-07 2006-02-28 Neoplasia Press, Inc. System and method for facilitating the pre-publication peer review process
US7555557B2 (en) * 2000-04-07 2009-06-30 Avid Technology, Inc. Review and approval system
US6912525B1 (en) 2000-05-08 2005-06-28 Verizon Laboratories, Inc. Techniques for web site integration
US7062483B2 (en) * 2000-05-18 2006-06-13 Endeca Technologies, Inc. Hierarchical data-driven search and navigation system and method for information retrieval
US7617184B2 (en) * 2000-05-18 2009-11-10 Endeca Technologies, Inc. Scalable hierarchical data-driven navigation system and method for information retrieval
US7035864B1 (en) * 2000-05-18 2006-04-25 Endeca Technologies, Inc. Hierarchical data-driven navigation system and method for information retrieval
US6876997B1 (en) 2000-05-22 2005-04-05 Overture Services, Inc. Method and apparatus for indentifying related searches in a database search system
US6883001B2 (en) * 2000-05-26 2005-04-19 Fujitsu Limited Document information search apparatus and method and recording medium storing document information search program therein
JP3870666B2 (ja) * 2000-06-02 2007-01-24 株式会社日立製作所 文書検索方法および装置並びにその処理プログラムを記録した記録媒体
KR20000063310A (ko) * 2000-06-26 2000-11-06 민재기 통신망을 통한 명사의 순위 검색 시스템과 그 방법
KR100408965B1 (ko) * 2000-06-26 2003-12-06 주식회사쓰리소프트 검색조건을 추천하는 검색결과 제공방법 및 검색서버
JP3573688B2 (ja) * 2000-06-28 2004-10-06 松下電器産業株式会社 類似文書検索装置及び関連キーワード抽出装置
US6598040B1 (en) * 2000-08-14 2003-07-22 International Business Machines Corporation Method and system for processing electronic search expressions
EP1816553B1 (en) 2000-12-21 2011-08-31 Xerox Corporation Systems and computer program products for the display and operation of virtual three-dimensional books
JP2002189754A (ja) * 2000-12-21 2002-07-05 Ricoh Co Ltd 文書検索装置及び文書検索方法
US7203673B2 (en) * 2000-12-27 2007-04-10 Fujitsu Limited Document collection apparatus and method for specific use, and storage medium storing program used to direct computer to collect documents
WO2002069203A2 (en) * 2001-02-28 2002-09-06 The Johns Hopkins University Method for identifying term importance to a sample text using reference text
JP4671212B2 (ja) * 2001-03-26 2011-04-13 株式会社リコー 文書検索装置、文書検索方法、プログラムおよび記録媒体
US6681219B2 (en) * 2001-03-29 2004-01-20 Matsushita Electric Industrial Co., Ltd. Method for keyword proximity searching in a document database
CA2373568C (en) 2001-04-26 2008-06-17 Hitachi, Ltd. Method of searching similar document, system for performing the same and program for processing the same
US6795820B2 (en) * 2001-06-20 2004-09-21 Nextpage, Inc. Metasearch technique that ranks documents obtained from multiple collections
EP1276061A1 (en) 2001-07-09 2003-01-15 Accenture Computer based system and method of determining a satisfaction index of a text
US6732092B2 (en) * 2001-09-28 2004-05-04 Client Dynamics, Inc. Method and system for database queries and information delivery
CN1327334C (zh) * 2001-11-08 2007-07-18 住友电气工业株式会社 文件分组装置
JP2003316807A (ja) * 2002-04-23 2003-11-07 Communication Research Laboratory 情報検索装置及び情報検索ソフトウェアを格納した記憶媒体
US7131117B2 (en) * 2002-09-04 2006-10-31 Sbc Properties, L.P. Method and system for automating the analysis of word frequencies
US7440941B1 (en) * 2002-09-17 2008-10-21 Yahoo! Inc. Suggesting an alternative to the spelling of a search query
US6947930B2 (en) * 2003-03-21 2005-09-20 Overture Services, Inc. Systems and methods for interactive search query refinement
US7346493B2 (en) 2003-03-25 2008-03-18 Microsoft Corporation Linguistically informed statistical models of constituent structure for ordering in sentence realization for a natural language generation system
US7194460B2 (en) * 2003-03-31 2007-03-20 Kabushiki Kaisha Toshiba Search device, search system, and search method
JP4049317B2 (ja) 2003-05-14 2008-02-20 インターナショナル・ビジネス・マシーンズ・コーポレーション 検索支援装置およびプログラム
US7359905B2 (en) * 2003-06-24 2008-04-15 Microsoft Corporation Resource classification and prioritization system
GB2403558A (en) * 2003-07-02 2005-01-05 Sony Uk Ltd Document searching and method for presenting the results
JP4552401B2 (ja) * 2003-08-19 2010-09-29 富士ゼロックス株式会社 文書処理装置および方法
US20050060290A1 (en) * 2003-09-15 2005-03-17 International Business Machines Corporation Automatic query routing and rank configuration for search queries in an information retrieval system
US20050091194A1 (en) * 2003-10-10 2005-04-28 Jupp Peter A. List acquisition method and system
US7493322B2 (en) * 2003-10-15 2009-02-17 Xerox Corporation System and method for computing a measure of similarity between documents
CN100437561C (zh) * 2003-12-17 2008-11-26 国际商业机器公司 电子文档的处理方法和装置及其系统
KR100462292B1 (ko) * 2004-02-26 2004-12-17 엔에이치엔(주) 중요도 정보를 반영한 검색 결과 리스트 제공 방법 및 그시스템
US7672927B1 (en) 2004-02-27 2010-03-02 Yahoo! Inc. Suggesting an alternative to the spelling of a search query
US7716216B1 (en) * 2004-03-31 2010-05-11 Google Inc. Document ranking based on semantic distance between terms in a document
JP4569178B2 (ja) * 2004-06-03 2010-10-27 富士ゼロックス株式会社 分類符号処理装置
JP4569179B2 (ja) * 2004-06-03 2010-10-27 富士ゼロックス株式会社 ドキュメント検索装置
US7594277B2 (en) * 2004-06-30 2009-09-22 Microsoft Corporation Method and system for detecting when an outgoing communication contains certain content
JP4525224B2 (ja) * 2004-07-26 2010-08-18 富士ゼロックス株式会社 ドキュメント管理プログラム、ドキュメント管理方法、及びドキュメント管理装置
US7110949B2 (en) * 2004-09-13 2006-09-19 At&T Knowledge Ventures, L.P. System and method for analysis and adjustment of speech-enabled systems
US7043435B2 (en) * 2004-09-16 2006-05-09 Sbc Knowledgfe Ventures, L.P. System and method for optimizing prompts for speech-enabled applications
WO2006047790A2 (en) * 2004-10-27 2006-05-04 Client Dynamics, Inc. Enhanced client relationship management systems and methods with a recommendation engine
JP2006155275A (ja) * 2004-11-30 2006-06-15 Denso It Laboratory Inc 情報抽出方法及び情報抽出装置
US7493273B1 (en) * 2005-01-19 2009-02-17 Earthtrax, Inc. Method, medium, and apparatus for identifying similar auctions
JP2006215916A (ja) * 2005-02-04 2006-08-17 Denso It Laboratory Inc 映像閲覧装置及び映像閲覧方法
JP2006285460A (ja) * 2005-03-31 2006-10-19 Konica Minolta Holdings Inc 情報検索システム
JP2006331245A (ja) * 2005-05-30 2006-12-07 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置、情報検索方法およびプログラム
KR100657318B1 (ko) * 2005-06-29 2006-12-14 삼성전자주식회사 이미지 선택방법 및 장치
JP4504878B2 (ja) * 2005-06-30 2010-07-14 株式会社野村総合研究所 文書処理装置
WO2007011140A1 (en) * 2005-07-15 2007-01-25 Chutnoon Inc. Method of extracting topics and issues and method and apparatus for providing search results based on topics and issues
JP4314221B2 (ja) 2005-07-28 2009-08-12 株式会社東芝 構造化文書記憶装置、構造化文書検索装置、構造化文書システム、方法およびプログラム
US20070078833A1 (en) * 2005-10-03 2007-04-05 Powerreviews, Inc. System for obtaining reviews using selections created by user base
US7730081B2 (en) * 2005-10-18 2010-06-01 Microsoft Corporation Searching based on messages
US8019752B2 (en) * 2005-11-10 2011-09-13 Endeca Technologies, Inc. System and method for information retrieval from object collections with complex interrelationships
US7620651B2 (en) * 2005-11-15 2009-11-17 Powerreviews, Inc. System for dynamic product summary based on consumer-contributed keywords
JP4719921B2 (ja) * 2005-11-15 2011-07-06 独立行政法人情報通信研究機構 データ表示装置およびデータ表示プログラム
JP4172801B2 (ja) * 2005-12-02 2008-10-29 インターナショナル・ビジネス・マシーンズ・コーポレーション テキストからキーワードを検索する効率的なシステム、および、その方法
US7627559B2 (en) * 2005-12-15 2009-12-01 Microsoft Corporation Context-based key phrase discovery and similarity measurement utilizing search engine query logs
US20070174258A1 (en) * 2006-01-23 2007-07-26 Jones Scott A Targeted mobile device advertisements
US8065286B2 (en) 2006-01-23 2011-11-22 Chacha Search, Inc. Scalable search system using human searchers
US8117196B2 (en) * 2006-01-23 2012-02-14 Chacha Search, Inc. Search tool providing optional use of human search guides
US7962466B2 (en) * 2006-01-23 2011-06-14 Chacha Search, Inc Automated tool for human assisted mining and capturing of precise results
US8266130B2 (en) * 2006-01-23 2012-09-11 Chacha Search, Inc. Search tool providing optional use of human search guides
JP4699909B2 (ja) * 2006-01-25 2011-06-15 株式会社野村総合研究所 キーワード対応関係分析装置及び分析方法
JP2007265068A (ja) * 2006-03-29 2007-10-11 National Institute Of Information & Communication Technology 文書差分検出装置及びプログラム
US7716229B1 (en) 2006-03-31 2010-05-11 Microsoft Corporation Generating misspells from query log context usage
JP2007323238A (ja) * 2006-05-31 2007-12-13 National Institute Of Information & Communication Technology 強調表示装置及びプログラム
JP4948071B2 (ja) * 2006-07-28 2012-06-06 三菱スペース・ソフトウエア株式会社 コンテンツ検索装置及びコンテンツ検索プログラム
WO2008059515A2 (en) * 2006-08-01 2008-05-22 Divyank Turakhia A system and method of generating related words and word concepts
CN100444591C (zh) * 2006-08-18 2008-12-17 北京金山软件有限公司 获取网页关键字的方法及其应用系统
WO2008050649A1 (fr) * 2006-10-23 2008-05-02 Nec Corporation Système, procédé et programme de récapitulation de contenu
US20080113801A1 (en) * 2006-11-13 2008-05-15 Roland Moreno Game based on combinations of words and implemented by computer means
US8676802B2 (en) * 2006-11-30 2014-03-18 Oracle Otc Subsidiary Llc Method and system for information retrieval with clustering
US7630978B2 (en) * 2006-12-14 2009-12-08 Yahoo! Inc. Query rewriting with spell correction suggestions using a generated set of query features
KR100906928B1 (ko) * 2007-03-26 2009-07-10 엔에이치엔비즈니스플랫폼 주식회사 비즈니스 키워드에 대한 연관 요소를 반영하는 검색어 추천 서비스 방법, 컴퓨터 판독 가능 기록 매체 및 그 시스템
JP5332128B2 (ja) * 2007-03-30 2013-11-06 富士通株式会社 情報検索装置、情報検索方法およびそのプログラム
US20080300971A1 (en) * 2007-05-30 2008-12-04 Microsoft Corporation Advertisement approval based on training data
US20080313202A1 (en) * 2007-06-12 2008-12-18 Yakov Kamen Method and apparatus for semantic keyword clusters generation
WO2009019858A1 (ja) * 2007-08-08 2009-02-12 Panasonic Corporation 番組検索支援装置およびその方法
JP4771485B2 (ja) * 2007-08-20 2011-09-14 日本電信電話株式会社 文書間距離演算装置、プログラムおよび記録媒体
US8108405B2 (en) * 2007-10-05 2012-01-31 Fujitsu Limited Refining a search space in response to user input
US8694483B2 (en) * 2007-10-19 2014-04-08 Xerox Corporation Real-time query suggestion in a troubleshooting context
JP5315664B2 (ja) * 2007-10-29 2013-10-16 沖電気工業株式会社 位置表現検出装置、プログラム、及び、記憶媒体
US7856434B2 (en) * 2007-11-12 2010-12-21 Endeca Technologies, Inc. System and method for filtering rules for manipulating search results in a hierarchical search and navigation system
JP5104329B2 (ja) * 2008-01-16 2012-12-19 大日本印刷株式会社 ドキュメント検索システム
US20090241165A1 (en) * 2008-03-19 2009-09-24 Verizon Business Network Service, Inc. Compliance policy management systems and methods
JP2009245179A (ja) * 2008-03-31 2009-10-22 Nomura Research Institute Ltd 文書検索支援装置
JP4587236B2 (ja) * 2008-08-26 2010-11-24 Necビッグローブ株式会社 情報検索装置、情報検索方法、およびプログラム
JP5380989B2 (ja) * 2008-09-30 2014-01-08 カシオ計算機株式会社 辞書機能を備えた電子装置およびプログラム
US8468158B2 (en) * 2008-11-06 2013-06-18 Yahoo! Inc. Adaptive weighted crawling of user activity feeds
US8892574B2 (en) 2008-11-26 2014-11-18 Nec Corporation Search apparatus, search method, and non-transitory computer readable medium storing program that input a query representing a subset of a document set stored to a document database and output a keyword that often appears in the subset
US8112393B2 (en) * 2008-12-05 2012-02-07 Yahoo! Inc. Determining related keywords based on lifestream feeds
WO2010072251A1 (en) * 2008-12-22 2010-07-01 Telecom Italia S.P.A. Measurement of data loss in a communication network
KR101065091B1 (ko) 2009-02-17 2011-09-16 엔에이치엔(주) 기여 점수에 기초한 문서 순위 결정 시스템 및 방법
JP5321258B2 (ja) * 2009-06-09 2013-10-23 日本電気株式会社 情報収集システムおよび情報収集方法ならびにそのプログラム
JP5261326B2 (ja) * 2009-08-28 2013-08-14 日本電信電話株式会社 情報検索装置、情報検索プログラム
CN102053977A (zh) * 2009-11-04 2011-05-11 阿里巴巴集团控股有限公司 一种搜索结果生成方法及信息搜索系统
US20120254071A1 (en) * 2009-12-17 2012-10-04 Nec Corporation Text mining system, text mining method and recording medium
US8788342B2 (en) 2010-03-04 2014-07-22 Yahoo! Inc. Intelligent feature expansion of online text ads
JP5362651B2 (ja) * 2010-06-07 2013-12-11 日本電信電話株式会社 重要語句抽出装置及び方法及びプログラム
CN102289436B (zh) * 2010-06-18 2013-12-25 阿里巴巴集团控股有限公司 确定搜索词权重值方法及装置、搜索结果生成方法及装置
CN102014199A (zh) * 2010-09-16 2011-04-13 宇龙计算机通信科技(深圳)有限公司 一种信息显示方法及终端
KR101086566B1 (ko) 2010-09-27 2011-11-23 엔에이치엔(주) 문서 순위 점수의 동적 갱신을 위한 방법 및 장치
JP5442161B2 (ja) * 2011-02-22 2014-03-12 三菱電機株式会社 検索システム、検索システムの検索方法、情報処理装置、検索プログラム、対応キーワード管理装置および対応キーワード管理プログラム
JP5044707B1 (ja) * 2011-03-31 2012-10-10 株式会社東芝 情報処理システム、情報処理装置およびプログラム
JP5248655B2 (ja) * 2011-05-18 2013-07-31 株式会社東芝 情報処理装置およびプログラム
US20130024459A1 (en) * 2011-07-20 2013-01-24 Microsoft Corporation Combining Full-Text Search and Queryable Fields in the Same Data Structure
US8572096B1 (en) * 2011-08-05 2013-10-29 Google Inc. Selecting keywords using co-visitation information
JP5639549B2 (ja) * 2011-08-22 2014-12-10 日本電信電話株式会社 情報検索装置及び方法及びプログラム
US20130110839A1 (en) * 2011-10-31 2013-05-02 Evan R. Kirshenbaum Constructing an analysis of a document
JP5597653B2 (ja) * 2012-01-05 2014-10-01 日本電信電話株式会社 単語抽出装置及び方法及びプログラム
JP5595426B2 (ja) * 2012-01-05 2014-09-24 日本電信電話株式会社 単語抽出方法及び装置及びプログラム
JP2012216239A (ja) * 2012-07-12 2012-11-08 Toshiba Corp 情報処理装置、プログラムおよび情報検索方法
CN103678365B (zh) 2012-09-13 2017-07-18 阿里巴巴集团控股有限公司 数据的动态获取方法、装置及系统
TW201411379A (zh) * 2012-09-14 2014-03-16 Hon Hai Prec Ind Co Ltd 搜索系統及方法
US9678993B2 (en) 2013-03-14 2017-06-13 Shutterstock, Inc. Context based systems and methods for presenting media file annotation recommendations
JP2014178965A (ja) * 2013-03-15 2014-09-25 Ntt Docomo Inc 意味属性推定装置、意味属性推定方法及び意味属性推定プログラム
US8965915B2 (en) 2013-03-17 2015-02-24 Alation, Inc. Assisted query formation, validation, and result previewing in a database having a complex schema
CN104281603B (zh) * 2013-07-05 2018-01-19 北大方正集团有限公司 字频分级统计方法及系统
JP6107513B2 (ja) * 2013-07-29 2017-04-05 富士通株式会社 情報処理システム、情報処理方法、および情報処理プログラム
KR101541306B1 (ko) * 2013-11-11 2015-08-04 주식회사 엘지씨엔에스 컴퓨터 실행 가능한 중요 키워드 추출 방법, 이를 수행하는 중요 키워드 추출 서버 및 이를 저장하는 기록매체
US9875246B2 (en) * 2014-10-02 2018-01-23 Liquid Presentation LLC System and method for generating and displaying a cocktail recipe presentation
JP5818391B2 (ja) * 2014-10-29 2015-11-18 シャープ株式会社 情報処理システムおよび電子機器
WO2017131753A1 (en) * 2016-01-29 2017-08-03 Entit Software Llc Text search of database with one-pass indexing including filtering
WO2020213776A1 (ko) * 2019-04-19 2020-10-22 한국과학기술원 토론 상황 시 객관적이고 구체적이고 정보가 풍부한 근거 문장 검색에 특화된 자질 추출기
JP6764973B1 (ja) * 2019-04-25 2020-10-07 みずほ情報総研株式会社 関連語辞書作成システム、関連語辞書作成方法及び関連語辞書作成プログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0520362A (ja) * 1991-07-10 1993-01-29 Tokyo Electric Power Co Inc:The 文書テキスト間の連鎖自動作成システム
US5278980A (en) 1991-08-16 1994-01-11 Xerox Corporation Iterative technique for phrase query formation and an information retrieval system employing same
JP2542464B2 (ja) * 1991-09-20 1996-10-09 日本電信電話株式会社 文書検索装置
JPH05135107A (ja) * 1991-11-14 1993-06-01 Ricoh Co Ltd 文書検索装置
JP2583386B2 (ja) 1993-03-29 1997-02-19 日本電気株式会社 キーワード自動抽出装置
JP3361563B2 (ja) * 1993-04-13 2003-01-07 松下電器産業株式会社 形態素解析装置及びキーワード抽出装置
JP3220885B2 (ja) 1993-06-18 2001-10-22 株式会社日立製作所 キーワード付与システム
JPH07192010A (ja) * 1993-12-27 1995-07-28 Canon Inc 文書処理装置
JPH08221448A (ja) * 1995-02-10 1996-08-30 Canon Inc キーワード抽出装置
JPH08272822A (ja) * 1995-03-29 1996-10-18 Fuji Xerox Co Ltd 文書登録装置及び文書検索装置
WO1997012334A1 (en) 1995-09-25 1997-04-03 International Compu Research, Inc. Matching and ranking legal citations
US5826261A (en) * 1996-05-10 1998-10-20 Spencer; Graham System and method for querying multiple, distributed databases by selective sharing of local relative significance information for terms related to the query

Also Published As

Publication number Publication date
CN1206158A (zh) 1999-01-27
JP3607462B2 (ja) 2005-01-05
EP0889419B1 (en) 2006-01-18
EP0889419A2 (en) 1999-01-07
DE69833238T2 (de) 2006-09-28
US6212517B1 (en) 2001-04-03
EP0889419A3 (en) 2000-03-22
DE69833238D1 (de) 2006-04-06
JPH1125108A (ja) 1999-01-29
KR19990013736A (ko) 1999-02-25
KR100304335B1 (ko) 2001-11-22

Similar Documents

Publication Publication Date Title
CN1198225C (zh) 关键字提取系统及采用该系统的文本检索系统
CN1133127C (zh) 文件检索系统
CN1489089A (zh) 文件检索系统和问题回答系统
EP0979470B1 (en) Method and apparatus for searching a database of records
US6182067B1 (en) Methods and systems for knowledge management
CN1109982C (zh) 检索相关超文本文件的超文本文件检索装置
US6480835B1 (en) Method and system for searching on integrated metadata
US20120197910A1 (en) Method and system for performing classified document research
CN1871603A (zh) 处理查询的系统和方法
CN1846210A (zh) 利用本体存储并检索数据的方法及装置
CN101044481A (zh) 用于搜索、导航和排名个人网中的文档的方法、系统和计算机程序产品
CN1269897A (zh) 用于选择数据集的方法和/或系统
CN1559044A (zh) 信息解析方法以及装置
KR20070089449A (ko) 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체.
CN1530860A (zh) 使用全局唯一标识符的数据搜索系统和数据搜索方法
CN1573753A (zh) 数据库对象脚本生成方法和系统
US20110258227A1 (en) Method and system for searching documents
JP2009080577A (ja) 情報検索支援装置及び方法
JP2003044491A (ja) 知識分析システムならびに同システムにおける分析条件設定方法、分析条件保存方法および再分析処理方法
CN101055580A (zh) 用于检索文档的系统、方法及用户接口
KR20020089677A (ko) 문서 자동 분류 방법 및 이를 수행하기 위한 시스템
CN1449531A (zh) 数据编译方法
JP2010055164A (ja) 文章検索装置、文章検索方法、文章検索プログラムおよびその記録媒体
JPH10162011A (ja) 情報検索方法、情報検索システム、情報検索端末装置および情報検索装置
US10997182B2 (en) Information processing apparatus, and non-transitory computer readable medium storing an information processing program

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MATSUSHITA ELECTRIC (AMERICA) INTELLECTUAL PROPERT

Free format text: FORMER OWNER: MATSUSHITA ELECTRIC INDUSTRIAL CO, LTD.

Effective date: 20140724

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20140724

Address after: California, USA

Patentee after: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA

Address before: Japan Osaka

Patentee before: Matsushita Electric Industrial Co.,Ltd.

CX01 Expiry of patent term
CX01 Expiry of patent term

Granted publication date: 20050420