CN100507903C - 检索确认句的方法和系统 - Google Patents

检索确认句的方法和系统 Download PDF

Info

Publication number
CN100507903C
CN100507903C CNB031249892A CN03124989A CN100507903C CN 100507903 C CN100507903 C CN 100507903C CN B031249892 A CNB031249892 A CN B031249892A CN 03124989 A CN03124989 A CN 03124989A CN 100507903 C CN100507903 C CN 100507903C
Authority
CN
China
Prior art keywords
sentence
inquiry
weight
item
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB031249892A
Other languages
English (en)
Other versions
CN1490744A (zh
Inventor
周明
吴华
张跃
高剑峰
黄昌宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN1490744A publication Critical patent/CN1490744A/zh
Application granted granted Critical
Publication of CN100507903C publication Critical patent/CN100507903C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/40Data acquisition and logging
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

提供一种从句子数据库中检索确认句以响应查询的方法及系统。搜索引擎从句子数据库中检索确认句以响应查询。在检索确认句时,搜索引擎基于该查询定义索引单元,索引单元包括来自该查询的词条及和与该查询关联的扩展索引单元。然后搜索引擎使用已定义的索引单元作为搜索参数从句子数据库中检索到多个句子。多个检索到的句子中的每一个句子之间的相似性由搜索引擎确定,所述每个相似性作为查询中的一项的语言学权重的函数来确定。然后搜索引擎基于已确定的相似性排列多个检索到的句子。

Description

检索确认句的方法和系统
技术领域
本发明涉及机器辅助的写作系统和方法。更特别地,本发明涉及辅助用户以非母语写作的系统和方法。
背景技术
随着全球通讯的快速发展,用英语和其他非母语写作的能力越来越重要。然而,说非母语的人(例如,说中文、日文、韩文或其他非英语语言的人)常觉得用英语写作很困难。难度往往不在拼写上,也不在语法上,而是在习惯用法上。因此,对这些说非母语的的人来说用英语写作的最大的问题是确定如何润色句子。虽然这对以任何非母语语言写作的过程都是一样的,在此主要通过引用英语写作来说明该问题。
拼写检查和语法检查仅在用户拼错单词或者犯明显的语法错误时有用。不能依靠这些检查程序来帮助润色句子。字典也很有用,但多数情况下仅用于解决阅读和翻译的问题。通常,在字典里查一个单词向作者提供该单词用法的多个解释,但没有语境信息。因此,用户得到解决的办法是容易混淆并且耗时的。
通常,作者觉得在写作中润色句子时有好的例句作为参考是很有帮助的。问题在于往往没有这样的例句在手上。另外,迄今为止,还没有软件有效支持英语的润色,并且只有很少的学者在这一领域进行研究。
实现一个能够辅助用户润色英语句子的系统面临无数的挑战。首选,给出一个用户的句子,必须确定如何检索出确认句。确认句被用来确认用户的句子。确认句应在句子结构或形式上接近用户输入的查询或预期的输入查询。基于有限的例子,很难检索出完全相似的句子,因此通常只可能检索出包含与正被写出的句子(查询句子)相似的某些部分的句子。然后,出现两个互相关联的问题。第一个问题是如果用户的句子太长太复杂,应该取哪一部分作为用户的焦点呢?第二个问题是如果有很多句子匹配,它们应该如何准确并有效地排序来最大化它们对作者的有用性呢?
第二个挑战是确定如何检索提示句。提示句被用来提供扩展的表达。换句话说,提示句应在意思上与用户的输入查询句子相似,并被用来向用户提供表达一个特定思想的其他方法。更复杂的一种情况是当用户的句子包含混淆的表达,或即使用户的句子是用英文写出但却使用了其他语言的句子结构或语法(例如,“中文式的英语句子”)时确定如何检测用户的真实意图来检索适当的提示句。第三个挑战涉及用户可能用他或她的母语写出的查询进行搜索这一事实。为了实现准确的翻译,查询理解和翻译选择是两个大的技术障碍。
虽然上述问题是引用不以英语为母语的人们(例如,以中文、日文或韩文为母语的人)进行英语写作来说明的,这些问题对以第一种语言(非母语)写作,但却是说第二种语言(母语)的人是相同的。根据这些问题,或其他未讨论的问题,通过提供相关的确认和/或提示句将辅助非母语的人以英语或其他非母语的语言写作的系统或方法是技术的一大进步。
发明内容
提供一种从句子数据库中检索确认句以响应查询的方法、计算机可读媒体及系统。搜索引擎从句子数据库中检索确认句以响应查询。确认句被用来在写作的时候确认或指导用户的句子结构。因此,确认句应在句子结构或形式上接近用户输入的查询或预期的输入查询以作为语法上的例子使用。
搜索引擎从句子数据库中检索确认句以响应查询。查询被接收并且基于该查询定义索引单元,索引单元包括来自该查询的词条及和该查询关联的扩展索引单元。搜索引擎使用已定义的索引单元作为查询参数检索来自句子数据库的句子。
搜索引擎的排列组件确定检索到的确认句的每一个句子之间的相似性。相似性作为查询中的一项的语言学权重的函数来确定。查询中的该项的语言学权重是作为它的词性的一个函数赋给查询中的该项的权重。然后排列组件基于已确定的相似性排列检索到的确认句。
在一些实例中,每个相似性进一步作为对应于确认句长度的句子长度因子的一个函数来确定。
附图说明
图1为在其中可以实现本发明的计算环境的方框图。
图2为在其中可以实现本发明的替换计算环境的方框图。
图3方框图,展示本发明辅助用户构建和润色英语句子的系统和方法。
图4-1和4-2分别为英语查询和中文查询的相关性三元组的例子。
图5-1为方框图,展示创建相关性三元组数据库的方法。
图5-2为方框图,展示提供用于搜索句子数据库的替换表达的查询扩展方法。
图6-1为方框图,展示检测用户输入查询意图的翻译方法。
图6-2为方框图,展示构建混淆集合数据库的方法。
图6-3为方框图,展示检测用户输入查询意图的混淆集合方法。
图7为方框图,展示改进句子检索的查询翻译方法。
图8为方框图,展示在图3中所示的搜索引擎的一个实例。
具体实施方式
本发明提供帮助用户以非母语写作并通过参考建议性的句子润色他们的句子的有效系统。建议性的句子,可以为确认句和提示句,是将用户的句子作为查询自动地从句子数据库中检索出的。为了实现这个系统,提议采纳几种技术。例如,第一种技术涉及改进的例句推荐方法。第二种技术涉及改进的帮助在用户的母语中搜索的跨语言信息检索方法和技术。还提议采纳其他技术。
图1展示在其中可以实现本发明的适合的计算系统环境100的例子。计算系统环境100仅是适合的计算环境的一个例子并不意味着对本发明的使用范围或功能的任何限制。也不应将计算环境100解释为与在示范性操作环境100中展示的组件中的任何一个或其组合有任何相关性或需求。
本发明可以工作在大量其他通用或或专用计算系统环境或配置中。适合于使用本发明的众所周知的计算系统、环境及/或配置的例子包括,但不仅限于,个人计算机、服务器计算机、手持设备或膝上设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费者电子产品、网络PC、小型计算机、大型计算机、电话系统、包含任何上述系统或设备及类似系统的分布式计算环境。
本发明可以在计算机可执行指令的通用环境中说明,如由计算机执行的程序模块。通常,程序模块包括执行特殊的任务或实现特殊的抽象数据类型的例行程序、程序、对象、组件、数据结构等等。本发明也可以实现在分布式计算环境中,其中任务是由通过通讯网络链接的远程处理设备执行的。在分布式计算环境中,程序模块可以位于本地和远程的包括存储器存储设备的计算机存储媒体。
参考图1,实现本发明的示范性系统包括形式为计算机110的通用计算设备。计算机110的组件包括,但不仅限于,处理单元120、系统存储器130和耦合包括系统存储器的不同系统组件到处理单元120的系统总线121。系统总线121可以为几种总线结构的任何一种,包括存储器总线或存储器控制器、外围设备总线,和使用多种总线结构的任何一种的本地总线。作为例子,而非限制,这样的结构包括工业标准结构(ISA)总线、微通道结构(MCA)总线、扩展ISA(EISA)总线、视频电子标准协会(VESA)本地总线,和也称为Mezzanine总线的外围元件互连接口(PCI)总线。
计算机110通常包括多个计算机可读媒体。计算机可读媒体可以为任何可以被计算机110访问的可用媒体并且包括易失的和非易失的媒体,可移动的和不可移动的媒体。作为例子,而非限制,计算机可读媒体可以包括计算机存储媒体和通讯媒体。计算机存储媒体包括用来存储信息如计算机可读指令、数据结构、程序模块或其他数据的以任何方法或技术实现的易失的和非易失的媒体,可移动的和不可移动的媒体。计算机存储媒体包括,但不仅限于,RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、盒式磁带、磁带、磁盘存储或其他磁存储设备,或其他可以用来存储所需信息并可以由计算机110访问的任何媒体。通讯媒体通常包括计算机可读指令、数据结构、程序模块或以已调制数据信号方式的其他数据,如载波或其他传输机制,也包括其他任何信息传输媒体。术语“已调制数据信号”是一种信号,它的一个或多个特性被设置或改变的方式对信号中的信息进行编码。作为例子,而非限制,通讯媒体包括以声音、RF、红外线或其他载体实现的有线或无线的技术。上述任何媒体的组合应包括在计算机可读媒体的范围内。
系统内存130包括形式为可移动和/或不可移动、易失的和/或非易失的存储器的计算机存储媒体如只读存储器(ROM)131和随机存取存储器(RAM)132。包含基本的例程来帮助在计算机110的元件之间传输信息,如在启动过程中的基本输入/输出系统133(BIOS)一般存储在ROM131中。RAM132通常包含需要能够马上访问的和/或正在由处理单元120处理的数据和/或程序模块。作为例子,而非限制,图1用图示说明操作系统134、应用程序135、其他程序模块136和程序数据137。
计算机110可以包含其他的可移动的/不可移动的、易失的/非易失的计算机存储媒体。仅作为例子,图1展示了一个读写不可移动的、非易失的磁媒体的硬盘驱动器141,一个读写可移动的、非易失的磁盘152的磁盘驱动器151,一个读写可移动的、非易失的光盘156的光盘驱动器155如CD-ROM或其他光学媒体。其他可以用在示范性的操作环境里的可移动的/不可移动的、易失的/非易失的存储媒体包括,但不仅限于,磁带和盒式磁带、闪存卡、数字式多用途盘、数字视频磁带、固态的RAM、固态的ROM等等。硬盘驱动器141通常与系统总线121通过不可移动的存储器接口相连,如接口140,以及磁盘驱动器151和光盘驱动器165通常与系统总线121通过可移动的存储器接口相连,如接口150。
上面在图1中展示的驱动器以及它们相关的计算机存储媒体为计算机110存储计算机可读指令、数据结构、程序模块和其他数据。在图1中,例如,硬盘驱动器141用来存储操作系统144、应用程序145、其他程序模块146以及程序数据147。注意这些组件既可以与操作系统134、应用程序135、其他程序模块136以及程序数据137一样也可以与它们不同。操作系统144、应用程序145、其他程序模块146以及程序数据147用不同的数字标出以说明,至少它们是不同的拷贝。
用户可以通过输入设备,如键盘162、麦克风163和定点设备161,通常称为鼠标、轨迹球或触摸垫,提供命令和信息到计算机110中。其他输入设备(未标出)可以包括操纵杆、游戏垫、卫星式转盘、扫描仪或类似设备。这些和其他输入设备通过连接到总线的用户输入接口160连接到处理单元120,但也可以通过其他接口和总线结构,如并行口、游戏口,或通用串行总线(USB)来连接。显示器191或其他显示设备也通过接口,如视频适配器190与系统总线121连接。除显示器之外,计算机还可以包括通过输出外围接口195或类似的接口连接的其他周边输出设备(未标出),如扬声器197和打印机196。
计算机110可以使用与一个或多个远程计算机,如远程计算机180的逻辑连接在联网环境中运行。远程计算机180可以是个人计算机、服务器、路由器、网络PC、对等设备或其他公共网络节点,并通常包括多个或所有上述相对于计算机110的组件。图1中所示逻辑连接是局域网(LAN)171和广域网(WAN)173,但也可以包括其他网络。这样的联网环境在办公室范围或企业范围的计算机网络、企业内部互联网和因特网中是很常见的。
当用在局域网联网环境中,计算机110通过网络接口或适配器170与局域网171相连。当用在广域网联网环境中,计算机110通常包括调制解调器172或其他在广域网173上建立通讯的方法。调制解调器172,可以为内置的或外置的,通过用户输入接口160或其他适合的机制连接到系统总线121。在网络环境中,所述相对于计算机110的程序模块,或其部分,可以存储在远程存储器存储设备中。作为例子,而非限制,如图1所示,远程应用程序185可以驻留在远程计算机181的存储器设备中。应理解所示网络连接仅为示范性的,也可以使用其他在计算机之间建立通讯链路的方法。
图2是作为示范性计算环境的移动设备200的方框图。移动设备200包括微处理器202、存储器204、输入/输出(I/O)组件206和用于和远程计算机或其他移动设备通讯的通讯接口208。在一个实例中,上述组件为了互相通讯被耦合在适合的总线210上。
存储器204实现为非易失电子存储器如有备用电池模块(未标出)的随机访问存储器(RAM),使得当移动设备210的总电源关闭时存储在存储器204中的信息不丢失。存储器204的一部分最好为用于程序执行而分配作为可寻址的存储器,而存储器204的另一部分最好用于存储,如模拟在硬盘驱动器上的存储。
存储器204包括操作系统212、应用程序214和对象存储216。在运行时,操作系统212由处理器202从存储器204优先执行。操作系统202,在一个首选实例中,为商业上由微软公司提供的
Figure C03124989D0010092515QIETU
 CE品牌的操作系统。操作系统212是为移动设备优先设计的,并且实现可以由应用程序214通过一组暴露的应用程序接口和方法利用的数据库特性。对象存储216中的对象由应用程序214和操作系统212维护,至少部分响应对暴露的应用程序接口和方法的调用。
通讯接口208表示大量的允许移动设备200发送和接收信息的设备和技术。列出一部分,这些设备包括有线和无线的调制解调器、卫星接收器和广播调谐器。移动设备200也可以直接连接到计算机以与其交换数据。在这种情况下,通讯接口208可以为红外收发器或串口或并口通讯连接,它们都能传输流式信息。
输入/输出组件206包括不同的输入设备如触摸屏、按钮、滚轮和麦克风以及不同的输出设备,包括音频发生器、振动设备和显示屏。上面所列设备是作为例子并不需要全部出现在移动设备200中。另外,在本发明的范围内其他输入/输出设备也可以连接到或内置在移动设备200中。
根据本发明的不同方面,所提议采纳的是对非母语的人提供实用的工具来辅助英语写作的方法和系统。本发明并不集中在辅助用户的拼写和语法,而是集中于句子润色辅助。总的来说,假设不时需要以英语写作的用户必需具有英语词汇和语法的基本知识。换句话说,给出选择时,用户有一些能力来区分好的句子和坏的句子。
本发明实例所用方法是提供适合的句子给用户,无论他或她在写什么或在什么时间写。该场景很简单:无论何时用户写一个句子,系统检测他的或她的意图,并提供一些例句。然后,用户通过参考这些例句来润色他的或她的句子。这种技术被称为“例句智能推荐”。
图3方框图,展示本发明辅助用户构建和润色英语句子的系统和方法。更通用地,该系统和方法辅助用户构建和润色以第一种语言写出的句子,但是作为例子本发明通过引用英语句子润色来说明。系统300包括用来接收或录入输入查询到系统中的输入305。输入查询可以有多种形式,包括部分或完整的英语句子、部分或完整的中文句子(或更通用地,第二种语言的句子),甚至是以第二种语言的句子结构或语法混合第一种语言的单词的形式(例如,“中文式的英语”)。
查询处理组件310提供查询,或者整个或者相关的组成部分,给搜索引擎315。搜索引擎315使用查询项或从查询项产生的信息搜索句子数据库320。在整个输入查询被提供给搜索引擎315来处理并搜索的实例中,查询处理组件310可以和输入305组合。然而,在一些实例中,查询处理组件310可以对查询执行一些处理功能,例如从查询中抽取项并将这些项传送给搜索引擎315。更进一步,虽然本发明大部分是引用由搜索引擎315整个或部分地实现方法来说明的,在其他实例中,部分或全部的方法可以部分地在组件310中实现。
数据库320包含大量从标准英语文档中抽取出的例句。搜索引擎315从数据库中检索用户期望的例句。例句由搜索引擎315排列,并在句子输出组件325处提供给用户在润色他或她写出的句子时作参考。
用户通过在运行在如图1和图2所示的计算机或计算环境中的字处理程序中写一些东西输入查询。例如,他或她可以输入一个单词,或一个短语,或整个句子。有时,查询是以他或她的母语写出,即使最终的目标是以第一种或非母语(如,英语)写出一个句子。用户的输入将被作为对搜索引擎315的查询来处理。搜索引擎搜索句子库320来找出相关的句子。相关的句子被分为两类:确认句和提示句。
确认句被用来确认或指导用户的句子结构,而提示句被用来提供扩展的表达。确认句应在句子结构或形式上接近用户输入的查询或预期的输入查询以作为语法上的例子使用。提示句应在意思上与用户的输入查询句子相似,并被用来向用户提供表达一个特定思想的另一种方法。本发明的各方面在搜索引擎组件315中以下述方式实现。然而,在其他实例中,本发明的某些方面可以在查询处理组件310中实现。注意虽然本发明是在中文和英语的上下文中说明的,本发明和语言无关并可以容易地扩展到其他语言。
为了对上述挑战中的一个或多个提供解决方法,系统300和它实现的方法使用能够进行自然语言处理(能够进行NLP)的跨语言信息检索设计。它使用常规的信息检索(IR)模型为基线,并应用NLP技术来提高检索精度。
基线系统
搜索引擎315所改进的基线系统是在传统的IR系统中广泛使用的一种方法。这种方法的总体说明如下。
以D表示的整个例句集合包含多个“文档”,每个文档实际上是句子数据库320中的一个例句。对常规IR索引方法,文档的索引结果(仅包含一个句子)可以表示为权重的一个向量,如公式1所示:
公式1
Di→(di1,di2,...,dim)
其中dik(1≦k≦m)为项tk在文档Di中的权重,m是向量空间的大小,由集合中发现的不同项的数量来确定。在一个例子实例中,项为英语单词。一个项在文档中的权重dik根据它在文档中出现的频数(tf—项频数),以及它在整个集合中的分布(idf—逆文档频数)来计算。有多种计算和定义项权重dik的方法。在这里,作为例子,我们使用公式2所示的关系:
公式2
d ik = [ log ( f ik ) + 1.0 ] * log ( N / n k ) Σ j [ ( log ( f ik ) + 1.0 ) * log ( N / n k ) ] 2
其中fik为项tk在文档Di中出现的频数,N为集合中文档的总数,及nk为包含项tk的文档的数量。这是在IR中最普通使用的TF-IDF加权方法。
如TF-IDF加权方法中常见的那样,查询Q,即用户的输入句子,以相似的方法来索引,同时对一个查询也取得一个向量,如公式3所示:
公式3
Qj→(qj1qj2,…,qjm)
文档集合中的文档(句子)Di和查询句子Qj之间的相似性Sim(Di,Qj)可以用它们的向量的内积来计算,如公式4所示:
公式4
Sim ( D i , Q j ) = Σ k ( d ik * q jk )
能够进行NLP的跨语言信息检索设计
附加,或代替,使用如上所述的基线方法来进行句子检索,搜索引擎315基于该方法使用能够进行NLP的跨语言信息检索方法。NLP技术方法论提高了检索精度,如下所述。为了提高检索精度,系统300单独或组合使用两个扩展的索引单元方法。首先,为了在构建一个句子时反映语言学的意义,不同类型的索引单元被赋予不同的权重。其次,为了改进提示句检索,使用了一种新方法。对查询句子,所有的单词都被替换为它们的近义词或相关的词,例如来自辞典的同义词。然后,使用相关性三元组数据库来过滤不合法的搭配以去除可能的干扰扩展。
为了改进查询翻译,在搜索引擎315(或组件310)中使用基于相关性三元组的新的翻译模型。首先,从查询中抽取出主相关性三元组,然后基于这些三元组进行翻译。下面是有关相关性三元组数据库的说明。
相关性三元组数据库
相关性三元组包含头部、从属部及头部和从属部之间的相关性关系。使用相关性解析器,句子被分解为一组如公式5所示形式的相关性三元组trp:
公式5
trp=(w1,rel,w2)
例如,对英语句子“I have a brown dog”,相关性解析器可以得到一组如图4-1所示的三元组。相关性解析器结果的标准表达为:(have,sub,I),(have,obj,dog),(dog,adj,brown),(dog,det,a)。类似地,对中文句子“国家颁布了计划”(英语为“The nation has issued the plan”),相关性解析器可以得到一组如图4-2所示的三元组。相关性解析器结果的标准表达为:(颁布,sub,国家),(颁布,obj,计划),(颁布,comp,了)。
在一些实例中,本发明的搜索引擎315使用相关性三元组数据库360来扩展从查询中抽取出的主相关性三元组的搜索项。因此,相关性三元组数据库可以包含在,或耦合到查询处理组件310和搜索引擎315之一。图5-1展示创建相关性三元组数据库360的方法。后面所述图8展示了连接到三元组数据库360的搜索引擎。
如图5-1所示,来自文本语言资料库的每个句子由相关性解析器355解析并且生成一组相关性三元组。每个三元组都被放到三元组数据库360中。如果在三元组数据库360中已经存在一个三元组的实例,该三元组的频数增加。在解析所有的句子后,包含成千上万个三元组的三元组数据库被创建出。由于解析器不是100%正确的,同时可能会引入一些解析错误。如果需要,可以用过滤器组件365来去除由解析错误引入的干扰三元组,在数据库360中只留下正确的三元组。
使用NLP技术改进检索精度
根据本发明,搜索引擎使用两种方法中的一种或两种来改进“确认句”检索结果。一种方法使用扩展的索引项。另一种方法使用一种新的排列算法来排列检索到的确认句。
扩展的索引项
使用常规的IR方法,搜索引擎315仅使用输入查询的词条定义该搜索的索引单元来搜索句子库320。“词条”是一个单词基本的、未变形的形式,也称为词干。为了改进在句子库320中对确认句的搜索,根据本发明,除词条外下面所列之一或更多作为索引单元加入:(1)有词性(POS)的词条单词;(2)短语动词;及(3)相关性三元组。
例如,考虑一个输入查询句子:“The scientist presided over theworkshop”。使用常规的IR索引方法,如上述基线系统,只有词条被用作索引单元(即,功能词作为停止词被去除)。表1展示了这个例子输入查询句子的词条:
表1
 
词条 scientist,preside,over,
 
workshop
使用本发明的扩展的索引方法,对相同的例句,在表2中展示的索引项也被用在由搜索引擎315进行的数据库搜索中。
表2
 
词条 scientist,preside,over,workshop                  
有词性的词条 scientist_noun,workshop_noun,preside_verb                   
短语动词 preside~over
相关性三元组 preside~Dobj~workshop
虽然一个或多个可能的扩展索引单元(有词性的词条、短语动词及相关性三元组)可以被加到词条索引单元中,在本发明的一些实例中,通过添加所有三种类型的扩展索引单元到词条索引单元中能够获得有利的结果。然后使用新的排列算法来排列由搜索引擎315从句子数据库320中对特殊的输入查询使用扩展索引单元检索到的确认句。
排列算法
在搜索引擎从数据库中检索到一些确认句之后,例如使用上述扩展索引单元方法或其他方法,排列确认句来确定语法上或结构上和输入查询最相似的句子。然后,使用输出325,一个或更多的确认句被显示给用户,有着最高级别(最相似)的确认句被放在第一位或显示为最相关的。例如,排列后的确认句可以显示为编号的列表,作为例子如图3所示。
根据本发明的实例,排列算法基于它们各自于输入查询的相似性Sim(Di,Qj)排列确认句。排列算法相似性计算按如公式6所示关系进行:
公式6
Sim ( Q i , Q j ) = Σ k ( d ik * q jk * w jk ) f ( L i )
其中,
Di为第ith个确认句Di->(di1,dj2,...,d1m)的向量权重表示(参见上面的公式1);
Qj为输入查询Qj->(qj1,qj2,...,qjm)的向量权重表示;
Li为Di的句子长度;
f(Li)为Li的句子长度因子或函数(例如,f(Li)=Li 2);及
Wjk为项qjk的语言学权重。
在一个例子实例中,不同词性的语言学权重在表3的第二列中提供。然而,本发明不限于任何具体的加权。
表3
 
Verb-Obj(及物动词) 10
Verbal phra搜索引擎(动词短语)              8
Verb(不及物动词) 6
Adj/Adv(形容词/副词) 5
Noun(名词) 4
Others(其他) 2
和常规的IR排列算法相比,例如在公式4中所示,本发明使用相似性关系在公式6中所示的排列算法包括更好地反映确认句相对于输入查询的语言学意义的两个新特性。一个是在查询Qj中的项的语言学权重Wjk。例如,及物动词相关性三元组可以被赋予最大的权重,而动词短语、不及物动词等等相应地被赋予不同的权重,每个权重都反映特殊类型的项、句子成分或词性关系在选择相关的确认句时的重要性或意义。
用户被认为更加注意反映句子结构和词组的问题。例如,他们对动词的注意超过名词。因此,可以赋予语言学权重来检索有被认为对典型用户最重要的特殊类型的项、句子成分或词性关系的确认例句。
加到相似性函数中的第二个特性是句子长度因子或函数f(Li)。在一个实例中使用的直觉是在相同的条件下短句应比长句有更高的排列次序。例子句子长度因子或函数f(Li)=Lj 2为辅助至少部分地基于长度排列确认句的一个可能的函数。也可以使用其他函数。例如,可以用其他指数长度函数。进一步来说,在其他实例中,可以选取长度因子使得较长的确认句有更高的排列次序,如果这样有利的话。
虽然用在这个特殊的相似性排列算法中的两个新特性(Wjk和f(Li))可以如公式6所示一起应用来改进确认句检索,在其他实例中这些特性的每一个都可以单独使用。换句话说,可以使用如公式7和8所示的相似性排列算法Sim(Di,Qj)。
公式7
Sim ( Q i , Q j ) = Σ k ( d ik * q jk ) f ( L i )
公式8
Sim ( D i , Q j ) = Σ k ( d ik * q jk ) * W jk
改进的提示句检索
在系统300中,搜索引擎315使用本发明的查询扩展方法来改进提示句检索。查询扩展方法400总体上在方框图5-2中展示。查询扩展方法提供用在搜索句子数据库320中的替换表达。
扩展过程如下:首先,如在405所示,我们使用定义在机器可读的辞典,例如WordNet中的同义词来扩展查询中的项。这种方法通常用在常规的IR系统的查询扩展中。然而单独使用时,这种方法受干扰扩展的问题影响。为了避免干扰扩展的问题,由搜索引擎315使用的方法400在为提示句搜索句子数据库之前实现附加的步骤410和415。
如在410所示,扩展项被合并以构成可能的三元组。然后,如在415所示,用图5-1和图8所示的相关性三元组数据库360检查所有可能的三元组。只有那些曾经出现在三元组数据库中的三元组被选择作为扩展查询项。那些未在三元组数据库中发现的扩展三元组被丢弃。然后,使用余下的扩展项搜索句子数据库来得到提示句,如在420所示。
例如
查询:I will take the job
同义词集合:take|accept|acquire|admit|aim|ask|...
三元组数据库中的三元组:accept~Dobj~job,
余下的扩展项:accept~Dobj~job
提示句检索的混淆方法
有时,用户会用第一种语言的单词的混合及第二种语言的语法结构来输入查询。例如,一个以英语写作的中文用户会输入通常被称为“中文式英语”的查询。在本发明的一些实例中,搜索引擎315被设计为在搜索句子数据库得到提示句之前检测用户的意图。搜索引擎可以使用两种方法中的一种或全部检测用户的意图。
检测用户意图的第一种方法450在图6-1中用一个例子展示。这称为翻译方法。使用这种方法,用户的查询如所示在455接收,并由第一种语言(有着第二种语言的语法、结构、搭配等等)翻译为第二种语言,如在460所示。如在465所示,查询然后被从第二种语言翻译回第一种语言。作为例子,步骤460和465就中文和英语来展示。然而,必须注意这些步骤并不限于任何特殊的第一种和第二种语言。
在第一个例子中,在470所示并对应于步骤455的输入查询是包含一个常见搭配错误的中文式的英语查询,“Open the light”。如在475所示并对应于步骤460,该中文式的英语查询被翻译为中文查询“开灯”。然后,如在480所示并对应于步骤465,该中文查询被翻译回并不包含初始查询中的搭配错误的英语查询“Turn on the light”。这个方法被用来模仿用户的思维方式,但需要一个准确的翻译组件。如果翻译质量很差的话,方法450可能会产生过多的干扰。因此,可以使用图6-2所示的方法500。
第二种方法,在这里称为“混淆方法”,使用混淆集合数据库扩展在用户查询中的词对。这种方法在图6-3中展示,而构建混淆集合数据库的方法在图6-2中展示。混淆集合是一个包含混淆的词对,如“open/turn on”的数据库。这可以包含词之间的搭配、在翻译上易混淆的单个词,及其他混淆的词对。通常,词对将使用同种语言,但如果需要也可以用一个翻译的词来注释。
首先参考图6-2,所示的是构建由搜索引擎315在检测用户意图时使用的混淆集合数据库505的方法500。混淆集合的集合,或混淆集合数据库505的构建可以在词和句子对齐的双语语言资料库510的辅助下进行。在这里所用的例子中,语言资料库510是英汉双语语言资料库。如在515所示,该方法包括中文词对到英语词对的人工翻译(人工翻译以Eng’表示)。然后将英语翻译词对Eng’和正确的英语翻译词对(以Eng表示)对齐,如在520所示。这样的对齐是可能的,因为正确的翻译在原有的双语语言资料库中是现成的。在此,定义了词对的集合,该集合对于一个特殊的中文词对把英语翻译与英语原始词对(由它在双语语言资料库中的对齐来定义的正确的翻译词)相关联:
{英语翻译,英语原始}
任何在其中翻译词对和原始词对相同的词对集合,{英语翻译,英语原始}或{Eng’,Eng},被标识出并从混淆集合中去除。那些英语翻译和英语原始不同的集合保留在混淆集合数据库505中。也可以通过加入一些典型的混淆词对,如在教科书525中定义的或现有的个人混淆词的收集5301来扩展混淆集合。
图6-3展示通过使用混淆集合数据库505在用户查询中扩展词对来确定用户意图的方法。如在605所示,在输入组件处接收用户查询。然后比较用户查询中的词对和混淆集合数据库中的词对,如在搜索引擎的比较组件610所示。通常,这是比较用户查询中的英语词对和对应的数据库中的人工翻译词对,Eng’。然后在混淆集合数据库中有匹配条目的用户查询中的词对Eng’由来自该集合的原始词对,Eng,替换,如在查询扩展组件或步骤615所示。换句话说,用正确的翻译词对来替换它们。然后搜索引擎315的句子检索组件使用通过混淆集合数据库创建的新的查询来搜索句子数据库320。再次,虽然混淆集合方法是引用由以中文为母语的人写的英语词对来说明,这些方法是语言无关的,并且也可以应用到其他语言的组合。
查询翻译
如图7所示,搜索引擎315也使用查询翻译来改进句子检索。给出一个用户查询(655所示),用一个稳健的解析器抽取出关键相关性三元组,如在660所示。然后这些三元组被逐个翻译,如在665所示。最后,所有这些三元组的翻译被搜索引擎315用作查询项。
假设我们要翻译一个中文相关性三元组c=(WC1,relC,WC2)为英语相关性三元组e=(WE1,relE,WE2)。这等价于找到根据统计翻译模型能够最大化值P(e/c)的emax
根据Bayes定理,我们写出
公式9
P ( e | c ) = P ( e ) P ( c | e ) P ( c )
因为分母P(c)是和e不相关的,并且对给定的中文三元组是一个常数,我们得到:
公式10
e max = arg max e ( P ( e ) P ( c | e ) )
在此,因子P(e)是在英语中出现相关性三元组e的似然性的测度。这使得e的输出自然并且合乎语法。P(e)通常称为语言模型,它仅依赖于目标语言。P(c/e)通常称为翻译模型。
在单个三元组翻译中,可以使用MLE(极大似然估计)来估计P(e),如下面所示:
公式11
P MLE ( w E 1 , rel E , w E 2 ) = f ( w E 1 , rel E , w E 2 ) f ( * , * , * )
另外,我们得到:
公式12
P(c|e)=P(wC1|relC,e)×P(wC2|relC,e)×P(relC|e)
P(relC/e)是主要依赖于特定词的一个参数。但这可以被简化为:
公式13
P(relC|e)=P(relC|relE)
根据我们假设的中文相关性关系和英语相关性关系之间的对应,我们得到P(relC/relE)≈1。进一步来说,我们假设在翻译中词的选取和相关性关系的类型无关,因此我们可以假设WC1只和WE1相关,并且WC2只和WE2相关。词翻译概率P(c/e)可以用并行语言资料库来估计。
于是我们得到:
公式14
e max = arg max e ( P ( e ) × P ( c | e ) )
= arg max e ( P ( e ) × P ( c | e ) )
= arg max w E 1 , w E 2 ( P ( e ) × P ( w C 1 | w E 1 ) × P ( w C 2 | w E 2 ) )
因此,给定一个中文三元组,英文翻译可以通过这种统计方法来获得。
整个系统
图8为方框图,展示搜索引擎315的实例315-1,该实例包括这里揭示的各种确认和提示句检索概念。虽然图8所示的搜索引擎实例315-1使用这里揭示的各种特性的组合来改进确认和提示句检索,如上所述,搜索引擎315的其他实例仅包括这些特性之一,或这些特性的不同组合。因此,必须理解本发明的搜索引擎包含上述特性的每一种组合。
如图8在705所示,输入查询由搜索引擎315-1接收。如在710所示,搜索引擎315-1包括确定该查询是否为英语(或更一般地是否为第一种语言)的语言确定组件。如果该查询不为英语(或第一种语言),例如该查询为中文,该查询被翻译为英语或第一种语言,如在查询翻译模块或组件715所示。查询翻译模块或组件715使用,例如,上述的图7和公式10-14所指的查询翻译方法。
如果该查询为英语或第一种语言,或在该查询翻译为英语或第一种语言之后,分析组件或步骤720使用解析器725来获得以相关性三元组形式(为逻辑形式)表示的解析结构。在用户以英语写作的实例中,解析器为英语解析器,如Microsoft Research Redmond开发的NLPWin,然而也可以使用其他已知的解析器。在获得属于该查询的这些项730后,搜索引擎315-1的检索组件735从句子库320中检索句子。对确认句检索,句子的检索包括使用上述扩展索引项方法的检索。然后使用排列组件或步骤740排列检索到的句子,例如使用上述公式6-8所示的、在745提供作为例子的排列方法。这个过程实现了确认句检索。
为了检索提示句,使用扩展组件或步骤750来扩展项列表。使用辞典755(如上参考图5-2所述)和混淆集合505(如上参考图6-2和6-3所述)两个资源之一执行项的扩展。然后,例如参考图5-2,按如上所述使用过滤组件扩展项或步骤760用三元组数据库360过滤扩展项。结果为也存在于三元组数据库中的扩展项集合765。然后检测组件735使用扩展项来检测提示句。以对确认句同样的方式在740对提示句排序。在交互式搜索模式中,如果检索到的句子并不让人满意,用户可以加亮他或她希望关注的词,并且再次搜索。
虽然本方面是通过引用特殊的实例来说明的,熟悉相关技术的人会承认可以做出在形式上和细节上的更改而不偏离本发明的精神和范围。例如,引用中文为母语的人进行英语写作在概念上适用于由母语为不同于第一种语言的第二种语言的人以第一种语言进行写作。同样,其中引用识别或存储对第二种语言的词第一种语言翻译的词,这个引用包括识别或存储对应于第二种语言的词的第一种语言的短语,及识别或存储对应于第二种语言的短语的第一种语言的词。

Claims (16)

1.一种向用户提供来自句子数据库的句子以响应查询的方法,其特征在于,该方法包括:
接收查询;
基于查询定义索引单元,该索引单元包括来自查询的词条和与查询关联的扩展索引单元,其中所述扩展索引单元包括有词性的词条、短语动词及相关性三元组中的至少一个;
使用已定义的索引单元作为搜索参数,检索来自句子数据库的多个句子;
确定多个检索到的句子中的每一个句子和所述查询之间的相似性,每一个相似性Sim(Di,Qj)是按照下式确定的:
Sim ( D i , Q j ) = Σ k ( d ik * q ik * W ik ) f ( L i )
其中,Di为所述多个检索到的句子中第i个句子的向量权重表示,即Di->(di1,di2,...,dik),Qj为所述查询的向量权重表示,即Qj->(qj1,qj2,...,qjk),Li为Di的句子长度,f(Li)为Li的句子长度因子,Wjk为查询中的项qjk的语言学权重,dik是查询中的项qjk的向量权重;及
基于已确定的相似性排列多个检索到的句子。
2.如权利要求1所述的方法,其特征在于,所述查询中的项qjk的语言学权重Wjk为按照查询中的项qjk的词性的函数赋给项qjk的权重。
3.如权利要求1所述的方法,其特征在于,所述查询中的多个项的每一个项的向量权重是按照所述查询中相应项的出现频数的函数来确定的。
4.如权利要求3所述的方法,其特征在于,所述查询中的多个项的每一个项的向量权重是按照句子数据库中相应项的出现频数的函数来确定的。
5.如权利要求1所述的方法,其特征在于,所述f(Li)是指数函数。
6.一种向用户提供来自句子数据库的确认句以响应查询的方法,其特征在于,所述方法包括:
从句子数据库中检索多个确认句以响应查询;
根据下式确定多个检索到的确认句中的每一个确认句和所述查询之间的相似性:
Sim ( D i , Q j ) = Σ k ( d ik * q ik * W ik ) f ( L i )
其中,Di为所述多个检索到的确认句中第i个确认句的向量权重表示,即Di->(di1,di2,...,dik),Qj为所述查询的向量权重表示,即Qj->(qj1,qj2,...,qjk),Li为Di的句子长度,f(Li)为Li的句子长度因子,Wjk为查询中的项qjk的语言学权重,dik是查询中的项qjk的向量权重;及
基于已确定的相似性排列多个检索到的确认句。
7.如权利要求6所述的方法,其特征在于,所述查询中的项的语言学权重是按照所述查询中的项的词性的函数赋给项的权重。
8.如权利要求7所述的方法,其特征在于,所述查询中的多个项的每一个项的向量权重是按照查询中的相应项的出现频数的函数来确定的。
9.如权利要求8所述的方法,其特征在于,所述查询中的多个项的每一个项的向量权重是按照句子数据库中相应项的出现频数的函数来确定的。
10.如权利要求6所述的方法,其特征在于,所述检索多个确认句进一步包括:确定来自查询的扩展索引单元,并使用扩展索引单元作为搜索项来搜索句子数据库,其中,所述扩展索引单元包括有词性的词条、短语动词及相关性三元组中的至少一个。
11.一种用于从句子数据库检索确认句以响应查询的系统,其特征在于,所述系统包括:
作为输入接收查询的输入组件:及
与输入组件耦联的搜索引擎,所述搜索引擎包括:
配置为从句子数据库中检索多个确认句以响应查询的检索组件;及
配置为确定多个检索到的确认句中的每一个确认句和所述查询之间的相似性的排列组件,其中,每一个相似性是按照下式确定的:
Sim ( D i , Q j ) = Σ k ( d ik * q ik * W ik ) f ( L i )
其中,Di为所述多个检索到的确认句中第i个确认句的向量权重表
示,即Di->(di1,di2,...,dik),Qj为所述查询的向量权重表示,即Qj->(qj1,qj2,...,qjk),Li为Di的句子长度,f(Li)为Li的句子长度因子,Wjk为查询中的项qjk的语言学权重,dik是查询中的项qjk的向量权重,
所述排列组件进一步配置为基于已确定的相似性排列多个检索到的确认句。
12.如权利要求11所述的系统,其特征在于,所述查询中的项的语言学权重为按照查询中的项的词性的函数赋给项的权重。
13.如权利要求12所述的系统,其特征在于,在一检索到的确认句中的多个项的每一个项的向量权重或查询中的多个项的每一个项的向量权重是该检索到的确认句中或所述查询中的相应项的出现频数的函数。
14.如权利要求13所述的系统,其特征在于,该检索到的确认句中的多个项的每一个项的向量权重或所述查询中的多个项的每一个项的向量权重是所述句子数据库中相应项的出现频数的函数。
15.如权利要求11所述的系统,其特征在于,所述f(Li)是指数函数。
16.如权利要求15所述的系统,其特征在于,所述检索组件进一步配置为通过确定来自查询的扩展索引单元,并使用扩展索引单元作为搜索项搜索句子数据库来检索多个确认句,其中,所述扩展索引单元包括有词性的词条、短语动词及相关性三元组中的至少一个。
CNB031249892A 2002-09-19 2003-09-19 检索确认句的方法和系统 Expired - Fee Related CN100507903C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/247,596 US7194455B2 (en) 2002-09-19 2002-09-19 Method and system for retrieving confirming sentences
US10/247,596 2002-09-19

Publications (2)

Publication Number Publication Date
CN1490744A CN1490744A (zh) 2004-04-21
CN100507903C true CN100507903C (zh) 2009-07-01

Family

ID=31946440

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB031249892A Expired - Fee Related CN100507903C (zh) 2002-09-19 2003-09-19 检索确认句的方法和系统

Country Status (9)

Country Link
US (2) US7194455B2 (zh)
EP (1) EP1400901A3 (zh)
JP (1) JP4974445B2 (zh)
KR (1) KR101004515B1 (zh)
CN (1) CN100507903C (zh)
AU (1) AU2003243989A1 (zh)
BR (1) BR0304150A (zh)
CA (1) CA2441448A1 (zh)
RU (1) RU2003128061A (zh)

Families Citing this family (74)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7027987B1 (en) * 2001-02-07 2006-04-11 Google Inc. Voice interface for a search engine
US8380491B2 (en) * 2002-04-19 2013-02-19 Educational Testing Service System for rating constructed responses based on concepts and a model answer
US7171351B2 (en) * 2002-09-19 2007-01-30 Microsoft Corporation Method and system for retrieving hint sentences using expanded queries
US7194455B2 (en) * 2002-09-19 2007-03-20 Microsoft Corporation Method and system for retrieving confirming sentences
US7293015B2 (en) * 2002-09-19 2007-11-06 Microsoft Corporation Method and system for detecting user intentions in retrieval of hint sentences
US7174346B1 (en) * 2003-07-31 2007-02-06 Google, Inc. System and method for searching an extended database
US20050125218A1 (en) * 2003-12-04 2005-06-09 Nitendra Rajput Language modelling for mixed language expressions
US8296126B2 (en) * 2004-02-25 2012-10-23 Research In Motion Limited System and method for multi-lingual translation
US8041713B2 (en) 2004-03-31 2011-10-18 Google Inc. Systems and methods for analyzing boilerplate
US7272601B1 (en) * 2004-03-31 2007-09-18 Google Inc. Systems and methods for associating a keyword with a user interface area
US7693825B2 (en) * 2004-03-31 2010-04-06 Google Inc. Systems and methods for ranking implicit search results
US20080040315A1 (en) * 2004-03-31 2008-02-14 Auerbach David B Systems and methods for generating a user interface
US9009153B2 (en) 2004-03-31 2015-04-14 Google Inc. Systems and methods for identifying a named entity
US7707142B1 (en) 2004-03-31 2010-04-27 Google Inc. Methods and systems for performing an offline search
US7664734B2 (en) * 2004-03-31 2010-02-16 Google Inc. Systems and methods for generating multiple implicit search queries
US8631001B2 (en) * 2004-03-31 2014-01-14 Google Inc. Systems and methods for weighting a search query result
US20050256700A1 (en) * 2004-05-11 2005-11-17 Moldovan Dan I Natural language question answering system and method utilizing a logic prover
BE1016079A6 (nl) * 2004-06-17 2006-02-07 Vartec Nv Werkwijze voor het indexeren en terugvinden van documenten, computerprogramma daarbij toegepast en informatiedrager die is voorzien van het voornoemde computerprogramma.
US8131754B1 (en) 2004-06-30 2012-03-06 Google Inc. Systems and methods for determining an article association measure
US7788274B1 (en) 2004-06-30 2010-08-31 Google Inc. Systems and methods for category-based search
US7672928B2 (en) 2004-09-30 2010-03-02 Microsoft Corporation Query forced indexing
US7447683B2 (en) * 2005-03-31 2008-11-04 Jiles, Inc. Natural language based search engine and methods of use therefor
US20060224569A1 (en) * 2005-03-31 2006-10-05 Desanto John A Natural language based search engine and methods of use therefor
US7555475B2 (en) * 2005-03-31 2009-06-30 Jiles, Inc. Natural language based search engine for handling pronouns and methods of use therefor
US20060224566A1 (en) * 2005-03-31 2006-10-05 Flowers John S Natural language based search engine and methods of use therefor
US20060282255A1 (en) * 2005-06-14 2006-12-14 Microsoft Corporation Collocation translation from monolingual and available bilingual corpora
US20060287910A1 (en) * 2005-06-21 2006-12-21 Kuchar Olga A Scenario analysis methods, scenario analysis devices, articles of manufacture, and data signals
DE102005030965B4 (de) * 2005-06-30 2007-07-19 Daimlerchrysler Ag Erweiterung des dynamischen Vokabulars eines Spracherkennungssystems um weitere Voiceenrollments
US7689411B2 (en) * 2005-07-01 2010-03-30 Xerox Corporation Concept matching
US7809551B2 (en) * 2005-07-01 2010-10-05 Xerox Corporation Concept matching system
CN101030197A (zh) * 2006-02-28 2007-09-05 株式会社东芝 双语词对齐方法和装置、训练双语词对齐模型的方法和装置
KR100816912B1 (ko) * 2006-04-13 2008-03-26 엘지전자 주식회사 문서검색 시스템 및 그 방법
US8706470B2 (en) 2006-05-08 2014-04-22 David T. Lorenzen Methods of offering guidance on common language usage utilizing a hashing function consisting of a hash triplet
US20080168049A1 (en) * 2007-01-08 2008-07-10 Microsoft Corporation Automatic acquisition of a parallel corpus from a network
US8051061B2 (en) * 2007-07-20 2011-11-01 Microsoft Corporation Cross-lingual query suggestion
US20090077180A1 (en) * 2007-09-14 2009-03-19 Flowers John S Novel systems and methods for transmitting syntactically accurate messages over a network
US9754022B2 (en) 2007-10-30 2017-09-05 At&T Intellectual Property I, L.P. System and method for language sensitive contextual searching
KR100903599B1 (ko) * 2007-11-22 2009-06-18 한국전자통신연구원 내적을 이용한 암호화된 데이터 검색 방법 및 이를 위한단말 장치와 서버
US20090150141A1 (en) * 2007-12-07 2009-06-11 David Scott Wible Method and system for learning second or foreign languages
US7917488B2 (en) * 2008-03-03 2011-03-29 Microsoft Corporation Cross-lingual search re-ranking
US8521516B2 (en) * 2008-03-26 2013-08-27 Google Inc. Linguistic key normalization
US8332394B2 (en) * 2008-05-23 2012-12-11 International Business Machines Corporation System and method for providing question and answers with deferred type evaluation
US8275803B2 (en) 2008-05-14 2012-09-25 International Business Machines Corporation System and method for providing answers to questions
KR101224660B1 (ko) * 2008-07-09 2013-01-21 고려대학교 산학협력단 유사 문장 검색 장치, 검색 방법, 저장 매체, 자동 대화서비스 시스템 및 서비스 방법
US8560298B2 (en) * 2008-10-21 2013-10-15 Microsoft Corporation Named entity transliteration using comparable CORPRA
US8484014B2 (en) * 2008-11-03 2013-07-09 Microsoft Corporation Retrieval using a generalized sentence collocation
US8463806B2 (en) 2009-01-30 2013-06-11 Lexisnexis Methods and systems for creating and using an adaptive thesaurus
US20100299132A1 (en) * 2009-05-22 2010-11-25 Microsoft Corporation Mining phrase pairs from an unstructured resource
EP2400400A1 (en) * 2010-06-22 2011-12-28 Inbenta Professional Services, S.L. Semantic search engine using lexical functions and meaning-text criteria
US10002608B2 (en) * 2010-09-17 2018-06-19 Nuance Communications, Inc. System and method for using prosody for voice-enabled search
US8401853B2 (en) 2010-09-22 2013-03-19 At&T Intellectual Property I, L.P. System and method for enhancing voice-enabled search based on automated demographic identification
US8892550B2 (en) 2010-09-24 2014-11-18 International Business Machines Corporation Source expansion for information retrieval and information extraction
JP5858456B2 (ja) * 2011-01-21 2016-02-10 国立研究開発法人情報通信研究機構 情報検索サービス提供装置及びコンピュータプログラム
TWI480742B (zh) * 2011-03-18 2015-04-11 Ind Tech Res Inst 基於動態語言模型之推薦方法與推薦系統
KR101109508B1 (ko) * 2011-04-04 2012-01-31 신성산건 주식회사 미관을 향상시킨 디자인 방음벽
US10198506B2 (en) * 2011-07-11 2019-02-05 Lexxe Pty Ltd. System and method of sentiment data generation
US8661049B2 (en) * 2012-07-09 2014-02-25 ZenDesk, Inc. Weight-based stemming for improving search quality
US10614725B2 (en) 2012-09-11 2020-04-07 International Business Machines Corporation Generating secondary questions in an introspective question answering system
WO2014040263A1 (en) * 2012-09-14 2014-03-20 Microsoft Corporation Semantic ranking using a forward index
US20140350931A1 (en) * 2013-05-24 2014-11-27 Microsoft Corporation Language model trained using predicted queries from statistical machine translation
JP6466138B2 (ja) * 2014-11-04 2019-02-06 株式会社東芝 外国語文作成支援装置、方法及びプログラム
US11227113B2 (en) * 2016-01-20 2022-01-18 International Business Machines Corporation Precision batch interaction with a question answering system
CN107085568B (zh) * 2017-03-29 2022-11-22 腾讯科技(深圳)有限公司 一种文本相似度判别方法及装置
CN107123318B (zh) * 2017-03-30 2020-05-08 河南工学院 一种基于输入法装置的外文写作学习系统
US10241716B2 (en) 2017-06-30 2019-03-26 Microsoft Technology Licensing, Llc Global occupancy aggregator for global garbage collection scheduling
CN107731230A (zh) * 2017-11-10 2018-02-23 北京联华博创科技有限公司 一种庭审笔录系统及方法
CN108052686B (zh) * 2018-01-26 2022-02-11 腾讯科技(深圳)有限公司 一种摘要提取方法及相关设备
CN109740161B (zh) * 2019-01-08 2023-06-20 北京百度网讯科技有限公司 数据泛化方法、装置、设备和介质
US11397776B2 (en) 2019-01-31 2022-07-26 At&T Intellectual Property I, L.P. Systems and methods for automated information retrieval
CN110008312A (zh) * 2019-04-10 2019-07-12 成都信息工程大学 一种文档写作助手实现方法、系统及电子设备
CN111078849B (zh) * 2019-12-02 2023-07-25 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
WO2021124490A1 (ja) * 2019-12-18 2021-06-24 富士通株式会社 情報処理プログラム、情報処理方法および情報処理装置
KR102535852B1 (ko) * 2020-06-04 2023-05-24 동국대학교 산학협력단 Bert의 문장 임베딩 벡터를 이용한 텍스트랭크 기반 핵심 문장 추출 방법 및 장치
US20230325424A1 (en) * 2022-04-08 2023-10-12 Language Logic, Llc Systems and methods for generating codes and code books based using cosine proximity

Family Cites Families (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3956230A (en) * 1968-02-01 1976-05-11 Champion International Corporation Compatibilization of hydroxyl-containing fillers and thermoplastic polymers
US4187210A (en) * 1973-12-14 1980-02-05 E. I. Du Pont De Nemours And Company Homogeneous, highly-filled, polyolefin composites
US4661537A (en) * 1985-07-11 1987-04-28 Union Carbide Corporation Impact promoters for mineral-filled thermoplastics
DE68928231T2 (de) 1988-10-28 1998-01-08 Toshiba Kawasaki Kk Verfahren und Vorrichtung zur Maschinenübersetzung
NL8900247A (nl) 1989-02-01 1990-09-03 Bso Buro Voor Systeemontwikkel Werkwijze en stelsel voor het weergeven van meervoudige analyses in een afhankelijkheidsgrammatica, alsmede ontleed-inrichting voor het genereren van een dergelijke weergave.
JP3090942B2 (ja) 1990-11-02 2000-09-25 三菱化学株式会社 冷蔵庫内箱用熱可塑性樹脂組成物及びそれを成形して得られた冷蔵庫内箱
US6278967B1 (en) * 1992-08-31 2001-08-21 Logovista Corporation Automated system for generating natural language translations that are domain-specific, grammar rule-based, and/or based on part-of-speech analysis
US5528491A (en) * 1992-08-31 1996-06-18 Language Engineering Corporation Apparatus and method for automated natural language translation
GB2279164A (en) 1993-06-18 1994-12-21 Canon Res Ct Europe Ltd Processing a bilingual database.
JP2855409B2 (ja) 1994-11-17 1999-02-10 日本アイ・ビー・エム株式会社 自然言語処理方法及びシステム
US5642502A (en) * 1994-12-06 1997-06-24 University Of Central Florida Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text
JPH08254206A (ja) 1995-03-17 1996-10-01 Fujitsu Ten Ltd ブラケット構造
JP3741156B2 (ja) * 1995-04-07 2006-02-01 ソニー株式会社 音声認識装置および音声認識方法並びに音声翻訳装置
US5963940A (en) 1995-08-16 1999-10-05 Syracuse University Natural language information retrieval system and method
SG49804A1 (en) * 1996-03-20 1998-06-15 Government Of Singapore Repres Parsing and translating natural language sentences automatically
JPH09293078A (ja) * 1996-04-17 1997-11-11 Internatl Business Mach Corp <Ibm> 情報検索方法、情報検索装置及び情報検索プログラムを格納する記憶媒体
JP4007630B2 (ja) * 1996-07-16 2007-11-14 シャープ株式会社 対訳例文登録装置
JPH10105555A (ja) * 1996-09-26 1998-04-24 Sharp Corp 対訳例文検索装置
US5946376A (en) 1996-11-05 1999-08-31 Ericsson, Inc. Cellular telephone including language translation feature
US6076051A (en) * 1997-03-07 2000-06-13 Microsoft Corporation Information retrieval utilizing semantic representation of text
US6233545B1 (en) 1997-05-01 2001-05-15 William E. Datig Universal machine translator of arbitrary languages utilizing epistemic moments
US5933822A (en) 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
US6081774A (en) 1997-08-22 2000-06-27 Novell, Inc. Natural language information retrieval system and method
KR980004126A (ko) 1997-12-16 1998-03-30 양승택 다국어 웹 문서 검색을 위한 질의어 변환 장치 및 방법
EP1086432B1 (en) * 1998-06-08 2004-04-07 KCSL, Inc. Method and system for retrieving relevant documents from a database
JP3114703B2 (ja) 1998-07-02 2000-12-04 富士ゼロックス株式会社 対訳文検索装置
US6408294B1 (en) 1999-03-31 2002-06-18 Verizon Laboratories Inc. Common term optimization
KR20010004404A (ko) 1999-06-28 2001-01-15 정선종 키팩트기반 텍스트 검색시스템과, 이를 이용한 키팩트기반 텍스트 색인방법 및 검색방법
US6654950B1 (en) 1999-08-24 2003-11-25 Bae Systems Mission Solutions Inc. Software rehosting system and method
JP3411246B2 (ja) * 1999-10-20 2003-05-26 株式会社ジャストシステム クエリ出力装置、文献検索システム、クエリ出力方法、文献検索方法、並びに、記録媒体
US6766287B1 (en) * 1999-12-15 2004-07-20 Xerox Corporation System for genre-specific summarization of documents
US6473729B1 (en) 1999-12-20 2002-10-29 Xerox Corporation Word phrase translation using a phrase index
JP2001243230A (ja) * 2000-02-25 2001-09-07 Nippon Telegr & Teleph Corp <Ntt> 類似性判別方法
CN1174332C (zh) 2000-03-10 2004-11-03 松下电器产业株式会社 转换表达方式的方法和装置
JP2001273299A (ja) 2000-03-24 2001-10-05 Toshiba Corp 検索装置
US7107204B1 (en) 2000-04-24 2006-09-12 Microsoft Corporation Computer-aided writing system and method with cross-language writing wizard
JP2001357065A (ja) * 2000-06-14 2001-12-26 Nippon Telegr & Teleph Corp <Ntt> 類似文検索方法及び装置並びに類似文検索プログラムを記録した記録媒体
US6687689B1 (en) * 2000-06-16 2004-02-03 Nusuara Technologies Sdn. Bhd. System and methods for document retrieval using natural language-based queries
US6622123B1 (en) 2000-06-23 2003-09-16 Xerox Corporation Interactive translation system and method
JP3573688B2 (ja) * 2000-06-28 2004-10-06 松下電器産業株式会社 類似文書検索装置及び関連キーワード抽出装置
US20040059654A1 (en) * 2000-07-07 2004-03-25 Hans Schroder Method and system for processing and display of variables in a user generated network diagram representing a balanced system
US6810376B1 (en) * 2000-07-11 2004-10-26 Nusuara Technologies Sdn Bhd System and methods for determining semantic similarity of sentences
WO2002054265A1 (en) 2001-01-02 2002-07-11 Julius Cherny Document storage, retrieval, and search systems and methods
US7146308B2 (en) * 2001-04-05 2006-12-05 Dekang Lin Discovery of inference rules from text
US6778979B2 (en) 2001-08-13 2004-08-17 Xerox Corporation System for automatically generating queries
KR100453227B1 (ko) 2001-12-28 2004-10-15 한국전자통신연구원 번역 지원 시스템에서의 유사 문장 검색 방법
US7181451B2 (en) * 2002-07-03 2007-02-20 Word Data Corp. Processing input text to generate the selectivity value of a word or word group in a library of texts in a field is related to the frequency of occurrence of that word or word group in library
US7024408B2 (en) * 2002-07-03 2006-04-04 Word Data Corp. Text-classification code, system and method
US7003516B2 (en) * 2002-07-03 2006-02-21 Word Data Corp. Text representation and method
US7194455B2 (en) 2002-09-19 2007-03-20 Microsoft Corporation Method and system for retrieving confirming sentences
US7293015B2 (en) 2002-09-19 2007-11-06 Microsoft Corporation Method and system for detecting user intentions in retrieval of hint sentences
US7171351B2 (en) 2002-09-19 2007-01-30 Microsoft Corporation Method and system for retrieving hint sentences using expanded queries

Also Published As

Publication number Publication date
JP2004110835A (ja) 2004-04-08
US20050273318A1 (en) 2005-12-08
KR20040025642A (ko) 2004-03-24
KR101004515B1 (ko) 2010-12-31
RU2003128061A (ru) 2005-03-10
EP1400901A3 (en) 2004-06-30
CN1490744A (zh) 2004-04-21
BR0304150A (pt) 2004-09-08
US7194455B2 (en) 2007-03-20
US7974963B2 (en) 2011-07-05
EP1400901A2 (en) 2004-03-24
AU2003243989A1 (en) 2004-04-08
CA2441448A1 (en) 2004-03-19
US20040059718A1 (en) 2004-03-25
JP4974445B2 (ja) 2012-07-11

Similar Documents

Publication Publication Date Title
CN100507903C (zh) 检索确认句的方法和系统
Sinclair The automatic analysis of corpora
US7562082B2 (en) Method and system for detecting user intentions in retrieval of hint sentences
CN1871597B (zh) 利用一套消歧技术处理文本的系统和方法
US7171351B2 (en) Method and system for retrieving hint sentences using expanded queries
US7574348B2 (en) Processing collocation mistakes in documents
Ingason et al. A mixed method lemmatization algorithm using a hierarchy of linguistic identities (HOLI)
Gupta et al. A deep neural network framework for English Hindi question answering
CN101568918A (zh) 基于web的搭配错误证明
He et al. Making holistic schema matching robust: an ensemble approach
CN101739395A (zh) 机器翻译方法和系统
Peters et al. Multilingual information access
Darwish Probabilistic methods for searching OCR-degraded Arabic text
Dolamic et al. Retrieval effectiveness of machine translated queries
Bond et al. Combining linguistic resources to create a machine-tractable Japanese-Malay dictionary
CN102346777B (zh) 一种对例句检索结果进行排序的方法和装置
Pingali et al. Hindi and Telugu to English Cross Language Information Retrieval at CLEF 2006.
Liu et al. PENS: A machine-aided English writing system for Chinese users
Carl et al. Toward a hybrid integrated translation environment
Wang Matching meaning for cross-language information retrieval
Dash Polysemy and homonymy: a conceptual labyrinth
Lo et al. Using Semantic Relations with World Knowledge for Question Answering.
Dash et al. Corpus and Machine Translation
Schone Toward knowledge-free induction of machine-readable dictionaries
Neumann et al. Mining natural language answers from the web

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150506

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150506

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington State

Patentee before: Microsoft Corp.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090701

Termination date: 20190919