CN101107602B - 用于扩展搜索结果超出初始查询定义的界限之外的系统、方法、界面和软件 - Google Patents

用于扩展搜索结果超出初始查询定义的界限之外的系统、方法、界面和软件 Download PDF

Info

Publication number
CN101107602B
CN101107602B CN2005800051394A CN200580005139A CN101107602B CN 101107602 B CN101107602 B CN 101107602B CN 2005800051394 A CN2005800051394 A CN 2005800051394A CN 200580005139 A CN200580005139 A CN 200580005139A CN 101107602 B CN101107602 B CN 101107602B
Authority
CN
China
Prior art keywords
search
database
document
user
legal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2005800051394A
Other languages
English (en)
Other versions
CN101107602A (zh
Inventor
迈克尔·达恩
卡利德·阿尔-科法伊
彼得·杰克逊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Reuters Enterprise Centre GmbH
Original Assignee
Thomson Reuters Global Resources ULC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Reuters Global Resources ULC filed Critical Thomson Reuters Global Resources ULC
Priority to CN201110370761.2A priority Critical patent/CN102456075B/zh
Publication of CN101107602A publication Critical patent/CN101107602A/zh
Application granted granted Critical
Publication of CN101107602B publication Critical patent/CN101107602B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results

Abstract

为了便于法律研究,诸如Thomson West的公司提供了基于订阅的在线信息检索系统。为了寻求提高这些以及相关的IR系统,本发明人意识到研究者常常忽略可能对他们有用的一些文档类型,诸如法律百科全书和论文。因此,本发明人设计了自动搜索不被用户查询特别当作目标的其它类型的文档的系统、方法和软件。一个示范系统自动地递交对于法律意见的用户查询给第一和第二数据库,第一数据库存储法律意见,并且第二数据库存储非意见文档,诸如来自West Key Number系统的批注、来自美国法律报告的文章、和/或来自美国法学的文章。

Description

用于扩展搜索结果超出初始查询定义的界限之外的系统、方法、界面和软件
版权公告和许可
本专利文档的一部分包含受版权保护的材料。版权所有者对于任何人复制专利文档或者专利公开内容没有异议,因为它出现在专利和商标局专利文件或记录中,但是无论怎样,在其它方面保留所有的版权。下面的公告适用于本文档:版权
Figure S05805139420060823D000011
2003,Thomson Global Resources AG。
相关申请的交叉引用
本申请要求在2003年12月31日提交的美国临时申请60/533,819的优先权。该临时申请在此引入作为参考。
技术领域
本发明的各种实施例涉及信息检索系统,诸如提供法律文档或其它相关内容的那些。
背景
美国法律体系以及世界各地的一些其它法律体系很大程度上依赖于书面司法意见、书面法官宣判,以便明白地表达或解释支配(govern)争议解决的法律。每个司法意见不仅对解决特殊的法律争议重要,而且对在将来解决类似的争议或者案件重要。因为这点,我们的法律体系内的法官和律师不断地对日益膨胀的大量的过去意见、或者案例法进行研究,找出与新争议的解决最相关的那些。
为了便于这些搜索,St.Paul的West Publishing公司,Minnesota(进行如Thomson West那样的商业活动)从跨美国的各个法院收集司法意见,并且使得它们可以通过它的WestlawTM信息检索系统以电子方式得到。(Westlaw是Thomson West的商标。)这些意见中的很多是带有对其它意见的文献目录引用或超链接来发表的,该其它意见是依赖于这些意见中的各种法律点或者是对这些意见中的各种法律点进行评判。引用和超链接使研究者能找到包含相关意见或者通过计算机网络容易地以电子方式访问的相关意见的印刷册。Westlaw系统使得用户能够搜索1亿多文档。
本发明人所意识到的、对于该有效且非常成功的系统的至少一个问题是:除了意见以外,还存在很多其它类型的文档,它们可能对法律研究者有用,但是常常被忽略。例如,一些用户没有充分利用WestKeyNumberTM系统,该系统提供了在司法意见中做出的法律点的分类概要(West Key Number是Thomson West的商标)。称为批注(headnote)的概要被分类到90,000个以上不同的法律种类,并且可被用于各种目的,诸如评价法律意见与特定法律问题的相关度。其它的则忽略了次级资源,诸如美国法律报告(American Law Reports,ALR),其包括大约4,000篇深入的学术文章,每篇都教授了关于一个独立的法律问题。
因此,本发明人已经认识到对用于法律文档的信息检索系统的改进的需要。
概述
为了解决这个和/或其它需要,本发明人设计了响应于对法律意见的查询而便于相关非意见法律文档的检索的系统、方法和软件。一个示范系统自动将对于法律意见的用户查询递交给第一和第二数据库,第一数据库存储法律意见并且第二数据库存储非意见文档,诸如来自West KeyNumber系统的批注、来自美国法律报告的文章和/或来自美国法学(American Jurisprudence)的文章。系统中的第一搜索引擎基于该查询而在第一数据库中搜索相关的法律意见。第二搜索引擎搜索第二数据库两次:第一次基于用户查询以及第二次基于来自第一搜索引擎的结果。在一些实施例中,第一搜索引擎是常规的tf-idf(单文本词汇频率-逆文本频率)搜索引擎,以及第二搜索引擎是基于合成矢量的分类器。来自第一和第二数据库的结果都经由图形用户界面呈现给用户,该图形用户界面在分开的区域、窗格或窗口中显示结果。
在其它实施例中,第二数据库提供了专题讨论文、州实践指南(statepractice guides)、法令和/或法律评论文章以扩充案例法数据库的搜索。而且,其它实施例增加了法令搜索、规章搜索、次级(secondary)材料搜索以及新闻搜索。一些实施例为访问第二数据库的文档收取独立的或者附加的费用。
附图简述
图1是相应于本发明的一个或多个实施例的示范信息检索系统100的图;
图2是相应于操作系统100以及本发明的一个或多个实施例的一种或多种示范方法的流程图;以及
图3是相应于本发明的一个或多个实施例的示范查询窗口300的复制;
图4是相应于本发明的一个或多个实施例的示范用户界面400的复制。
图5是相应于本发明的一个或多个实施例的示范用户界面500的复制。
图6是相应于本发明的一个或多个实施例的示范用户界面600的复制。
图7是用于相应于本发明的一个或多个实施例的次级搜索模块的示范结构和工作流程图。
图8是用于相应于本发明的一个或多个实施例的文本分类器的示范结构或工作流程图。
示范实施例详述
参考并结合上述图的本说明描述了发明的一个或多个具体实施例。这些被提供来不是限制而是仅仅例证和教授本发明的实施例足够详细地被示出和描述以使本领域的技术人员能实现或实践本发明。因此,在适当之处为避免混淆本发明,本说明将忽略本领域技术人员已知的一些信息。
另外,本文档引入以下项作为参考:2002年12月23日提交的美国临时专利申请60/436,191(律师案号962.021PRV);2001年12月21日提交的美国专利申请10/027,914(律师案号962.015US1);2002年12月30日提交的美国临时专利申请60/437,169(律师案号962.016PRV)以及2003年6月19日提交的美国临时专利申请60/480,476(律师案号962.016PRO)。本申请的一个或多个实施例可以组合或者另外通过参考申请中的教义来扩充而产生其它实施例。
示范信息检索系统
图1示出了示范在线信息检索系统100。系统100包括一个或多个数据库110、一个或多个服务器120以及一个或多个访问设备130。
数据库110包括一组主数据库112和一组第二数据库114。在示范实施例中,主数据库112包括案例法数据库1121和法令数据库1122,其分别包括来自一个或多个地方、州、联邦和/或国际管辖区域的司法意见和法令。次级数据库114,包含次级法律机关的法律文档或更普遍地从属于主数据库中司法或立法机关提供的那些的法律文档,该次级数据库包括ALR(美国法律报告)数据库1141、AMJUR数据库1142、West KeyNumber(KNUM)分类数据库1143、以及法律评论(LREV)数据库1144。其它实施例可能包括非法律数据库,其包括财政、科学或保健信息。此外,在一些实施例中,主和次级意味着搜索结果的呈现次序,而不是必定意味着搜索结果的权威性或可信性。
表现为一个或多个电子、磁或光数据存储设备的示范形式的数据库110包括或者另外与各自的索引(未示出)相关联。每个索引包括与相应的文档地址相关联的术语和短语、标识符和其它常规信息。数据库110经由诸如局域网、广域网、专用网或者虚拟专用网的无线或有线通信网络被耦合到或者能够被耦合到服务器120。
服务器120通常代表用来服务于带有关联小应用程序、ActiveX控制、远程调用对象或者其它相关软件和数据结构的网页形式或者其它标记语言形式的数据的一个或多个服务器,以服务于不同“厚度(thickness)”的客户。更具体地,服务器120包括处理器模块121、存储器模块122、订户数据库123、主搜索模块124、次级搜索模块125以及用户界面模块126。
处理器模块121包括一个或多个本地或分布式处理器、控制器或虚拟机。在示范实施例中,处理器模块121采取任何便利的或者期望的形式。
表现为一个或多个电子、磁或光数据存储设备的示范形式的存储器模块122存储订户数据库123、主搜索模块124、次级搜索模块125以及用户界面模块126。
订户数据库123包括订户相关的数据,用于控制、掌管并管理数据库110的帐单到期即付(pay-as-you-go)或者基于订阅的访问。在示范实施例中,订户数据库123包括一个或多个偏好数据结构,数据结构1231是其代表。数据结构1231包括顾客或者用户标识符部分1231A,其逻辑上与一个或多个次级搜索偏好相关联,诸如偏好1231B、1231C以及1231D。偏好1231B包括一个缺省值,其支配着当搜索选择的数据库,诸如案例法数据库时,使能还是禁止补充搜索。偏好1231C包括一个缺省值,其支配着次级搜索结果的补充的呈现,例如,各种内容类型的列出优先权或者这样的结果的最大显示数。偏好1231D包括一个缺省值,其支配着在次级搜索期间使用两个或多个次级搜索算法或接受准则中的哪个(没有临时的用户超控(override),例如在特定的查询或者会话期间的超控,则补充搜索偏好的缺省值来支配)。
主搜索模块124包括一个或多个搜索引擎以及相关的用户界面组件,用于接收并处理对于一个或多个数据库110的用户查询。在示范实施例中,与搜索模块124相关联的一个或多个搜索引擎提供布尔、tf-idf、自然语言搜索能力。
次级搜索模块125包括一个或多个搜索引擎,用于接收并处理对于一个或多个数据库110的查询。在示范实施例中,次级搜索模块125通过使用用户查询和/或来自主搜索模块124的结果,提供基于合成矢量的分类搜索。在其它实施例中,第二数据库提供专题讨论文、州实践指南、法令和/或法律评论文章以扩充案例法数据库的搜索。而且,其它实施例增加了法令搜索、规章搜索、次级材料搜索以及新闻搜索。一些实施例为访问第二数据库的文档收取独立的或者附加的费用。
用户界面模块126包括机器可读和/或可执行指令组,用于在诸如访问设备130的一个或多个访问设备上,通过无线或有线通信网络完全或部分地定义基于web的用户界面,诸如搜索界面1261和结果界面1262。
访问设备130通常代表一个或多个访问设备。在示范实施例中,访问设备130表现为个人计算机、工作站、个人数字助理、移动电话、或者能够给有效的用户界面提供服务器或者数据库的任何其它设备的形式。具体地,访问设备130包括处理器模块131一个或多个处理器(或处理电路)131、存储器132、显示器133、键盘134以及图形指示器或者选择器135。
处理器模块131包括一个或多个处理器、处理电路、或者控制器。在示范实施例中,处理器模块131采取任何便利的或者期望的形式。存储器132被耦合到处理器模块131。
存储器132为操作系统136、浏览器137以及图形用户界面(GUI)138存储代码(机器可读的或者可执行的指令)。在示范实施例中,操作系统136采取微软Windows操作系统的版本形式,并且浏览器137采取微软Internet Explorer版本的形式。操作系统136和浏览器137不仅接收来自键盘134和选择器135的输入,还支持在显示器133上再现GUI138。刚一再现,GUI138就提供与一个或多个交互控制特征(或用户界面元素)相关联的数据。(示范实施例通过使用来自服务器120的小应用程序或者其它与程序有关的对象或结构,定义了界面138的一个或多个部分。)
更具体地,图形用户界面138定义或提供一个或多个显示区域,诸如查询或搜索区域1381以及搜索结果区域1382。查询区域1381被定义在存储器中并且刚一再现就包括一个或多个交互控制特征(元件或窗口小部件),诸如查询输入区域1381A、查询递交按钮1381B以及次级搜索选择1381C。搜索结果区域1382也被定义在存储器中,并且刚一再现就包括主结果区域1382A和次级结果区域1382B。区域1382A包括一个或多个交互控制特征,诸如用于经由服务器120从一个或多个数据库110访问或检索一个或多个相应的主搜索结果文档的特征A1、A2、A3。每个控制特征包括各自的文档标识符或者标签,诸如DOC X、DOC Y、DOC Z,以为相应的文档识别各自的题目和/或引用。区域1382B包括一个或多个交互控制特征,诸如用于经由服务器120从一个或多个数据库110访问或者检索一个或多个相应的次搜索结果文档的特征B1、B2、B3。每个控制特征包括各自的文档标识符或者标签,诸如DOC1、DOC2、DOC3,以为相应的文档识别各自的题目和/或引用。
在示范实施例中,这些控制特征的每一个采取超链接或者其它浏览器可兼容的命令输入的形式,并且提供对查询区域1381和搜索结果区域1382的访问以及控制。区域1382中控制特征的用户选择导致界面138区域内的相应文档的至少一部分的检索和显示(在本图中没有示出)。尽管图1将查询区域1381和结果区域1382显示为同时显示的,但是一些实施例在分开的时刻呈现它们。此外或者替代地,一些实施例在区域1382内混合主和次结果。这些实施例的一些变化以将次级结果与主结果明显区分开来的字体呈现该次级结果,和/或组合指示它们为次级或补充的图标来呈现该次级结果。
示范操作
图2示出了操作诸如系统100的系统的一种或多种示范方法的流程图200。流程图200包括块210-270,这些块和本描述中的其它块一样在示范实施例中以连续顺序被安排并且被描述。然而,通过使用多个处理器或者类似处理器的设备或者组织为两个或多个虚拟机或子处理器的单个处理器,一些实施例并行执行两个或多个块。一些实施例还改变处理顺序或者提供不同的功能分割以实现类似的结果。例如,一些实施例可以改变客户-服务器的功能分配,以便于在服务器端示出和描述的功能在客户端全部或部分地实现,并且反之亦然。而且,还有其它实施例将所述块实现为两个或多个互连的硬件模块,相关的控制和数据信号在模块之间以及通过模块来通信。因此,示范处理流程(图2中以及在本描述的其它地方)应用到软件、硬件以及固件实现。
块210需要呈现搜索界面给用户。在示范实施例中,这需要用户将客户访问设备中的浏览器指向诸如Westlaw系统的在线信息检索系统的互联网-协议(IP)地址,然后登录到该系统。成功的登录导致诸如图1中的界面138或图3中的界面300(或其一个或多个部分)的基于web的搜索界面从服务器120输出、存储在存储器132中并且通过客户访问设备130来显示。
如图3中所示,界面300包括多个交互控制特征,包括查询输入区域310、查询递交命令320以及次级指示区域330。查询输入区域310接收定义查询的文本输入。次级指示区域320允许用户明确地使能或禁止次级数据库或资源的搜索。该指示区域的初始状态由存储在诸如数据库124的订户数据库中的缺省用户偏好值来确定。在示范实施例中,改变指示区域的状态是为当前的查询改变了指示;缺省偏好值不受影响,除非是在较高的控制级别、诸如经由偏好控制区域被改变。一些实施例还包括交互控制特征,诸如复选框或菜单组,其允许用户定义与次级结果的显示相关的偏好。例如,一个实施例允许用户通过内容类型来为次级结果的显示次序区分优先次序,具体而言是哪种内容类型应当被首先列出。查询递交命令320允许用户使得访问设备130将在输入区域310中定义的查询以及次级指示区域320中的设置递交给服务器,诸如服务器120。
通过使用界面138或300,用户可以定义或递交查询并使得它输出给服务器,诸如服务器120。在其它实施例中,查询可能已经被用户定义或选择以自动地基于进度表或者事件驱动来执行。在这些情况下,查询可能已经驻留在信息检索系统的服务器的存储器中,并且因此不需要重复地传给服务器。然后执行前进到块220。
块220需要接收查询。在示范实施例中,查询包括查询串和/或包括一个或多个选择数据库的一组目标数据库。在一些实施例中,查询串包括一组术语和/或连接符,并且在其它实施例中包括自然语言串。而且,在一些实施例中,目标数据库组是基于系统或搜索界面的形式而被自动定义或者缺省地定义的。而且在一些实施例中,接收到的查询可能伴随有其它信息,诸如定义是否搜索次级资源的信息。在任何情况下,执行在块230处继续。
块230需要基于或者响应于接收到的查询来识别一组文档或搜索结果。在示范实施例中,这需要服务器或组件受服务器控制或命令,以执行对于目标数据库组的查询并且识别满足查询准则的文档。执行前进到块240。
块240需要基于查询而识别一组一个或多个次级文档。(在一些实施例中,双重识别块的执行要视一个规定是否识别重复文档的缺省或者选择的用户选项而定。)在示范实施例中,次级识别通常需要使用第二搜索引擎或者更准确地说多分类器文本分类引擎以搜索第二数据库。
更具体地,示范实施例遵循流程图240中示出的方法,其包括处理块241-244。块241需要基于用户查询来搜索次级数据库。在示范实施例中,该搜索需要使用次级搜索模块,其包括基于合成矢量的分类器。更具体地,一些示范系统通过确定一组合成得分来分类或者帮助人工分类一个输入文本,每个合成得分对应于被认为用于包含作为次级搜索结果的各个文档并且基于“一个或多个,优选地两个或多个分类器的相似度或者相关度得分”。确定每个得分需要计算并应用类别特定的权重到下列得分类型的一个或多个:
●第一类型,基于查询文本(或主结果文档)和与次级数据库(可能的次级文档)中一个相应文档相关联的文本的相似度;
●第二类型,基于一组与查询文本相关联的Key Number类和一组与可能的次级文档中一个相应文档相关联的Key Number类的相似度;
●第三类型,基于给定一组一个或多个Key Number类时、可能的次级文档中的一个文档与查询文本相关联的可能性;以及
●第四类型,基于给定本文(例如,批注)时、查询文本与可能次级文档中的一个相应文档相关联的可能性。
决定是否将特定的文档包括在次级搜索结果中或者从其中排除需要对照决策准则来评估每个得分,诸如文档特定的阈值。
块242需要基于来自块230处的第一搜索引擎的结果而搜索次级数据库。在示范实施例中,该搜索需要从主搜索结果的文档子集中提取文本,诸如名词对,以定义特征池或集合。提取的文本然后被输入到文本分类器中,诸如上面指出的多分类器引擎,并且与可能相关的文章或者更普遍地次级数据库中的文档相比较。在文本分类器的上下文中,诸如ALR、AmJur或Key Number的数据库中的可能的文档,批注聚集(headnoteconglomeration)被视为分类。然后那些由多分类器引擎依靠满足相似度阈值而判断为充分相似于其它搜索结果的文档被包括在次级搜索结果中。在一些实施例中,来自主搜索结果的预置个数的最相关文档-例如,前5个文档或者文档的前5%-被用作基础。而且,一些实施例可能将主搜索结果的子集用作“更类似于其”类型的次级数据库的搜索的基础。执行在块243处继续。
块243需要将来自次级数据库的搜索结果组合到次级结果集合中。在示范实施例中,扩展的或者次级搜索结果包括被确定为与查询相关的ALR、AmJur部分以及West Key Number系统分类代码(和/或相关联的批注)。
在示范实施例中,次级数据库的主题范围集中在法律材料。然而,在一些实施例中,任何相关的信息域可以被搜索,包括例如新闻和财政数据库、专业目录等等。在确定次级数据库文档的相关度中,一些实施例依赖次级搜索引擎之外的顾客跟踪或者使用信息。该信息确保在相似的搜索之后,频繁被使用(也就是“点击”)、打印和/或关键词引用的文档更可能被包括在次级结果中。此外,一些实施例将文档中的术语位置用作在确定候选次级结果的相关得分或排序中的因素。执行在块250处继续。
块250需要将来自主和次级数据库的结果经由图形用户界面呈现给用户。在示范实施例中,这需要在一个或多个分开的区域、窗格或窗口中、临近主结果的列表显示次级结果的列表,每个列出的文档或者更一般地是每个项,与诸如超链接的相应交互控制特征相关联,其可由用户选择以在相同或分开的窗口中调用关联文档(或其一部分)的检索和/或显示。例如,参见图1中的区域1381和1382或者图3中的区域310和320。
一些实施例自动地将在分开的窗格中示出的次级项数限制到预定的项数,诸如10。示范结果包括到来自美国法律报告(ALR)和美国法学2d(AMJUR)数据库的文档的链接,以及到West主题和检索号参考的链接。(一些实施例还排除诸如ALR或AmJur文档的次级结果文档,其具有红色KeyCite(关键词引用)状态标志(指示文档已被淘汰))。此外,包括案例法和法令的主结果可能包括到论文和法律评论的链接。一些实施例包括“扩展”控制特征,其允许用户选择性地扩展显示的次级结果列表的数量和/或大小,并且因此获得对次级结果的更加扩展的列表的访问。
块260需要呈现次级搜索结果中的一个或多个。在示范实施例中,这需要用户点击列出的次级搜索结果中的一个或多个并且由此导致访问设备130发起或递交对这一个或多个项的请求。依赖于通常由订阅参数确定的用户的访问权,用户帐户被收取访问次级搜索结果的费用。一些实施例呈现关于任何费用评估的咨询消息给用户,以给用户提供一个选项来取消访问。
例如,点击列出的项322(图3中)导致在诸如图4中的界面400的界面内呈现相应的ALR文章。界面400包括示出至少一部分相应的ALR文章的文档显示区域410、重新列出ALR文章的识别信息的文档列表420、以及可选择来导致为用户进行文章打印、电子邮寄或其它输出的打印命令输入430。
类似地,选择或点击图3中列出的项324导致在诸如图5中的界面500的界面内呈现相应的AMJUR文章。界面500包括示出至少一部分相应的AMJUR文章的文档显示区域510、重新列出AMJUR文章的识别信息的文档列表520、以及可选择来导致为用户进行文章打印、电子邮寄或其它输出的打印命令输入530。
选择在图3中列出的项326导致在诸如图6中的界面600的界面的呈现,其显示示出与列出的项326的West Key Number分类有关的批注的定制摘要页。界面600包括示出至少一部分相应的定制摘要页的文档显示区域610、重新列出West Key Number分类的识别信息的文档列表620、以及可选择来打印、电子邮寄或另外输出文章的打印命令输入630。
在察看了次级搜索结果之后,用户可以重新显示主搜索结果(以及次级搜索结果)。例如,用户可以使用在她的浏览器上的“后退”按钮或者激活界面400、500或600之一上的返回或“后退”链接。
用于补充搜索功能的示范结构
图7示出了用于实现服务器120的补充搜索功能的示范结构700。示范结构包括负载平衡路由器710、命令和控制(CnC)服务720以及后端搜索(或分类)服务装置730。
具体地,负载平衡路由器710从诸如客户702、704和706的一个或多个客户接收主和次级搜索请求。路由器710以循环或其它方式发送查询到CnC服务,以确保同一请求的两个阶段(即,主和次级请求)都被发送给相同的后端服务装置(或机器)并且从它的服务池中添加和减去机器以反映当前的可用性。在被转发到一个CnC服务720之前,所有请求/响应被以XML编码。
CnC服务720包括一个或多个独立的CnC服务,诸如CnC服务722、724和726。通常代表每个CnC应用服务的CnC服务724包括消息处理机724A、AMJUR事件处理机724B、Key Number(KN)事件处理机724C、以及ALR事件处理机724D。每个CnC服务将客户消息传递给后端服务,组合来自后端服务730的响应以产生建议(或搜索结果),并且通过路由器710将它们发送回客户。
后端搜索服务装置730包括分类器服务装置732、734和736。在本示范实施例中通常代表每个分类器服务装置的服务装置734包括AMJUR分类器(或搜索)服务744A、KNA分类器服务744B、KN查找服务744C、ALR-CC服务744D、ALR-HN服务744E、ALR-SEC服务744F。每个服务的名称反映了相关的查询区域。例如,ALR-HN处理单词对分类器或者从ALR中引用的所有批注(HN)中提取的特征集合。这些后端服务在两个处理阶段内“建议”多个信息类别(例如,ALR注解)。第一阶段是直接基于用户查询,而第二阶段是基于主搜索引擎响应于用户查询的、检索到的案例。所述服务和CnC可作为web服务而得到并且使用XML-RPC(远程进程调用)来彼此通信。
在示范实施例中,搜索查询被发送到次级搜索模块(阶段1),并行地或者同时它被发送给主搜索模块。在第二阶段,检索的案例(或其它文档)一旦变得可用就由客户将它们转发到适当的CnC服务。如果主搜索不检索任何案例,则客户发送空阶段2请求,因为路由器和CnC服务正预期一个阶段2请求。本图中的上面一行代表Westlaw客户,每个客户发送它的阶段1(即,查询文本)以及阶段2(即,结果案例)请求给路由器/负载平衡器。
用于分类器服务的示范结构
图8示出了用于实现示范系统100和示范结构700中使用的多分类器的示范结构800。结构800包括特征池810、类别池820、分类器池830、元分类器池(meta-classifier pool)840以及决策者池850。
结论
促进本领域技术的发展中,发明人提出了多种示范系统、方法和软件,它们尤其有利于利用附加信息来补充搜索结果。一个示范系统自动地将对于法律意见的用户查询递交给第一和第二数据库,第一数据库存储法律意见并且第二数据库存储非意见文档,诸如来自West Key Number系统的批注、来自美国法律报告的文章、和/或来自美国法学的文章。
以上描述的实施例仅仅旨在图示并教导实践或者实现本发明的一种或多种方式,而并不限制它的宽度或范围。包含实践或实现本发明的教义的所有方式的本发明实际范围只由以下权利要求和它们的等价物定义。

Claims (2)

1.一种响应来自用户的查询的方法,包括:
基于所述查询而搜索第一数据库,以识别第一组一个或多个文档;以及
通过将至少一部分所述查询输入到基于与第二数据库中文档的相似度来分类文本的文本分类引擎中,而自动地在所述第二数据库中识别第二组一个或多个文档;以及
输出所述第一和第二组文档的每一组的至少一部分到与所述用户相关联的访问设备。
2.一种响应来自用户的查询的方法,包括:
基于所述查询而搜索第一数据库,以识别第一组一个或多个文档;
通过将至少一部分所述第一组文档输入到基于与第二数据库中文档的相似度来分类文本的文本分类引擎中,而自动地在所述第二数据库中识别第二组一个或多个文档;以及
输出所述第一和第二组文档的每一组的至少一部分到与所述用户相关联的访问设备。
CN2005800051394A 2003-12-31 2005-01-03 用于扩展搜索结果超出初始查询定义的界限之外的系统、方法、界面和软件 Expired - Fee Related CN101107602B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110370761.2A CN102456075B (zh) 2003-12-31 2005-01-03 响应来自用户的查询的方法和系统

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US53381903P 2003-12-31 2003-12-31
US60/533,819 2003-12-31
PCT/US2005/000041 WO2005066849A2 (en) 2003-12-31 2005-01-03 Systems, methods, interfaces and software for extending search results beyond initial query-defined boundaries

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201110370761.2A Division CN102456075B (zh) 2003-12-31 2005-01-03 响应来自用户的查询的方法和系统

Publications (2)

Publication Number Publication Date
CN101107602A CN101107602A (zh) 2008-01-16
CN101107602B true CN101107602B (zh) 2012-01-18

Family

ID=34748966

Family Applications (2)

Application Number Title Priority Date Filing Date
CN2005800051394A Expired - Fee Related CN101107602B (zh) 2003-12-31 2005-01-03 用于扩展搜索结果超出初始查询定义的界限之外的系统、方法、界面和软件
CN201110370761.2A Expired - Fee Related CN102456075B (zh) 2003-12-31 2005-01-03 响应来自用户的查询的方法和系统

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201110370761.2A Expired - Fee Related CN102456075B (zh) 2003-12-31 2005-01-03 响应来自用户的查询的方法和系统

Country Status (10)

Country Link
US (1) US9317587B2 (zh)
EP (1) EP1704498A2 (zh)
JP (2) JP2008503796A (zh)
CN (2) CN101107602B (zh)
AR (1) AR047080A1 (zh)
AU (1) AU2005204148A1 (zh)
BR (1) BRPI0506675A (zh)
CA (1) CA2562490C (zh)
NZ (1) NZ548445A (zh)
WO (1) WO2005066849A2 (zh)

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7778954B2 (en) 1998-07-21 2010-08-17 West Publishing Corporation Systems, methods, and software for presenting legal case histories
US7529756B1 (en) * 1998-07-21 2009-05-05 West Services, Inc. System and method for processing formatted text documents in a database
US7139755B2 (en) 2001-11-06 2006-11-21 Thomson Scientific Inc. Method and apparatus for providing comprehensive search results in response to user queries entered over a computer network
AU2003300142A1 (en) * 2002-12-30 2004-07-29 West Services, Inc. Knowledge-management systems for law firms
WO2005066849A2 (en) 2003-12-31 2005-07-21 Thomson Global Resources Systems, methods, interfaces and software for extending search results beyond initial query-defined boundaries
WO2005067817A1 (en) 2004-01-13 2005-07-28 Remon Medical Technologies Ltd Devices for fixing a sensor in a body lumen
AU2011202562B2 (en) * 2005-10-04 2013-08-29 Thomson Reuters Enterprise Centre Gmbh Systems, methods, and software for identifying relevant legal documents
US9177050B2 (en) 2005-10-04 2015-11-03 Thomson Reuters Global Resources Systems, methods, and interfaces for extending legal search results
CN101454776A (zh) * 2005-10-04 2009-06-10 汤姆森环球资源公司 用于识别相关法律文件的系统、方法、和软件
US7693912B2 (en) 2005-10-31 2010-04-06 Yahoo! Inc. Methods for navigating collections of information in varying levels of detail
US20070100915A1 (en) * 2005-10-31 2007-05-03 Rose Daniel E Methods for displaying dynamic suggestions in a user interface
US7735010B2 (en) * 2006-04-05 2010-06-08 Lexisnexis, A Division Of Reed Elsevier Inc. Citation network viewer and method
US7908264B2 (en) * 2006-05-02 2011-03-15 Mypoints.Com Inc. Method for providing the appearance of a single data repository for queries initiated in a system incorporating distributed member server groups
US8166029B2 (en) * 2006-09-07 2012-04-24 Yahoo! Inc. System and method for identifying media content items and related media content items
US8676349B2 (en) 2006-09-15 2014-03-18 Cardiac Pacemakers, Inc. Mechanism for releasably engaging an implantable medical device for implantation
US8316000B2 (en) * 2006-12-07 2012-11-20 At&T Intellectual Property Ii, L.P. Method and apparatus for using tag topology
BRPI0720718A2 (pt) * 2006-12-29 2014-04-01 Thomson Reuters Glo Resources Métodos, sistemas de recuperação de informação e software com procura e classificação baseada em conceito
US9535810B1 (en) 2007-04-24 2017-01-03 Wal-Mart Stores, Inc. Layout optimization
US8037042B2 (en) 2007-05-10 2011-10-11 Microsoft Corporation Automated analysis of user search behavior
US7752201B2 (en) * 2007-05-10 2010-07-06 Microsoft Corporation Recommendation of related electronic assets based on user search behavior
US7634318B2 (en) 2007-06-14 2009-12-15 Cardiac Pacemakers, Inc. Multi-element acoustic recharging system
US9953329B2 (en) * 2007-08-02 2018-04-24 International Business Machines Corporation System and method for providing preview results for search systems integrating mulitple collections
US9086775B1 (en) 2008-07-10 2015-07-21 Google Inc. Minimizing software based keyboard
CA2730207C (en) * 2008-07-11 2017-08-22 Thomson Reuters Global Resources System and methods for web-based control of desktop applications
US8694129B2 (en) 2009-02-13 2014-04-08 Cardiac Pacemakers, Inc. Deployable sensor platform on the lead system of an implantable device
CN102334154B (zh) 2009-02-24 2016-02-03 电子湾有限公司 用于提供多方向视觉浏览的系统和方法
EP2438542A2 (en) 2009-06-05 2012-04-11 West Services, Inc. Feature engineering and user behavior analysis
AU2011210688B2 (en) * 2010-01-29 2015-07-02 Lexisnexis, A Division Of Reed Elsevier Inc. Systems and methods for providing a validation tool
US20110191335A1 (en) * 2010-01-29 2011-08-04 Lexisnexis Risk Data Management Inc. Method and system for conducting legal research using clustering analytics
CN101976246A (zh) * 2010-09-30 2011-02-16 互动在线(北京)科技有限公司 百科词条分类检索方法
CN103020322A (zh) * 2013-01-11 2013-04-03 曙光信息产业(北京)有限公司 查询方法
CN104462113B (zh) * 2013-09-17 2018-10-23 腾讯科技(深圳)有限公司 搜索方法、装置及电子设备
US9589293B1 (en) * 2014-03-21 2017-03-07 Amazon Technologies, Inc. Cataloging items and relationships between items
US10089388B2 (en) * 2015-03-30 2018-10-02 Airwatch Llc Obtaining search results
US10229209B2 (en) 2015-03-30 2019-03-12 Airwatch Llc Providing search results based on enterprise data
US10762144B2 (en) * 2015-09-09 2020-09-01 International Business Machines Corporation Search engine domain transfer
US11449534B2 (en) * 2017-10-13 2022-09-20 Thomson Reuters Enterprise Centre Gmbh Systems and methods for conducting legal research across multiple jurisdictions
KR101886007B1 (ko) * 2017-11-21 2018-08-06 주식회사 인텔리콘 연구소 시각화 내비게이션 방식의 법률 정보 서비스 시스템 및 방법
CN110874417B (zh) * 2018-09-04 2024-04-16 华为技术有限公司 数据检索的方法和装置
CN109508458B (zh) * 2018-10-31 2023-05-26 北京国双科技有限公司 法律实体的识别方法及装置
CN112764851A (zh) * 2021-01-14 2021-05-07 青岛海信传媒网络技术有限公司 一种法律声明内容的显示方法及显示设备

Family Cites Families (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4814746A (en) 1983-06-01 1989-03-21 International Business Machines Corporation Data compression method
US4754489A (en) 1985-10-15 1988-06-28 The Palantir Corporation Means for resolving ambiguities in text based upon character context
US4876731A (en) 1988-02-19 1989-10-24 Nynex Corporation Neural network model in pattern recognition using probabilistic contextual information
US5075896A (en) 1989-10-25 1991-12-24 Xerox Corporation Character and phoneme recognition based on probability clustering
US5062143A (en) 1990-02-23 1991-10-29 Harris Corporation Trigram-based method of language identification
US5151950A (en) 1990-10-31 1992-09-29 Go Corporation Method for recognizing handwritten characters using shape and context analysis
ATE196205T1 (de) 1993-06-30 2000-09-15 Ibm Verfahren zum segmentieren von bildern und klassifizieren von bildelementen zur dokumentverarbeitung
US5537488A (en) 1993-09-16 1996-07-16 Massachusetts Institute Of Technology Pattern recognition system with statistical classification
US5560005A (en) 1994-02-25 1996-09-24 Actamed Corp. Methods and systems for object-based relational distributed databases
JP3375766B2 (ja) 1994-12-27 2003-02-10 松下電器産業株式会社 文字認識装置
US5625767A (en) 1995-03-13 1997-04-29 Bartell; Brian Method and system for two-dimensional visualization of an information taxonomy and of text documents based on topical content of the documents
US5640553A (en) 1995-09-15 1997-06-17 Infonautics Corporation Relevance normalization for documents retrieved from an information retrieval system in response to a query
US5873076A (en) 1995-09-15 1999-02-16 Infonautics Corporation Architecture for processing search queries, retrieving documents identified thereby, and method for using same
US5867799A (en) 1996-04-04 1999-02-02 Lang; Andrew K. Information system and method for filtering a massive flow of information entities to meet user information classification needs
US5864871A (en) 1996-06-04 1999-01-26 Multex Systems Information delivery system and method including on-line entitlements
US5920854A (en) 1996-08-14 1999-07-06 Infoseek Corporation Real-time document collection search engine with phrase indexing
US5970490A (en) 1996-11-05 1999-10-19 Xerox Corporation Integration platform for heterogeneous databases
JP3887867B2 (ja) 1997-02-26 2007-02-28 株式会社日立製作所 構造化文書の登録方法
US6523022B1 (en) 1997-06-09 2003-02-18 Allen Hobbs Method and apparatus for selectively augmenting retrieved information from a network resource
US5987454A (en) 1997-06-09 1999-11-16 Hobbs; Allen Method and apparatus for selectively augmenting retrieved text, numbers, maps, charts, still pictures and/or graphics, moving pictures and/or graphics and audio information from a network resource
US6137911A (en) 1997-06-16 2000-10-24 The Dialog Corporation Plc Test classification system and method
US6012053A (en) 1997-06-23 2000-01-04 Lycos, Inc. Computer system with user-controlled relevance ranking of search results
US5983216A (en) 1997-09-12 1999-11-09 Infoseek Corporation Performing automated document collection and selection by providing a meta-index with meta-index values indentifying corresponding document collections
US6018733A (en) 1997-09-12 2000-01-25 Infoseek Corporation Methods for iteratively and interactively performing collection selection in full text searches
US5983267A (en) 1997-09-23 1999-11-09 Information Architects Corporation System for indexing and displaying requested data having heterogeneous content and representation
US6108686A (en) * 1998-03-02 2000-08-22 Williams, Jr.; Henry R. Agent-based on-line information retrieval and viewing system
US6112203A (en) 1998-04-09 2000-08-29 Altavista Company Method for ranking documents in a hyperlinked environment using connectivity and selective content analysis
US6529911B1 (en) * 1998-05-27 2003-03-04 Thomas C. Mielenhausen Data processing system and method for organizing, analyzing, recording, storing and reporting research results
US6208988B1 (en) * 1998-06-01 2001-03-27 Bigchalk.Com, Inc. Method for identifying themes associated with a search query using metadata and for organizing documents responsive to the search query in accordance with the themes
JP2000099530A (ja) * 1998-09-22 2000-04-07 Nri & Ncc Co Ltd 情報検索出力装置、情報検索出力方法および記録媒体
US6460029B1 (en) 1998-12-23 2002-10-01 Microsoft Corporation System for improving search text
JP2000235583A (ja) * 1999-02-16 2000-08-29 Fujitsu Ltd 分散型検索システムのデータアクセス装置及びその方法
US6510406B1 (en) * 1999-03-23 2003-01-21 Mathsoft, Inc. Inverse inference engine for high performance web search
US6393415B1 (en) 1999-03-31 2002-05-21 Verizon Laboratories Inc. Adaptive partitioning techniques in performing query requests and request routing
JP4732593B2 (ja) * 1999-05-05 2011-07-27 ウエスト パブリッシング カンパニー ドキュメント分類システム、ドキュメント分類方法およびドキュメント分類ソフトウェア
US6249784B1 (en) 1999-05-19 2001-06-19 Nanogen, Inc. System and method for searching and processing databases comprising named annotated text strings
AU5490000A (en) * 1999-06-15 2001-01-02 Kanisa Inc. System and method for document management based on a plurality of knowledge taxonomies
US6591261B1 (en) * 1999-06-21 2003-07-08 Zerx, Llc Network search engine and navigation tool and method of determining search results in accordance with search criteria and/or associated sites
US20020077944A1 (en) * 1999-11-16 2002-06-20 Bly J. Aaron System and method for disposing of assets
US7325201B2 (en) * 2000-05-18 2008-01-29 Endeca Technologies, Inc. System and method for manipulating content in a hierarchical data-driven search and navigation system
WO2002010981A2 (en) * 2000-07-28 2002-02-07 Easyask, Inc. Distributed search system and method
US6804662B1 (en) * 2000-10-27 2004-10-12 Plumtree Software, Inc. Method and apparatus for query and analysis
JP2002140339A (ja) * 2000-10-31 2002-05-17 Tonfuu:Kk 法律等検索システムおよび法律等検索装置ならびに法律等検索プログラム
TW476895B (en) 2000-11-02 2002-02-21 Semcity Technology Corp Natural language inquiry system and method
US6920505B2 (en) 2000-12-14 2005-07-19 Ask Jeeves, Inc. Method and apparatus for determining a navigation path for a visitor to a world wide web site
DE10122062A1 (de) 2001-05-07 2002-11-21 Varetis Ag Verfahren und Vorrichtung zur automatischen Auskunftserteilung
JP4025517B2 (ja) * 2001-05-31 2007-12-19 株式会社日立製作所 文書検索システムおよびサーバ
US7062498B2 (en) 2001-11-02 2006-06-13 Thomson Legal Regulatory Global Ag Systems, methods, and software for classifying text from judicial opinions and other documents
US7139755B2 (en) 2001-11-06 2006-11-21 Thomson Scientific Inc. Method and apparatus for providing comprehensive search results in response to user queries entered over a computer network
US7206778B2 (en) * 2001-12-17 2007-04-17 Knova Software Inc. Text search ordered along one or more dimensions
JP4255239B2 (ja) * 2002-03-29 2009-04-15 富士通株式会社 文書検索方法
JP3760148B2 (ja) * 2002-09-17 2006-03-29 株式会社日立製作所 複数文書データベースを対象とした文書検索方法および文書検索サービス
AU2003300142A1 (en) * 2002-12-30 2004-07-29 West Services, Inc. Knowledge-management systems for law firms
US7483878B2 (en) * 2003-03-25 2009-01-27 Claria Corporation Generation and presentation of search results using addressing information
WO2005066849A2 (en) 2003-12-31 2005-07-21 Thomson Global Resources Systems, methods, interfaces and software for extending search results beyond initial query-defined boundaries
US7437353B2 (en) * 2003-12-31 2008-10-14 Google Inc. Systems and methods for unification of search results

Also Published As

Publication number Publication date
JP2012113727A (ja) 2012-06-14
CA2562490A1 (en) 2005-07-21
WO2005066849A3 (en) 2007-03-15
AR047080A1 (es) 2006-01-04
US9317587B2 (en) 2016-04-19
NZ548445A (en) 2009-05-31
JP2008503796A (ja) 2008-02-07
EP1704498A2 (en) 2006-09-27
CN102456075A (zh) 2012-05-16
CA2562490C (en) 2017-11-21
US20050228788A1 (en) 2005-10-13
CN102456075B (zh) 2016-01-27
BRPI0506675A (pt) 2007-05-15
CN101107602A (zh) 2008-01-16
AU2005204148A1 (en) 2005-07-21
WO2005066849A2 (en) 2005-07-21

Similar Documents

Publication Publication Date Title
CN101107602B (zh) 用于扩展搜索结果超出初始查询定义的界限之外的系统、方法、界面和软件
CN101366024B (zh) 用于处理数据搜索请求的方法和系统
CA2624865C (en) Systems, methods, and software for identifying relevant legal documents
US20180004850A1 (en) Method for inputting and processing feature word of file content
US20130046782A1 (en) Method and system to provide subsequent history field for intellectual property document
US20020138465A1 (en) Apparatus for and method of searching and organizing intellectual property information utilizing a classification system
US20070027811A1 (en) Pay-for-access legal research system with access to open web content
CN101622601A (zh) 基于文档内容、元数据和语境的以文档为中心的工作流程系统、方法和软件
JP2006012197A (ja) データベースクエリおよび情報送達の方法およびシステム
CN101116072A (zh) 用于分类呈现搜索结果的方法和系统
US20100030749A1 (en) Graphical user interfaces for information retrieval systems
CN107247743A (zh) 一种司法类案检索方法及系统
US20120072450A1 (en) Systems, methods and software for researching statutory information
CN110968800A (zh) 一种信息推荐方法、装置、电子设备及可读存储介质
JP2002358315A (ja) 文書検索システムおよびサーバ
Aas A survey on personalized information filtering systems for the world wide web
AU2015203812B2 (en) Systems, methods, interfaces and software for extending search results beyond initial query-defined boundaries
Pope Automatic classification of online news headlines
Türker The optimal design of a search engine from an agency theory perspective
AU2011202562B2 (en) Systems, methods, and software for identifying relevant legal documents
Elser et al. A Search Engine That Learns.
Zeng et al. Pursuing Information Personalization as a Constraint Satisfaction Problem

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee
CP02 Change in the address of a patent holder

Address after: Swiss Swiss

Patentee after: THOMSON REUTERS GLOBAL RESOURCES

Address before: Switzerland Zug

Patentee before: THOMSON REUTERS GLOBAL RESOURCES

CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: Swiss Swiss

Patentee after: THOMSON REUTERS GLOBAL RESOURCES

Address before: Swiss Swiss

Patentee before: THOMSON REUTERS GLOBAL RESOURCES

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200414

Address after: Chug, Switzerland

Patentee after: Thomson Reuters Enterprise Center Co.,Ltd.

Address before: Bahr, Switzerland

Patentee before: THOMSON REUTERS GLOBAL RESOURCES

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120118

Termination date: 20220103