CN100485603C - 用于从搜索查询中产生概念单元的系统和方法 - Google Patents

用于从搜索查询中产生概念单元的系统和方法 Download PDF

Info

Publication number
CN100485603C
CN100485603C CNB2004800123400A CN200480012340A CN100485603C CN 100485603 C CN100485603 C CN 100485603C CN B2004800123400 A CNB2004800123400 A CN B2004800123400A CN 200480012340 A CN200480012340 A CN 200480012340A CN 100485603 C CN100485603 C CN 100485603C
Authority
CN
China
Prior art keywords
unit
inquiry
units
collection
generation unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2004800123400A
Other languages
English (en)
Other versions
CN1784653A (zh
Inventor
S·卡普尔
D·乔希
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Altaba Inc
Original Assignee
Yahoo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Inc filed Critical Yahoo Inc
Publication of CN1784653A publication Critical patent/CN1784653A/zh
Application granted granted Critical
Publication of CN100485603C publication Critical patent/CN100485603C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

用于增强向用户提供的搜索功能的系统和方法。在某些方面中,查询处理引擎自动地将查询分解成与用户感兴趣的概念相关的组成单元。该查询处理引擎使用统计学方法将查询分解成每个查询一个或多个组成单元。在某些方面中,在确定单元中不使用现实世界知识。在其它方面中,例如使用一个或多个信息工程师的队伍人工地引入世界和内容知识的各方面,以增强并优化性能。

Description

用于从搜索查询中产生概念单元的系统和方法
相关申请交叉参考
本申请是序列号为60/460,222、2003年4月4日提交的美国临时申请的非临时申请,并声明对其的优先权,其内容在此全部引入作为参考。
技术领域
本发明一般涉及网络和因特网搜索及界面系统,尤其涉及提供增强搜索功能的搜索系统。
背景技术
随着诸如因特网的网络和在万维网(web)上用户可用的众多网页和媒体内容的出现,已开始需要向用户提供最新型的方法来过滤并获取来自web的所需信息。已经开发了搜索系统和过程来迎合用户对获取所需信息的需要。这些技术的示例可通过Yahoo!、Google和其它网站来访问。通常,用户输入查询,而搜索过程返回一个或多个与查询相关的链接。所返回的链接可能是与用户真正寻找的非常相关的,或者它们也可能是与其完全不相关的。查询结果的“相关性”部分地是所输入的实际查询以及所使用的搜索系统(以收集系统为基础)的鲁棒性的函数。
用户输入的查询通常由一个或多个字组成。例如,“haiwaii”(夏威夷)是一查询,“new york city”(纽约市)也是,而“new york city law enforcement”(纽约市执法)也是。这样,查询总体上并不是人类大脑所必备的。换言之,人类天生并不根据查询来进行思考。它们是部分的根据查询搜索引擎或查寻图书馆目录的需要而强加给我们的人工结构。人类天生不根据单个字来思考。人类进行思考的根据是自然概念。例如,“hawaii”和“new york city”根据字数长度而言是极为不同的查询,但是它们共享了一个重要特征:它们都由一个概念组成。然而,查询“new yorkcity law enforcement”就不同了,因为它由两个不同概念“new york city”和“lawenforcement”组成。人类天生地是通过输入一个或多个自然概念来建立查询的,而不是简单地通过输入可变长度的单字序列。
当前任一主要搜索供应商(例如MSN、Google或任何其它主要搜索引擎网站)的技术都不理解以人类创建它们的相同方法进行的查询。这可能是妨碍搜索供应商理解用户意图并提供优化搜索结果和内容的最重要原因。
可见需要改进的搜索和界面技术,来提供更符合用户感兴趣的真实概念的结果。
发明内容
本发明提供了用于增强提供给用户的搜索功能的系统和方法。在某些方面中,本发明自动地将各个查询分解成与用户可能感兴趣的概念相关的组成单元。
根据本发明,查询处理引擎使用统计学方法将各个查询分解成每个查询一个或多个组成单元。在一方面中,各单元是通常对应于自然概念的一个或多个字序列。在某些方面中,在确定单元中不使用现实世界知识。在其它方面中,例如使用一个或多个信息工程师的队伍人工地引入世界和内容知识的各方面,以增强并优化性能。在其它方面中,提供了查询处理引擎,以分析并处理一个或多个查询和某时间段(例如一周)的查询日志文件,从而自动地确定单元和各种单元扩展、单元关联、单元替代和其它单元关系。这些单元、扩展、关联和替代被存储到储存库或数据库中,并且在一方面中用来响应于用户查询生成建议。这些建议向用户提供基于原始搜索查询中固有的概念进一步提炼搜索的能力。单元扩展、关联和替代是自动导出的单元之间各类关系的示例。单元、扩展、关联和替代也对执行搜索查询的上下文分析和分类,以及执行用户查询的趋势分析特别有用。
根据本发明一方面,提供了一种用于从用户搜索查询产生概念单元的计算机实现方法。该方法通常包括接收多个查询,每个查询包括一个或多个字的字符串,标记化(tokenize)每个查询字符串来为每个查询生成一个或多个标记,其中查询的标记形成一个初始单元集。该方法通常还包括组合来自初始单元集的显现为在查询中彼此相邻的单元以形成第二单元集,验证该第二单元集,并使用第二单元集代替初始单元集来组合并验证一次或多次直到满足收敛条件。一旦满足了收敛条件,就形成最终的单元集。该最终的单元集被存储到存储器中。
根据本发明另一方面,提供了用于从用户搜索查询中产生概念单元的系统。该系统通常包括存储器单元,以及被配置成接收一个或多个查询日志文件的处理模块,每个查询日志文件包括多个查询,每个查询包括一个或多个字的字符串。该处理模块通常被配置成标记化来自查询日志文件的每个查询,以产生一个初始单元集,然后重复下述直到满足收敛条件:组合来自初始单元集的显现为在查询中彼此相邻的单元以形成第二单元集,验证该第二单元集,其中该第二单元集用于每次重复。一旦满足了收敛条件,处理模块就把最终的单元集存储到存储器单元中。
根据本发明又一方面,提供了通常包括代码的计算机可读介质,该代码用于控制处理器从多个用户搜索查询中产生概念单元,每个查询包括一个或多个字的字符串。该代码通常包括指令,用以标记化每个查询字符串来为每个查询生成一个或多个标记,其中查询的标记形成一个初始单元集,组合来自初始单元集的显现为在查询中彼此相邻的单元以形成第二单元集,并验证该第二单元集。该代码通常还包括指令,用以使用第二单元集代替初始单元集来重复标记化以及组合指令一次或多次直到满足收敛条件,其中最终的单元集在一旦满足收敛条件时形成,并且该最终的单元集存储到存储器模块中。
参考包括附图和权利要求书的说明书的剩余部分,将了解本发明的其它特征和优点。本发明的其它特征和优点,以及本发明的结构和操作,将参照附图在下面详细地描述。在附图中,相似的标号表示相同或功能相似的元件。
附图说明
图1示出根据本发明一实施例的信息检索和通信系统的一般纵览。
图2示出根据本发明一实施例用于传送媒体内容的信息检索和通信网络。
图3示出根据本发明一实施例的系统,包括被配置成处理查询日志文件以填充单元字典的查询处理引擎。
图4示出根据本发明一实施例的系统,包括单元字典及相关联处理智能,在某些方面中包括查询处理引擎。
图5示出根据一实施例用于处理查询和查询日志以产生单元的方法的一个示例。
图6示出根据一实施例用于生成建议的方法的一个示例。
图7-10示出根据本发明各个方面的单元和单元扩展、联合和替代的各种显示。
具体实施方式
图1示出根据本发明一实施例的包括客户机系统20的信息检索和通信网络10的一般纵览。在计算机网络10中,客户机系统20通过因特网40或者其它通信网络,例如任何LAN或WAN连接,与服务器系统501到50N连接。如将要描述的,客户机系统20根据本发明被配置成与服务器系统501到50N的任一个通信,例如访问、接收、检索并显示媒体内容以及诸如网页的其它信息。
图1所示的系统中的若干元件包括无需在此赘述的常规的众所周知的元件。例如,客户机系统20可包括台式个人计算机、工作站、膝上型计算机、PDA、手机、或能够直接或间接与因特网通过接口相连的任何WAP使能的装置或任何其它计算装置。客户机系统20通常运行HTTP客户端,例如浏览程序,诸如微软的Internet ExplorerTM浏览器、Netscape NavigatorTM浏览器、MozillaTM浏览器、Opera浏览器、或手机、PDA或其它无线装置等情形中的WAP使能的浏览器等,以使客户机系统20的用户能访问、处理并查看经因特网40从服务器系统501到50N中可用的信息和页面。客户机系统20通常还包括一个或多个用户接口装置22,诸如键盘、鼠标、触摸屏、笔等等,用来与由显示器(例如监视器屏幕、LCD显示器等)上浏览器提供的图形用户界面(GUI),以及服务器系统501到50N或其它服务器提供的页面、表格或其它信息交互。本发明适用于因特网,它是指网络的特定全球互联网。然而,应当理解,其它网络也可取代因特网,或者除因特网之外还能使用其它网络,诸如内联网、外联网、虚拟专用网络(VPN)、不基于TCP-IP的网络、任何LAN或WAN等。
根据一实施例,客户机系统20及其所有组件都是可使用应用程序而由操作者配置的,该应用程序包括使用诸如Intel PentiumTM处理器、AMD AthlonTM处理器等的中央处理单元或多个处理器运行的计算机代码。在此所述的用于操作并配置客户机系统20以传送、处理并显示数据和媒体内容的计算机代码最好被下载并存储在硬盘上,但整个程序代码或其一部分也可存储在任何其它易失性或非易失性的存储器媒体或装置中,诸如众所周知的ROM或RAM,或在能够存储程序代码的任何媒体上提供,诸如光盘(CD)媒体、数字多功能盘(DVD)媒体、软盘等。此外,整个程序代码或其一部分可经众所周知的因特网从例如服务器系统501到50N之一的软件源传送并下载到客户机系统20,或使用任何众所周知的通信媒体和协议(例如TCP/IP、HTTP、HTTPS、以太网等)经任何其它众所周知常规网络连接(例如外联网、VPN、LAN等)传送。还可以理解,用于实现本发明各方面的计算机代码可用C、C+、HTML、XML、Java、JavaScript、诸如VBScript的任何脚本语言之类的、可在客户机系统上执行的任何编程语言来实现。在某些实施例中,没有代码被下载到客户机系统20中,由服务器来执行所需的代码,或者执行已存在于客户机系统20上的代码。
图2示出根据本发明一实施例用于传送数据和媒体内容的另一信息检索和通信网络110。如图所示,网络110包括客户机系统120、服务器系统150和服务器系统160。在网络110中,客户机系统120通过因特网140或其它通信网络可通信地耦合到服务器系统150和160。如上所述,客户机系统120及其组件被配置成经因特网140或其它通信网络与服务器系统150和160以及其它服务器系统通信。
根据一实施例,在客户机系统120上执行的客户机应用程序(示为模块125)包括指令,用于控制客户机系统120及其组件与服务器系统150和160通信,并处理和显示从中接收的数据内容,如所述。客户机应用程序125最好从诸如远程服务器系统(例如服务器系统150、服务器系统160或其它远程服务器系统)的软件源中传送并下载到客户机系统120,尽管如上所述客户机应用程序模块125可在诸如软盘、CD、DVD等的任何软件存储媒体上提供。例如,在一方面中,客户机应用程序模块125可在包括比如内嵌JavaScript或ActiveX控件的各种控件的HTML包中经因特网140向客户机系统120提供,这些控件用于在各对象、框架和窗口中处理数据并呈现数据,如下所述。
此外,客户机应用程序模块125包括用于处理数据和媒体内容的各种软件模块。例如,应用程序模块125可包括:用于处理搜索请求和搜索结果数据的一个或多个搜索模块126、用于在诸如浏览器窗口和对话框的文本和数据框架及活动窗口中呈现数据和媒体内容的用户界面模块127、以及用于与在客户机120上执行的各应用程序接口并通信的应用程序界面模块128。此外,界面模块127可包括浏览器,诸如在客户系统120上配置的缺省浏览器或不同的浏览器。作为一个示例,根据一实施例的客户机应用程序模块125可使用URL:http://help.yahoo.com/help/us/sbc/browser/从Yahoo!公司下载。
参看图2,根据一实施例,服务器系统160被配置成将搜索结果数据和媒体内容提供给客户机系统120,而各服务器系统150被配置成例如响应于在由服务器系统160提供的搜索结果页面中选择的链接,将诸如网页的数据和媒体内容提供给客户机系统120。如以下要更详细地描述的,服务器系统160在一实施例中引用各种收集技术,以从万维网收集信息并用例如页面、页面链接等来填充一个或多个索引。这些收集技术包括自动web爬虫(web crwaler)、蜘蛛(spider)等,以及用于在分层结构中分类和排列网页的手动或半自动分类算法和界面。在某些方面中,服务器160还配置有搜索相关算法,用于处理和排列网页,比如Google的PageRank算法。服务器160最好还被配置成以查询日志文件的形式来记录用户查询动作。
在一方面中,服务器系统160被配置成响应于从客户机系统接收的各种搜索请求在特定搜索模块126中提供数据。服务器系统150和160可以是诸如由Yahoo!公司提供给用户的分布式服务器系统的单个机构的一部分,或者它们可以是不同机构的一部分。服务器系统150和服务器系统160都包括至少一个服务器和相关联的数据库系统,并可包括多个服务器和相关联数据库系统,并且尽管被示为单个框,但是地理上可以是分布式的。例如,服务器系统160的所有服务器可彼此相邻地放置(例如在位于单幢建筑或校园内的服务器场),或者它们可分布在彼此相距遥远的位置上(例如位于城市A的一个或多个服务器,以及位于城市B的一个或多个服务器)。当在此使用时,术语“服务器系统”通常包括本地地或跨一个或多个地理位置分布的一个或多个在逻辑上或物理上相连的服务器。此外,术语“服务器”通常将包括本领域内众所周知的计算机系统、相关联的存储系统、以及数据库应用程序。术语“服务器”和“服务器系统”在此将互换地使用。
根据一实施例,服务器160配备有一个或多个页面索引170和算法,用来响应于从客户机系统120和220接收的搜索查询向用户提供搜索结果。在某些方面中,服务器系统160被另外配置成响应于来自客户机系统120的搜索请求提供新的、增强的搜索查询分析和分类功能,如下详述。这样的查询分析和分类功能及其它特征在下文中描述:序列号为60/510,220、2003年10月9日提交的题为“Search Systemsand Methods with Conceptual Clustering”的美国专利申请(代理人档案号017887-011500US),以及序列号为10/______、与本申请同时提交的“Systems andMethods for Search Query Processing Using Trend Analysis”的美国专利申请(代理人档案号017887-011400US),其内容在此引入作为参考。
在一实施例中,例如,在服务器160上执行的过程执行搜索查询和/或搜索结果的上下文分类分析,并用按上下文分组的搜索结果作出响应。许多搜索词取决于与其上下文会有不同的含义。例如,如果用户使用词“Java”执行搜索,则预期上下文并不清晰。用户可能对Java计算机语言感兴趣,或对印度尼西亚岛屿Java感兴趣,或者对常常在口语中称为java的咖啡感兴趣。因而,不同的字可具有不同的字义和上下文。在一方面中,本发明有利地分析搜索查询和/或结果,并按上下文将结果分组,用于在用户的计算机120上显示。例如,在搜索词“Java”的以上示例中,服务器160返回分成三个(如果标识了其它上下文则为更多)种上下文或字义的搜索结果:用于计算机语言的Java、Java岛和咖啡Java。该系统可被配置成分集显示各个结果,并具有与每个上下文相关联的链接,或者系统可仅显示上下文(有足够信息来让用户辨别上下文)而没有任何链接,并使用户能选择所需上下文以显示相关联链接。例如,在Yahoo!网络系统中,可显示一个上下文集,其中每个上下文都具有一个链接集:与来自搜索索引的页面的链接、与赞助匹配相关联的链接、与目录匹配相关联的链接、以及与Yahoo!(IY)匹配相关联的链接。
除具有歧义的诸如“Java”的字或短语之外,本发明的系统被配置成在一实施例中将结果分组到并非歧义的搜索词的上下文中。一个示例是搜索词“Hawaii”的返回结果。词“Hawaii”本身并无歧义,但是,对该词所返回的结果的特征可非常广泛,与在字面上讨论或提到过“Hawaii”的全部相关。为了向用户提供更为有用的结果,本发明的系统最好通过使用结果真正相关于什么的知识,将搜索结果按上下文进行组织。例如,对Hawaii,系统可在诸如“Hawaii:travel(旅游)”、“Hawaii:climate(气候)”、“Hawaii:geography(地理)”、“Hawaii:culture(文化)”等的各种上下文分组中返回结果。例如,在某些方面中,上下文标识符与索引中页面链接相关联地被存储,从而当执行搜索时,各个链接可根据标识符来分组(参见图2的索引表162)。在以上示例中,术语“旅游”、“气候”、“地理”和“文化”表示上下文标识符。一个页面链接可与多个上下文标识符相关联,并因此与多个标识符相关联地被显示。这些标识符最好在用户执行相关搜索时通过系统自动关联于链接,但是,标识符也可由一个或多个管理员的团队进行手动地修改并使之关联于链接。这样,从许多搜索收集到的知识被反馈回系统来定义和重新定义上下文,以使所显示的搜索结果对作出请求的用户更有价值和更有用。
在一实施例中,在服务器160上执行的过程执行搜索词的概念发现和概念分析,以向用户提供更有意义的结果。例如,对于搜索短语“New York City”,非常清楚用户对与纽约市(城市或城区)相关的网站感兴趣而不是对纽约州的一个城市感兴趣。类似地,对于“New York City law enforcement”,清楚的是用户对与纽约市的执法(例如工作部门)相关的网站感兴趣。然而,大多数传统搜索引擎将简单地使用各个个体的词“New”、“York”、“City”、“law”和“enforcement”来搜索,而不管在搜索短语中使用的词的顺序。本发明有利地分析搜索短语中的词,以标识组成该搜索查询的一个或多个概念。在各较佳方面中,系统使用搜索词所呈现的顺序来标识概念并分类搜索结果。例如,使用“NewYork City law enforcement”作为搜索短语,系统例如通过将“New York City”和“law enforcement”散列为搜索短语中的两个概念来标识,并返回对这两个概念的结果。对于“law enforcement in NewYork City”,将返回相同的结果。然而,对于“city law enforcement in New York”,基于概念“law enforcement”、“New York”和“city”或者“city law enforcement”和“New York”的概念,将返回不同的结果。类似地,“enforcement oflaw in New YorkCity”将被标识为包括概念“New York City”、“law”和“enforcement”。因而,概念的顺序并不像组成概念的词的顺序一样重要。在各较佳方面中,概念被包括在页面索引中,或者单独的概念索引可被实现。应当注意,“law enforcement”是否可被视为与“enforcement of law”相同是取决于上下文的。
单元提取和处理
根据本发明一实施例,提供了查询处理引擎,用于处理查询并将查询分解成组成单元。尽管查询是产生单元的较佳内容源,并且是本说明书剩余部分所关注的,但是可以理解单元也可从其它内容源产生,包括锚文本(anchor text)、文档、电子邮件消息、网页、网站、在线产品目录等。单元通常很好地对应于自然概念,并且通常对执行查询的上下文和类别分析、概念发现、趋势分析以及其它查询分析过程特别有用。单元是显现在用户查询中的一个或多个字的序列。每个字(因此单元也)可包括可能从键盘或其它用户接口装置提供的一个或多个字母和其它字符的首字母缩略词或任何其它序列。一般而言,查询是一个或多个单元的集,即,查询可被分解成一个或多个单元的集。单元中字的顺序是重要的,然而,查询中单元的顺序通常是不重要的。
本发明的查询处理引擎使查询处理系统能实现概念发现和分析过程,以及如上所述的上下文分析、查询分类和消除歧义过程、以及许多其它过程,它们将增强响应于搜索查询返回给用户的结果的质量。根据本发明,查询处理引擎可在连接到网络的单机装置或者系统上实现,例如所述的执行各种查询处理和分析算法和过程的计算机系统,或者它可被包括为诸如服务器系统160的搜索服务器系统或其它服务器系统的一部分。
图3示出根据本发明一实施例的包括查询处理引擎300的系统。如图所示,引擎300经因特网或通过例如LAN、WAN的各种网络连接、直接链接、分布媒体(例如CD、DVD、软盘)等从各种源中接收一个或多个查询日志文件302(以及在某些方面中实时地接收各个查询)。网络源的示例包括搜索服务器160(图1)、或搜索服务器的分布式网络中的多个搜索服务器160、以及一个或多个服务器150。查询日志文件源通常关联于同一机构或实体,例如Yahoo!服务器,但并非必须如此。查询日志文件(查询日志)由查询引擎300使用统计方法进行处理以提取单元,这些统计方法诸如可用于如交互信息之类的信息理论或概念中。在各较佳方面中,使用每日查询日志,尽管可按需使用不同时间段的日志,比如小时、星期等。查询日志通常包括用户提交的实际查询,且在某些情形中还包括其它有用的元信息,诸如作出查询的用户的地理位置、时间标记、客户机系统的IP地址、cookies、客户机的类型(例如浏览器类型)等。输入查询日志文件的一个示例是形式<查询字符串,元信息>或<计数,查询字符串>的查询列表,其中计数指特定查询字符串的发生次数(频率)。查询处理引擎300处理各种查询日志(和查询),并从中生成单元及相关联的统计数据。单元及相关联的统计数据,诸如发生频率、排序等,被存储到存储器或数据库文件310。
根据一实施例的用于处理查询和查询日志以产生单元的方法的一个示例如图5所示。在步骤500中,查询日志文件被规范化,以移除重复和多余的符号。例如,应用规范化算法或处理,它将字减成基本意义—例如,移除后缀、复数、前缀等。在步骤510中,创建单一的合并(consolidated)查询文件。例如,对于多个查询日志文件,在特定时间段这些文件被合并成单一的合并查询文件。例如,同一查询的多次出现被包括为单个查询,其中有等于经合并的文件中查询发生的总次数的计数值。在较佳方面中,一周的时间段对合并文件的特定时间段是较佳的。查询一周的价值在于捕捉查询中的不同模式,它们是在工作日(不同天不同)和周末期间观察到的。然而,可以理解,可使用不同的时间段。在步骤520,合并查询文件被读入,且每个查询条目被标记化。例如,合并日志文件中的每一行可包括一查询和形式为<查询字符串,元信息>的相关联信息。在该示例中,查询日志文件中每一行中的每个查询字符串都被标记化以产生一个标记集。整个文件中每个不同的标记和每个标记的出现次数都被存储。此时这些标记被处理视为初始单元集。
在步骤530,合并查询文件被扫描,且每个查询基于现有的单元集被分成一个或多个单元的集。例如,查询本身可以是单个单元,或者它可包括若干单元。然后例如通过组合在每个特定查询中显现为彼此相邻的单元,来确定可能的新单元。这些可能的新单元也被存储。在步骤540,验证这些可能的新单元。例如,在一实施例中,合并查询文件被再次扫描,并且此时来自步骤530的可能单元被分析以确定哪些真正是单元(例如基于交互信息和其它度量)。例如,在一方面中,对哪些可能单元应当是单元的确定,是基于检测组成单元彼此分开地显现的次数,并将该次数与它们在整个查询集中彼此相邻地显现的次数作比较。例如,“new york”被检测为一个单元,因为即使“new”在若干不同上下文中显现,在“york”显现的若干上下文中,“new”仍然显现。在步骤550中,调整单元的权重,例如,已被吸收到其它单元中的单元的权重被调整,且权重被还给那些是不再被视为单元的单元的部分的单元。例如,当一可能单元被确定为是一单元时,新单元显现于其中的查询的合计权重/频率从组成单元的权重中减去,并添加到新单元的权重中。
在步骤560,确定单元的足够收敛是否发生。在一方面中,收敛被定义为在所产生/删除的单元中的变化小于某一预定义阈值之外的点。例如,如果算法的运行已产生了一百万个单元,则仅有一百个单元产生/删除之后的阶段可被视为接近或满足收敛的点。在一方面中,即使在检测到满足或接近收敛之后,仍然可作某些调整,以确保所产生的单元符合某些基本的品质准则。如果未达到收敛,则重复步骤530到560。如果已达到收敛,则确定并存储最终的单元集,并且处理继续到可以任何顺序执行的步骤570到590。
在步骤570,对于最终的单元集,产生每个单元的扩展。例如,在一方面中,通过扫描整个最终集并标识字符串的交迭(overlap),来产生扩展。单元的扩展是包含第一单元中所有字的一个更大的单元。例如,“new york city”可以是“new york”的扩展。根据一方面,通过对例如MySQL数据库的数据库中的单元表执行全文本搜索,以发现特定单元是否在任何其它单元内显现,来实现扩展生成。在一方面中,执行对每个单元的全文本索引的完整扫描。然而,根据可用的资源,这可能是相当缓慢的过程。因此,在另一方面中,所有单元从单元文件中载入存储器中的散列表中。然后一次从单元文件中读取一个单元。该单元被拆分成字,并且这些字的各个序列被构建。例如,假设频率为f的单元u1。单元u1由三个字w1、w2和w3组成。u1中这些字的顺序是“w1w2w3”。从这些字中可创建以下序列:w1,w2,w3,w1w2,w2w3以及w1w2w3。在创建序列时,单元中字的顺序不变。然后对于每个序列,在单元的散列表中执行查寻。如果序列恰好是一单元,则u1被输出为该序列的扩展。在此情形中,如果w3和“w1w2”是单元,则在一方面中输出以下记录:
ful w3;以及
fu1“w1w2”。
因为全文本索引的全部扫描被很少的散列查寻代替,在该方面中方法会更加有效。
在步骤580,对于最终的单元集,产生对每个单元的关联。例如,在一方面中,关联是基于哪些单元经常关联于查询中的其它单元来产生的。单元的关联是第一单元与其显现在查询中的另一个单元。例如,“seattle hotels”可以是单元“seattle”和单元“hotels”的关联。在一方面中,在其中每个查询都被拆分成单元的query_units文件被用来计算关联。在一方面中,该文件包括三个列—查询频率、查询和在查询中显现的单元的列表。在同一查询中显现的所有单元都为关联作出贡献。考虑query_units中频率为f的包含单元u1、u2、u3的查询q。对于该查询,在一方面中输出以下记录:
u1 u2 f;
u2 u3 f;以及
u1 u3 f。
然后对该输出排序,然后添加由所有可能查询对每一对贡献的频率。在一方面中,低于阈值的所有关联在本阶段被丢弃。
在步骤590,对于最终单元集,产生每个单元的替代。例如,在一方面中,替代是基于字符串距离和相关频率考虑而产生的。单元的替代形式(或任何字序列)是原始表达的较佳的形式、校正的形式或甚至仅仅是相关形式。例如,“britneyspears”是流行歌手名字的数十个在查询日志中相当常见的替代拼写的正确形式。另一个示例是单元“belgium”是较不流行的单元“belgian”的替代形式。关联、扩展和替代最好存储到独立的“建议”文件中,但它们可被存储到文件310中。在一方面中,替代可通过使用字符串之间的编辑距离的概念来产生。例如,如果将一个字符串转换成另一个字符串需要d个步骤的类型事件,例如插入、删除、替换等,两个字符串被称为相距编辑距离d。相距的编辑距离小于阈值(例如较小数字1或2)的两个单元,被视为是备选的替代形式。在一方面中,通过比较其相对频率和根据编辑距离也接近的其它单元的频率,可确定它们是否是真正的替代形式。该频率信息帮助确定哪一个相似字符串最可能是正确形式。例如,“britney spears”在查询中可有许许多多不同方式的错误拼写。在一方面中,通过比较不同形式的频率并选择最高频率形式作为正确形式的最佳候选,来标识正确形式。
在某些方面中,查询处理引擎300可在服务器系统160中实现。例如,除了与用户和页面索引170接口的搜索响应过程之外,用于实现查询处理、单元分解、单元字典填充和统计分析的软件可在服务器系统160上执行。在其它方面中,查询处理引擎300或查询处理引擎300的一部分,可在诸如图4所示的独立系统中执行。例如,在一方面中,响应于来自用户系统120的查询,服务器系统160可将查询传送给请求返回各单元和统计数据或返回建议的服务器系统180。服务器160处理从系统180接收的单元和任何统计数据,并响应于用户的查询向用户返回结果以及建议和其它信息。建议可由服务器160使用所返回的单元和统计数据来产生,或者建议可由系统180产生。在某些方面中,建议是使用户参与和搜索系统的持续对话的一种方法。建议是基于对各单元及其扩展、关联和替代中捕捉的用户需要的高度复杂的理解而对用户接着想要研究的内容的暗示和提示。
在一方面中,单元字典310被有利地用来产生除真实搜索结果之外或代替它们的呈现给用户的建议。例如,搜索服务器160或其它搜索智能模块可将查询发送给控制单元字典的专用服务器,例如图4的服务器180,或者单元字典的实例可被存储到搜索服务器160。在一实施例中,单个用户查询被处理以使用单个查询的单元的关联和扩展来确定建议,这些关联和扩展随后被合并到例如“查询建议”文件的单个文件中。可进行某些附加过滤,从而不重复极为相似的建议。例如,只包括或示出较为流行的,比如三个建议“spain maps”(西班牙地图)、“spain map”和“map of spain”。
根据一实施例使用字典310中的扩展、关联和替代(例如,如由图5所示的用于产生单元的方法确定的)来产生建议的方法的一个示例如图6所示。在步骤610,过滤和映射数据被读入系统。例如列表形式的这种过滤和映射数据可手动或自动地被提供。这样的数据可用周期性的持续的方式随时间的流逝向系统提供,或者可在单个文件或文件集中提供。这样的数据最好用来规范化和过滤建议,并包括例如字列表(成人字列表、无用词列表等)以及映射(同义字、较佳形式变体等)。在步骤620,标识一个或多个单元。例如,通过标记化查询并使用产生的标记在单元字典中执行查寻,单元可响应于单个用户查询由搜索服务器160或系统180选择。在步骤630,所标识的单元被处理,以确定建议是否应对每个单元产生。该建议产生过程然后处理每个已标识的单元,以确定任何关联和扩展是否在单元的建议文件中存在。在步骤640,检索单元的扩展和关联。那些因某些原因不适合的扩展和关联被滤去。例如,如果单元长度为一个字,则包含三个额外内容字的建议可能就不适合,因此最好不被选择。在一方面中,如果有单元的关联和/或扩展,则产生单元的建议。在某些情形之下,即使有单元的关联或扩展,该特定单元的建议可能也不会产生。例如,在一方面中,不产生错误概念的单元的建议。类似地,也不产生知道具有拼写错误或太短等的单元的建议。并非所有的扩展或关联都被视为适合建议。在一方面中,确定所生成的建议是否显现为查询。如果未发现准确的匹配,则搜索包含该建议的查询。即使这样的查询也不被视为适合成为建议,除非加入原始单元的部分本身是另一个单元。对于多单元查询,也可使用相似技术来产生建议。
在步骤650,所检索的扩展和关联被组合,以形成初始的建议集。在步骤660,建议的初始集被规范化,以移除相似的建议,最好确保所移除的建议的权重被添加到保留的建议的权重中。规范化包括处理单复数形式、通用同义字、打字错误等等。因任何原因不适合的建议也被移除。步骤630到660最好对单元集中的每个单元重复。在一方面中,使用所产生的建议,检索并向用户显示来自页面索引170(图2)的链接。
可以理解,并非所有图5和图6的步骤都是必需的,并且可包括替代的和/或附加的步骤。在某些方面中,在此所述的这些查询和查询日志文件处理用Perl来实现。
图7-10示出根据本发明各方面的特定输入查询的单元、单元扩展、关联和替代的显示。这些显示使用诸如监视器或打印机的显示装置提供给用户,并用于使诸如系统管理员或终端用户的用户能标识并分析从查询或其它内容源产生的各种单元、关联、扩展和替代。
图7示出对应于输入查询“birds”(鸟)而提供的显示页面。一般而言,输入查询可以是字或多个字。对于扩展查寻,也支持在输入查询(各)字之前和/或之后的通配符“*”。图8示出根据一方面的包括查询输入GUI表格的不同显示页面,该GUI表格用于使用户能输入查询,选择随机查询,并调整与输入查询相关联的参数。例如,点击GUI表格中的R按键产生随机单元的结果,点击T按键则导致建议图表的随机遍历。可选择查看作为结果的扩展和/或关联。通过改变第一行字段的值,可沿着扩展和关联流按想要去的方向前行。还可以改变成人过滤设置,从而使人能看到或不能看到成人项。GUI表格下的显示部分示出输入查询“wood”(木头)的结果。
如图7和8所示,关联指不同单元之间基于它们一起出现在同一查询中的次数的关系。另一方面,扩展指出现在一个单元的所有字以相同序列出现在第二单元中的单元之间的关系。例如,“exotic birds”(外来鸟类)是“birds”的关联,而“birdsofprey”则是扩展。为了简便,仅示出了6个扩展和6个关联,但是可以理解可示出任何数量。
关联和扩展列中括号内的数字是对查询的扩展/关联的总数的估算。通过点击适当的列标题,输出可按字母顺序或基于扩展/关联的频率排序。
前两个输出列包含序号(rank)以及括号中带有它们有多少扩展/关联的指示的扩展/关联。在关联的情形中,原始查询可由如图所示的省略号(“…”)替换。此外,点击该扩展的结果是查询该特定扩展的各个扩展。另一方面,点击一关联返回相关联单元的各个关联。在图7的Results(结果)列中选择“link”链接,在一单独的视窗中给出搜索结果。根据一方面,作为扩展/关联数的频率基于一周的完整查询日志。每个查询(包括一周内仅出现一次的那些查询)被考虑在该计算之内。
图9和10示出响应于输入搜索查询提供给在线用户的显示的示例。特别地,图9和10示出在分别输入查询“wood”和“birds”之后可返回给用户的搜索结果页面的示例。为了简便仅示出这些示例性显示页面的一部分。
尽管本发明已通过示例并根据各特定实施例进行了描述,但是可以理解本发明并不限于所揭示的各个实施例。相反,它旨在包括对本领域技术人员显而易见的各种修改和类似配置。因此,最广泛的解释应根据所附权利要求的范围进行,以便包括所有这些修改和类似配置。

Claims (23)

1.一种用于从用户搜索查询中产生概念单元的计算机实现方法,所述方法包括:
接收多个查询,每个查询包括一个或多个字的字符串;
标记化每个查询字符串来为每个查询生成一个或多个标记,其中所述查询的所述标记形成一个初始单元集;
组合来自所述初始单元集的显现为在查询中彼此相邻的单元,以形成第二单元集;
验证所述第二单元集;
使用第二单元集代替初始单元集来重复组合和验证的步骤一次或多次直到满足收敛条件,其中一旦满足了收敛条件就形成最终的单元集;以及
将所述最终的单元集存储到存储器中,
其中,验证包括对于第二单元集中的每个组合的单元,对所述组合的单元的出现频率和所述组合的单元中每个组成单元的出现频率作比较,
其中,所述收敛条件包括一阈值,其中如果在组合和验证的连续步骤之间两个第二单元集中单元数量的变化小于或等于所述阈值,则所述收敛条件满足。
2.如权利要求1所述的方法,其特征在于,接收包括接收一个或多个查询日志文件,每个查询日志文件包括多个查询。
3.如权利要求2所述的方法,其特征在于,还包括将来自所述一个或多个查询日志文件的多个查询合并成单个合并查询文件。
4.如权利要求3所述的方法,其特征在于,合并包括移除查询的重复,并且每当移除每个个体查询的重复时就把关联于该个体查询的计数值加1,其中所述单个合并查询文件包括个体查询的列表和与其相关联的计数值。
5.如权利要求3所述的方法,其特征在于,所接收的查询日志文件包括一周内每一天的查询日志文件,且其中合并包括形成单个合并查询文件,该单个合并查询文件包括一周内的查询。
6.如权利要求1所述的方法,其特征在于,还包括使用所述最终的单元集产生单元扩展,产生单元扩展包括标识是其它单元的子集的单元。
7.如权利要求6所述的方法,其特征在于,还包括将所述单元扩展存储到存储器中。
8.如权利要求1所述的方法,其特征在于,还包括使用所述最终的单元集产生单元关联,其中,产生单元关联包括标识与其它单元相关联的单元,且标识关联单元包括确定哪些单元与其它单元一起在查询中显现。
9.如权利要求8所述的方法,其特征在于,还包括将所述单元关联存储到存储器中。
10.如权利要求1所述的方法,其特征在于,还包括在已满足收敛条件之后产生单元替代。
11.如权利要求10所述的方法,其特征在于,产生单元替代包括确定所述最终的单元集中两个单元之间的编辑距离是否小于阈值,如果是则比较所述两个单元的相对频率。
12.如权利要求1所述的方法,其特征在于,还包括:
使用所述最终的单元集产生单元扩展;
使用所述最终的单元集产生单元关联;以及
使用所述的最终单元集产生单元替代,
其中,产生单元扩展包括标识是其它单元的子集的单元,
其中,产生单元关联包括标识与其它单元相关联的单元,且标识关联单元包括确定哪些单元与其它单元一起在查询中显现。
13.如权利要求12所述的方法,其特征在于,还包括将所述单元扩展、单元关联和单元替代存储到存储器中。
14.如权利要求12所述的方法,其特征在于,产生单元扩展包括标识是其它单元的子集的单元,产生单元关联包括标识与其它单元相关联的单元,产生单元替代包括确定所述最终的单元集中两个单元之间的编辑距离是否小于阈值,如果是则比较所述两个单元的相对频率。
15.如权利要求12所述的方法,其特征在于,还包括:
接收来自用户的单个查询;
标识所述单个查询中的一个或多个单元;以及
使用与在单个查询中标识的一个或多个单元相关联地存储在存储器中的一个或多个单元扩展、单元关联和单元替代,来确定响应于所述查询提供给用户的一个或多个建议。
16.一种用于从用户搜索查询中产生概念单元的系统,所述系统包括:
存储器单元;以及
处理模块,被配置成接收一个或多个查询日志文件,每个查询日志文件包括多个查询,每个查询包括一个或多个字的字符串,且其中所述处理模块还被配置成:
标记化来自查询日志文件的每个查询,以产生一个初始单元集;然后重复以下步骤直到满足收敛条件:
组合来自初始单元集的显现为在查询中彼此相邻的单元,以形成第二单元集;以及
验证所述第二单元集,其中所述第二单元集用作下一次重复中的初始单元集;以及
一旦满足了收敛条件,处理模块就把最终的单元集存储到存储器单元中,
其中,验证包括对于第二单元集中的每个组合的单元,对所述组合的单元的出现频率和所述组合的单元中每个组成单元的出现频率作比较,
其中,所述收敛条件包括一阈值,其中如果在组合和验证的连续步骤之间两个第二单元集中单元数量的变化小于或等于所述阈值,则所述收敛条件满足。
17.如权利要求16所述的系统,其特征在于,还包括用于提供所述查询日志文件的一个或多个查询日志文件源。
18.如权利要求16所述的系统,其特征在,所述处理模块还被配置成:
使用所述最终的单元集产生单元扩展;
使用所述最终的单元集产生单元关联;
使用所述最终的单元集产生单元替代;以及
将所述单元扩展、单元关联和单元替代与所述最终的单元集一起存储到存储器中,
其中,产生单元扩展包括标识是其它单元的子集的单元,
其中,产生单元关联包括标识与其它单元相关联的单元,且标识关联单元包括确定哪些单元与其它单元一起在查询中显现。
19.如权利要求16所述的系统,其特征在于,所接收的查询日志文件包括一周内每一天的查询日志文件,且其中所述处理模块进一步被配置成将查询日志文件合并成包括该周内的查询的单个合并查询文件。
20.如权利要求19所述的系统,其特征在于,所述处理模块通过以下动作合并:移除查询的重复,并且每当移除个体查询的重复时就将关联于该个体查询的计数值加1,其中所述单个合并查询文件包括个体查询的列表和与其相关联的计数值。
21.如权利要求20所述的系统,其特征在于,所述处理模块使用与查询相关联的计数值来确定每个单元的出现频率,且其中所述处理模块将所述每个单元的出现频率与所述最终的单元集一起存储到存储器单元中。
22.如权利要求16所述的系统,其特征在于,所述存储器单元和处理模块在网络中的搜索服务器装置中实现。
23.如权利要求1所述的方法,其特征在于,每个字包括一个或多个字母数字字符。
CNB2004800123400A 2003-04-04 2004-04-02 用于从搜索查询中产生概念单元的系统和方法 Expired - Fee Related CN100485603C (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US46022203P 2003-04-04 2003-04-04
US60/460,222 2003-04-04
US10/713,576 2003-11-12

Publications (2)

Publication Number Publication Date
CN1784653A CN1784653A (zh) 2006-06-07
CN100485603C true CN100485603C (zh) 2009-05-06

Family

ID=33159747

Family Applications (3)

Application Number Title Priority Date Filing Date
CNB2004800123400A Expired - Fee Related CN100485603C (zh) 2003-04-04 2004-04-02 用于从搜索查询中产生概念单元的系统和方法
CN200810169432XA Expired - Fee Related CN101404022B (zh) 2003-04-04 2004-04-05 在多个客户机系统之间共享可动作的标签的方法
CN200480012339A Expired - Fee Related CN100580618C (zh) 2003-04-04 2004-04-05 通用搜索界面系统和方法

Family Applications After (2)

Application Number Title Priority Date Filing Date
CN200810169432XA Expired - Fee Related CN101404022B (zh) 2003-04-04 2004-04-05 在多个客户机系统之间共享可动作的标签的方法
CN200480012339A Expired - Fee Related CN100580618C (zh) 2003-04-04 2004-04-05 通用搜索界面系统和方法

Country Status (6)

Country Link
US (1) US7698327B2 (zh)
EP (1) EP1616282B1 (zh)
JP (2) JP2007524901A (zh)
KR (1) KR100911606B1 (zh)
CN (3) CN100485603C (zh)
WO (1) WO2004090787A2 (zh)

Families Citing this family (140)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8255417B2 (en) * 2003-05-20 2012-08-28 Google Inc. System and method for providing definitions
US7526470B1 (en) * 2003-05-28 2009-04-28 Microsoft Corporation System and method for measuring and improving search result relevance based on user satisfaction
US7599938B1 (en) 2003-07-11 2009-10-06 Harrison Jr Shelton E Social news gathering, prioritizing, tagging, searching, and syndication method
US20050033616A1 (en) * 2003-08-05 2005-02-10 Ezrez Software, Inc. Travel management system providing customized travel plan
US20050097089A1 (en) * 2003-11-05 2005-05-05 Tom Nielsen Persistent user interface for providing navigational functionality
US20050160107A1 (en) * 2003-12-29 2005-07-21 Ping Liang Advanced search, file system, and intelligent assistant agent
US20050177555A1 (en) * 2004-02-11 2005-08-11 Alpert Sherman R. System and method for providing information on a set of search returned documents
US8712986B2 (en) * 2004-04-07 2014-04-29 Iac Search & Media, Inc. Methods and systems providing desktop search capability to software application
US7421421B2 (en) * 2004-08-04 2008-09-02 International Business Machines Corporation Method for providing multi-variable dynamic search results visualizations
US7493303B2 (en) * 2004-08-04 2009-02-17 International Business Machines Corporation Method for remotely searching a local user index
US7634461B2 (en) * 2004-08-04 2009-12-15 International Business Machines Corporation System and method for enhancing keyword relevance by user's interest on the search result documents
US7496563B2 (en) * 2004-08-04 2009-02-24 International Business Machines Corporation Method for locating documents a user has previously accessed
US7395260B2 (en) * 2004-08-04 2008-07-01 International Business Machines Corporation Method for providing graphical representations of search results in multiple related histograms
US7831601B2 (en) * 2004-08-04 2010-11-09 International Business Machines Corporation Method for automatically searching for documents related to calendar and email entries
US20060031199A1 (en) * 2004-08-04 2006-02-09 Newbold David L System and method for providing a result set visualizations of chronological document usage
US8261196B2 (en) * 2004-08-04 2012-09-04 International Business Machines Corporation Method for displaying usage metrics as part of search results
US8032553B2 (en) * 2004-12-29 2011-10-04 Sap Ag Email integrated task processor
US8150846B2 (en) * 2005-02-17 2012-04-03 Microsoft Corporation Content searching and configuration of search results
US20060195435A1 (en) * 2005-02-28 2006-08-31 Microsoft Corporation System and method for providing query assistance
US7617192B2 (en) 2005-03-09 2009-11-10 Medio Systems, Inc. Method and system for capability content search with mobile computing devices
WO2006096873A1 (en) * 2005-03-09 2006-09-14 Medio Systems, Inc. Method and system of bidding for advertisement placement on computing devices
US7836127B2 (en) 2005-04-14 2010-11-16 Accenture Global Services Limited Dynamically triggering notifications to human participants in an integrated content production process
US7647312B2 (en) * 2005-05-12 2010-01-12 Microsoft Corporation System and method for automatic generation of suggested inline search terms
JP2007115016A (ja) * 2005-10-20 2007-05-10 Nobuyuki Umehara 人探し検索システム
US8175939B2 (en) * 2005-10-28 2012-05-08 Microsoft Corporation Merchant powered click-to-call method
US8700586B2 (en) * 2005-10-31 2014-04-15 Yahoo! Inc. Clickable map interface
US20070100801A1 (en) * 2005-10-31 2007-05-03 Celik Aytek E System for selecting categories in accordance with advertising
US8595633B2 (en) * 2005-10-31 2013-11-26 Yahoo! Inc. Method and system for displaying contextual rotating advertisements
US8095876B1 (en) 2005-11-18 2012-01-10 Google Inc. Identifying a primary version of a document
US8316292B1 (en) 2005-11-18 2012-11-20 Google Inc. Identifying multiple versions of documents
US8195657B1 (en) * 2006-01-09 2012-06-05 Monster Worldwide, Inc. Apparatuses, systems and methods for data entry correlation
US7640234B2 (en) * 2006-02-09 2009-12-29 Ebay Inc. Methods and systems to communicate information
US7739226B2 (en) * 2006-02-09 2010-06-15 Ebay Inc. Method and system to analyze aspect rules based on domain coverage of the aspect rules
US9443333B2 (en) 2006-02-09 2016-09-13 Ebay Inc. Methods and systems to communicate information
US7739225B2 (en) 2006-02-09 2010-06-15 Ebay Inc. Method and system to analyze aspect rules based on domain coverage of an aspect-value pair
US8380698B2 (en) * 2006-02-09 2013-02-19 Ebay Inc. Methods and systems to generate rules to identify data items
US7725417B2 (en) * 2006-02-09 2010-05-25 Ebay Inc. Method and system to analyze rules based on popular query coverage
US7849047B2 (en) * 2006-02-09 2010-12-07 Ebay Inc. Method and system to analyze domain rules based on domain coverage of the domain rules
US7689554B2 (en) * 2006-02-28 2010-03-30 Yahoo! Inc. System and method for identifying related queries for languages with multiple writing systems
US20070214119A1 (en) * 2006-03-07 2007-09-13 Microsoft Corporation Searching within a Site of a Search Result
US7814097B2 (en) * 2006-03-07 2010-10-12 Yahoo! Inc. Discovering alternative spellings through co-occurrence
JP2012138109A (ja) * 2006-03-08 2012-07-19 Ricoh Co Ltd 検索装置、検索システム、情報処理装置、検索結果受信方法、及び情報受信プログラム
US8131747B2 (en) * 2006-03-15 2012-03-06 The Invention Science Fund I, Llc Live search with use restriction
US7475069B2 (en) * 2006-03-29 2009-01-06 International Business Machines Corporation System and method for prioritizing websites during a webcrawling process
US7972205B2 (en) * 2006-03-31 2011-07-05 Vijay Krishna Search engine crossword puzzle
US9892196B2 (en) * 2006-04-21 2018-02-13 Excalibur Ip, Llc Method and system for entering search queries
US20070271231A1 (en) * 2006-05-22 2007-11-22 Jimmy Jong-Yuan Lin Search method on the Internet
US8024664B1 (en) * 2006-05-24 2011-09-20 Ezrez Software Inc. Co-brands for user interface in travel booking
US8560956B2 (en) 2006-07-07 2013-10-15 International Business Machines Corporation Processing model of an application wiki
US8219900B2 (en) * 2006-07-07 2012-07-10 International Business Machines Corporation Programmatically hiding and displaying Wiki page layout sections
US8196039B2 (en) * 2006-07-07 2012-06-05 International Business Machines Corporation Relevant term extraction and classification for Wiki content
US20080010386A1 (en) * 2006-07-07 2008-01-10 Bryce Allen Curtis Method and apparatus for client wiring model
US20080010387A1 (en) * 2006-07-07 2008-01-10 Bryce Allen Curtis Method for defining a Wiki page layout using a Wiki page
US7954052B2 (en) * 2006-07-07 2011-05-31 International Business Machines Corporation Method for processing a web page for display in a wiki environment
US20080010345A1 (en) * 2006-07-07 2008-01-10 Bryce Allen Curtis Method and apparatus for data hub objects
US20080010388A1 (en) * 2006-07-07 2008-01-10 Bryce Allen Curtis Method and apparatus for server wiring model
US8775930B2 (en) * 2006-07-07 2014-07-08 International Business Machines Corporation Generic frequency weighted visualization component
US20080010338A1 (en) * 2006-07-07 2008-01-10 Bryce Allen Curtis Method and apparatus for client and server interaction
CN100405371C (zh) * 2006-07-25 2008-07-23 北京搜狗科技发展有限公司 一种提取新词的方法和系统
US8676868B2 (en) * 2006-08-04 2014-03-18 Chacha Search, Inc Macro programming for resources
US8411833B2 (en) * 2006-10-03 2013-04-02 Microsoft Corporation Call abuse prevention for pay-per-call services
US8245154B2 (en) 2006-11-03 2012-08-14 International Business Machines Corporation Most-recently-used task switching among parent and child windows
US8407307B1 (en) * 2006-11-10 2013-03-26 Flightview, Inc. Flight information sending system and method
US9305088B1 (en) * 2006-11-30 2016-04-05 Google Inc. Personalized search results
US7917520B2 (en) * 2006-12-06 2011-03-29 Yahoo! Inc. Pre-cognitive delivery of in-context related information
US20080154863A1 (en) * 2006-12-08 2008-06-26 Renny Goldstein Search engine interface
CN100555283C (zh) * 2006-12-12 2009-10-28 北京搜狗科技发展有限公司 一种直接针对用户的相关信息的发布方法和系统
US7822734B2 (en) * 2006-12-12 2010-10-26 Yahoo! Inc. Selecting and presenting user search results based on an environment taxonomy
TWI327706B (en) * 2007-01-11 2010-07-21 Ind Tech Res Inst Web service accessing device and method for simplifying service interface
US7672937B2 (en) * 2007-04-11 2010-03-02 Yahoo, Inc. Temporal targeting of advertisements
US20080301236A1 (en) * 2007-05-31 2008-12-04 Microsoft Corporation Contextual social language
US7970786B2 (en) * 2007-06-13 2011-06-28 The Boeing Company Methods and systems for context based query formulation and information retrieval
US8271473B2 (en) * 2007-06-25 2012-09-18 Jobs2Web, Inc. System and method for career website optimization
US20090006311A1 (en) * 2007-06-28 2009-01-01 Yahoo! Inc. Automated system to improve search engine optimization on web pages
US20100202339A1 (en) * 2007-07-31 2010-08-12 Chieng Heng T Message broadcasting
US20090055400A1 (en) * 2007-08-20 2009-02-26 Tinbu, Llc Interactive presentation and distribution of web content having a search feature
CN100514337C (zh) * 2007-09-10 2009-07-15 腾讯科技(深圳)有限公司 关键词的联想信息生成系统和生成方法
US20090132514A1 (en) * 2007-11-16 2009-05-21 Iac Search & Media, Inc. method and system for building text descriptions in a search database
US20090132505A1 (en) * 2007-11-16 2009-05-21 Iac Search & Media, Inc. Transformation in a system and method for conducting a search
US20090132645A1 (en) * 2007-11-16 2009-05-21 Iac Search & Media, Inc. User interface and method in a local search system with multiple-field comparison
US20090132484A1 (en) * 2007-11-16 2009-05-21 Iac Search & Media, Inc. User interface and method in a local search system having vertical context
US20090132513A1 (en) * 2007-11-16 2009-05-21 Iac Search & Media, Inc. Correlation of data in a system and method for conducting a search
US9412095B2 (en) * 2008-01-09 2016-08-09 International Business Machines Corporation Status and time-based delivery services for instant messengers
US20090234913A1 (en) * 2008-03-13 2009-09-17 John Lee Data structure for initiating multiple web sites
JP5366178B2 (ja) * 2008-05-22 2013-12-11 インターナショナル・ビジネス・マシーンズ・コーポレーション ウェブページの入力項目への入力を支援する方法、コンピュータ・プログラム及び端末
US9396280B2 (en) * 2008-06-23 2016-07-19 Microsoft Technology Licensing, Llc Command driven web site browsing
US20100169362A1 (en) * 2008-06-27 2010-07-01 Visisoft, Llc Palette for accessing document history
US8180771B2 (en) 2008-07-18 2012-05-15 Iac Search & Media, Inc. Search activity eraser
US8301437B2 (en) * 2008-07-24 2012-10-30 Yahoo! Inc. Tokenization platform
US8438148B1 (en) * 2008-09-01 2013-05-07 Google Inc. Method and system for generating search shortcuts and inline auto-complete entries
US8898148B1 (en) * 2009-01-08 2014-11-25 Google Inc. Targeting to physical environment
US20100199185A1 (en) * 2009-02-04 2010-08-05 Microsoft Corporation Common navigation mechanism for desktop and browser-based applications
US8219598B1 (en) * 2009-05-11 2012-07-10 Google Inc. Cross-domain communicating using data files
US8239399B2 (en) * 2009-05-14 2012-08-07 Microsoft Corporation Providing tools for navigational search query results
US8312048B2 (en) * 2009-05-19 2012-11-13 Microsoft Corporation Database application navigation
US9098568B2 (en) * 2009-08-04 2015-08-04 Google Inc. Query suggestions from documents
US8386482B2 (en) * 2009-09-02 2013-02-26 Xurmo Technologies Private Limited Method for personalizing information retrieval in a communication network
US20110072025A1 (en) * 2009-09-18 2011-03-24 Yahoo!, Inc., a Delaware corporation Ranking entity relations using external corpus
US8386455B2 (en) * 2009-09-20 2013-02-26 Yahoo! Inc. Systems and methods for providing advanced search result page content
US8229959B1 (en) * 2009-11-11 2012-07-24 Google Inc. Sharable search result labels
US20110125754A1 (en) * 2009-11-20 2011-05-26 Cbs Interactive Inc. Reverse Dynamic Filter-Linked Pages System And Method
US8417683B2 (en) * 2010-02-16 2013-04-09 Yahoo ! Inc. System and method for presenting geolocated relevance-based content
US9535994B1 (en) * 2010-03-26 2017-01-03 Jonathan Grier Method and system for forensic investigation of data access
US20110264609A1 (en) * 2010-04-22 2011-10-27 Microsoft Corporation Probabilistic gradient boosted machines
US8458159B2 (en) * 2010-05-05 2013-06-04 Microsoft Corporation Automatic role determination for search configuration
CN102314439B (zh) * 2010-06-30 2015-12-16 百度在线网络技术(北京)有限公司 与应用接口相结合的输入方法和设备
CN103229137B (zh) * 2010-09-29 2016-01-20 国际商业机器公司 基于上下文的首字母缩略词和缩写词的歧义消除
US9317533B2 (en) * 2010-11-02 2016-04-19 Microsoft Technology Licensing, Inc. Adaptive image retrieval database
US9189549B2 (en) 2010-11-08 2015-11-17 Microsoft Technology Licensing, Llc Presenting actions and providers associated with entities
US8463045B2 (en) 2010-11-10 2013-06-11 Microsoft Corporation Hierarchical sparse representation for image retrieval
US10346479B2 (en) * 2010-11-16 2019-07-09 Microsoft Technology Licensing, Llc Facilitating interaction with system level search user interface
US10073927B2 (en) 2010-11-16 2018-09-11 Microsoft Technology Licensing, Llc Registration for system level search user interface
US9424002B2 (en) 2010-12-03 2016-08-23 Microsoft Technology Licensing, Llc Meta-application framework
CN102033915B (zh) * 2010-12-03 2013-01-16 百度在线网络技术(北京)有限公司 一种开放式知识共享平台及其编辑提示方法
CN102063497B (zh) * 2010-12-31 2013-07-10 百度在线网络技术(北京)有限公司 一种开放式知识共享平台及其词条处理方法
US10489944B2 (en) 2011-06-17 2019-11-26 Google Llc Graphical user interface comprising multiple, interrelated, automatically-adjusting components
US20130073582A1 (en) * 2011-09-16 2013-03-21 Yahoo! Inc. Web search results with live data
JP5690951B2 (ja) 2011-11-14 2015-03-25 本田技研工業株式会社 車両用バッテリユニット
CN102609189A (zh) * 2012-01-13 2012-07-25 百度在线网络技术(北京)有限公司 一种移动终端的消息的内容的处理方法及客户端
CN103425704B (zh) * 2012-05-24 2017-07-21 阿里巴巴集团控股有限公司 应用界面提供方法及装置
US10810245B2 (en) * 2013-01-17 2020-10-20 Adobe Inc. Hybrid method of building topic ontologies for publisher and marketer content and ad recommendations
CN104217172B (zh) * 2013-06-03 2019-05-14 腾讯科技(深圳)有限公司 隐私内容查看方法及装置
US20140379747A1 (en) * 2013-06-19 2014-12-25 Microsoft Corporation Identifying relevant apps in response to queries
CN103617285A (zh) * 2013-12-11 2014-03-05 百度在线网络技术(北京)有限公司 在移动终端中展现搜索结果的方法及装置
JP6282859B2 (ja) * 2013-12-17 2018-02-21 株式会社ジョルテ スケジュール管理システムおよびスケジュール管理用プログラム
JP5692734B1 (ja) * 2014-09-08 2015-04-01 株式会社ゆうインタークロス 検索支援装置、検索支援システム、検索支援方法及びプログラム
US10657177B1 (en) * 2014-12-31 2020-05-19 Groupon, Inc. Method and apparatus for implementing a search index generator
WO2016153258A1 (ko) * 2015-03-23 2016-09-29 주식회사 큐키 모바일 기기의 애플리케이션 실행 장치 및 그 방법
US10547571B2 (en) 2015-05-06 2020-01-28 Kakao Corp. Message service providing method for message service linked to search service and message server and user terminal to perform the method
CN106302081B (zh) * 2015-05-14 2020-04-17 阿里巴巴集团控股有限公司 即时通讯方法及客户端
US9965604B2 (en) 2015-09-10 2018-05-08 Microsoft Technology Licensing, Llc De-duplication of per-user registration data
US10069940B2 (en) 2015-09-10 2018-09-04 Microsoft Technology Licensing, Llc Deployment meta-data based applicability targetting
US10157240B2 (en) * 2015-10-01 2018-12-18 Ebay Inc. Systems and methods to generate a concept graph
US10546036B2 (en) 2016-02-26 2020-01-28 International Business Machines Corporation Web browser having improved navigational functionality
US10467291B2 (en) * 2016-05-02 2019-11-05 Oath Inc. Method and system for providing query suggestions
US11640436B2 (en) * 2017-05-15 2023-05-02 Ebay Inc. Methods and systems for query segmentation
US11327993B2 (en) * 2018-03-26 2022-05-10 Verizon Patent And Licensing Inc. Systems and methods for managing and delivering digital content
CN108664808B (zh) * 2018-04-27 2019-04-26 温州大学瓯江学院 一种面向图书搜索服务的用户敏感主题保护方法及系统
CN111382183B (zh) * 2018-12-29 2023-06-27 阿里巴巴集团控股有限公司 一种数据查询方法及装置
US20200233925A1 (en) * 2019-01-23 2020-07-23 International Business Machines Corporation Summarizing information from different sources based on personal learning styles

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06290149A (ja) * 1993-04-06 1994-10-18 Hitachi Ltd 情報処理装置における機能実行支援システム及び機能登録方法
JPH0766831A (ja) * 1993-08-30 1995-03-10 Matsushita Electric Ind Co Ltd 電子メールシステム
US6083270A (en) * 1995-03-24 2000-07-04 The Board Of Trustees Of The Leland Stanford Junior University Devices and methods for interfacing human users with electronic devices
JPH11120053A (ja) * 1997-10-01 1999-04-30 Internatl Business Mach Corp <Ibm> 異なるアプリケーション間における文書の共有方法およびシステム
GB9800590D0 (en) * 1998-01-13 1998-03-11 Bae Sema Ltd Intelligent human computer interface system
JP2000207300A (ja) * 1999-01-12 2000-07-28 Oki Electric Ind Co Ltd 情報伝達システム
US6332219B1 (en) * 1999-03-29 2001-12-18 International Business Machines Corporation Cross-platform program, system, and method having a global registry object for mapping registry functions in a windows operating system environment
US6449617B1 (en) * 1999-06-15 2002-09-10 Microsoft Corporation Edit command delegation program for editing electronic files
US6691104B1 (en) * 2000-01-12 2004-02-10 International Business Machines Corporation System and method for personalizing and applying a post processing tool system
US6529899B1 (en) * 2000-01-12 2003-03-04 International Business Machines Corporation System and method for registering and providing a tool service
JP3674453B2 (ja) * 2000-04-14 2005-07-20 株式会社デンソー 対話型ユーザインターフェース装置
US7437312B2 (en) * 2000-08-23 2008-10-14 Bizrate.Com Method for context personalized web browsing
US7487440B2 (en) * 2000-12-04 2009-02-03 International Business Machines Corporation Reusable voiceXML dialog components, subdialogs and beans
EP1350182A1 (en) * 2000-12-22 2003-10-08 Koninklijke Philips Electronics N.V. Meta data category and a method of building an information portal
JP2003051851A (ja) * 2001-08-08 2003-02-21 Sangaku Renkei Kiko Kyushu:Kk 電子メール受信方法と、それに使用するメールサーバ、ウェブサーバ、受信端末及び電子メール受信システム
US7634728B2 (en) * 2002-12-28 2009-12-15 International Business Machines Corporation System and method for providing a runtime environment for active web based document resources

Also Published As

Publication number Publication date
US7698327B2 (en) 2010-04-13
EP1616282A4 (en) 2008-05-14
WO2004090787A3 (en) 2006-12-14
JP2011248900A (ja) 2011-12-08
EP1616282B1 (en) 2018-10-31
CN101404022B (zh) 2011-09-07
KR20060006912A (ko) 2006-01-20
CN1784653A (zh) 2006-06-07
CN100580618C (zh) 2010-01-13
CN101404022A (zh) 2009-04-08
US20040249801A1 (en) 2004-12-09
JP2007524901A (ja) 2007-08-30
JP5453347B2 (ja) 2014-03-26
WO2004090787A2 (en) 2004-10-21
CN1942856A (zh) 2007-04-04
EP1616282A2 (en) 2006-01-18
KR100911606B1 (ko) 2009-08-07

Similar Documents

Publication Publication Date Title
CN100485603C (zh) 用于从搜索查询中产生概念单元的系统和方法
EP1522933B1 (en) Computer aided query to task mapping
JP5312418B2 (ja) 検索照会からコンセプトユニットを生成するためのシステム及び方法
US8868621B2 (en) Data extraction from HTML documents into tables for user comparison
US8126839B2 (en) Methods and apparatuses for adapting a ranking function of a search engine for use with a specific domain
US6199067B1 (en) System and method for generating personalized user profiles and for utilizing the generated user profiles to perform adaptive internet searches
US8239387B2 (en) Structural clustering and template identification for electronic documents
US6826566B2 (en) Identifier vocabulary data access method and system
US6606620B1 (en) Method and system for classifying semi-structured documents
US7809716B2 (en) Method and apparatus for establishing relationship between documents
US7428533B2 (en) Automatic generation of taxonomies for categorizing queries and search query processing using taxonomies
US7418440B2 (en) Method and system for extraction and organizing selected data from sources on a network
US8335779B2 (en) Method and apparatus for gathering, categorizing and parameterizing data
Van Veen Wikidata: from “an” identifier to “the” identifier
US20020052928A1 (en) Computer method and apparatus for collecting people and organization information from Web sites
EP1587009A2 (en) Content propagation for enhanced document retrieval
US7827172B2 (en) “Query-log match” relevance features
KR20060017765A (ko) 개념 네트워크
JP2009059353A (ja) 選択的に情報を検索しその後その情報の表示を可能にする装置および方法
WO2005010727A2 (en) Extracting data from semi-structured text documents
CN101137985A (zh) 重排序和提高搜索结果的相关性
US11775767B1 (en) Systems and methods for automated iterative population of responses using artificial intelligence
KR100616152B1 (ko) 인터넷상에서 기사를 자동분류하여 타 웹사이트에 자동송출하는 제어방법
Yadav et al. Parallel crawler architecture and web page change detection
US10650020B1 (en) Analyzing transformations for preprocessing datasets

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: FEIYANG MANAGEMENT CO., LTD.

Free format text: FORMER OWNER: YAHOO CORP.

Effective date: 20150331

TR01 Transfer of patent right

Effective date of registration: 20150331

Address after: The British Virgin Islands of Tortola

Patentee after: Yahoo! Inc.

Address before: California, USA

Patentee before: YAHOO! Inc.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090506