CN101273350A - 点击距离确定 - Google Patents

点击距离确定 Download PDF

Info

Publication number
CN101273350A
CN101273350A CNA2006800358284A CN200680035828A CN101273350A CN 101273350 A CN101273350 A CN 101273350A CN A2006800358284 A CNA2006800358284 A CN A2006800358284A CN 200680035828 A CN200680035828 A CN 200680035828A CN 101273350 A CN101273350 A CN 101273350A
Authority
CN
China
Prior art keywords
document
click distance
anchor text
index
anchor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2006800358284A
Other languages
English (en)
Other versions
CN101273350B (zh
Inventor
M·佩特里克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN101273350A publication Critical patent/CN101273350A/zh
Application granted granted Critical
Publication of CN101273350B publication Critical patent/CN101273350B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

根据本地存储的倒排索引中包括的数据为文档语料库中的每一文档进行点击距离值的高效确定。点击距离是从网络上的第一文档到另一文档的点击或用户导航次数的度量。在本地存储的倒排索引中存储专门字词。专门字词使源文档与一组目标文档相关。当根据传入该专门字词之一的查询为相应的目标文档集查询倒排索引时向源文档赋一点击距离。为文档语料库中的每一文档重复该过程。

Description

点击距离确定
背景
在文本文档搜索中,用户一般将查询输入搜索引擎。搜索引擎针对经索引文档的数据库评估该查询,并返回最佳满足该查询的排序的文档列表。由搜索引擎用算法生成表示文档有多满足该查询的度量的评分。通常使用的评分算法依赖于将查询分成搜索项,以及使用关于各个项在要搜索的文本文档的正文中出现的统计信息。文档以根据其相应评分的排序顺序列出,使得用户可在搜索结果列表的顶部看到最佳匹配搜索结果。
某些搜索引擎可能采用以改善结果质量的另一评估是通过选定的排序函数来修改结果的排序。一个示例性的排序函数确定当一页面链接至另一页面时,它实际上为该另一页面投了票。对一页面投的票越多,该页面就越重要。排序函数也可考虑是谁投的票。页面越重要,它们的投票也越重要。这些投票被累积,并用作网络上页面排序的组成部分。
使用排序函数来改进排序的质量。然而,排序函数的有效性可能受到网络拓扑的影响。例如,使用上述投票的排序函数在内联网设置中可能较不奏效。内联网是使用与因特网相同的某些协议但仅可由用户的子集,诸如一公司的雇员访问的网络。内联网的页面没有与因特网精确相同地结构化或连接,因此其与因特网设置相比,排序函数产生的结果的相关性可能不会被降低。
概述
本发明的各方面涉及提供快速点击距离确定以便根据点击距离排序搜索结果。点击距离以相对于其它点击距离确定方法的相对较短时间来确定。点击距离是测量到达网站的给定页面所需的“点击”次数的查询无关相关性度量。网络上的文档通常被组织成树结构,具有一根节点以及从该根延伸至其它节点的后续分支。内联网的根节点通常指的是其主页。
在树结构中,点击距离按自根节点在路径上遍历的分支数目表示。一旦为页面确定了点击距离,点击距离可被纳入该页面的评分中。纳入点击距离的页面评分确定该页面在搜索结果内的其它页面中的排序。
根据一个方面,首先“爬寻”网络来生成与网络的链接和页面相关联的特性的表。“爬寻”指的是将若干文档(或信息的任何类似离散单位)自动收集到被称为索引的数据库中。爬寻通过跟随某些文档内的文档引用链接并在随后处理找到的每一文档来遍历网络上的多个文档。通过标识文档中的关键词(keyword)或一般文本来处理文档以创建索引。
示例性索引可以是具有一字词(word)列和一指示可在其中找到这些字词的文档的列的倒排列表。当用户输入一个或多个搜索项时,获取结果并应用包括点击距离函数的排序算法。点击距离函数基于页面的所确定点击距离,或正或负地影响某些页面的评分,改进向用户返回的结果。
此处所述的点击距离确定通过使点击距离确定对于排序搜索结果的排序引擎而言是本地的来减少确定点击距离所需的时间。标识源文档的特殊字词被包括在倒排索引中,并使得源文档与共享该源文档的目标文档列表相关联。遍历该倒排索引允许通过检查这些专门字词和它们所涉及的文档列表来确定点击距离。无需反复和昂贵地引用其它数据表或文档本身的语料库来检查倒排索引。
提供该概述以用简化形式介绍将在以下详细描述中进一步描述的一些概念。该概述不旨在标识要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。
附图简述
参考以下附图描述了本发明的非限定性且非详尽的实施例,其中除非另有指定,否则相同的参考标号指代各个视图中相同的部分。
图1示出了可在一个示例性实施例中使用的示例性计算设备;
图2示出了可包括点击距离快速确定功能性的用于排序搜索结果的系统;
图3示出了示例性网络图;
图4示出了示例性分层结构网络图;
图5示出了用于索引文档的示例性系统的功能框图;
图6示出了用于索引的示例性结构的功能框图;
图7示出了根据本发明用于确定点击距离的示例性过程的逻辑流程图。
详细描述
以下参考附图更全面描述本发明的实施例,附图构成了本发明的一部分且示出了用于实现本发明的具体示例性实施例。然而,实施例可用众多不同形式实现,且不应被解释为限于此处所述的实施例;相反,提供这些实施例使得本公开将是彻底且完整的,且将向本领域的技术人员充分传达本发明的范围。本发明的实施例可被实现为方法、系统或设备。从而,本发明的实施例可采取完全硬件实现、完全软件实现或组合软件和硬件方面实现的形式。因此以下详细描述不用作限定意义。
本发明的各个实施例的逻辑操作被实现为(1)计算系统上运行的计算机实现步骤的序列和/或(2)计算系统内的互连机器模块。实现取决于对实现本发明的计算系统性能要求的选择。从而,组成此处所述的本发明的实施例的逻辑操作可被替换地称为操作、步骤或模块。
说明性操作环境
参考图1,用于实现本发明的一个示例性系统包括诸如计算设备100的计算设备。计算设备100可被配置成客户机、服务器、移动设备或任何其它计算设备。在非常基本的配置中,计算设备100一般包括至少一个处理单元102和系统存储器104。取决于计算设备的确切配置和类型,系统存储器104可以是易失性的(诸如RAM)、非易失性的(诸如ROM、闪存等)或这两者的某种组合。系统存储器104通常包括操作系统105、一个或多个应用程序106并且可以包括程序数据107。在一个实施例中,应用程序106包括用于实现本发明的功能性的点击距离确定应用程序120。在图1用虚线108内的那些组件示出了该基本配置。
计算设备100可以具有其他的特征和功能性。例如,计算设备100也可以包括诸如磁盘、光盘或磁带的其他数据存储设备(可移动和/或不可移动)。这种其他存储在图1中由可移动存储109和不可移动存储110示出。计算机存储介质可包括以用于储存诸如计算机可读指令、数据结构、程序模块或其它数据等信息的任一方法或技术实现的易失性和非易失性,可移动和不可移动介质。系统存储器104、可移动存储109和不可移动存储110都是计算机存储介质的示例。计算机存储介质包括但不限于,RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字通用盘(DVD)或其它光盘存储、磁盒、磁带、磁盘存储或其它磁存储设备、或可以用来储存所期望的信息并可由计算机100访问的任何其它介质。任何这样的计算机存储介质可以是设备100的一部分。计算设备100也可以具有输入设备112,诸如键盘、鼠标、笔、语音输入设备、触摸输入设备等。也可以包括诸如显示器、扬声器、打印机等输出设备114。
计算设备100也可以包括使设备能够诸如通过网络来与其他计算设备118通信的通信连接116。通信连接116是通信介质的一个示例。通信介质通常具体化为诸如载波或其它传输机制等已调制数据信号中的计算机可读指令、数据结构、程序模块或其它数据,并包括任何信息传送介质。术语“已调制数据信号”指以对信号中的信息进行编码的方式设置或改变其一个或多个特征的信号。作为示例而非限制,通信介质包括有线介质,如有线网络或直接连线连接,以及无线介质,如声学、RF、红外线和其它无线介质。如此处所使用的术语计算机可读介质包括存储介质和通信介质两者。
快速点击距离确定的说明性实施例
包括计算设备100的系统所执行的实施例允许确定网络上包括的特定文档的点击距离。如此处所述确定的点击距离随后可用于改进搜索引擎所产生的搜索结果的排序。
除了允许此处的公开和权利要求涵盖更广泛的各种替换实施例的更宽泛的含义以外,如此处所使用的且在权利要求书全文中使用的以下术语一般如下定义:
“锚文本”一般被定义为与源文档中包括的引导至目标文档的导航的链接相关联的文本。为搜索查询的目的,包括在源文档中的锚文本提高了目标文档的排序。例如,当查询匹配某一锚文本中的字词时,该锚的目标文档在相关性排序中得以提升。
“点击距离”一般指的是在两个文档(例如,文档1和文档2)之间导航所需的点击或链接的最少数目。如果文档1是通常认为的网页,具有高度可靠性(“权威性”),则如果这两个文档之间的点击距离较小,文档2的可靠性就得以提升。页面的可靠性(或权威性)程度是可在搜索引擎的排序算法中使用的查询无关相关性度量。
“文档”一般指的是可作为网络搜索查询或爬寻的结果返回的任何可能的资源,诸如网络文档、文件、文件夹、网页或其它资源。
本发明的实施例一般涉及产生点击距离确定,使得点击距离确定可用于改进搜索引擎的排序函数。搜索引擎的质量一般由根据排序函数所分配的排序的文档相关性来确定。排序函数可基于多个特征。某些特征可依赖于查询,而其它特征被认为是查询无关的。点击距离是从主页或权威URL到给定页面的查询无关相关性度量。在web图(见以下的图3和4)上,点击距离可被表示为权威页面与给定页面之间的最短路径。在之前的实施例中,一算法执行了广度优先遍历,并计算了给定节点到图中所有其它节点的距离。遍历取N次迭代来计算,其中N是图的直径(最短距离中的最大值)。变量N可比图上的节点总数小。
图2示出了用于排序搜索结果的系统,它可包括根据本发明的用于快速确定点击距离的功能性。搜索引擎200接收包含多个查询项的查询。每一查询项可包括多个分量项,诸如当查询项是短语(例如,短语“文档管理系统”可被认为是单个查询项)时。此外,查询可包括一个或多个运算符,诸如布尔运算符、约束条件等,它们通常为已知搜索引擎所支持。
分布式网络上的多个文档,由文档210、212、214和216表示,可供搜索使用。实际上,搜索引擎可搜索任何数目的文档,且一般搜索包含大量(例如,数百万)文档的集合。从因特网设置到内联网设置,文档的数量会有所减少,但是减少通常是从数十亿到数百万,使得文档的相对数目仍是相当大的。索引模块(未示出)为每一文档生成独立文档统计(例如,218、220、222和224)。文档统计被存储在索引226中。
搜索引擎200查阅索引226来基于查询和相应的文档统计为每一文档确定搜索评分228。在本发明中,所包括的文档统计之一是文档的点击距离。在另一实施例中,所包括的另一文档统计是与文档相关联的URL深度。点击距离和URL深度然后与查询相关统计组合来形成文档的最终评分。一般,文档评分228然后以降序排序以向用户给出搜索算法认为与查询最相关的文档列表。
在所示系统中,搜索引擎200表示点击距离排序搜索引擎,它在确定文档的搜索评分时考虑文档的点击距离。在一个实例中,自主页的点击距离是页面重要性的度量,其中分层结构中较接近权威的页面被认为比分层结构中较低的页面重要。然而,可能存在其中相反情况成立的其它场景,即在其中分层结构中较低的文档被认为比分层结构中较高的那些页面重要。由此点击距离被认为是查询无关相关性度量,因为它在总体上而非根据查询(例如,查询相关排序函数可对搜索项出现在文档中的次数进行计数)来评估文档的重要性。
图3示出了根据本发明的示例性网络图。网络图由节点(例如,310)和边或链接(例如,320)组成。节点(例如,310)表示页面和位于网络上可作为搜索查询的结果返回的其它资源。链接(例如,320)通过使用页面上列出的导航链接将这些页面中的每一个连接在一起。可为每一页面收集链接信息集,它们可用于计算特定页面的点击距离。
在一个实施例中,节点330表示一组文档中的最高权威页面即网络上的根节点。网络中其余页面的点击距离可从节点330计算。例如,节点340具有自节点330的两个“点击”的点击距离。如上所述,“点击”指的是在自最高权威节点的最短路径上遍历的分支的数目。可选择自节点330的其它路径来达到节点340,但点击距离与最短路径有关。
以不遵循特定次序的节点示出了网络图300,在这一方面上类似于因特网。因为缺乏次序,点击距离对排序页面的适用性可能难以概念化。然而,通常页面和资源的网络的确遵循应用的次序,如以下图4中所示。
图4示出了根据本发明的示例性分层结构网络图。分层结构网络图400就它也包括节点(例如,410)和链接(例如,420)这一点类似于图3中所示的网络图300。然而,分层结构网络图400是基于结构化的站点或内联网的固有分层结构的。因此分层结构网络图400可被概念化为具有从根节点延伸的分支的树结构。
对分层结构网络图400,点击距离的适用性和计算更可认识。例如,节点330对应于树的最高权威节点即根节点。节点340因而具有相关联的点击距离3,离根节点3次点击或用户导航远。换言之,由于要求用户遍历树的3个分支来从节点330导航至节点340,因此点击距离也为3。
图3和4中所表示的网络图是在索引文档用于计算点击距离期间在存储器中构造的图的示例。在索引期间构造图使得点击距离能够被包括在索引中所存储的文档统计中并用于排序页面。
图5示出了根据本发明用于索引文档的示例性系统的功能框图。系统500包括索引510、流水线520、文档接口530、客户机接口540、锚文本插件550、索引插件560和锚文本表70。
索引510被结构化为包括单独的索引分区,包括主分区和用于锚文本的另一分区。在另一实施例中,除由索引510表示的倒排索引以外,提供单独的锚文本索引。以下在图6的讨论中提供对索引510的结构的更详细描述。使用这些索引的记录来对客户机查询提供结果。在一个实施例中,索引510对应于共同提供索引记录的存储的多个数据库。
流水线520是用于获取文档或文档记录以便索引的收集机制的说明性表示。流水线520使得对应于数据的记录被输入到索引510之前能够由各个插件(例如,锚文本插件550)对数据进行过滤。
文档接口530提供协议、网络接入点和数据库接入点以跨多个数据库和网络位置检索文档。例如,文档接口530可提供对因特网的访问,同时也提供对本地服务器的数据库的访问和对当前计算设备上的数据库的访问。其它实施例可使用各种协议来访问其它文档位置,而不背离本发明的精神或范围。
客户机接口540提供由客户机进行的访问以定义和启动搜索。搜索可根据关键词、索引键和/或“范围键”来定义。范围键指的是用于进一步缩小搜索查询的范围的字词。例如,范围键可与特定的文件类型相关联。使用该范围键作为搜索项的搜索将搜索结果的范围限于对应于该文件类型的文档。采用范围键,搜索范围可根据诸如文件类型的属性、诸如某些数据库或URL的位置或按照减少要搜索的文档数目的其它准则而缩小。
锚文本插件550是若干收集器流水线插件之一。锚文本插件550标识包括在文档中的锚文本及其相关特性。锚特性由锚文本插件550在爬寻通过文档接口530提供的文档时收集。在一个实施例中,锚文本插件550的功能性实际上被包括特性插件中而非作为单独插件提供。特性插件标识文档的所有域及其相关联的特性,包括锚特性。在一个实施例中,由于锚文本与目标文档相关联,因而将目标文档与锚文本相关联推迟到爬寻完成。例如,当索引文档A,且文档A具有指向文档B的锚文本时,该锚文本被应用于文档B。但由于此时文档A正被索引,该过程被推迟。而且,可能存在要应用于文档B的多个锚,要求在正确索引文档B之前发现它们。将目标文档的索引推迟到爬寻完成之后改善了索引结果的正确性,但不是可用的唯一方法。
索引插件560是连接至流水线520的另一插件。索引插件提供用于生成、分区和更新索引510的机制。在一个实施例中,索引插件560提供在将关键词和从所爬寻的文档生成的锚文本键刷新到索引510之前临时高速缓存这些结果的字词列表。从包括在这些字词列表中的爬寻结果填充索引510的记录。
锚文本表570包括已由锚文本插件550收集的锚特性。作为文档中的锚文本的实例,锚文本表570包括锚文本和与该锚文本相关联的特性的记录。在所示示例中,锚文本表570中的记录可在各个域中包括标识当前文档的源ID 572、标识链接的目标文档的目标ID 574、锚文本条目576以及链接578。在其它实施例中,可在锚文本表570中包括其它域。
为了实现快速点击距离确定,将专门的字词(例如,580)或范围键追加到锚文本条目576中的锚文本。该专门字词(例如,580)提供对锚文本表570的记录中所包括的目标文档的源文档指定。检查锚文本表570的第一记录,专门字词为指定锚文本的源为文档A的“文档A”。在一个实施例中,每一文档由文档ID标识。因此该专门字词是提供独特字词以添加到将目标文档与源文档相关联的锚文本索引的文档ID的变型。
采用被添加到锚文本表570的特性,从爬寻收集的锚和链接特性可用于生成网络或锚图的表示,其节点对应于文档而分支对应于链接(见图4)。该锚图然后可被加载到存储器中,用于解决快速点击距离确定。
尽管在系统500中示出了功能块之间的单向和双向通信,但这些通信类型中的任何一种可被改变成另一类型,而不背离本发明的精神或范围(例如,所有的通信可具有要求双向通信而非单向通信的确认消息)。
图6示出了根据本发明的索引的示例性结构的功能框图。索引600包括主索引610和锚文本索引620。在一个实施例中,索引600被认为相对于与搜索引擎查询过程相关联的其它数据结构是“本地存储”的。在该实施例中,文档的语料库驻留在网络上,数据收集模块、插件(见图5)和插件数据结构驻留在服务器上,仅索引600驻留在本地存储位置中。这使得对索引600的查询比对语料库或其它数据结构的查询要高效得多。
主索引610包括对应于关键词和对应于文档爬寻而返回的其它索引键的记录。主索引610也包括涉及文档其它特性的其它索引分区。对此的记录对应于被转向并被输入到锚文本索引620中的锚文本。
一般,锚文本索引620包括对应于网络上文档中所包括的锚文本的目标文档的记录。这些目标文档被组织成与包括在锚文本或关联于目标文档的URL中的字词相关联列出目标文档ID的倒排索引。在爬寻完成之后,从锚文本表中生成锚文本索引620。对应于每一目标文档的锚文本级联在一起以便于对各项评估每一目标文档并将目标文档输入到锚文本索引620中。包括用于锚文本的单独索引分区允许在将锚文本作为文档的评分函数中的因子并入之前基于该锚文本来进行相关性计算。将在以下图6的讨论中更全面地描述将锚文本并入用于排序文档的评分函数中。
为快速点击距离确定的目的将追加的专门字词包括在锚文本索引620中,锚文本索引620的记录也包括对应于该专门字词的记录。采用图5中所示的示例锚文本表570,可在锚文本索引620中包括以下记录:
字词
       B、C、D、E、F、G
文档A
       B、C、D
文档B
       E、F
文档F
       G
该示例示出了如何对用于将源文档与目标文档链接的锚文本“字词”列出目标ID,也对专门字词提供目标ID。专门字词的这一列表在锚文本索引620自身内将源文档与目标文档相关联。由于关联是建立在锚文本索引620内的,因而无需反复访问锚文本表来确定每一文档的点击距离。相反,可对锚文本索引620执行广度优先遍历以更快确定点击距离。以下关于图7更详细描述了用于确定索引中每一文档的点击距离的示例性过程。为了合乎比例地安置此处所述的实施例的速度和效率的增加,在一个示例中,确定点击距离的先前实现花费长达五小时来完成。采用当前实施例,同一确定花费约三十秒。这种速度和效率的惊人增加使得点击距离成为排序搜索引擎查询结果的非常有用的因素。
图7示出了根据本发明用于确定点击距离(CD)的示例性过程的逻辑流程图。过程700从框702开始,其中分布式网络上的文档已被索引,且锚图的生成已被启动。生成锚图的过程被称为锚爬寻。在一个实施例中,锚爬寻对由其中收集链接和锚文本信息并将其置于如以上图5中所述的锚文本表中的过程收集的数据进行爬寻。处理在框704处继续。
在框704,将初始锚图加载到存储器中。完成后的锚图对应于从网络收集的文档标识(例如,文档ID)和链接信息的结构化表示。可对应于锚图的网络图的示例在图3和4中示出。锚图包括对应于网络的文档的节点和对应于文档之间的锚或链接的边。处理在框706处继续。
在框706处,在初始化后锚图中的父节点的点击距离(CD)值也被初始化。这些父或最高权威节点被称为已赋值节点。这些节点被赋予点击距离值0(零)。可以对单个锚图指定多于一个的高权威节点。例如,管理员可手动对一组一百个节点进行排序,并将它们全部指定为高权威节点。另外,高权威节点的点击距离不必为0(零),管理员可赋予任何数字。改变高权威节点的点击距离不会更改其余算法,而仅提供手动指定节点的重要性的方法。例如,管理员可提高某些节点的点击距离评分。在其它情况中,管理员可降低点击距离评分(通过使点击距离高于算法默认计算出的值)。每一未赋值节点的点击距离被初始化为最大值。在一个实施例中,最大值实质上将点击距离值设为无穷大。对节点赋予无穷大值使得它可容易地被识别为还未计算其点击距离的节点。当已赋值节点的点击距离值的初始化完成时,处理移动至框708。
在框708,将具有不同于最大值的相关联点击距离的节点插入到队列中。在一个示例中,该步骤仅在第一次迭代中发生。插入到队列中的节点对应于最高权威节点,因为它们的点击距离被置为0(零),一个不同于最大值的值。一旦具有不同于最大值的点击距离值的节点被添加到队列中,处理在判定框710处继续。
在判定框710处,作出队列是否为空的判断。空队列表明没有其它节点需要计算其目标节点的点击距离。如果队列为空,则处理移动至框712,在那里过程700结束。然而,如果队列不为空,则处理在框714处继续。
在框714处,从队列中检索一节点,并确定作为锚的目标节点的一组节点的判断。此处所述的实施例使得该判断可被高效且快速地处理。代替对锚文本表进行迭代查询,可对锚文本索引进行简单的查询。锚索引非常高效地解析某一类型的查询。这种类型的查询可被描述为要求“返回相关联锚文本包含字词X的所有文档”的查询,其中字词X表示单个字词。对点击距离确定,执行同一类型的查询。然而,在对锚文本索引的点击距离查询中,该字词被称为专门字词,它已被追加到锚文本。专门词语对应于该锚文本的源文档。在锚文本索引中,每一专门字词包括与该专门字词相关联的目标文档的清单。例如,参考以上在图6的讨论中描述的示例,表述“返回相关联锚文本包含文档A的所有文档”的查询返回表示源文档A的目标文档的目标ID B、C和D的列表。再一次,利用本地存储的锚文本索引允许有效率得多的点击距离确定。由于锚文本是本地存储的,用于跨网络通信的通信过程是不必要的。此外,该过程不是迭代的。与处理由锚文本表提供的结构不同,仅需要一次对锚文本索引的查询来返回与从队列中检索出的节点相关联的所有目标节点(即,目标文档)。一旦该节点被检索出,且目标节点被确定,处理移动至框716。
在框716,取回下一目标节点。下一目标节点指的是由初始文档所链接的文档中的下一文档。一旦取回下一目标节点,处理继续至判定框718。
在判定框718,作出与目标节点相关联的点击距离是否大于当前页面的点击距离加一(CD+1)的判断。在一个实施例中,仅当目标节点具有无穷大的点击距离(假定高权威节点被置为零,且管理员未手动设置点击距离)时才满足框718中的条件。例如,如当前点击距离为1,则CD+1=2。点击距离2小于无穷大,该条件满足。判断目标点击距离是否大于点击距离加一能够避免改变具有较小点击距离的目标文档。使用之前的示例,如果目标节点的点击距离为1,且当前点击距离也为1,则目标点击距离不大于CD+1=2。在这种情况下,已经记录了至目标节点的较短路径,从而不需要被更新。相应地,当目标点击距离不大于当前点击距离加一时,处理前进至判定框722。然而,如果目标点击距离大于当前点击距离加一,则处理移动至框720。
在框720,更新目标节点的点击距离值,且将该目标节点添加至队列作为需要进行其目标的点击距离计算的节点。以新的点击距离值更新该目标节点以移除无穷大值,并将节点设置为计算出的点击距离值。在一个实施例中,节点的点击距离值被置为当前点击距离加一(CD+1)。处理在判定框722处继续。
在判定框722处,作出是否已对从队列中检索出的当前节点取回了所有目标节点的判断。如果有要对当前节点取回的剩下的目标节点,则处理返回至框716,其中取回下一目标节点。然而,如果已经取回了对应于当前节点的所有目标节点,则处理返回至判定框710来重新检查队列现在是否为空。再一次,一旦队列为空,则处理移动至框712,在那里过程700结束。
可以理解,在过程700中描述的操作框可按需重复以对网络上的每一文档赋予点击距离值。有可能不是网络上的所有节点都通过任何其它节点被连接至初始高权威节点。相应地,在本发明的另一实施例中,未以任何方式连接至高权威节点的节点被假定具有低重要性,且被赋予低于锚图的平均的点击距离。
采用根据此处所述的快速确定过程确定的每一文档的点击距离,点击距离则可按需在用于改进响应于查询的网络上文档的排序结果的任何评分或排序函数中使用。当执行评分函数且计算文档的相关性评分时,评分现在部分反映文档的点击距离值。
尽管用结构特征和/或方法步骤专用的语言描述了本发明,但可以理解,所附权利要求书中定义的本发明不必限于所述的特定特征或步骤。相反,特定特征和步骤被公开为实现所要求保护的本发明的各形式。由于可在不背离本发明的精神和范围的情况下作出本发明的众多实施例,因此本发明驻留在所附的权利要求书中。

Claims (20)

1.一种用于确定与网络上的文档相关联的点击距离的计算机实现方法,包括:
存储文档(210)的文档和链接信息(218);
在所述文档和链接信息(218)内,还存储与目标文档(574)相关联的专门字词(580),其中所述专门字词(580)指定对应于所述目标文档(574)的源文档(572);
在倒排索引(510)中包括所述专门字词(580),其中所述本地存储的倒排索引(510)使所述专门字词与所述目标文档(574)的标识符相关;以及
当根据传入所述专门字词(580)的查询对所述目标文档(574)查询倒排索引时,对所述源文档(572)赋予一点击距离。
2.如权利要求1所述的计算机实现方法,其特征在于,所述倒排索引对应于一锚文本索引(612),所述锚文本索引被安排成存储所述锚文本(576)中包含的字词和被标识为与每一字词相关联的文档(210)的清单。
3.如权利要求1所述的计算机实现方法,其特征在于,存储所述文档和链接信息(218)还包括存储所述源文档(572)中包括的锚文本(576),其中存储所述锚文本(576)使得所述锚文本(576)与所述目标文档(574)相关联。
4.如权利要求3所述的计算机实现方法,其特征在于,还包括在锚文本表(570)中存储包括所述锚文本(576)的所述文档和链接信息(218)。
5.如权利要求4所述的计算机实现方法,其特征在于,当所述目标节点之一的点击距离大于当前节点的点击距离加上一变量时(718),所述目标节点之一的点击距离被设置为所述当前节点的点击距离加上所述变量(720)。
6.如权利要求1所述的计算机实现方法,其特征在于,存储所述专门字词(580)还包括将所述专门字词追加到存储在锚文本表(570)内的锚文本(576)。
7.如权利要求6所述的计算机实现方法,其特征在于,还包括构造锚图(300),它包括所述网络的文档作为所述锚图(300)的节点(310),还包括所述锚文本表(570)的记录作为所述锚图(300)的链接(320)。
8.如权利要求1所述的计算机实现方法,其特征在于,在所述倒排索引(510)中包括所述专门字词(580)还包括当追加所述专门字词(580)的锚文本(576)被插入所述倒排索引(510)时也将所述专门字词(580)插入所述倒排索引(510)内。
9.如权利要求1所述的计算机实现方法,其特征在于,对所述源文档(572)赋予一点击距离还包括当所述源文档对应于锚图(300)内的高权威节点(330)时将所述源文档(572)赋予一初始点击距离值。
10.如权利要求9所述的计算机实现方法,其特征在于,为所述锚图(300)指定多于一个的高权威节点(330)。
11.如权利要求9所述的计算机实现方法,其特征在于,还包括当所述源文档(272)对应于不同于高权威节点(330)的一节点(310)时赋一初始无穷大值作为所述点击距离值(706)。
12.如权利要求11所述的计算机实现方法,其特征在于,还包括当所述源文档具有不同于所述初始无穷大值的点击距离值时将所述源文档插入队列中(708)。
13.如权利要求11所述的计算机实现方法,其特征在于,还包括从所述队列中检索所述源文档以查询所述倒排索引(714)。
14.一种其上存储当执行时实现如权利要求1所述的计算机实现方法的指令的计算机可读介质。
15.一种系统,包括:
文档接口(530),被安排成提供对存储在网络上的文档的访问;
锚文本表(570),被安排成存储对应于所述网络上的所述文档的文档和链接信息,其中所述锚文本表(570)包括目标文档(574)及其相关联的锚文本(576)的记录;
专门字词(580),被追加到与每一目标文档(574)相关联的所述锚文本(576),其中所述专门字词(580)被配制成标识对应于每一目标文档(574)的源文档;
倒排索引(510),被安排成列出锚文本(576)中所包括的字词以及与每一字词相关联的目标文档(574),使得所述专门字词(580)也随与每一专门字词(580)相关联的所述目标文档(574)一起在所述倒排索引(510)中列出;以及
客户机接口(540),被安排成实现一搜索引擎,其中所述搜索引擎通过以下步骤来确定与存储在所述网络上的每一文档相关联的点击距离:当为对应于存储在所述网络上的每一文档的目标文档(574)进行对所述倒排索引(510)的查询时,递增与存储在所述网络上的所述文档相关联的点击距离值。
16.如权利要求15所述的系统,其特征在于,所述倒排索引(510)对应于一锚文本索引(612),所述锚文本索引被安排成存储包含在所述锚文本(576)中的字词和被标识为与每一字词相关联的文档(210)的清单。
17.如权利要求15所述的系统,其特征在于,所述倒排索引(510)与所述网络上的所述文档(210)相比是本地存储的。
18.如权利要求15所述的系统,其特征在于,所述倒排索引(510)对应于一分区索引,其中第一分区对应于主索引,而第二分区对应于锚文本索引。
19.一种其上存储当被执行时实现如权利要求15所述的系统的指令的计算机可读介质。
20.一种包括用于确定点击距离的计算机可执行指令的计算机可读介质,所述指令包括:
在网络上存储文档(210)的文档和链接信息(218),使得在存储器中启动表示所述网络的网络图;
当在所述网络图中表示的每一文档(210)具有不同于第一点击距离值的点击距离值时将所述文档(210)存储在队列中;以及
当所述队列不为空时:
从所述队列检索文档(210);
通过查询锚索引(570)来确定与所检索的文档相关联的目标文档(574),其中所述锚索引(570)包括被安排成使所述网络上的文档与其目标文档(574)相关联的专门字词(580);
为与所检索文档相关联的每一目标文档赋予一点击距离(572),其中当每一目标文档(574)的点击距离大于与所移除文档相关联的点击距离加上一变量时,用不同于所述第一点击距离值的新点击距离值更新每一目标文档;和
将更新后的每一目标文档(574)添加到所述队列。
CN2006800358284A 2005-09-29 2006-09-25 点击距离确定 Active CN101273350B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/238,906 US7827181B2 (en) 2004-09-30 2005-09-29 Click distance determination
US11/238,906 2005-09-29
PCT/US2006/037571 WO2007041120A1 (en) 2005-09-29 2006-09-25 Click distance determination

Publications (2)

Publication Number Publication Date
CN101273350A true CN101273350A (zh) 2008-09-24
CN101273350B CN101273350B (zh) 2010-06-16

Family

ID=37906488

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006800358284A Active CN101273350B (zh) 2005-09-29 2006-09-25 点击距离确定

Country Status (5)

Country Link
US (1) US7827181B2 (zh)
EP (1) EP1934823B1 (zh)
KR (1) KR101311022B1 (zh)
CN (1) CN101273350B (zh)
WO (1) WO2007041120A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106933911A (zh) * 2015-12-31 2017-07-07 北京国双科技有限公司 最短路径识别方法及装置

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7606793B2 (en) * 2004-09-27 2009-10-20 Microsoft Corporation System and method for scoping searches using index keys
US7761448B2 (en) * 2004-09-30 2010-07-20 Microsoft Corporation System and method for ranking search results using click distance
US7599917B2 (en) * 2005-08-15 2009-10-06 Microsoft Corporation Ranking search results using biased click distance
US8126866B1 (en) * 2005-09-30 2012-02-28 Google Inc. Identification of possible scumware sites by a search engine
US20090019015A1 (en) * 2006-03-15 2009-01-15 Yoshinori Hijikata Mathematical expression structured language object search system and search method
US8489574B2 (en) 2006-06-12 2013-07-16 Zalag Corporation Methods and apparatuses for searching content
US7987169B2 (en) 2006-06-12 2011-07-26 Zalag Corporation Methods and apparatuses for searching content
US20160012131A1 (en) * 2006-06-12 2016-01-14 Zalag Corporation Methods and apparatuses for searching content
CN101501688B (zh) * 2006-06-12 2013-07-24 沙力股份有限公司 搜索内容的方法和装置
US8140511B2 (en) * 2006-06-12 2012-03-20 Zalag Corporation Methods and apparatuses for searching content
US9047379B2 (en) 2006-06-12 2015-06-02 Zalag Corporation Methods and apparatuses for searching content
US8595245B2 (en) * 2006-07-26 2013-11-26 Xerox Corporation Reference resolution for text enrichment and normalization in mining mixed data
US7562073B2 (en) * 2006-08-02 2009-07-14 Sap Ag Business object search using multi-join indexes and extended join indexes
US20080033943A1 (en) * 2006-08-07 2008-02-07 Bea Systems, Inc. Distributed index search
US9015197B2 (en) 2006-08-07 2015-04-21 Oracle International Corporation Dynamic repartitioning for changing a number of nodes or partitions in a distributed search system
US9165040B1 (en) 2006-10-12 2015-10-20 Google Inc. Producing a ranking for pages using distances in a web-link graph
US8156112B2 (en) * 2006-11-07 2012-04-10 At&T Intellectual Property I, L.P. Determining sort order by distance
US7720860B2 (en) * 2007-06-08 2010-05-18 Apple Inc. Query result iteration
US20110113052A1 (en) * 2007-06-08 2011-05-12 Hoernkvist John Query result iteration for multiple queries
US9098603B2 (en) * 2007-06-10 2015-08-04 Apple Inc. Index partitioning and scope checking
US7783620B1 (en) * 2007-06-29 2010-08-24 Emc Corporation Relevancy scoring using query structure and data structure for federated search
US7783630B1 (en) * 2007-06-29 2010-08-24 Emc Corporation Tuning of relevancy ranking for federated search
US9224149B2 (en) * 2007-10-15 2015-12-29 Google Inc. External referencing by portable program modules
US20090106221A1 (en) * 2007-10-18 2009-04-23 Microsoft Corporation Ranking and Providing Search Results Based In Part On A Number Of Click-Through Features
US7840569B2 (en) * 2007-10-18 2010-11-23 Microsoft Corporation Enterprise relevancy ranking using a neural network
US9348912B2 (en) * 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
US8823709B2 (en) * 2007-11-01 2014-09-02 Ebay Inc. User interface framework for viewing large scale graphs on the web
US8812493B2 (en) * 2008-04-11 2014-08-19 Microsoft Corporation Search results ranking using editing distance and document information
US8825646B1 (en) 2008-08-08 2014-09-02 Google Inc. Scalable system for determining short paths within web link network
CN102110123B (zh) * 2009-12-29 2014-02-05 中国人民解放军国防科学技术大学 倒排索引建立方法
US8738635B2 (en) 2010-06-01 2014-05-27 Microsoft Corporation Detection of junk in search result ranking
US9183299B2 (en) * 2010-11-19 2015-11-10 International Business Machines Corporation Search engine for ranking a set of pages returned as search results from a search query
US8572096B1 (en) * 2011-08-05 2013-10-29 Google Inc. Selecting keywords using co-visitation information
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results
CN102750380B (zh) * 2012-06-27 2014-10-15 山东师范大学 一种结合差异特征分布与链接特征的网页排序方法
US9348846B2 (en) 2012-07-02 2016-05-24 Google Inc. User-navigable resource representations
US9336302B1 (en) 2012-07-20 2016-05-10 Zuci Realty Llc Insight and algorithmic clustering for automated synthesis
US9596295B2 (en) 2013-06-29 2017-03-14 Google Inc. Computing connected components in large graphs
US9852230B2 (en) 2013-06-29 2017-12-26 Google Llc Asynchronous message passing for large graph clustering
US10977284B2 (en) * 2016-01-29 2021-04-13 Micro Focus Llc Text search of database with one-pass indexing including filtering
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
CN109086417A (zh) * 2018-08-06 2018-12-25 清华大学 搜索评价方法及装置

Family Cites Families (202)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5222236A (en) * 1988-04-29 1993-06-22 Overdrive Systems, Inc. Multiple integrated document assembly data processing system
US5527577A (en) * 1993-06-22 1996-06-18 Aptar Group, Inc. Flexible eduction tube for hand dispenser
US6202058B1 (en) * 1994-04-25 2001-03-13 Apple Computer, Inc. System for ranking the relevance of information objects accessed by computer users
US5606609A (en) * 1994-09-19 1997-02-25 Scientific-Atlanta Electronic document verification system and method
US5594660A (en) * 1994-09-30 1997-01-14 Cirrus Logic, Inc. Programmable audio-video synchronization method and apparatus for multimedia systems
US5642502A (en) * 1994-12-06 1997-06-24 University Of Central Florida Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text
US5933851A (en) 1995-09-29 1999-08-03 Sony Corporation Time-stamp and hash-based file modification monitor with multi-user notification and method thereof
US5974455A (en) * 1995-12-13 1999-10-26 Digital Equipment Corporation System for adding new entry to web page table upon receiving web page including link to another web page not having corresponding entry in web page table
US6314420B1 (en) 1996-04-04 2001-11-06 Lycos, Inc. Collaborative/adaptive search engine
JP3113814B2 (ja) * 1996-04-17 2000-12-04 インターナショナル・ビジネス・マシーンズ・コーポレ−ション 情報検索方法及び情報検索装置
US5920859A (en) * 1997-02-05 1999-07-06 Idd Enterprises, L.P. Hypertext document retrieval system and method
US5745890A (en) 1996-08-09 1998-04-28 Digital Equipment Corporation Sequential searching of a database index using constraints on word-location pairs
US5920854A (en) * 1996-08-14 1999-07-06 Infoseek Corporation Real-time document collection search engine with phrase indexing
WO1998014906A1 (fr) * 1996-10-02 1998-04-09 Nippon Telegraph And Telephone Corporation Procede et appareil d'affichage graphique de structure hierarchique
US6285999B1 (en) 1997-01-10 2001-09-04 The Board Of Trustees Of The Leland Stanford Junior University Method for node ranking in a linked database
US5960383A (en) 1997-02-25 1999-09-28 Digital Equipment Corporation Extraction of key sections from texts using automatic indexing techniques
US5848404A (en) 1997-03-24 1998-12-08 International Business Machines Corporation Fast query search in large dimension database
US6256675B1 (en) 1997-05-06 2001-07-03 At&T Corp. System and method for allocating requests for objects and managing replicas of objects on a network
US6012053A (en) * 1997-06-23 2000-01-04 Lycos, Inc. Computer system with user-controlled relevance ranking of search results
JPH1125119A (ja) * 1997-06-30 1999-01-29 Canon Inc ハイパーテキスト閲覧システム
JPH1125104A (ja) 1997-06-30 1999-01-29 Canon Inc 情報処理装置および方法
US5983216A (en) 1997-09-12 1999-11-09 Infoseek Corporation Performing automated document collection and selection by providing a meta-index with meta-index values indentifying corresponding document collections
US6182113B1 (en) * 1997-09-16 2001-01-30 International Business Machines Corporation Dynamic multiplexing of hyperlinks and bookmarks
US6070191A (en) * 1997-10-17 2000-05-30 Lucent Technologies Inc. Data distribution techniques for load-balanced fault-tolerant web access
US6351467B1 (en) * 1997-10-27 2002-02-26 Hughes Electronics Corporation System and method for multicasting multimedia content
US6128701A (en) 1997-10-28 2000-10-03 Cache Flow, Inc. Adaptive and predictive cache refresh policy
US6594682B2 (en) 1997-10-28 2003-07-15 Microsoft Corporation Client-side system for scheduling delivery of web content and locally managing the web content
US5991756A (en) * 1997-11-03 1999-11-23 Yahoo, Inc. Information retrieval from hierarchical compound documents
US5987457A (en) 1997-11-25 1999-11-16 Acceleration Software International Corporation Query refinement method for searching documents
US6473752B1 (en) 1997-12-04 2002-10-29 Micron Technology, Inc. Method and system for locating documents based on previously accessed documents
US6389436B1 (en) * 1997-12-15 2002-05-14 International Business Machines Corporation Enhanced hypertext categorization using hyperlinks
US6145003A (en) 1997-12-17 2000-11-07 Microsoft Corporation Method of web crawling utilizing address mapping
US6151624A (en) 1998-02-03 2000-11-21 Realnames Corporation Navigating network resources based on metadata
KR100285265B1 (ko) * 1998-02-25 2001-04-02 윤덕용 데이터 베이스 관리 시스템과 정보 검색의 밀결합을 위하여 서브 인덱스와 대용량 객체를 이용한 역 인덱스 저장 구조
US6185558B1 (en) * 1998-03-03 2001-02-06 Amazon.Com, Inc. Identifying the items most relevant to a current query based on items selected in connection with similar queries
US6125361A (en) 1998-04-10 2000-09-26 International Business Machines Corporation Feature diffusion across hyperlinks
US6151595A (en) 1998-04-17 2000-11-21 Xerox Corporation Methods for interactive visualization of spreading activation using time tubes and disk trees
US6240407B1 (en) * 1998-04-29 2001-05-29 International Business Machines Corp. Method and apparatus for creating an index in a database system
US6098064A (en) 1998-05-22 2000-08-01 Xerox Corporation Prefetching and caching documents according to probability ranked need S list
US6285367B1 (en) 1998-05-26 2001-09-04 International Business Machines Corporation Method and apparatus for displaying and navigating a graph
US6182085B1 (en) * 1998-05-28 2001-01-30 International Business Machines Corporation Collaborative team crawling:Large scale information gathering over the internet
US6208988B1 (en) * 1998-06-01 2001-03-27 Bigchalk.Com, Inc. Method for identifying themes associated with a search query using metadata and for organizing documents responsive to the search query in accordance with the themes
WO1999064964A1 (en) * 1998-06-08 1999-12-16 Kaufman Consulting Services Ltd. Method and system for retrieving relevant documents from a database
US6006225A (en) 1998-06-15 1999-12-21 Amazon.Com Refining search queries by the suggestion of correlated terms from prior searches
US6216123B1 (en) * 1998-06-24 2001-04-10 Novell, Inc. Method and system for rapid retrieval in a full text indexing system
US6638314B1 (en) 1998-06-26 2003-10-28 Microsoft Corporation Method of web crawling utilizing crawl numbers
AU775871B2 (en) 1998-08-26 2004-08-19 Fractal Maps Limited Methods and devices for mapping data files
US6549897B1 (en) * 1998-10-09 2003-04-15 Microsoft Corporation Method and system for calculating phrase-document importance
US6385602B1 (en) * 1998-11-03 2002-05-07 E-Centives, Inc. Presentation of search results using dynamic categorization
US6360215B1 (en) * 1998-11-03 2002-03-19 Inktomi Corporation Method and apparatus for retrieving documents based on information other than document content
US20030069873A1 (en) * 1998-11-18 2003-04-10 Kevin L. Fox Multiple engine information retrieval and visualization system
US6628304B2 (en) 1998-12-09 2003-09-30 Cisco Technology, Inc. Method and apparatus providing a graphical user interface for representing and navigating hierarchical networks
US6167369A (en) 1998-12-23 2000-12-26 Xerox Company Automatic language identification using both N-gram and word information
US6922699B2 (en) * 1999-01-26 2005-07-26 Xerox Corporation System and method for quantitatively representing data objects in vector space
US6418433B1 (en) 1999-01-28 2002-07-09 International Business Machines Corporation System and method for focussed web crawling
US6862710B1 (en) * 1999-03-23 2005-03-01 Insightful Corporation Internet navigation using soft hyperlinks
US6510406B1 (en) 1999-03-23 2003-01-21 Mathsoft, Inc. Inverse inference engine for high performance web search
US6763496B1 (en) 1999-03-31 2004-07-13 Microsoft Corporation Method for promoting contextual information to display pages containing hyperlinks
US6304864B1 (en) 1999-04-20 2001-10-16 Textwise Llc System for retrieving multimedia information from the internet using multiple evolving intelligent agents
US6327590B1 (en) 1999-05-05 2001-12-04 Xerox Corporation System and method for collaborative ranking of search results employing user and group profiles derived from document collection content analysis
US6990628B1 (en) * 1999-06-14 2006-01-24 Yahoo! Inc. Method and apparatus for measuring similarity among electronic documents
US7072888B1 (en) 1999-06-16 2006-07-04 Triogo, Inc. Process for improving search engine efficiency using feedback
US6973490B1 (en) 1999-06-23 2005-12-06 Savvis Communications Corp. Method and system for object-level web performance and analysis
US6547829B1 (en) * 1999-06-30 2003-04-15 Microsoft Corporation Method and system for detecting duplicate documents in web crawls
US7181438B1 (en) * 1999-07-21 2007-02-20 Alberti Anemometer, Llc Database access system
US6598047B1 (en) 1999-07-26 2003-07-22 David W. Russell Method and system for searching text
US6442606B1 (en) 1999-08-12 2002-08-27 Inktomi Corporation Method and apparatus for identifying spoof documents
US6636853B1 (en) 1999-08-30 2003-10-21 Morphism, Llc Method and apparatus for representing and navigating search results
US7346604B1 (en) * 1999-10-15 2008-03-18 Hewlett-Packard Development Company, L.P. Method for ranking hypertext search results by analysis of hyperlinks from expert documents and keyword scope
AU1039301A (en) 1999-10-29 2001-05-08 British Telecommunications Public Limited Company Method and apparatus for processing queries
US6351755B1 (en) * 1999-11-02 2002-02-26 Alta Vista Company System and method for associating an extensible set of data with documents downloaded by a web crawler
US6263364B1 (en) 1999-11-02 2001-07-17 Alta Vista Company Web crawler system using plurality of parallel priority level queues having distinct associated download priority levels for prioritizing document downloading and maintaining document freshness
US6418452B1 (en) 1999-11-03 2002-07-09 International Business Machines Corporation Network repository service directory for efficient web crawling
US6418453B1 (en) 1999-11-03 2002-07-09 International Business Machines Corporation Network repository service for efficient web crawling
US6539376B1 (en) * 1999-11-15 2003-03-25 International Business Machines Corporation System and method for the automatic mining of new relationships
US7016540B1 (en) * 1999-11-24 2006-03-21 Nec Corporation Method and system for segmentation, classification, and summarization of video images
US6886129B1 (en) * 1999-11-24 2005-04-26 International Business Machines Corporation Method and system for trawling the World-wide Web to identify implicitly-defined communities of web pages
US6546388B1 (en) * 2000-01-14 2003-04-08 International Business Machines Corporation Metadata search results ranking system
US6883135B1 (en) * 2000-01-28 2005-04-19 Microsoft Corporation Proxy server using a statistical model
US7240067B2 (en) 2000-02-08 2007-07-03 Sybase, Inc. System and methodology for extraction and aggregation of data from dynamic content
US6931397B1 (en) 2000-02-11 2005-08-16 International Business Machines Corporation System and method for automatic generation of dynamic search abstracts contain metadata by crawler
US6910029B1 (en) 2000-02-22 2005-06-21 International Business Machines Corporation System for weighted indexing of hierarchical documents
US6516312B1 (en) * 2000-04-04 2003-02-04 International Business Machine Corporation System and method for dynamically associating keywords with domain-specific search engine queries
US6633867B1 (en) 2000-04-05 2003-10-14 International Business Machines Corporation System and method for providing a session query within the context of a dynamic search result set
US6549896B1 (en) * 2000-04-07 2003-04-15 Nec Usa, Inc. System and method employing random walks for mining web page associations and usage to optimize user-oriented web page refresh and pre-fetch scheduling
US6718365B1 (en) * 2000-04-13 2004-04-06 International Business Machines Corporation Method, system, and program for ordering search results using an importance weighting
US6859800B1 (en) * 2000-04-26 2005-02-22 Global Information Research And Technologies Llc System for fulfilling an information need
US6772160B2 (en) * 2000-06-08 2004-08-03 Ingenuity Systems, Inc. Techniques for facilitating information acquisition and storage
US6741986B2 (en) * 2000-12-08 2004-05-25 Ingenuity Systems, Inc. Method and system for performing information extraction and quality control for a knowledgebase
DE10029644B4 (de) 2000-06-16 2008-02-07 Deutsche Telekom Ag Verfahren zur Relevanzbewertung bei der Indexierung von Hypertext-Dokumenten mittels Suchmaschine
JP3573688B2 (ja) 2000-06-28 2004-10-06 松下電器産業株式会社 類似文書検索装置及び関連キーワード抽出装置
US6601075B1 (en) 2000-07-27 2003-07-29 International Business Machines Corporation System and method of ranking and retrieving documents based on authority scores of schemas and documents
US6633868B1 (en) 2000-07-28 2003-10-14 Shermann Loyall Min System and method for context-based document retrieval
US7080073B1 (en) * 2000-08-18 2006-07-18 Firstrain, Inc. Method and apparatus for focused crawling
US20030217052A1 (en) 2000-08-24 2003-11-20 Celebros Ltd. Search engine method and apparatus
US6959326B1 (en) 2000-08-24 2005-10-25 International Business Machines Corporation Method, system, and program for gathering indexable metadata on content at a data repository
JP3472540B2 (ja) 2000-09-11 2003-12-02 日本電信電話株式会社 サーバ選択装置、サーバ選択方法、及びサーバ選択プログラムを記録した記録媒体
US6598051B1 (en) 2000-09-19 2003-07-22 Altavista Company Web page connectivity server
US6560600B1 (en) * 2000-10-25 2003-05-06 Alta Vista Company Method and apparatus for ranking Web page search results
US7200606B2 (en) * 2000-11-07 2007-04-03 The Regents Of The University Of California Method and system for selecting documents by measuring document quality
US6622140B1 (en) 2000-11-15 2003-09-16 Justsystem Corporation Method and apparatus for analyzing affect and emotion in text
JP2002157271A (ja) * 2000-11-20 2002-05-31 Yozan Inc ブラウザ装置、サーバ装置、記録媒体、検索システムおよび検索方法
US7925967B2 (en) 2000-11-21 2011-04-12 Aol Inc. Metadata quality improvement
US8402068B2 (en) 2000-12-07 2013-03-19 Half.Com, Inc. System and method for collecting, associating, normalizing and presenting product and vendor information on a distributed network
US20020078045A1 (en) * 2000-12-14 2002-06-20 Rabindranath Dutta System, method, and program for ranking search results using user category weighting
US6778997B2 (en) 2001-01-05 2004-08-17 International Business Machines Corporation XML: finding authoritative pages for mining communities based on page structure criteria
US7356530B2 (en) 2001-01-10 2008-04-08 Looksmart, Ltd. Systems and methods of retrieving relevant information
US6766316B2 (en) * 2001-01-18 2004-07-20 Science Applications International Corporation Method and system of ranking and clustering for document indexing and retrieval
US20020103798A1 (en) 2001-02-01 2002-08-01 Abrol Mani S. Adaptive document ranking method based on user behavior
US20020107886A1 (en) 2001-02-07 2002-08-08 Gentner Donald R. Method and apparatus for automatic document electronic versioning system
US7571177B2 (en) * 2001-02-08 2009-08-04 2028, Inc. Methods and systems for automated semantic knowledge leveraging graph theoretic analysis and the inherent structure of communication
US20040003028A1 (en) * 2002-05-08 2004-01-01 David Emmett Automatic display of web content to smaller display devices: improved summarization and navigation
US7269545B2 (en) 2001-03-30 2007-09-11 Nec Laboratories America, Inc. Method for retrieving answers from an information retrieval system
US20030018669A1 (en) * 2001-04-02 2003-01-23 International Business Machines Corporation System and method for associating a destination document to a source document during a save process
US20020169770A1 (en) 2001-04-27 2002-11-14 Kim Brian Seong-Gon Apparatus and method that categorize a collection of documents into a hierarchy of categories that are defined by the collection of documents
US7188106B2 (en) * 2001-05-01 2007-03-06 International Business Machines Corporation System and method for aggregating ranking results from various sources to improve the results of web searching
US6738764B2 (en) * 2001-05-08 2004-05-18 Verity, Inc. Apparatus and method for adaptively ranking search results
IES20020336A2 (en) * 2001-05-10 2002-11-13 Changing Worlds Ltd Intelligent internet website with hierarchical menu
US6862561B2 (en) * 2001-05-29 2005-03-01 Entelos, Inc. Method and apparatus for computer modeling a joint
US6782383B2 (en) * 2001-06-18 2004-08-24 Siebel Systems, Inc. System and method to implement a persistent and dismissible search center frame
US7519529B1 (en) * 2001-06-29 2009-04-14 Microsoft Corporation System and methods for inferring informational goals and preferred level of detail of results in response to questions posed to an automated information-retrieval or question-answering service
US7039234B2 (en) * 2001-07-19 2006-05-02 Microsoft Corporation Electronic ink as a software object
US6868411B2 (en) * 2001-08-13 2005-03-15 Xerox Corporation Fuzzy text categorizer
US6928425B2 (en) * 2001-08-13 2005-08-09 Xerox Corporation System for propagating enrichment between documents
US7076483B2 (en) 2001-08-27 2006-07-11 Xyleme Sa Ranking nodes in a graph
US6970863B2 (en) * 2001-09-18 2005-11-29 International Business Machines Corporation Front-end weight factor search criteria
US6766422B2 (en) 2001-09-27 2004-07-20 Siemens Information And Communication Networks, Inc. Method and system for web caching based on predictive usage
US6944609B2 (en) 2001-10-18 2005-09-13 Lycos, Inc. Search results using editor feedback
US7428695B2 (en) * 2001-10-22 2008-09-23 Hewlett-Packard Development Company, L.P. System for automatic generation of arbitrarily indexed hyperlinked text
US6763362B2 (en) 2001-11-30 2004-07-13 Micron Technology, Inc. Method and system for updating a search engine
JP3871201B2 (ja) 2002-01-29 2007-01-24 ソニー株式会社 コンテンツ提供取得システム
US6829606B2 (en) 2002-02-14 2004-12-07 Infoglide Software Corporation Similarity search engine for use with relational databases
JP4021681B2 (ja) 2002-02-22 2007-12-12 日本電信電話株式会社 ページレイティング/フィルタリング方法および装置とページレイティング/フィルタリングプログラムおよび該プログラムを記録したコンピュータ読取り可能な記録媒体
US6934714B2 (en) 2002-03-04 2005-08-23 Intelesis Engineering, Inc. Method and system for identification and maintenance of families of data records
US7693830B2 (en) * 2005-08-10 2010-04-06 Google Inc. Programmable search engine
US20040006559A1 (en) * 2002-05-29 2004-01-08 Gange David M. System, apparatus, and method for user tunable and selectable searching of a database using a weigthted quantized feature vector
AU2003243533A1 (en) 2002-06-12 2003-12-31 Jena Jordahl Data storage, retrieval, manipulation and display tools enabling multiple hierarchical points of view
CA2395905A1 (en) * 2002-07-26 2004-01-26 Teraxion Inc. Multi-grating tunable chromatic dispersion compensator
US7152059B2 (en) 2002-08-30 2006-12-19 Emergency24, Inc. System and method for predicting additional search results of a computerized database search user based on an initial search query
US7013458B2 (en) * 2002-09-09 2006-03-14 Sun Microsystems, Inc. Method and apparatus for associating metadata attributes with program elements
US6886010B2 (en) * 2002-09-30 2005-04-26 The United States Of America As Represented By The Secretary Of The Navy Method for data and text mining and literature-based discovery
US7231379B2 (en) * 2002-11-19 2007-06-12 Noema, Inc. Navigation in a hierarchical structured transaction processing system
US7386527B2 (en) 2002-12-06 2008-06-10 Kofax, Inc. Effective multi-class support vector machine classification
US7020648B2 (en) 2002-12-14 2006-03-28 International Business Machines Corporation System and method for identifying and utilizing a secondary index to access a database using a management system without an internal catalogue of online metadata
US20040148278A1 (en) 2003-01-22 2004-07-29 Amir Milo System and method for providing content warehouse
US20040181515A1 (en) 2003-03-13 2004-09-16 International Business Machines Corporation Group administration of universal resource identifiers with members identified in search result
US6947930B2 (en) 2003-03-21 2005-09-20 Overture Services, Inc. Systems and methods for interactive search query refinement
US7028029B2 (en) * 2003-03-28 2006-04-11 Google Inc. Adaptive computation of ranking
US7216123B2 (en) * 2003-03-28 2007-05-08 Board Of Trustees Of The Leland Stanford Junior University Methods for ranking nodes in large directed graphs
US7451129B2 (en) 2003-03-31 2008-11-11 Google Inc. System and method for providing preferred language ordering of search results
US7451130B2 (en) 2003-06-16 2008-11-11 Google Inc. System and method for providing preferred country biasing of search results
US7051023B2 (en) * 2003-04-04 2006-05-23 Yahoo! Inc. Systems and methods for generating concept units from search queries
US7197497B2 (en) * 2003-04-25 2007-03-27 Overture Services, Inc. Method and apparatus for machine learning a document relevance function
US7308643B1 (en) * 2003-07-03 2007-12-11 Google Inc. Anchor tag indexing in a web crawler system
US7334187B1 (en) * 2003-08-06 2008-02-19 Microsoft Corporation Electronic form aggregation
US20050060186A1 (en) * 2003-08-28 2005-03-17 Blowers Paul A. Prioritized presentation of medical device events
US7505964B2 (en) * 2003-09-12 2009-03-17 Google Inc. Methods and systems for improving a search ranking using related queries
US7346839B2 (en) * 2003-09-30 2008-03-18 Google Inc. Information retrieval based on historical data
US20050071328A1 (en) * 2003-09-30 2005-03-31 Lawrence Stephen R. Personalization of web search
US7693827B2 (en) 2003-09-30 2010-04-06 Google Inc. Personalization of placed content ordering in search results
US7552109B2 (en) * 2003-10-15 2009-06-23 International Business Machines Corporation System, method, and service for collaborative focused crawling of documents on a network
US20050086192A1 (en) * 2003-10-16 2005-04-21 Hitach, Ltd. Method and apparatus for improving the integration between a search engine and one or more file servers
US7346208B2 (en) * 2003-10-25 2008-03-18 Hewlett-Packard Development Company, L.P. Image artifact reduction using a neural network
US7231399B1 (en) 2003-11-14 2007-06-12 Google Inc. Ranking documents based on large data sets
US20050160107A1 (en) 2003-12-29 2005-07-21 Ping Liang Advanced search, file system, and intelligent assistant agent
US20060047649A1 (en) * 2003-12-29 2006-03-02 Ping Liang Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation
US7483891B2 (en) 2004-01-09 2009-01-27 Yahoo, Inc. Content presentation and management system associating base content and relevant additional content
US7499913B2 (en) 2004-01-26 2009-03-03 International Business Machines Corporation Method for handling anchor text
US7707039B2 (en) * 2004-02-15 2010-04-27 Exbiblio B.V. Automatic modification of web pages
US7310632B2 (en) 2004-02-12 2007-12-18 Microsoft Corporation Decision-theoretic web-crawling and predicting web-page change
US7281002B2 (en) 2004-03-01 2007-10-09 International Business Machine Corporation Organizing related search results
US7584221B2 (en) 2004-03-18 2009-09-01 Microsoft Corporation Field weighting in text searching
US7343374B2 (en) 2004-03-29 2008-03-11 Yahoo! Inc. Computation of page authority weights using personalized bookmarks
US7693825B2 (en) 2004-03-31 2010-04-06 Google Inc. Systems and methods for ranking implicit search results
US20050251499A1 (en) 2004-05-04 2005-11-10 Zezhen Huang Method and system for searching documents using readers valuation
US7257577B2 (en) * 2004-05-07 2007-08-14 International Business Machines Corporation System, method and service for ranking search results using a modular scoring system
US7260573B1 (en) * 2004-05-17 2007-08-21 Google Inc. Personalizing anchor text scores in a search engine
US7716225B1 (en) * 2004-06-17 2010-05-11 Google Inc. Ranking documents based on user behavior and/or feature data
US20050283473A1 (en) 2004-06-17 2005-12-22 Armand Rousso Apparatus, method and system of artificial intelligence for data searching applications
US7428530B2 (en) 2004-07-01 2008-09-23 Microsoft Corporation Dispersing search engine results by using page category information
US7363296B1 (en) 2004-07-01 2008-04-22 Microsoft Corporation Generating a subindex with relevant attributes to improve querying
US20060036598A1 (en) * 2004-08-09 2006-02-16 Jie Wu Computerized method for ranking linked information items in distributed sources
US7761448B2 (en) * 2004-09-30 2010-07-20 Microsoft Corporation System and method for ranking search results using click distance
WO2006042142A2 (en) 2004-10-07 2006-04-20 Bernard Widrow Cognitive memory and auto-associative neural network based pattern recognition and searching
KR100932318B1 (ko) 2005-01-18 2009-12-16 야후! 인크. 웹 검색 기술 및 웹 컨텐트와 결합된 후원 검색 목록의매칭 및 랭킹
US7689615B2 (en) 2005-02-25 2010-03-30 Microsoft Corporation Ranking results using multiple nested ranking
US7574436B2 (en) 2005-03-10 2009-08-11 Yahoo! Inc. Reranking and increasing the relevance of the results of Internet searches
US20060206460A1 (en) 2005-03-14 2006-09-14 Sanjay Gadkari Biasing search results
JP5632124B2 (ja) * 2005-03-18 2014-11-26 サーチ エンジン テクノロジーズ リミテッド ライアビリティ カンパニー 格付け方法、検索結果並び替え方法、格付けシステム及び検索結果並び替えシステム
CA2544324A1 (en) 2005-06-10 2006-12-10 Unicru, Inc. Employee selection via adaptive assessment
US20060282455A1 (en) 2005-06-13 2006-12-14 It Interactive Services Inc. System and method for ranking web content
US7627564B2 (en) 2005-06-21 2009-12-01 Microsoft Corporation High scale adaptive search systems and methods
US7599917B2 (en) * 2005-08-15 2009-10-06 Microsoft Corporation Ranking search results using biased click distance
US7716226B2 (en) * 2005-09-27 2010-05-11 Patentratings, Llc Method and system for probabilistically quantifying and visualizing relevance between two or more citationally or contextually related data objects
US7689531B1 (en) * 2005-09-28 2010-03-30 Trend Micro Incorporated Automatic charset detection using support vector machines with charset grouping
US20070150473A1 (en) 2005-12-22 2007-06-28 Microsoft Corporation Search By Document Type And Relevance
US7685091B2 (en) 2006-02-14 2010-03-23 Accenture Global Services Gmbh System and method for online information analysis
US20080140641A1 (en) 2006-12-07 2008-06-12 Yahoo! Inc. Knowledge and interests based search term ranking for search results validation
US7685084B2 (en) * 2007-02-09 2010-03-23 Yahoo! Inc. Term expansion using associative matching of labeled term pairs
US7840569B2 (en) * 2007-10-18 2010-11-23 Microsoft Corporation Enterprise relevancy ranking using a neural network
US9348912B2 (en) * 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
US20090106221A1 (en) * 2007-10-18 2009-04-23 Microsoft Corporation Ranking and Providing Search Results Based In Part On A Number Of Click-Through Features

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106933911A (zh) * 2015-12-31 2017-07-07 北京国双科技有限公司 最短路径识别方法及装置

Also Published As

Publication number Publication date
KR20080049804A (ko) 2008-06-04
EP1934823A1 (en) 2008-06-25
US20060069982A1 (en) 2006-03-30
US7827181B2 (en) 2010-11-02
EP1934823A4 (en) 2012-01-25
WO2007041120A1 (en) 2007-04-12
EP1934823B1 (en) 2013-07-24
KR101311022B1 (ko) 2013-09-24
CN101273350B (zh) 2010-06-16

Similar Documents

Publication Publication Date Title
CN101273350B (zh) 点击距离确定
CN100565509C (zh) 使用点击距离对搜索结果分级的系统和方法
KR101683311B1 (ko) 검색 결과 순위 지정을 위한 정적 관련성 특징으로서 문서 길이를 이용한 정보 제공 방법, 시스템 및 컴퓨터 판독가능 저장 매체
CN1755678B (zh) 在排序搜索结果时引入锚文本用的系统和方法
CN101828185B (zh) 部分地基于多个点进特征来排名并提供搜索结果
US20100057717A1 (en) System And Method For Generating A Search Ranking Score For A Web Page
US7698294B2 (en) Content object indexing using domain knowledge
US8473486B2 (en) Training parsers to approximately optimize NDCG
CN101178728A (zh) 一种网址导航的方法和系统
CN101911065A (zh) 访问对象信息检索装置
CN105389330A (zh) 一种跨社区开源资源匹配关联方法
CN112202889B (zh) 信息的推送方法、装置和存储介质
KR101120040B1 (ko) 연관 질의어 추천 장치 및 방법
KR100645711B1 (ko) 다수의 정보 블록으로 구분된 웹 페이지를 이용한 정보검색 서비스 제공 서버, 방법 및 시스템
EP2624145A1 (en) Computer implemented method of ranking nodes
JP2006252420A (ja) 情報収集システム、情報収集方法及びプログラム
KR20110023308A (ko) 폭소노미와 링크 기반 랭킹 기법을 이용한 집단지성 기반 웹 페이지 검색 방법 및 이를 수행하기 위한 시스템

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150421

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150421

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington State

Patentee before: Microsoft Corp.