CN1799050A - 概念网络 - Google Patents

概念网络 Download PDF

Info

Publication number
CN1799050A
CN1799050A CNA2004800152121A CN200480015212A CN1799050A CN 1799050 A CN1799050 A CN 1799050A CN A2004800152121 A CNA2004800152121 A CN A2004800152121A CN 200480015212 A CN200480015212 A CN 200480015212A CN 1799050 A CN1799050 A CN 1799050A
Authority
CN
China
Prior art keywords
conceptual network
website
network
data storage
url
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2004800152121A
Other languages
English (en)
Other versions
CN100476806C (zh
Inventor
Z·陈
S·刘
马维英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN1799050A publication Critical patent/CN1799050A/zh
Application granted granted Critical
Publication of CN100476806C publication Critical patent/CN100476806C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/953Organization of data
    • Y10S707/954Relational
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/953Organization of data
    • Y10S707/959Network
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/953Organization of data
    • Y10S707/96Object-relational
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface

Abstract

一种可响应于用户查询而被生成的概念网络(100)。在一个实施例中,概念网络(100)配合搜索工具使用。该搜索工具搜索多个数据存储位置。每个数据存储位置都用一个节点(302)来排列。这些节点中的某几个至少用一个链接(306)相连。该概念网络(100)基于该链接(306)选择这些节点中的某几个中的一部分,其中这至少一个链接是用于内容目的(306)。

Description

概念网络
技术领域
本发明涉及搜索工具,尤其涉及所显示的搜索结果。
发明背景
随着诸如因特网等网络的迅速增长,搜索的准确性和质量变得越来越重要。但是,许多用户发现使用搜索引擎的搜索产生大量(可能数以千计)的结果,其中许多并不严密地适用于他们所提交的查询。由此,许多用户对搜索结果不满意。一些用户还发现,大量返回的查询结果使因特网中包含的重要信息变得模糊不清。
许多现有技术的搜索引擎主要是基于关键词的比较。考虑询问世界上最顶尖的N个数码摄像机制造商的查询,其中N是整数。关键词比较搜索引擎将返回一些包含关键项“数字摄像机”的万维网页,以及其它包含关键项“制造商”的万维网页。因此,在关键词比较搜索引擎中返回的涉及数码摄像机制造商的总的返回结果的百分比相对很小。关键词比较搜索引擎还无法基于制造商的万维网页来比较一特定数码摄像机制造商是否比另一数码摄像机制造商更大或更有名(或其它某个可量化的比较)。因此,主要基于关键词比较的现有技术的搜索引擎常常导致大量结果,而其中许多与查询的相关度很低。此类关键词比较搜索引擎不能基于万维网站的结构来标识多个搜索所得的万维网站中最适用的那些。
在另一个方面,许多用户相信他们必须搜索大量查询以获得有用的搜索结果。因此,这些用户相信查询(以及就相关性对搜索结果所进行的检查)需要大量时间以确保所有有关响应都被考虑。即使在花费这么长时间以后,用户也常常相信最重要的搜索结果可能湮没在大量无关信息中。
在又一个方面,许多因特网应用程序使用诸如WordNet(在George A.Miller教授的指导下在普林斯顿大学开发)等词典工具来扩展用户的查询,以提高搜索引擎的精度。WordNet是一种在线词典参考系统。使用WordNet,名词、动词、形容词和副词被组织成同义词组,其中每一个都标识一个底层的词典概念。不同的关系链接各同义词组。有了WordNet,用户手动地输入其相对于万维网页的个人分类法。因此,WordNet并非被适当地配置成紧随因特网及其它联网计算机系统的迅速增长和动态改变。例如,Web中出现的单词有一半以上没有出现在WordNet中。
发明概述
此发明涉及概念网络。概念网络可相应于用户查询而生成。在一个实施例中,概念网络配合搜索工具使用。搜索工具搜索多个数据存储位置。每一个数据存储位置都用一个节点来排列。这些节点中的某几个由至少一个链路连接。概念网络基于链路选择这某几个节点中的一部分,其中至少一个链路被用于内容目的。
附图简述
贯穿所有附图,相同的特征和组件引用相同的标号。
图1是一个包括概念网络的计算机环境的实施例的框图;
图2是开发概念网络的一个实施例的万维网站搜索部分的另一个实施例的框图;
图3示出用于建立概念网络的域的分类法构造的一个实施例的框图;
图4示出可在计算机环境的显示器上所显现的概念网络所显示的结果的透视图;
图5示出万维网站结构分析算法的一个实施例的流程图;以及
图6示出可用于推导或向用户显示概念网络的计算机环境的一个实施例的框图。
较佳实施例的详细描述
此发明提供概念网络的各种实施例。在概念网络中,查询等同于被搜索的概念。在概念网络中,多个搜索结果信息被结构化地组织为向用户显示的多个概念。如本文所揭示的概念网络根据搜索结果与查询的各个概念的相关性检索和/或显示搜索结果(搜索结果是基于概念来排列的)。概念网络可被配置成允许用户基于搜索结果与用户查询的相关性访问各个搜索结果、搜索结果的各个内容、或者搜索结果的各个部分。这一概念网络是基于查询在计算机环境中生成的。术语“概念网络”的一个方面涉及以概念可被用户理解和访问的方式将概念集合为概念网络。
概念网络的一个实施例特别针对于因特网,即使概念网络一般可被应用于任何计算机环境或计算机系统。在概念网络的因特网实施例中,用户可输入查询,而所显示的输出概念网络可以是可由用户选择的概念列表。例如,如果用户查询“电子系统”,所显示的概念网络可包括诸如蜂窝电话、计算机、音频系统、视频系统等各种概念。由此用户可选择作为概念网络显示的这些概念中的一个,以显示更具体的搜索结果。
概念网络的一个实施例包括显示诸如相对于图3所描述等多个互连概念的大型连接图。如同来自现有技术的搜索引擎的搜索结果一样,概念网络是基于用户查询而得到的。与现有技术的搜索引擎相比,概念网络增加了对客户查询的相应的准确性。此外,概念网络限制大量无关的搜索结果,而这在依赖于关键词查询的现有技术的搜索引擎中间是普遍的。
图1示出被配置成生成并显示概念网络100的计算机环境50的实施例的框图。计算机环境50可包括可任选的网络部分72(尽管该计算机也可以是独立计算机)。计算机环境50包括搜索工具74和显示工具75。搜索工具74和显示工具75的部分包括概念网络100的一个实施例的部分。提供概念网络100作为用户界面,搜索结果的结构化表示通过该用户界面向用户显示,且搜索结果根据也可向用户示出以指示每个返回的搜索结果的相关性的概念被结构化或排列。现有技术的搜索引擎通常返回适用的万维网页的列表之类的结果,而如本发明中所揭示的所返回的概念网络包括,例如根据其内容结构化排列的多个万维网页。生成概念网络100的搜索依赖于被搜索的数据(例如,万维网页)内所包含的信息,如被搜索的数据的某个结构化特征所指示。由此,与现有技术的搜索引擎(基于关键词匹配)相比,概念网络所返回的结果(基于所搜索的数据的结构)一般提供更准确的搜索结果。
包括概念网络100的图1的计算机环境50示出一般化的计算机环境。构想该概念网络高度适用于能够适用搜索引擎的任何类型的计算机环境,包括独立计算机、联网计算机、或大型计算机。但是,本发明被描述为适用于计算机环境的特定实施例。更特别地,构想概念网络100适用于网络。更特别地,构想包括概念网络100的计算机环境50的一个实施例包括排放在整个因特网上的若干万维网站上的各个万维网页。由此,概念网络的某些实施例依赖于服务器,它们在诸如因特网等联网计算机环境中向客户机提供构成搜索结果的数据。向用户显示的搜索结果的结构化表示的一个实施例是基于因特网用户一般已知的统一资源定位器(URL)。在此揭示中描述因特网的某些实施例中使用的URL的结构化方面。尽管此揭示描述URL为向概念网络中所依赖的数据提供结构,但是要强调的是,可包含能为概念网络所依赖的类似的结构化信息的任何其它机制都落入本发明的预期范围之内。
在计算机环境50的某些实施例中,提交查询的用户将导致有关的概念网络100,其中所显示的结果被组织为一系列有关的概念。一般而言,基于各种用户查询可获得大量各种类型的搜索结果。由此,本揭示描述基于大量用户查询生成各种概念网络。概念网络的一个示例性例子是通过搜索“前N个”查询(寻求任何类别的前“N”个的查询,其中N是整数)产生的。概念网络的另一个示例性例子在诸如“解释电子”等复杂概念的搜索中产生有意义的结果。概念网络100是基于概念生成的(与基于用户查询所提供的实际关键词产生搜索结果的现有技术的搜索引擎不同)。概念网络100是响应于查询,以能向用户提供更详细和准确的信息的方式而生成的。例如,概念网络的某些实施例是考虑涉及查询所提出的概念的大量万维网站而生成的。概念网络考虑每个万维网站与查询所提供的概念的相关性,然后通过概念网络向用户示出各个万维网页的有关部分。
与依赖关键词查询结果的现有技术的搜索引擎相比,概念网络100能以更有组织和准确的方式显示来自各种查询的结果。包括了更为定向和准确的查询相应这一事实允许概念网络在向用户的显示中处理较少的万维网页。随即可根据概念网络所生成的相对很少的万维网页的结构来组织这些万维网页。例如,涉及一类概念的万维网页可通过概念网络的一个部分来访问,而涉及另一类概念的万维网页可通过概念网络的另一个部分来访问。因此,概念网络100可包含涉及大量被检索的信息(诸如万维网站、万维网站内容信息、或万维网页的部分)的结构信息。
概念网络100提供大多数现有技术的搜索引擎所返回的万维网页列表上的若干改进。概念网络100的某些实施例改为提供并显示按(显示概念网络的)万维网页上的顺序排列的结构化信息。对用户而言,如图4所示的自动生成和显示的概念网络100是更易理解、解释和更为有用的形式。一般而言,与现有技术的搜索引擎相比,概念网络100提高搜索的精度和速度,并且提高在这些搜索期间所获信息的相关性。
一般而言,概念网络100显示基于数据的结构信息(例如,格式、节点之间的链接、等等)导出的相当大量的信息。在一个实施例中,此结构信息是基于统一资源定位器(URL)获得的,尽管可使用包含所检索的信息的结构信息的任何设备。在因特网中,URL目前被用于导航目的,以允许浏览器通过因特网访问特定万维网页。URL还可被用于提供此揭示中所描述的用于创建概念网络的结构信息(描述不同节点之间的关系)。此类结构信息的例子涉及,例如是另一个节点的祖先、后代、兄弟或其它关系的节点。此类结构信息被概念网络100的各种实施例用于结构化地描述概念网络内部的不同节点之间的关系。
在概念网络100中此类结构信息被用于提供单词的分类或归类。概念网络的分类(如同现有技术的搜索引擎)涉及特定单词的含义。考虑到搜索引擎内已改变含义或者被添加或移除的大量单词,现有技术的手动搜索引擎难以维护现行的分类法。概念网络的某些实施例提供自动构造的分类法,基于在查询期间所访问的万维网站的结构,该分类法适应于域和用户。构想如本文所揭示的概念网络100可被应用于各种计算机系统,包括但不限于,数据库、在线购物、摄像机、个人计算机、手持式计算机、机器学习、以及计算机制造。
尽管此揭示描述概念网络100被应用于分析因特网上的万维网站,但是应当强调,这些概念适用于所有联网的、独立的、以及其它基于计算机的搜索引擎。由此,将概念网络应用于因特网或者任何其它网络或计算机系统都是在本发明的预期范围之内。
本揭示描述概念网络100及相关联组件的各种实施例。概念网络100被设计成自动对其自身进行更新,而无需代表用户进行任何更新。在查询之间,计算机环境的一个实施例以与关键词搜索高速缓存流行的搜索类似的方式(诸如通过使用万维网站爬寻器等)不断地进行搜索。概念网络100的一个实施例将爬寻所有涉及所收集的概念的万维网站以更新概念网络。构想此爬寻过程类似于常规搜索引擎所执行的那些过程。
在合理的时间量内,概念网络100能够基于用概念网络生成的分类法来理解大量典型用途的关键词(包括它们的结构)。使用此分类法,概念网络以结构化的方式显示关键词。由此,概念网络能够被用作分类词汇汇编,因为概念网络能够基于分类来解释单词的含义。因此,概念网络的分类(即,字典)中越来越多的单词对搜索诸如网络或Web等计算机环境以寻找特定技术、法律或其它此类专用单词的用户特别有用。
几乎所有专业都有相当大量的专用单词,其中许多随时间不断更新。例如,诸如代理人、税务专家、工程师等专业或群体基于它们特定的使用和专长的领域,每一个都有其自己的分类法。由于每个领域都只有相对很少数量的用户的缘故,手动搜索引擎不更新其中的许多项。概念网络可自动更新其中专用的、不常用的或被频繁更新的许多项。
用于得出概念网络100的万维网站搜索部分201的一个实施例在图2中描述。万维网站搜索部分201的实施例包括入口页和爬寻器规则部分202、万维网站结构分析器204、万维网页摘要部分206、万维网站结构合并工具208、以及概念网络100。万维网站结构分析器204包括超链接队列212、万维网站爬寻器214、HTML语法分析器216、基于功能的对象模型(FOM)分析器218、以及超链接分析220。
为生成概念网络100,万维网站结构分析器204分析万维网站的结构。然后图2的Web合并工具(本文中也称为Web站点结构合并工具208)合并来自不同的结构化万维网站的内容以产生可使用概念网络来显示的搜索结果。
在常规万维网站中,链接被用于导航。为分析万维网站内容结构以创建每一个概念网络100,链接从用于导航被转换为用于内容。为完成此转换,执行以下步骤:
a)在URL中编码每个万维网站的结构化信息。由此,在URL中编码特定链接,而无论其是向上链接、向下链接、兄弟链接还是交叉链接。这在现有技术的搜索引擎中是没有的。在一个实施例中,区别链接的类型是由万维网站爬寻器214通过考虑万维网站爬寻器的访问顺序来执行的。
b)执行聚合和关联分析。此聚合和关联分析包括确定各集线器和不同授权机构的位置。在一个实施例中,这可由FOM分析器218执行。
c)然后区分信息链接和导航链接。此识别是使用基于功能的对象模式(FOM)来分析导航条、导航列表或独立链接来执行的。由此,页的布局被用来对万维网页进行分块。在一个实施例中,c)可使用FOM分析器218来执行。
现有技术的搜索引擎在一次一个的基础上提供对多个万维网站的访问,而概念网络100被构造成同时包含从各个万维网站获得的结构信息。可在概念网络100上以可被读者轻易理解的方式组织来自这各个万维网页的信息。更特别地,可在概念网络100中以呈现来自多个万维网页(通常基于URL)的结构信息的可量化的值的方式显示来自多个万维网站的类似地结构化的信息。随即可用导致不同万维网页的主题之间的比较的方式呈现来自多个万维网页的此类结构信息。例如,涉及特定工业或主题的多个公司或集团很可能在它们的万维网页中以相似的结构包含相似类型的信息。概念网络提供一种媒介以显示来自不同万维网页的此相似信息;或者以允许从同一概念网络轻易访问不同万维网页的方式来呈现要向用户呈现的不同但相关的万维网页。
在某些实施例中,万维网站结构分析器204从入口页和爬寻器规则部分202接受万维网站的进入点URL和一些万维网站爬寻器规则作为输入。这些URL包含涉及特定万维网页的各种结构信息(例如,链接的端点、万维网页的类型、等等)。常规搜索引擎不使用由URL提供的这一结构来导出涉及万维网页的结构信息。万维网站结构分析器204分析万维网站结构,并向万维网页分配深度信息。结果是,万维网站结构分析器204的一个实施例生成万维网站的分层结构图,其节点包括概念。由概念网络所导出的概念可用如本揭示中所描述的关键词来表征。万维网站结构分析器204导致使用结构化的万维网站。
万维网站分析器204的一个实施例是基于BFS(广度优先搜索)算法。万维网站结构分析器204维护超链接队列212。万维网站爬寻器214从超链接队列212取URL,然后使用万维网站爬寻器214爬寻来自因特网的超文本标记语言(HTML)源代码,然后将HTML源代码转发给HTML语法分析器216。超文本队列212是包括未经分析的超链接的队列。在分析开始以前,万维网站结构分析器204附接进入点URL。在分析期间,只有万维网站爬寻器214从超链接队列212提取URL。只有超链接分析器220应用新的未经分析的超链接。
万维网站的进入点URL从入口页和爬寻器规则部分202进入万维网站结构分析器204的超链接队列212。当万维网站结构分析器204开始分析时,万维网站爬寻器214从超链接队列212提取URL,然后万维网站爬寻器爬寻来自因特网的HTML源代码,并将HTML源代码转发给HTML语法分析器216。HTML语法分析器处理从因特网爬寻的HTML源代码。
HTML语法分析器216接受从万维网站爬寻器214输入的HTML源代码。在一个实施例中,HTML语法分析器216的活动包括URL提取、URL统一、和URL分组。对于URL提取,HTML语法分析器216根据输入的万维网站定义取所有指向一万维网页并且在该万维网页内部的URL。用锚文本附接每一个URL。对于图像链接,锚是包围文本。
对于URL统一,HTML语法分析器216的一个实施例执行多个操作,包括:a)将相对URL地址转换为直接URL地址;b)将IP地址改为域名;以及c)通过用最终目标URL地址替换该URL来解决重定向的URL的问题。对于URL分组,具有相同标签元数和相同外观的表格或列表中的超链接很可能被视为例如相关的节点。来自HTML语法分析器216的结果随即被转发给基于功能的对象模型(FOM)分析器218。
基于功能的对象模型(FOM)分析器218使用FOM的基本概念和算法对超链接分配功能信息。此功能信息对分析每个万维网站的结构是非常有用的。FOM表示万维网页的基于功能的对象模型。FOM分析器218不是进行语义分析,而是试图通过表示每个对象功能和类别来理解作者的意图。每个万维网页都可起到索引页或内容页的作用。一类导航对象是导航条。FOM分析器218的一个实施例执行如以下FOM分析任务等索引/内容页识别和导航条检测。
对于索引/内容页识别,FOM分析器218的一个实施例确定万维网页URL是否包括文本“Index”(索引)或“default”(默认),以及该URL是目录还是索引页。如果该页内部有对应于子目录的链接,则此链接是指向索引页。将超链接和内容单词的比值和阈值相比较。如果该比值大于阈值,则该万维网页是索引页。如果阈值大于该比值,则该万维网页是内容页。
FOM分析器218的一个实施例提供导航条检测。导航条中的项是彼此互连的,并且对应的链接拓扑结构是完全连通图。FOM分析器218的输出包括多个超链接,它们被转发给超链接分析器220。FOM分析器218为万维网页提供分块。在一个实施例中,分块以后,基于其功能,万维网页被分成若干小单元,诸如内容块、导航块、广告块、等等。这些小单元可由用户单独访问。
超链接分析器220的一个实施例使用万维网站结构分析算法来处理FOM分析器218所分析(并从该处发来)的每一个超链接。经语法分析的源代码被转发到FOM分析器218以执行功能分析。超链接分析器220根据万维网站结构分析规则分析每一个超链接,而新的未经分析的超链接被插入到超链接队列212中。超链接分析器220对每一个万维网页分配一个深度值(并维护万维网站的临时分层结构图)。该深度值可由万维网站爬寻器214输出。在一个实施例中,万维网站爬寻器214通过广度优先搜索访问万维网站。行进路径将被构成为树的格式,树的节点是万维网页,节点内部的链接是万维网页内部的超链接。因此树中节点的深度是我们想要获得的值。例如,进入点万维网页的深度(诸如由URL  http://www.microsoft.com所标识的进入点页)是0。相比之下,由URL  http://www.microsoft.com/china所标识的万维网页的深度是1。
万维网站结构分析器204构造了可被视为在超链接队列212处开始和结束的循环。万维网站爬寻器214从超链接队列212提取下一个UR1以开始下一个循环。执行此动作直至超链接队列212中没有新的URL为止。分析过程完成,万维网站(称为结构化的万维网站)的分层结构图被构造出来。
每个万维网站的结构化信息是以可使用超链接分析器220检测的方式编码到URL中的。由此,无论特定链接是向上链接、向下链接、兄弟链接或交叉链接,它都被编码到URL中(并可使用超链接分析器220检测)。在一个实施例中,使用基于URL块长度的启发式规则来检测向上链接和向下链接。URL块长度被定义为块数,块是URL中被“/”或“?”分开的部分。例如,URL“ http://www.sonystyle.com/digital/digital camera.htm”的URL块长度是3,包括“ http://www.sonystyle.com”、“ digital”和“ digital camera”。在一个实施例中,应用约束的规则来分析URL。然后,对于未被规则覆盖的其余URL,使用以上策略来进行分析。超链接检测规则的一个实施例根据两个规则来描述。第一规则是,如果URL块长度(超链接)小于或等于万维网页的URL块长度,则该超链接是向上链接。第二规则是,如果URL块长度(超链接)减去URL块长度(万维网页的URL)大于或等于2,则该超链接是前向链接。
假定当前万维网页节点为B,它有到万维网页C的超链接。万维网站结构分析器204的超链接分析器部分220进行以下过程:
I.如果该超链接是向上链接,则将其丢弃(不再考虑)。
II.如果B和C属于导航条,则B和C是兄弟节点(如本文所讨论)。
III.如果C已被访问,且B的URL块长度大于或等于C:
如果B是索引页;则C是B的子节点(如本文所讨论);
否则如果B是内容页,则C是B的兄弟节点。
IV.如果C未被访问,
如果B是内容页,则C是B的兄弟节点,
否则C是B的子节点。
否则如果C尚未被访问,则
首先如果B是内容页或在若干页中被显示,则该链接是显式关联。
否则此链接是聚合。
在分析超文本队列中的URL以后,使用万维网页摘要部分206得出万维网站结构。例如,万维网页中所包含的某个量的数据可能与特定用户的查询有关,而其它数据则无关。万维网页摘要以可在概念网络100内的特定概念部分上显示的形式提供有关的信息。因为不在概念网络上示出每一个万维网页的整体,所以概念网络可提供可由用户访问的每个概念或万维网页的信息的更为定向的摘要。随即使用万维网站结构合并工具208将从万维网页摘要部分206导出的不同万维网页的各种各样的内容(或其它内容)合并到概念网络100中。万维网站结构用分层结构图表示。
概念网络100的某些实施例分析相关万维网站的结构,并据此将结果合并到一起。在此揭示中,将来自多个万维网站的信息合并被称为Web合并,如图2所示由万维网站结构合并工具208执行。万维网站结构合并工具208所执行的Web合并提高概念网络的精度和速度,并被执行如下。
在每个万维网站都被结构化为“树状图”或“深度图”以后,接下来的问题是将这些图合并成一个网络。在该网络中,每个节点表示一个概念,而这些节点之间的链接表示这些概念之间的关系。基本关系可包括,但不限于,超义词、假义词、同义词、等等。因为每个万维网站都表示原始编辑者对有关主题的观点,所以将不同的观点合并为一个观点有点困难。因此在以下,我们给出将来自各种类型的资源的概念分层结构合并成一个可用的分层结构的解决方案。
为示出如何合并概念网络的分层结构的一个实施例,从两个不同的分层结构H合并给定概念C的一类关系R。解决此问题的详细算法如下:
以下技术表示可用于执行本体合并过程的一个实施例:
a)对于每个Web块,使用如图2所示的万维网页摘要部分206为万维网页简述概念。这些概念被解释为关键词集合。
b)然后对这些概念进行令牌化,通过此方法,要通过概念网络100来生成和显示的每个概念都由“令牌”短语或关键词表示。由此,建立关键词集合以表示和描述概念网络中所包含的概念。(1)被用于最终生成概念:
ni=[wi1,wi2,...,wim]                                    (1)
其中wi1,wi2,...,wim表示单词,而ni表示单词数组,ni是概念网络中一个节点(万维网页)的摘要,它可被分解为若干单词/短语,即wi1,wi2,...,wim
c)在分层结构树上提供滑动窗口,以分别用(2)、(3)和(4)来生成后代(offspring)、祖先(ancestor)和兄弟(sibling)的子树ST。假定一些单词在不同的窗口中出现。
STi(offspring)=(ni,sons1(ni),...,sonsd(ni))           (2)
STi(ancestor)=(ni,parents1(ni),...,parentsd(ni))      (3)
STi(sibling)=(ni,sibs1(ni),...,sibsd(ni))             (4)
其中,STi(offspring)、STi(ancestor)和STi(sibling)是用于计算后代、祖先和兄弟关系的子树;sonsd、parentsd和sibsd分别代表节点ni的第d层子节点、父节点和兄弟节点。
d)对于每一个所生成的子树(例如,STi(ancestor)),按等式(5)计算术语对的互信息。计算每个单词对wi,wj的的互信息MI。具有高值的互信息指示该单词对是相似的。
MI ( w i , w j ) = P r ( w i , w j ) log P r ( w i , w j ) P r ( w i ) P r ( w j ) - - - - ( 5 )
P r ( w i , w j ) = C ( w i , w j ) Σ k Σ l C ( w k , w l ) - - - - ( 6 )
P r ( w i ) = C ( w i ) Σ k C ( w k ) - - - - ( 7 )
P r ( w j ) = C ( w j ) Σ k C ( w k ) - - - - ( 8 )
其中,MI(wi,wj)是项wi和wj的互信息;Pr(wi,wj)表示项wi和wj一起在子树中出现的概率;Pr(x)(x可为wi或wj)表示项x在子树中出现的概率。
确定一对项的相关性的另一个因素是项对的分布。越多子树包含该项对,则这两个项就越相似。在我们的实现中,使用熵(entropy)来测量项对的分布,如步骤(d)中所示。
d)计算每个单词对wi,wj的熵。基于在(5)中确定的互信息实际上在所有万维网站中是共同的,熵转换是对被确定为共同的单词对wi,wj的度量,。熵越高,概念网络可向用户提供的该单词在所有万维网站之间成对的信心就越高。
entropy ( w i , w j ) = - Σ k = 1 N P r ( w i , w j ) log P r ( w i , w j ) - - - - ( 9 )
P r ( w i , w j ) = C ( w i , w j | ST k ) Σ l = 1 N C ( w i , w j | ST l ) - - - - ( 10 )
e)根据(11)计算每个单词对的相似性Sim:
Sim ( w i , w j ) = MI ( w i , w j ) × entropy ( w i , w j ) + 1 α log ( N ) - - - - ( 11 )
如(11)中所阐述的相似性将互信息MI(wi,wj)和entropy(wi,wj)相结合。
为指示涉及(2)、(3)和(4)的有关概念(后代、祖先和兄弟),概念网络生成各种有关的类别。例如,表1示出公知概念的各种示例性后代概念:
                        表1:后代概念
  原始类别   后代
  软件   实用程序、游戏、商务、一般、图形、数据库
  视频   DVD、TV、投影、摄放像机
  小说   故事、戏剧、恐怖、诗、科学、传奇
  服装   衣服、女装、衬衫、鞋、饰品、男装、运动装、戏服、童装
  鞋   靴子、高跟鞋、凉鞋、拖鞋、休闲鞋
  宠物   照料、供应、鸟、猫、狗、鱼、食物、服务
表2示出各种示例性的祖先概念:
       表2:祖先概念
  原始类别   后代
  软件   计算机
  视频   电子、组件
  小说   书、文学
  服装   无
  鞋   女装、男装、服装
  宠物   无
表3示出各种示例性兄弟概念:
                表3:兄弟概念
  原始类别   后代
  软件   硬件、网络、外观、存储、外设、存储器
  视频   音频、摄影、摄像机、附件
  小说   烹饪、历史、运动、旅游、作者、连环画
  服装   时尚、软件、美丽、音乐、宠物
  鞋   衣服、表、外套、衬衫、泳装、裤子
  宠物   礼物、运动、玩具、珠宝、书
图2中所示的概念网络100的一个实施例被规定为图3中的结构形式、以及图4中其向用户所呈现的形式中所示出的有向图。概念网络所基于的有向图(G)300由(12)描述:
          G=(V,E)                                     (12)
其中V是节点的集合,而E是边或链接的集合。由此,如有向图所表示的概念网络100包括多个节点以及链接这些节点的多个链接或边。节点表示概念。边或链接表示概念之间的关系。如图4中所示的概念网络100的有向图300由此提供内容结构。万维网页的内容结构被信息挖掘以产生用于生成概念网络的信息。
图3示出用于使用概念网络100构造特定域的分类的技术的一个实施例。图3以导出一个或多个域专属的万维网站302而开始。这可通过利用现有的元搜索引擎来进行此工作来完成。例如,如果用户想要构造“数字摄像机”域的概念网络,用户可向搜索引擎发送查询,并使用前100个万维网站来构造概念网络。每个域专属的万维网站302包括对应于内容(由节点表示)的分析和链接结构(由链接结构表示)的分析的结构。
产生概念网络100依赖于一个或多个万维网站的内容结构的有效挖掘。此挖掘可通过分析链接类型来执行,链接类型确定链接是后代链接、祖先链接、还使兄弟链接,诸如相对于图2的超链接分析器220所述。这些链接类型中的一个被分配给每个链接。然后使用如图2中所示的万维网页摘要部分206来简述节点的语义。在图3中,域专属分类是基于此信息挖掘而导出的。注意,与诸如WordNet等要求手动的编辑输入以进行分类的现有技术的工具相比,在本揭示中,域专属分类的导出是自动执行的。Wordnet是针对一般域的手动构造分类。此分类是由编辑者而不是端点用户构造的。信息挖掘依赖于域专属万维网站的链接结构和内容。这与某些现有技术的自动分类词汇汇编构造不同,在后者中,信息是从内容而不是链接结构挖掘的。
然后使用本体学习来构造概念网络100。基于本体学习,自动构造的概念网络开发其自身的分类。本体学习是基于统计框架,并且能够产生多个编辑者的视图。统计框架容易被应用于许多统计应用程序。如图3中所示地构造的概念网络100描述电子的各种概念网络。概念网络100包括各种Web块450,其中每个Web块表示一个不同的电子类别(例如,电子产品、电子类别、以及电子设备制造商、等等)。
每个Web块由用户可识别的关键词描述。每个子Web块454可被视为与主Web块相关。例如,在图3中,单词“电子”表示主Web块452。术语“电子”表示好的主Web块452,因为此术语出现在许多涉及各种产品(各种产品中的每一种都可被视为一个子Web块)的万维网站中。例如,在图3中,在电子主Web块下示出各种子Web块454(包括照像机和相片、音频和视频、手持式、蜂窝电话、计算机、Sony、iPAQ、Palm、外设、以及各种Compaq产品)。在此揭示中,每个Web块都被视为包含同构信息的一个概念。因此术语“概念网络”描述多个概念,或Web块的网络。
每个Web块都可由一个关键词(诸如照相机、计算机、以及“Sony”,如图3中所示)简述。图3中每个子Web块的主题极大地涉及主Web块电子,因此可被宽泛地归类到概念“电子”之下。基于Web块的结构、挖掘、以及概念网络100的域专属分类,如图3中所示的电子的概念网络包含这些术语中的许多。图3中所示的所生成的概念网络100可被视为自动构造的最终结果。
图4中示出示例性概念网络100的一个实施例,如其在诸如平面显示器或CRT监视器等计算机显示器200上所显现的。由此,图4示出所生成的包括各种概念402的概念网络100(使用图2和3中所示出的技术)。每个概念402包括涉及以此方式所生成的至少一个Web块450,其中某些实施例在图3中示出。因此图4中示出的概念网络100包含覆盖在显示器上的若干概念402。就所关注的领域(在此实例中为“电子”)相对地详述了概念网络的细节。例如,这些概念中的几个如果被用户选择,则会将用户带到比当前所显示的概念网络更狭隘或更宽泛的另一个概念网络。例如,用户可从电子概念网络转移到计算机概念网络。
通过搜索所有各种万维网站执行概念网络的分析。分析指出在概念网络的某些实现中,被正确定位的万维网站的百分比有所提高(增至75%)。就准确性而言,这表示现有技术上的显著进步。
考虑示例性查询“数字摄像机制造商”。典型的现有技术的搜索引擎搜索整个Web并返回包含关键项“数字”和/或“摄像机”和/或“制造商”的万维网页。因而此类现有技术的搜索引擎将返回相当大量的无关万维网页。
概念网络100仅需搜索从节点“数字摄像机”扩展的子图。因此,概念网络速度更快,并且所返回的无关万维网页的数量显著减少。
概念网络100提高对查询的期望响应的简单程度、速度和可靠性。首先,在概念网络100中定位项“数字摄像机”。所有指向节点“数字摄像机”或其所指向的节点都被提取。然后属性为“制造商”的节点被选择并分级(例如,基于点击数)。如此,便可搜索对任何类别的万维网页的前N个的查询(最大的公司、最大的制造商、最多的办公室、最近的位置、等等),而捕获合理数量的准确点击的概率大大提高。
由概念网络所表征的此类改良的搜索得以发生是因为查询是定向到被搜索的万维网站的结构(如URL内所包含)。如相对于图5所描述的概念网络100的某些实施例可提供各种搜索服务,它们可搜索如因特网上的万维网站上所列出的前“N”个(其中“N”是某个正数)组织、公司、项目、群组、产品等等的某个可量化的阐述。例如,某些实施例生成提供找出世界上前五个数字摄像机制造商的查询的搜索结果的概念网络100。另一个查询提供诸如指示欧洲前五个钢铁制造公司等另一个复杂查询的搜索结果。预期概念网络高度有益的一类查询依赖于基于万维网站的结构(例如,基于URL所提供的结构)来访问数据。“前N”类型的查询基于多个万维网站的结构来分析和返回信息。例如,一种确定谁是美国前三名的汽车生产商的技术涉及访问所有可能的汽车生产商的万维网站,从每个万维网站导出类似的生产信息,然后比较从不同的万维网站导出的生产信息。由此,概念网络100的某些实施例可搜索万维网页内的详细特征。
数据挖掘针对于此类万维网站分析。一般而言,数据挖掘(有时称为数据或知识发现)是基于查询从不同角度分析数据并向用户将数据总结为有用信息的过程。数据挖掘软件是用于分析数据的许多分析工具中的一种。它允许用户从许多不同的方面或角度分析数据、归类数据、以及总结所标识出来的关系。技术上,数据挖掘是在大型关系型数据库中的几十个字段之间寻找相关性或模式的过程,并且通常在查询中是公知的。由此,概念网络的某些实施例可使用如图3所提供的数据挖掘306来导出域专属的分类304。
图5示出导致生成概念网络的过程600的一个实施例。过程600包括用户将查询输入到计算机环境50(如图1中所示)中的602。该查询将导致生成并向用户显示概念网络。在604,该查询给提交给如相对于图3所描述的多个域专属的万维网站302。这些万维网站由常见的元搜索引擎或人类构建的Web分层结构返回。在606,计算机环境通过诸如考虑对相关联万维网站的URL结构和内容等来分析万维网站结构。在610,被挖掘的信息被用于生成域专属分类(如相对于图3中的304所描述)。过程600前进至612,生成并向用户显示概念网络100。
概念网络100能够被生成以返回对诸如“解释单词:电子”等查询的响应(这是现有技术的搜索引擎所不能执行的)。此类概念网络也是通过分析各种万维网站和万维网页的结构来生成的(如图5中的查询的情形)。概念网络的一个实施例保存万维网站的结构信息,此信息标识编辑者对概念的分层结构的观点。在概念网络100中,不同编辑者的观点被合并到一起,从而用户可确定什么是最常见的解释。
概念网络100的某些其它实施例可提供确定用户执行诸如解释单词“电子”等任务的最佳万维网站的查询。此类查询可被视为解释和/或比较的查询。由此,必须由概念网络对若干万维网站进行评估和比较。生成此类概念网络(诸如能够解释复杂问题的概念网络等)所涉及的一种机制牵涉到考虑涉及查询所提出的问题的大量万维网站;在某种程度上如现有技术的搜索引擎所可测量地考虑每个万维网站的相关性,然后向概念网络的用户显示万维网页的有关部分。图5的过程600的实施例也可被用于执行此类查询。
为响应这些类型的相对复杂的查询(前N类型的查询,或者必须评估和比较多个万维网站的查询,等等),通过评估所考虑的每个万维网页或万维网站的结构来构造概念网络100。现有技术的搜索引擎不能够从万维网站导出该结构以执行这些分析(因此不能响应于此类查询)。例如,相关于电子的例子,概念网络考虑被结构化的万维网页,以提供定位到准确描述电子主题处足够的信息。
概念网络100在查询扩展中也非常有用。目前,许多因特网应用程序使用现有技术的WordNet来扩展用户的查询以提高现有搜索引擎的精度。但是,WordNet是手动构造(分类词汇汇编)的高强度劳动的工作。几乎没有哪个万维网站愿意手动构造分类词汇汇编。万维网站操作者更喜欢自动分类词汇汇编构造。用户的手动分类词汇汇编构造不适合于因特网的迅速增长。诸如因特网等网络中的文档数量不断增长。越来越多的新单词和概念不断出现,这使得如在本揭示中所描述的概念网络的有用性得以突出。与依赖于关键词比较的现有技术的搜索引擎相比,概念网络返回较少的、但更为定向的结果。因此,用户较易评估概念网络所返回的每一个结果。此外,用户较易评估查询是否未能返回期望类型的结果,从而用户将能够修改原始查询使之更为定向。
现用分类词汇汇编(概念网络可发挥此作用)对因特网和其它网络搜索是有用的。此外,概念网络100不但包含概念的分层结构,而且还包含这些概念的统计信息。因此它可被轻易地应用于诸如调查等某些关于普及性的特定问题。
因为概念网络100的一个实施例为因特网和其它网络环境合并来自所有作者的单词和概念的观点,所以概念网络100可被视为向网络用户提供替换的分类词汇汇编。概念网络100可被适应于客户方以作为个人分类词汇汇编。用户的浏览路径将生成Web的子空间。类似的方法可被应用来分析Web的子空间,以生成个人频繁使用的概念的关系。
因此概念网络提供万维网页的摘要。超链接和页标题上的文本可被用作万维网页的摘要。在另一个实施例中,自然语言语法分析(NLP)技术可被集成到万维网站搜索部分201中(可作为HTML语法分析器216的一部分),以使用某些主导关键词来总结文档。
此揭示描述各种概念网络100。概念网络可被视为通过分析多个万维网站的结构并合并分析结果而从万维网站构建的因特网概念网络。概念网络100在提高搜索引擎的精度和速度方面特别有用。概念网络从万维网站结构、而不是单纯地从万维网站内所包含的明文文本中提取知识。概念网络提供域的自动构造。来自概念网络的统计结果揭示各个万维网站中所包含的一般知识。
由此,概念网络不仅从特定万维网站获得信息,而且还从网络上大量各种各样的万维网站获得知识。概念网络可使用本体学习来维护涉及万维网站的结构信息。因此,当新的万维网页和概念被应用于因特网时,本体允许来自万维网页的结构信息被自动集成到概念网络中。此外,概念网络100可提供普通搜索引擎所不能提供的一些服务,诸如“找出世界上前N个数字摄像机制造商”以及“解释单词:电子”等。概念网络还可对查询扩展起到现用因特网分类词汇汇编的作用,因为它提供如此多样的子Web块,它们通过主Web块相互关联,如图3中所示。
图6示出合适的计算机环境或网络500的示例,其中包括可生成概念网络的用户界面。计算机环境500表示图1中所示的计算机环境的一个实施例。类似的资源可使用本文中所描述的计算机环境和过程。
图6中所示出的计算机环境500是一般计算机环境,它可用于实现本文中所描述的概念网络技术。计算机环境500只是计算机环境的一个例子,它并不试图对计算机和网络体系结构的使用范围或功能提出任何限制。也不应将计算机环境100解释为具有涉及在示例性计算机环境中所示出的任一组件或其组合的任何依赖性或要求。
计算机环境100包括计算机502形式的通用计算设备。计算机502可包括,例如以下组中的一个或多个,该组包括独立计算机、联网计算机、大型计算机、PDA、电话、微型计算机或微处理器、或与存储器结合使用处理器的任何其它计算机设备。计算机502的组件可包括,但不限于,一个或多个处理器或处理单元504(可选地包括加密处理器或协处理器)、系统存储器506、以及耦合包括处理器504和系统存储器506在内的各个系统组件的系统总线508。
系统总线508表示若干类型的总线结构中的一种或数种,包括存储器总线或存储器控制器、外围总线、加速图形端口、以及使用各种总线体系结构中的任何一种的处理器或局部总线。作为示例,此类体系结构可包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)局部总线、以及也称为Mezzanine总线的外围组件互连(PCI)总线。
计算机502通常包括各种计算机可读介质。这些介质可以是可由计算机502访问的任何可用介质,并包括易失性和非易失性、可移动和不可移动介质。
系统存储器506包括诸如只读存储器(ROM)512等非易失性存储器和/或诸如随机存取存储器(RAM)510等易失性存储器形式的计算机可读介质。包含诸如在启动期间帮助在计算机502内部各元件之间传递信息的基本例程的基本输入/输出系统(BIOS)514存储在ROM 512中。RAM 510通常包含可由处理单元504即时访问和/或正由其操作的数据和/或程序模块。
计算机502还可包括其它可移动/不可移动、易失性/非易失性计算机存储介质。作为示例,图6示出用于读和写不可移动、非易失性磁介质(未示出)的硬盘驱动器515,用于读和写可移动、非易失性磁盘520(例如,“软盘”)的磁盘驱动器518,以及用于读和/或写诸如CD-ROM、DVD-ROM或其它光介质等可移动、非易失性光盘524的光盘驱动器522。硬盘驱动器515、磁盘驱动器518和光盘驱动器522每一个都由一个或多个数据介质接口527连接到系统总线508。或者,硬盘驱动器515、磁盘驱动器518、以及光盘驱动器522可由一个或多个接口(未示出)连接到系统总线508。
各盘驱动器及其相关联的计算机可读介质为计算机502提供计算机可读指令、控制节点数据结构、程序模块以及其它数据的非易失性存储。尽管该例示出硬盘驱动器515内的硬盘、可移动磁盘520和非易失性光盘524,应当认识到,能存储可由计算机访问的数据的其它类型的计算机可读介质也可被用于实现示例性计算机环境500,诸如磁带盒或其它磁存储设备,闪存卡、CD-ROM、数字多功能盘(DVD)或其它光存储,随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM),等等。
可在硬盘驱动器515内所包含的硬盘、磁盘520、非易失性光盘524、ROM 512、和/或RAM 510上存储任何数量的程序模块,例如包括,OS 526、一个或多个应用程序528、其它程序模块530、以及程序数据532。OS 526、一个或多个应用程序528、其它程序模块530、以及程序数据532中的每一个(或其组合)可实现支持分布式文件系统的所有或部分常驻组件。
用户可经由诸如键盘534和定位设备536(例如,“鼠标”)等输入设备将命令和信息输入到计算机502中。其它输入设备538(未具体示出)可包括话筒、操纵杆、游戏垫、圆盘式卫星天线、串行端口、扫描仪和/或其它。这些及其它输入设备经由耦合到系统总线508的输入/输出接口540连接到处理单元504,但也可由诸如并行端口、游戏端口或通用串行总线(USB)等其它接口和总线结构连接。
监视器、平面显示器、或其它类型的计算机显示器200可经由诸如视频适配器544等接口连接到系统总线508。除了计算机显示器200以外,其它输出外围设备可包括诸如扬声器(未示出)和打印机546等组件,它们可经由输入/输出接口540连接到计算机502。
计算机502可使用到诸如远程计算机548等一个或多个远程计算机的逻辑连接在联网环境中工作。例如,远程计算机设备548可以是个人计算机、便携式计算机、服务器、路由器、网络计算机、对等设备、或其它普通网络节点、游戏控制台、等等。图示远程计算机设备548为可包括在本文中相对于计算机502所描述的许多或所有元件的便携式计算机。
计算机502和远程计算设备548之间的逻辑连接被示为局域网(LAN)550和一般广域网(WAN)552。此类网络环境常见于办公室、企业范围的计算机网络、内联网和因特网。
当在LAN网络环境中实现时,计算机502经由网络接口或适配器554连接到局域网550。当在WAN网络环境中实现时,计算机502通常包括调制解调器556或用于通过广域网552建立通信的其它装置。可以是内置或外置于计算机502的调制解调器556可经由输入/输出接口540或其它适当机制连接到系统总线508。应当认识到,所示网络连接是示例性的,并且可以使用在计算机502和548之间建立通信链路的其它装置。
在诸如以计算机环境500所示的联网环境中,相对于计算机502所描述的程序模块或其部分可存储在远程记忆存储设备中。作为示例,远程应用程序558驻留在远程计算机548的记忆设备上。为说明的目的,应用程序及诸如操作系统等其它可执行程序组件在本文中被示为离散的Web块,尽管可以认识到,这些程序和组件在各个时间驻留在计算机502的不同存储组件中,并由计算机502的数据处理器执行。可以认识到,所示出并描述的网络连接是示例性的,并且可以使用建立计算机之间的通信链路的其它装置。
本文中在一个或多个计算机或其它设备所执行的诸如程序模块等计算机可执行指令的通用上下文中描述各种模块和技术。一般而言,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、控制对象650、组件、控制节点数据结构654、等等。通常,在各实施例中可按需组合或分布各程序模块的功能。
这些模块和技术的一个实现可被存储在某种形式的计算机可读介质上,或可通过其发送。计算机可读介质可以是可由计算机访问的任何可用介质。作为示例,而非限制,计算机可读介质可包括“计算机存储介质”和“通信介质”、
“计算机存储介质”包括以用于存储诸如计算机可读指令、控制节点数据结构、程序模块或其它数据等信息的任何过程或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括,但不限于,RAM、ROM、EEPROM、闪存或其它存储器技术,CD-ROM、数字多功能盘(DVD)或其它光存储,磁带盒、磁带、磁盘存储或其它磁存储设备,或可用于存储所需信息并可由计算机访问的任何其它介质。
“通信介质”通常具体化为诸如载波或其它传输机制等已调制数据信号中的计算机可读指令、控制节点数据结构、程序模块或其它数据。通信介质还包括任何信息传递介质。术语“已调制数据信号”指以在信号中以将信息编码的方式设置或改变其一个或多个特征的信号。作为示例,而非限制,通信介质包括诸如有线网络或直接连线连接等有线介质,以及诸如声学、RF、红外和其它无线介质等无线介质。以上任何组合也被包括在计算机可读介质的范围之内。
尽管使用专属于结构和功能特征和/或方法的语言描述了系统、介质、方法、方式、过程等,但是应当理解,所附权利要求书中所定义的本发明不必被限制于所描述的具体特征或方法。相反,揭示这些具体特征和方法是将其作为实现要求保护的发明的示例性形式。

Claims (50)

1.一种装置,包括:
搜索多个数据存储位置的搜索工具,每个数据存储位置被安排成一个节点,某些节点由至少一个链接相连;以及
概念网络,它基于所述链接考虑所述多个节点中的某几个的一部分,其中,所述至少一个链接是用于内容的目的。
2.如权利要求1所述的装置,其特征在于,所述链接是用于导航的目的以及内容的目的。
3.如权利要求1所述的装置,其特征在于,所述概念网络显示所述多个节点中的某几个。
4.如权利要求1所述的装置,其特征在于,所述概念网络依靠域专属分类部分来选择所述多个节点中的某几个的一部分。
5.如权利要求4所述的装置,其特征在于,所述域专属分类部分从多个域专属数据存储位置选择输入。
6.如权利要求4所述的装置,其特征在于,所述域专属分类接收来自信息挖掘部分的输入。
7.如权利要求6所述的装置,其特征在于,所述信息挖掘部分是基于链接结构。
8.如权利要求1所述的装置,其特征在于,所述概念网络选择所述多个节点的某几个的一部分是依靠所述数据存储位置的结构。
9.如权利要求8所述的装置,其特征在于,所述结构是基于统一资源定位器(URL)。
10.如权利要求9所述的装置,其特征在于,所述URL获得多个数据存储位置的结构。
11.如权利要求1所述的装置,其特征在于,还包括合并数据存储位置。
12.如权利要求11所述的装置,其特征在于,所述合并是由万维网站结构合并工具执行的。
13.如权利要求11所述的装置,其特征在于,还包括万维网站结构分析器。
14.如权利要求13所述的装置,其特征在于,所述万维网站结构分析器包括超链接队列。
15.如权利要求13所述的装置,其特征在于,所述万维网站结构分析器包括万维网站爬寻器。
16.如权利要求13所述的装置,其特征在于,所述万维网站结构分析器包括HTML语法分析器。
17.如权利要求13所述的装置,其特征在于,所述万维网站结构分析器包括基于功能的对象模型(FOM)分析器。
18.如权利要求13所述的装置,其特征在于,所述万维网站结构分析器包括一超链接分析。
19.如权利要求1所述的装置,其特征在于,所述概念网络依赖于所述数据位置中已包含的结构。
20.如权利要求1所述的装置,其特征在于,所述概念网络利用互信息。
21.如权利要求1所述的装置,其特征在于,所述概念网络利用熵。
22.如权利要求1所述的装置,其特征在于,所述概念网络利用不同单词对之间的相似性。
23.如权利要求1所述的装置,其特征在于,所述数据存储位置包括万维网站。
24.如权利要求1所述的装置,其特征在于,所述概念网络包括三种关系,即,后代、祖先和兄弟。
25.一种装置,包括:
搜索多个数据存储位置的搜索工具,每个数据存储位置包括多个节点;以及概念网络,它基于所述多个节点的结构选择所述多个节点中的某几个的一部分。
26.如权利要求25所述的装置,其特征在于,所述多个数据存储位置的结构是基于所述数据存储位置的统一资源定位器(URL)而导出的。
27.如权利要求25所述的装置,其特征在于,所述概念网络基于Web合并选择所述多个节点中的某几个的一部分。
28.如权利要求25所述的装置,其特征在于,所述概念网络显示一种包括多个Web块的结构。
29.如权利要求25所述的装置,其特征在于,所述数据存储位置包括万维网页。
30.如权利要求25所述的装置,其特征在于,所述概念网络包括三种关系,即,后代、祖先和兄弟。
31.一种方法,包括:
接收对应于多个万维网页的多个统一资源定位器(URL);
分析所述多个URL以确定所述多个URL的内容;以及
基于经分析的所述多个URL,将多个Web块结构化为概念网络。
32.如权利要求31所述的方法,其特征在于,还包括显示所述概念网络。
33.如权利要求32所述的方法,其特征在于,还包括接收响应于所显示的概念网络的用户输入。
34.如权利要求31所述的方法,其特征在于,还包括基于所述URL确定特定链接是向上链接、向下链接、兄弟链接、还是交叉链接。
35.一种方法,包括:
考虑多个域专属万维网站;
通过分析所述多个域专属万维网站的相对内容导出域专属分类;以及
基于所述域专属分类规划概念网络。
36.如权利要求35所述的方法,其特征在于,所述域专属分类是基于信息挖掘而导出的。
37.如权利要求36所述的方法,其特征在于,所述信息挖掘是基于链接结构和内容。
38.如权利要求35所述的方法,其特征在于,所述概念网络是基于熵来规划的。
39.如权利要求35所述的方法,其特征在于,所述概念网络是基于互信息来规划的。
40.如权利要求35所述的方法,其特征在于,所述概念网络是基于相似性来规划的。
41.一种方法,包括:
生成概念网络,包括:
基于从用户提交的查询,分析关于多个万维网站的结构信息;
基于所述多个万维网站的结构信息,确定对“前N个”类型的查询的响应;以及
向用户返回涉及所确定的响应的信息。
42.如权利要求41所述的方法,其特征在于,所述结构信息是基于统一资源定位器(URL)。
43.如权利要求41所述的方法,其特征在于,所述结构信息是基于每个万维网页内的隐藏概念。
44.一种方法,包括:
生成概念网络,包括:
基于从用户提交的查询,分析关于多个数据存储位置的结构信息;
基于所述多个数据存储位置的结构信息,确定对相关性类型的查询的响应;以及
向用户返回涉及所确定的响应的信息。
45.如权利要求44所述的方法,其特征在于,所述结构信息是基于统一资源定位器(URL)。
46.如权利要求44所述的方法,其特征在于,所述结构信息是基于每个数据存储位置内的隐藏信息。
47.如权利要求44所述的方法,其特征在于,所述数据存储位置包括万维网页。
48.一种具有用于生成概念网络的计算机可执行指令的计算机可读介质,包括:
基于从用户提交的查询,分析关于多个万维网站的结构信息;
基于所述多个万维网站的结构信息,确定对相关性类型的查询的响应;以及向用户返回涉及所确定的响应的信息。
49.一种方法,包括:
通过以下动作自动导出域专属分类:
基于从用户提交的查询,分析关于多个数据存储位置的结构信息;
基于所述多个数据存储位置的结构信息,确定对相关性类型的查询的响应。
50.如权利要求49所述的方法,其特征在于,还包括使用所述域专属分类生成概念网络。
CNB2004800152121A 2003-05-01 2004-04-12 概念网络 Expired - Fee Related CN100476806C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/427,550 US7406459B2 (en) 2003-05-01 2003-05-01 Concept network
US10/427,550 2003-05-01

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CNA2008100815793A Division CN101256581A (zh) 2003-05-01 2004-04-12 概念网络

Publications (2)

Publication Number Publication Date
CN1799050A true CN1799050A (zh) 2006-07-05
CN100476806C CN100476806C (zh) 2009-04-08

Family

ID=33310182

Family Applications (2)

Application Number Title Priority Date Filing Date
CNA2008100815793A Pending CN101256581A (zh) 2003-05-01 2004-04-12 概念网络
CNB2004800152121A Expired - Fee Related CN100476806C (zh) 2003-05-01 2004-04-12 概念网络

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CNA2008100815793A Pending CN101256581A (zh) 2003-05-01 2004-04-12 概念网络

Country Status (7)

Country Link
US (2) US7406459B2 (zh)
EP (1) EP1618503A4 (zh)
JP (1) JP2006525601A (zh)
KR (1) KR20060017765A (zh)
CN (2) CN101256581A (zh)
TW (1) TW200502800A (zh)
WO (1) WO2004099901A2 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101840402A (zh) * 2009-03-18 2010-09-22 日电(中国)有限公司 从多语言网站构建多语言的对象层次结构的方法和系统
CN102129472A (zh) * 2011-04-14 2011-07-20 上海红神信息技术有限公司 面向语义搜索引擎的高效混合存储结构的构建方法

Families Citing this family (148)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6952691B2 (en) * 2002-02-01 2005-10-04 International Business Machines Corporation Method and system for searching a multi-lingual database
US7854009B2 (en) * 2003-06-12 2010-12-14 International Business Machines Corporation Method of securing access to IP LANs
US8014997B2 (en) * 2003-09-20 2011-09-06 International Business Machines Corporation Method of search content enhancement
US20050065774A1 (en) * 2003-09-20 2005-03-24 International Business Machines Corporation Method of self enhancement of search results through analysis of system logs
US7240049B2 (en) * 2003-11-12 2007-07-03 Yahoo! Inc. Systems and methods for search query processing using trend analysis
US20060230040A1 (en) * 2003-12-08 2006-10-12 Andy Curtis Methods and systems for providing a response to a query
US7181447B2 (en) * 2003-12-08 2007-02-20 Iac Search And Media, Inc. Methods and systems for conceptually organizing and presenting information
US7451131B2 (en) 2003-12-08 2008-11-11 Iac Search & Media, Inc. Methods and systems for providing a response to a query
US7243099B2 (en) * 2003-12-23 2007-07-10 Proclarity Corporation Computer-implemented method, system, apparatus for generating user's insight selection by showing an indication of popularity, displaying one or more materialized insight associated with specified item class within the database that potentially match the search
US8335753B2 (en) * 2004-11-03 2012-12-18 Microsoft Corporation Domain knowledge-assisted information processing
US7620628B2 (en) * 2004-12-06 2009-11-17 Yahoo! Inc. Search processing with automatic categorization of queries
US7685195B2 (en) * 2005-03-24 2010-03-23 Sas Institute Inc. Systems and methods for analyzing web site search terms
WO2006128183A2 (en) 2005-05-27 2006-11-30 Schwegman, Lundberg, Woessner & Kluth, P.A. Method and apparatus for cross-referencing important ip relationships
US7490289B2 (en) * 2005-06-09 2009-02-10 International Business Machines Corporation Depth indicator for a link in a document
US7739218B2 (en) * 2005-08-16 2010-06-15 International Business Machines Corporation Systems and methods for building and implementing ontology-based information resources
JP4756953B2 (ja) * 2005-08-26 2011-08-24 富士通株式会社 情報検索装置および情報検索方法
US20070083671A1 (en) * 2005-10-11 2007-04-12 International Business Machines Corporation Servlet filters to decode encoded request parameters
US11032017B2 (en) 2005-10-26 2021-06-08 Cortica, Ltd. System and method for identifying the context of multimedia content elements
US9477658B2 (en) 2005-10-26 2016-10-25 Cortica, Ltd. Systems and method for speech to speech translation using cores of a natural liquid architecture system
US9396435B2 (en) 2005-10-26 2016-07-19 Cortica, Ltd. System and method for identification of deviations from periodic behavior patterns in multimedia content
US11604847B2 (en) 2005-10-26 2023-03-14 Cortica Ltd. System and method for overlaying content on a multimedia content element based on user interest
US9747420B2 (en) 2005-10-26 2017-08-29 Cortica, Ltd. System and method for diagnosing a patient based on an analysis of multimedia content
US11361014B2 (en) 2005-10-26 2022-06-14 Cortica Ltd. System and method for completing a user profile
US9466068B2 (en) 2005-10-26 2016-10-11 Cortica, Ltd. System and method for determining a pupillary response to a multimedia data element
US8266185B2 (en) 2005-10-26 2012-09-11 Cortica Ltd. System and methods thereof for generation of searchable structures respective of multimedia data content
US10380623B2 (en) 2005-10-26 2019-08-13 Cortica, Ltd. System and method for generating an advertisement effectiveness performance score
US9953032B2 (en) 2005-10-26 2018-04-24 Cortica, Ltd. System and method for characterization of multimedia content signals using cores of a natural liquid architecture system
US8312031B2 (en) 2005-10-26 2012-11-13 Cortica Ltd. System and method for generation of complex signatures for multimedia data content
US10635640B2 (en) 2005-10-26 2020-04-28 Cortica, Ltd. System and method for enriching a concept database
US10698939B2 (en) 2005-10-26 2020-06-30 Cortica Ltd System and method for customizing images
US11620327B2 (en) 2005-10-26 2023-04-04 Cortica Ltd System and method for determining a contextual insight and generating an interface with recommendations based thereon
US8818916B2 (en) 2005-10-26 2014-08-26 Cortica, Ltd. System and method for linking multimedia data elements to web pages
US10180942B2 (en) 2005-10-26 2019-01-15 Cortica Ltd. System and method for generation of concept structures based on sub-concepts
US10848590B2 (en) 2005-10-26 2020-11-24 Cortica Ltd System and method for determining a contextual insight and providing recommendations based thereon
US10535192B2 (en) 2005-10-26 2020-01-14 Cortica Ltd. System and method for generating a customized augmented reality environment to a user
US9031999B2 (en) 2005-10-26 2015-05-12 Cortica, Ltd. System and methods for generation of a concept based database
US10191976B2 (en) 2005-10-26 2019-01-29 Cortica, Ltd. System and method of detecting common patterns within unstructured data elements retrieved from big data sources
US10614626B2 (en) 2005-10-26 2020-04-07 Cortica Ltd. System and method for providing augmented reality challenges
US9767143B2 (en) 2005-10-26 2017-09-19 Cortica, Ltd. System and method for caching of concept structures
US9558449B2 (en) 2005-10-26 2017-01-31 Cortica, Ltd. System and method for identifying a target area in a multimedia content element
US9256668B2 (en) 2005-10-26 2016-02-09 Cortica, Ltd. System and method of detecting common patterns within unstructured data elements retrieved from big data sources
US10360253B2 (en) 2005-10-26 2019-07-23 Cortica, Ltd. Systems and methods for generation of searchable structures respective of multimedia data content
US10585934B2 (en) 2005-10-26 2020-03-10 Cortica Ltd. Method and system for populating a concept database with respect to user identifiers
US11216498B2 (en) 2005-10-26 2022-01-04 Cortica, Ltd. System and method for generating signatures to three-dimensional multimedia data elements
US8326775B2 (en) 2005-10-26 2012-12-04 Cortica Ltd. Signature generation for multimedia deep-content-classification by a large-scale matching system and method thereof
US10621988B2 (en) 2005-10-26 2020-04-14 Cortica Ltd System and method for speech to text translation using cores of a natural liquid architecture system
US10380267B2 (en) 2005-10-26 2019-08-13 Cortica, Ltd. System and method for tagging multimedia content elements
US9529984B2 (en) 2005-10-26 2016-12-27 Cortica, Ltd. System and method for verification of user identification based on multimedia content elements
US10193990B2 (en) 2005-10-26 2019-01-29 Cortica Ltd. System and method for creating user profiles based on multimedia content
US9372940B2 (en) 2005-10-26 2016-06-21 Cortica, Ltd. Apparatus and method for determining user attention using a deep-content-classification (DCC) system
US10691642B2 (en) 2005-10-26 2020-06-23 Cortica Ltd System and method for enriching a concept database with homogenous concepts
US11003706B2 (en) 2005-10-26 2021-05-11 Cortica Ltd System and methods for determining access permissions on personalized clusters of multimedia content elements
US11403336B2 (en) 2005-10-26 2022-08-02 Cortica Ltd. System and method for removing contextually identical multimedia content elements
US7627548B2 (en) * 2005-11-22 2009-12-01 Google Inc. Inferring search category synonyms from user logs
US20070198504A1 (en) * 2006-02-23 2007-08-23 Microsoft Corporation Calculating level-based importance of a web page
US7853555B2 (en) * 2006-04-19 2010-12-14 Raytheon Company Enhancing multilingual data querying
US7991608B2 (en) * 2006-04-19 2011-08-02 Raytheon Company Multilingual data querying
KR100852174B1 (ko) * 2006-05-23 2008-08-13 한국전자통신연구원 계층적 분류에 의한 정보 표시 방법 및 장치
WO2008108857A1 (en) * 2006-06-05 2008-09-12 Askmenow System for presentation of content and advertising in wireless internet-enabled mobile device
US10733326B2 (en) 2006-10-26 2020-08-04 Cortica Ltd. System and method for identification of inappropriate multimedia content
US7822734B2 (en) * 2006-12-12 2010-10-26 Yahoo! Inc. Selecting and presenting user search results based on an environment taxonomy
WO2008076438A1 (en) * 2006-12-18 2008-06-26 Mind Fund Llc Augmenting individual and collective human thinking and knowledge navigation and creation
NZ578672A (en) * 2006-12-29 2012-08-31 Thomson Reuters Glo Resources Information-retrieval systems, methods, and software with concept-based searching and ranking
US8473845B2 (en) * 2007-01-12 2013-06-25 Reazer Investments L.L.C. Video manager and organizer
US7844602B2 (en) * 2007-01-19 2010-11-30 Healthline Networks, Inc. Method and system for establishing document relevance
JP2008204444A (ja) * 2007-01-23 2008-09-04 Just Syst Corp データ処理装置、データ処理方法及び検索装置
US7890549B2 (en) * 2007-04-30 2011-02-15 Quantum Leap Research, Inc. Collaboration portal (COPO) a scaleable method, system, and apparatus for providing computer-accessible benefits to communities of users
US7904461B2 (en) * 2007-05-01 2011-03-08 Google Inc. Advertiser and user association
US20090112865A1 (en) * 2007-10-26 2009-04-30 Vee Erik N Hierarchical structure entropy measurement methods and systems
US7987194B1 (en) 2007-11-02 2011-07-26 Google Inc. Targeting advertisements based on cached contents
US10733223B2 (en) * 2008-01-08 2020-08-04 International Business Machines Corporation Term-driven records file plan and thesaurus design
US8326847B2 (en) * 2008-03-22 2012-12-04 International Business Machines Corporation Graph search system and method for querying loosely integrated data
KR100987330B1 (ko) * 2008-05-21 2010-10-13 성균관대학교산학협력단 사용자 웹 사용 정보에 기반한 멀티 컨셉 네트워크 생성시스템 및 방법
CN101615178B (zh) * 2008-06-26 2013-01-09 日电(中国)有限公司 用于建立对象层次结构的方法和系统
US8180771B2 (en) 2008-07-18 2012-05-15 Iac Search & Media, Inc. Search activity eraser
US20100131513A1 (en) 2008-10-23 2010-05-27 Lundberg Steven W Patent mapping
US20100211533A1 (en) * 2009-02-18 2010-08-19 Microsoft Corporation Extracting structured data from web forums
US9171077B2 (en) * 2009-02-27 2015-10-27 International Business Machines Corporation Scaling dynamic authority-based search using materialized subgraphs
US20100274807A1 (en) * 2009-04-23 2010-10-28 Frank John Williams Method and system for representing information
US8185432B2 (en) 2009-05-08 2012-05-22 Sas Institute Inc. Computer-implemented systems and methods for determining future profitability
US8150843B2 (en) 2009-07-02 2012-04-03 International Business Machines Corporation Generating search results based on user feedback
US9430521B2 (en) * 2009-09-30 2016-08-30 Microsoft Technology Licensing, Llc Query expansion through searching content identifiers
JP2011118770A (ja) * 2009-12-04 2011-06-16 Sony Corp 情報処理装置、情報処理方法、プログラムおよび情報処理システム
US8577915B2 (en) * 2010-09-10 2013-11-05 Veveo, Inc. Method of and system for conducting personalized federated search and presentation of results therefrom
CN102063468B (zh) * 2010-12-03 2014-04-16 百度在线网络技术(北京)有限公司 一种用于确定查询序列的查询类别的设备及其方法
JP5969502B2 (ja) * 2011-01-05 2016-08-17 プライマル フュージョン インコーポレイテッド 1人以上のユーザに関心ある情報を提供する方法及び装置
US9904726B2 (en) 2011-05-04 2018-02-27 Black Hills IP Holdings, LLC. Apparatus and method for automated and assisted patent claim mapping and expense planning
US9621406B2 (en) 2011-06-30 2017-04-11 Amazon Technologies, Inc. Remote browsing session management
US8577963B2 (en) 2011-06-30 2013-11-05 Amazon Technologies, Inc. Remote browsing session between client browser and network based browser
US8706860B2 (en) 2011-06-30 2014-04-22 Amazon Technologies, Inc. Remote browsing session management
US8799412B2 (en) 2011-06-30 2014-08-05 Amazon Technologies, Inc. Remote browsing session management
US9037696B2 (en) 2011-08-16 2015-05-19 Amazon Technologies, Inc. Managing information associated with network resources
US9195768B2 (en) 2011-08-26 2015-11-24 Amazon Technologies, Inc. Remote browsing session management
US10089403B1 (en) 2011-08-31 2018-10-02 Amazon Technologies, Inc. Managing network based storage
US9152970B1 (en) 2011-09-27 2015-10-06 Amazon Technologies, Inc. Remote co-browsing session management
US10693991B1 (en) 2011-09-27 2020-06-23 Amazon Technologies, Inc. Remote browsing session management
US9178955B1 (en) 2011-09-27 2015-11-03 Amazon Technologies, Inc. Managing network based content
US9298843B1 (en) 2011-09-27 2016-03-29 Amazon Technologies, Inc. User agent information management
US8589385B2 (en) 2011-09-27 2013-11-19 Amazon Technologies, Inc. Historical browsing session management
US9641637B1 (en) 2011-09-27 2017-05-02 Amazon Technologies, Inc. Network resource optimization
US8849802B2 (en) 2011-09-27 2014-09-30 Amazon Technologies, Inc. Historical browsing session management
US9383958B1 (en) 2011-09-27 2016-07-05 Amazon Technologies, Inc. Remote co-browsing session management
US8914514B1 (en) 2011-09-27 2014-12-16 Amazon Technologies, Inc. Managing network based content
US8615431B1 (en) 2011-09-29 2013-12-24 Amazon Technologies, Inc. Network content message placement management
US9940363B2 (en) 2011-10-03 2018-04-10 Black Hills Ip Holdings, Llc Systems, methods and user interfaces in a patent management system
US9313100B1 (en) 2011-11-14 2016-04-12 Amazon Technologies, Inc. Remote browsing session management
US8972477B1 (en) 2011-12-01 2015-03-03 Amazon Technologies, Inc. Offline browsing session management
US9009334B1 (en) 2011-12-09 2015-04-14 Amazon Technologies, Inc. Remote browsing session management
US9117002B1 (en) 2011-12-09 2015-08-25 Amazon Technologies, Inc. Remote browsing session management
JP5893050B2 (ja) 2011-12-19 2016-03-23 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation ソーシャル・メデイアにおけるコミュニティを検出する方法、コンピュータ・プログラム、コンピュータ
US9330188B1 (en) 2011-12-22 2016-05-03 Amazon Technologies, Inc. Shared browsing sessions
US8839087B1 (en) 2012-01-26 2014-09-16 Amazon Technologies, Inc. Remote browsing and searching
US9087024B1 (en) 2012-01-26 2015-07-21 Amazon Technologies, Inc. Narration of network content
US9336321B1 (en) 2012-01-26 2016-05-10 Amazon Technologies, Inc. Remote browsing and searching
US9092405B1 (en) * 2012-01-26 2015-07-28 Amazon Technologies, Inc. Remote browsing and searching
US9509783B1 (en) 2012-01-26 2016-11-29 Amazon Technlogogies, Inc. Customized browser images
US8627195B1 (en) * 2012-01-26 2014-01-07 Amazon Technologies, Inc. Remote browsing and searching
US9183258B1 (en) 2012-02-10 2015-11-10 Amazon Technologies, Inc. Behavior based processing of content
US9037975B1 (en) 2012-02-10 2015-05-19 Amazon Technologies, Inc. Zooming interaction tracking and popularity determination
US9137210B1 (en) 2012-02-21 2015-09-15 Amazon Technologies, Inc. Remote browsing session management
US9374244B1 (en) 2012-02-27 2016-06-21 Amazon Technologies, Inc. Remote browsing session management
US9208316B1 (en) 2012-02-27 2015-12-08 Amazon Technologies, Inc. Selective disabling of content portions
US10296558B1 (en) 2012-02-27 2019-05-21 Amazon Technologies, Inc. Remote generation of composite content pages
US9356949B2 (en) 2012-02-29 2016-05-31 Hewlett Packard Enterprise Development Lp Network service interface analysis
US9286391B1 (en) 2012-03-19 2016-03-15 Amazon Technologies, Inc. Clustering and recommending items based upon keyword analysis
US9460220B1 (en) 2012-03-26 2016-10-04 Amazon Technologies, Inc. Content selection based on target device characteristics
US9307004B1 (en) 2012-03-28 2016-04-05 Amazon Technologies, Inc. Prioritized content transmission
US9159056B2 (en) * 2012-07-10 2015-10-13 Spigit, Inc. System and method for determining the value of a crowd network
US20140040233A1 (en) * 2012-07-31 2014-02-06 Mehmet Kivanc Ozonat Organizing content
US9772979B1 (en) 2012-08-08 2017-09-26 Amazon Technologies, Inc. Reproducing user browsing sessions
US8943197B1 (en) 2012-08-16 2015-01-27 Amazon Technologies, Inc. Automated content update notification
CN103729768B (zh) * 2012-10-15 2018-10-19 北京京东尚科信息技术有限公司 一种电子交易信息处理方法和装置
US9578137B1 (en) 2013-06-13 2017-02-21 Amazon Technologies, Inc. System for enhancing script execution performance
US10152463B1 (en) 2013-06-13 2018-12-11 Amazon Technologies, Inc. System for profiling page browsing interactions
US10545938B2 (en) 2013-09-30 2020-01-28 Spigit, Inc. Scoring members of a set dependent on eliciting preference data amongst subsets selected according to a height-balanced tree
KR102244298B1 (ko) * 2014-04-30 2021-04-23 삼성전자주식회사 의미를 기반으로 웹 페이지 접근 기록을 구조화하는 장치 및 방법
US9635041B1 (en) 2014-06-16 2017-04-25 Amazon Technologies, Inc. Distributed split browser content inspection and analysis
JP6900190B2 (ja) * 2016-01-14 2021-07-07 キヤノン株式会社 認識学習装置、認識学習方法及びプログラム
US9721026B1 (en) 2016-07-27 2017-08-01 Searchmetrics Gmbh Systems for topic exploration and related methods
CN107402766B (zh) * 2017-07-31 2020-08-04 武汉斗鱼网络科技有限公司 页面布局管理方法及装置
US10726095B1 (en) 2017-09-26 2020-07-28 Amazon Technologies, Inc. Network content layout using an intermediary system
US10664538B1 (en) 2017-09-26 2020-05-26 Amazon Technologies, Inc. Data security and data access auditing for network accessible content
US10997259B2 (en) * 2017-10-06 2021-05-04 Realpage, Inc. Concept networks and systems and methods for the creation, update and use of same in artificial intelligence systems
JP6435467B1 (ja) * 2018-03-05 2018-12-12 株式会社テンクー 検索システム及び検索システムの動作方法
KR20200094853A (ko) 2019-01-25 2020-08-10 삼성전자주식회사 전자 장치 및 이의 제어 방법
US11829417B2 (en) 2019-02-05 2023-11-28 Microstrategy Incorporated Context-based customization using semantic graph data
US11625426B2 (en) 2019-02-05 2023-04-11 Microstrategy Incorporated Incorporating opinion information with semantic graph data
US20220277019A1 (en) * 2021-02-26 2022-09-01 Micro Focus Llc Displaying query results using machine learning model-determined query results visualizations

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6182062B1 (en) 1986-03-26 2001-01-30 Hitachi, Ltd. Knowledge based information retrieval system
US6286002B1 (en) 1996-01-17 2001-09-04 @Yourcommand System and method for storing and searching buy and sell information of a marketplace
US6098081A (en) * 1996-05-06 2000-08-01 Microsoft Corporation Hypermedia navigation using soft hyperlinks
JP4481370B2 (ja) * 1996-05-06 2010-06-16 アドビ システムズ, インコーポレイテッド インターネットハイパーリンクドラッグ及びドロップ
US5842206A (en) * 1996-08-20 1998-11-24 Iconovex Corporation Computerized method and system for qualified searching of electronically stored documents
US5870559A (en) 1996-10-15 1999-02-09 Mercury Interactive Software system and associated methods for facilitating the analysis and management of web sites
US6389436B1 (en) * 1997-12-15 2002-05-14 International Business Machines Corporation Enhanced hypertext categorization using hyperlinks
AU5233099A (en) * 1998-07-24 2000-02-14 Jarg Corporation Search system and method based on multiple ontologies
US6356910B1 (en) * 1998-08-07 2002-03-12 Paul Zellweger Method and apparatus for a self-service content menu
US6385579B1 (en) * 1999-04-29 2002-05-07 International Business Machines Corporation Methods and apparatus for forming compound words for use in a continuous speech recognition system
US6691108B2 (en) * 1999-12-14 2004-02-10 Nec Corporation Focused search engine and method
US7376635B1 (en) * 2000-07-21 2008-05-20 Ford Global Technologies, Llc Theme-based system and method for classifying documents
US6823491B1 (en) * 2000-08-31 2004-11-23 International Business Machines Corporation System and method for a dynamically integrated search engine
US20030020749A1 (en) * 2001-07-10 2003-01-30 Suhayya Abu-Hakima Concept-based message/document viewer for electronic communications and internet searching

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101840402A (zh) * 2009-03-18 2010-09-22 日电(中国)有限公司 从多语言网站构建多语言的对象层次结构的方法和系统
CN101840402B (zh) * 2009-03-18 2014-05-07 日电(中国)有限公司 从多语言网站构建多语言的对象层次结构的方法和系统
CN102129472A (zh) * 2011-04-14 2011-07-20 上海红神信息技术有限公司 面向语义搜索引擎的高效混合存储结构的构建方法
CN102129472B (zh) * 2011-04-14 2012-12-19 上海红神信息技术有限公司 面向语义搜索引擎的高效混合存储结构的构建方法

Also Published As

Publication number Publication date
US8065298B2 (en) 2011-11-22
EP1618503A2 (en) 2006-01-25
TW200502800A (en) 2005-01-16
CN101256581A (zh) 2008-09-03
EP1618503A4 (en) 2009-10-21
WO2004099901A3 (en) 2005-10-06
US7406459B2 (en) 2008-07-29
CN100476806C (zh) 2009-04-08
WO2004099901A2 (en) 2004-11-18
US20080281821A1 (en) 2008-11-13
KR20060017765A (ko) 2006-02-27
US20040220905A1 (en) 2004-11-04
JP2006525601A (ja) 2006-11-09

Similar Documents

Publication Publication Date Title
CN1799050A (zh) 概念网络
Zhang et al. Understanding web query interfaces: Best-effort parsing with hidden syntax
US10896212B2 (en) System and methods for automating trademark and service mark searches
Nie et al. Query expansion based on crowd knowledge for code search
US10565533B2 (en) Systems and methods for similarity and context measures for trademark and service mark analysis and repository searches
US9519464B2 (en) Code recommendation
US7849081B1 (en) Document analyzer and metadata generation and use
CN1629833A (zh) 实现问与答功能和计算机辅助写作的方法及装置
Nguyen et al. Learning to extract form labels
CN104133877B (zh) 软件标签的生成方法和装置
CN1517914A (zh) 结构化文件的检索
US8489643B1 (en) System and method for automated content aggregation using knowledge base construction
CN1568469A (zh) 用于信息检索的分层数据驱动导航系统及方法
JP2006522382A (ja) 検索エンジンで登録されたウェブサイトを管理するための方法およびそのシステム
Ru et al. Indexing the invisible web: a survey
Wei et al. Building bing developer assistant
CN103226601B (zh) 一种图片搜索的方法和装置
Kolthoff et al. Data-driven prototyping via natural-language-based GUI retrieval
JP2009205588A (ja) ページ検索システム及びプログラム
Gupta et al. Search bot: Search intention based filtering using decision tree based technique
JP2006529044A (ja) 定義付けシステムおよび方法
Frankel et al. Machine learning approaches for authorship attribution using source code stylometry
De Virgilio et al. A reverse engineering approach for automatic annotation of Web pages
JP2008269106A (ja) スキーマ抽出方法、情報処理装置、コンピュータプログラム及び記録媒体
JP5696555B2 (ja) プログラム及び情報処理装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150508

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150508

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington State

Patentee before: Microsoft Corp.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090408

Termination date: 20200412