CN101866347A - 对结构化数据进行搜索的方法、系统以及使数据项结构化及可搜索的方法、系统 - Google Patents

对结构化数据进行搜索的方法、系统以及使数据项结构化及可搜索的方法、系统 Download PDF

Info

Publication number
CN101866347A
CN101866347A CN201010156907A CN201010156907A CN101866347A CN 101866347 A CN101866347 A CN 101866347A CN 201010156907 A CN201010156907 A CN 201010156907A CN 201010156907 A CN201010156907 A CN 201010156907A CN 101866347 A CN101866347 A CN 101866347A
Authority
CN
China
Prior art keywords
attribute
data item
search
attributes
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201010156907A
Other languages
English (en)
Other versions
CN101866347B (zh
Inventor
宾杜·雷迪
乔纳森·布伦斯曼
宁·莫斯贝格尔
戈拉夫·拉温德拉·布哈亚
萨拉·西拉杰丁
大卫·卡莱
珍妮弗·L·克森斯基
阿尔文德·孙达瑞拉简
普涅特·阿加瓦尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN101866347A publication Critical patent/CN101866347A/zh
Application granted granted Critical
Publication of CN101866347B publication Critical patent/CN101866347B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/972Access to data in other repository systems, e.g. legacy data or dynamic Web page generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/164File meta data generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data

Abstract

本发明涉及对结构化数据进行搜索的方法、系统以及使数据项结构化及可搜索的方法、系统。通过指定用来进一步过滤查询结果的标签或属性值,用户能够改善对结构化数据的搜索。

Description

对结构化数据进行搜索的方法、系统以及使数据项结构化及可搜索的方法、系统
相关申请
依据美国专利法第35号第119条(e)款(35U.S.C.§119(e)),本申请以申请号为11/257,282的美国实用申请为优先权,其标题为“对结构化数据的搜索”,由Reddy等人于2005年10月23日提出申请。本申请与申请号为11/256,883的美国申请有关,其标题为“向结构化数据添加属性及标签”,由Reddy等人于2005年10月23日提出申请,通过引用将其结合于此。
背景技术
常规搜索引擎能够搜索非常巨大的信息集合,诸如万维网或极其巨大的数据库。当所搜索的数据集合的规模增长时,常规搜索引擎不再足够来正确地返回与用户输入的查询词相匹配的查询结果。替代地,需要提供机制来帮助用户拣选从搜索返回的大量数据。
当前几个常规搜索引擎使用不同的方法来组织在搜索结果中返回的数据。
此种组织方法的目的是判定哪个搜索结果将使用户发生最大兴趣。常规搜索引擎通常使用多种技术来以优先顺序排列搜索结果,但是这些技术不理想,因为其必须对用户正搜索的信息的类型做出假设。例如,如果用户输入“工作”,他可能是搜索工作公告、史蒂夫乔布(Steve Jobs)的信息、特定国家的工作统计量、或许多其它项。因此,当使用常规搜索引擎时,用户不能仅输入“工作”作为查询词。用户也很可能输入另外的查询词以缩小搜索范围。遗憾的是,用户也可能错过不包含缩小词的相关收录。
当前,对可能存储在万维网上或不存储在万维网上的不同类型的数据进行搜索是困难的。通常常规搜索引擎对仅仅来自少数源的数据进行操作。例如,基于网络的搜索引擎传统上允许用户搜索在万维网上的页面。网络搜索引擎常常具有对信息集合进行索引以使其可搜索的“后台(back-end)”。例如,基于网络的搜索引擎周期性地爬行(crawl)万维网并且创建所爬行的页面以及站点的索引。其它搜索引擎允许用户搜索现有的数据库。此种搜索引擎依赖于数据库的预先确定的组织。例如,如果数据库具有已知字段以及属性,用户就能够在其属性内搜索。例如,XML数据库仅接受格式完好(well-formed)的XML输入。如果被搜索的数据不是如此组织的,一般XML数据库不能接受该数据或不能组织该数据以用于搜索。
其它搜索引擎允许用户搜索数据库或搜索具有扁平式组织的文本文档。此种搜索引擎必须知道关于数据库的组织以及在数据库内的文档的组织。存储数据的位置的多样性以及存储数据的格式的多样性,意味着用户必须经常在多个数据库中的多个位置搜索以找到其需要的信息。
所需要的是,可以通过基于网络的搜索引擎来搜索文档集合,以及因而多数人可容易地访问所述文档集合,同时所述文档集合包含了各种类型的文档以及数据格式。此外,如果以能够帮助用户对其搜索进行微调的方法来组织可搜索的文档集合,这将也是所需要的。
发明内容
所描述的本发明实施例将标签以及属性值与待搜索的数据项相关联。提供者能够将属性以及标签与它们的数据相关联,或能够向现有数据添加属性以及标签。优选实施例允许内容提供者对项附上其自定义的标签以及属性,或使用预先定义的标签以及属性。提供者能够使用用户接口或批量上载机构来上载数据。通过指定将标签或属性值用于进一步过滤查询结果,用户能够改善搜索。
附图说明
通过考虑下列与附图相结合的详细描述,能够容易地理解本发明的教导。在附图中相同的标记表示相同的部分。
图1(a)是示出了根据本发明优选实施例的数据处理系统的框图。
图1(b)是示出了根据本发明优选实施例的另一个数据处理系统的框图。
图1(c)是根据本发明优选实施例的体系结构图。
图2(a)是示出了根据本发明优选实施例的创建可搜索的数据项集合的概述的流程图。
图2(b)是示出了根据本发明优选实施例的搜索文档集合以及改善搜索的概述的流程图。
图3(a)是示出了从数据项集合提取标签以及属性的方法的流程图。
图3(b)是示出了接收查询词以及显示查询结果的方法的流程图。
图3(c)是示出了对于给定的查询结果确定显示哪个属性的方法的流程图。
图3(d)是示出了允许用户使用标签和/或属性值来改善所显示的查询结果的方法的流程图。
图3(e)示出了周期性执行的方法,该方法确定任何新的、提供者所提供的属性是否应该被添加到信息类型的核心属性。
图4(a)是搜索引擎以及由用户输入的查询词的实例截屏。
图4(b)是示出了来自图4(a)的查询的查询结果,并且也示出了与对查询词的查询结果有关的标签以及属性的实例截屏。
图4(c)-4(g)是示出了另外的属性和标签以及用户如何使用属性和/或标签来缩小其搜索范围的实例截屏。
图5(a)示出了用于为可搜索的数据集合存储属性以及标签的数据格式。
图5(b)示出了使用图5(a)的格式存储属性的实例。
图5(c)示出了使用图5(a)的格式存储标签的实例。
图5(d)示出了将信息类型映射到其属性的实例数据结构。
图5(e)示出了信息类型的实例,所述信息类型被映射到用于该信息类型的一些实例属性。
图6(a)-6(e)是示出了允许提供者编辑以及向系统输入数据的用户界面的实例截屏。
图7是示出了用于注册批量上载文件的用户界面的实例截屏。
图8(a)-8(d)示出了提供者是如何完成数据以及属性值的批量上载的。
描述本发明实施例的附图仅用于图示的目的。本领域的普通技术人员将易于从以下论述认识到可以使用在此所图示的结构以及方法的替选实施例,而不会偏离在此所描述的发明的原理。
具体实施方式
以下段落描述了根据本发明的进行上载以及搜索结构化数据的系统的不同实施例。
图1(a)是示出了根据本发明优选实施例的数据处理系统的框图100。图1(a)包括多个客户机数据处理系统110a...110n、网络130、以及服务器数据处理系统120。在图中,实例用户数据处理系统110a包括处理器140、浏览器150、以及存储器160。用户数据处理系统100或其组件可以是任何适当的数据处理系统,其包括但不局限于个人计算机、有线网络计算机、无线网络计算机、移动电话或包含移动电话的装置、手持式装置、瘦客户机装置、以上的一些组合等等。网络130可以是允许在一个或多个用户数据处理系统110以及服务器数据处理系统120之间通信的任何网络。例如,网络130可以是但不局限于因特网、LAN、以及WAN、有线网络、无线网络、移动电话网络、传输文本消息的网络、以上的一些组合。
在本发明的优选实施例中,用户数据处理系统110a包括在存储器160中的浏览器软件150,由处理器140执行该浏览器软件来允许用户与服务器系统120通信。如下述详细描述的,此种浏览器150允许用户与服务器数据处理系统120通信来发送查询词到服务器数据处理系统120,以及从系统120接收查询结果。如下述进一步描述,浏览器150允许用户接收与查询结果相关联的标签以及属性,以及使用标签以及属性进一步限定查询结果。虽然在此所论述的实施例是基于浏览器的,但是本发明不局限于基于浏览器的搜索,并且可以使用任何适当的用于在用户110和服务器120之间通信的机构,而不会偏离本发明的精神和范围。
在此所论述的所有软件以及计算机可执行指令中的一些能够作为计算机程序产品被存储在计算机可读介质上,其包括但不局限于:数据处理系统的存储器、CD ROM、闪存、软盘、或能够在网络上或在系统组件间作为信号来传输的。
服务器数据处理系统120包括处理器170,其执行搜索和查询引擎软件185来使服务器系统120能够为查询词搜索结构化数据集合190。(搜索和查询引擎185也被称为“搜索引擎”)。一个结构化数据的实例是字段化数据,即每个数据项具有一个或多个数据字段(诸如名称、地址、状态等等)。
存储器180也包括属性储存库195,其为结构化数据190中的一些或所有数据项存储属性(以及标签)。储存库将连同图5在以下论述。虽然将储存库195作为结构化数据集合190的一部分来示出,但是也可以将储存库195从数据集合190中分离。
搜索引擎185、储存库195、以及结构化数据集合190都在图1(a)中显示为存在于单一存储器180内,尽管可以以多种方法存储巨大的搜索引擎以及巨大的数据集合,所述方法包括但不局限于分布式数据处理系统、协同数据处理系统、网络数据处理系统等等。搜索引擎185可以是软件、硬件、固件、或任何上述的结合。
在优选实施例中,通过一个或多个用户系统110由用户输入查询词并且通过网络130将查询词传输到服务器数据处理系统120。由服务器120使用以接收、索引、以及搜索数据集合的方法的细节将在此详细论述。
图1(b)是示出了根据本发明优选实施例的另一的数据处理系统的框图111。在图1(b)中,用户在其机器110上存储个人数据集合190。预计个人搜索引擎将访问并且组织该数据来使其可被用户以及可能被在网络130上的其它用户所搜索。此种系统也允许将数据库以及其它类型的数据集合添加到可搜索的文档池,该文档池可被中央搜索引擎访问。
在图1(b)的实施例中,数据集合190被存储在用户的数据处理系统110或企业服务器上(未示出),并且可以使其对所选择的一组个人或个体来说是可用的,诸如仅对用户、仅对用户的一较小子集、或对所有知道怎样访问数据集合190的用户。在此种情况中,如在此所描述的,通过属性以及标签对搜索进行过滤的能力可以是个人搜索引擎185的一部分,所述个人搜索引擎本地地运行于计算机上或本地计算机网络上。例如,可从加州山景城的谷歌公司获得的谷歌桌面搜索工具是一个运行于用户的桌面并且对在其个人计算机上的数据进行索引的搜索工具。结合了本发明的谷歌桌面搜索的实施将给予用户搜索数据库以及搜索存储在其桌面或可从其桌面访问的其它类型数据集合的能力。
结合本发明的谷歌桌面搜索的实施也将给予用户以有用的属性以及标签来组织其数据的能力。例如,大学图书馆能够使其所有的在线收集品对该大学的学生、全体教员、毕业生都是可用的。在此种情况中,信息将不会在公开可用的服务器上,而是将被存储在大学的服务器中,并且将仅对大学数据提供者所准许访问的那些人(以及程序)来说是可访问并且可搜索的。在实例中,大学也将能够控制哪个提供者具有向数据集合添加的能力。
图1(c)是根据本发明优选实施例的体系结构图131。在所描述的实施例中,提供者能够使用向系统输入数据以及属性的三种方法中的一个或多个。面向提供者的前台132(例如见图6(b))允许提供者使用用户界面输入数据项以及属性,也正是为了此种目的而提供用户界面。提供者也能够执行数据项的批量上载133(例如见图8(a)-8(d))。提供者也能够从特定的URL(例如使用FTP)上载134项。搜索和查询引擎185对在数据集合190中的项进行索引,所述数据集合优选地包括所输入的所述数据项的属性以及属性值,以生成所有数据的索引137。搜索引擎185也允许用户输入查询(例如见图4(a))。系统也包括应用程序接口(API)来允许软件程序通过搜索引擎185查询数据。
图2(a)是示出了根据本发明优选实施例的创建可搜索的数据项集合的概述的流程图200。如以下结合图6(a)-6(e)以及图8(a)-8(d)所讨论的,服务器120接收202数据项集合。数据能够作为标准web爬行的结果而被接收,或能够由一个或多个想要其数据成为可搜索的提供者所提供。所接收的数据项集合被处理来提取如以下所描述的标签、属性、以及属性值,并且所述标签、属性、以及属性值与各种信息类型相关联。在某些环境中,用户将为一些或所有所输入的数据提供属性名称和/或属性值。作为一个实例,用户可以上载其已经创建的用于保存医学期刊集合的数据库。该用户可能已经用诸如“期刊”、“发行年”、“期刊名称”的反映属性名称的值对这些期刊指定了属性。该用户也可以为每一期刊输入零个或更多标签,诸如“医学”、“牙科”、“来自哈佛”等等。标签是一种特殊的属性(也被称为无值标记(valueless tag)),其不具有与其相关联的值。元素204的细节将结合图3(a)来论述。
图2(b)是示出了根据本发明优选实施例的搜索文档集合以及改善搜索的概述的流程图210。在所描述的实施例中,用户输入212一个或多个查询词(诸如在图4(a)截屏400中的“癌受体”402)。
在某些实施例中,用户也可以输入属性名称以及值作为键入区域402的查询的一部分。例如用户可以将以下内容键入区域402:
癌受体属性(期刊类型:医学)
设想用户知道查询结果中的一些项具有命名为期刊类型的属性,但是该属性不是属性核心集的一部分,并且用户想要仅返回医学期刊。
系统确定213查询结果,如结合图3(b)在以下更为详细地讨论查询结果。在一些实施例中,在此点显示213查询结果。在其它实施例中,则不会显示查询结果,但是作为替代的是,要求用户通过选择对查询词特定的标签和/或属性来进一步改善其搜索。例如如图3(d)中所示出的,用户通过指定标签以及属性能够改善其搜索214。
图3(a)是示出了从数据项集合提取标签以及属性的方法的流程图300。该方法是用来组织数据集合以使得数据集合能够被搜索的建立过程的一部分。
一旦数据项被接收,对每个具有信息类型的数据项,系统为该信息类型确定304标签以及属性。属性是名称/值对,具有名称,诸如“期刊”,然后其具有一个或多个可能的期刊名称的值。
在优选实施例中,属性以及标签是由数据提供者指定。从而,确定属性仅仅是识别用户所提供的属性以及标签。
在某些情况中,数据提供者不会为其的项指定属性以及标签。例如,如果该项是由web爬行器定位的网页,网页所有者不会有机会来为其页面指定属性或标签。从而,在另一个优选实施例中,由软件为数据集合导出标签以及属性。导出标签以及属性可以涉及完全自动化的过程,在该过程中由软件在数据集合内找到预先确定的标签以及属性列表的潜在值。例如,在用于销售的项的列表中(例如谷歌的Froogle系统),符合预定标准的价格金额被作为用于该项的“价格”属性的值而分配。在另一个优选实施例中,软件执行与提供者交互的过程,在其中软件提出属性/值对,然后由提供者接受或拒绝该属性/值对。在另一个优选实施例中,html标记被扫描并且用所发现的信息来为具有标记的页面导出属性值。作为一个实例,设想页面包含html注释:
<!当前价格是在http://www.todayspricesforbigco.com%id=32423490!>
软件将从所指出的URL获得当前价格,并且使其成为对该网页的价格属性的值。
一旦属性以及标签已经与数据项相关联306,就对数据项进行索引309以使其能够被搜索。在第一优选实施例中,也能对属性以及标签以及其值进行索引,尽管在其它优选实施例中,它们是被分别搜索或被分别索引。
图5(a)示出了用来在储存库195中存储标签以及属性的格式500的实例。每个项与适合其类型的特定属性以及标签相关联。例如-工作公告可以具有属性,工作职责-产品管理、雇主-ABC公司以及工作类型-专职。在优选实施例中的属性以及标签可以具有以下类型的值:
BOOLEAN(布尔型)
INT(整型)
FLOAT(浮点型)
URL
STRING(字符串)
LOCATION(位置)
DATE(日期)
DATE RANGE(日期范围)
由元标记在存储器中指示属性以及标签,如下所示:
<start name>
name
</end name>
<start value>
value
</end value>
从而,在优选实施例中,每个属性是名称/值对,诸如属性名称“期刊”以及用于“期刊”属性的值“炎症期刊”(见图5(b))。每个标签仅有一个名称,诸如“医学”,其将指示特定的期刊是医学期刊(见图5(c))。在优选实施例中,数据项的信息类型也是其标签之一的名称。从而,具有“事件和行为”信息类型的数据项也将具有相同名称的标签。那样,通过指定与数据项的信息类型相同名称的标签,用户能够搜索具有特定信息类型的数据。
图5(d)示出了将信息类型映射到其属性的数据结构的实例。从而,如果在数据集合190中的项具有“产品”信息类型,则该项的属性可以通过访问图5(c)中的数据结构被确定,该数据结构包括属性以及对“产品”信息类型的其属性类型。
如图5(d)中所示,每个信息类型具有预先定义的属性。属性的值是属性类型的值。图5(e)示出了一些实际的值。从而,“期刊”信息类型具有“期刊名称”属性,其带有属性类型字符串的值,以及“期刊”信息类型具有带有空值的“医学”标签。例如,此种属性将允许用户搜索特定的期刊标题或搜索所有的医学期刊。同样地,“产品”信息类型具有“NumAvail”属性,该属性指示多个对销售来说是可用的特定产品,并且该属性具有整型属性类型。所有属性是可选的。提供者可以选择使用任何向其建议的属性或选择创建其自己的属性。
图3(b)是显示响应于所接收的查询词或词的查询结果的方法的流程图310。在优选实施例中,查询结果由搜索引擎185确定。例如,对“癌受体”402的查询(见图4(a))可以返回312具有诸如在图4(b)中所示出的属性404的项的查询结果406。如早先提及的,在此点本发明的一些实施例确定但不显示查询结果406。
一旦对查询的查询结果被确定(并且可选地被显示),至少显示一些查询结果的属性名称以及标签322。在数据集406中的数据项具有确定的信息类型。最初显示的属性404是一些或所有用于查询结果406中数据项的信息类型的属性。查询结果将含有数据项,每个数据项具有不同的属性。在查询结果顶端显示的属性是查询结果中最共同的属性,并且是已被搜索者点击或改善最多的属性。例如,查询“住房”具有以卧室和浴室作为属性的许多项,搜索者常常通过属性“浴室”以及“卧室”来对该查询“住房”进行改善。因此卧室以及浴室应该被显现在搜索结果上方的顶行上。
图4(b)示出了查询结果406以及多个属性和标签名称404(“期刊”、“pubmed”、“资讯来源”、“作者”)。在每个属性后的数字指示在查询结果406中具有与其相关联的属性的项的数量。例如,在图4(b)中,查询结果406包括2050个含有相关联的“期刊”属性/标签的项。从而,随同特定查询结果示出的属性的数量以及特性是依赖于查询的,并且进一步依赖于后来所选择的以缩小搜索范围的属性以及标签。
图3(c)是示出了对于给定的查询结果406确定显示哪个属性的方法的流程图340。当终端用户执行搜索时,搜索引擎185确定341最相关的q个结果以及为q个最相关的结果确定342n个最普遍的(popular)属性。系统为顶部n个属性名称确定344顶部m个属性/标签值。然后通过计算在相关结果集中的匹配要约(offer)的数量,来计算348柱状图,或要约计数。值q、n、以及m都是可配置的。不应被从限制意义上来理解的实例值有:q-1,000-100,000K(q也可以被设置为匹配特定查询词的所有结果)。N在100的范围内,M在20-100的范围内。
在优选实施例中,在确定柱状图以前将属性标准化346。在某些实施方式中,当数据最初被存储在数据集合190中时,就完成了一定数量的数据清除以及标准化。在所描述的实施例中,基于被搜索的查询词实时地完成数据标准化(例如,当查询词是“汽车”时,将所有的“牌子”属性标准化为“款型(make)”是有意义的,然而如果查询是“手提包”,将所有的款型属性标准化为“牌子”是有意义的)。其它实施例可以在数据被接收进数据集合190时做更多的标准化。在优选实施例中通过以下方式完成数据标准化:
1.词干技术(stemming)——例如,restaurant=restaurants。
2.缩写——例如,sz=size。
3.单位等同——例如,重量=盎司、磅等等。
4.尝试进行的拼写改正。
在下述系统中词干技术是特别有用的,在所述系统中提供者指定其自己的属性名称,这使得差异以及拼写错误潜入数据集合190。例如,词干技术允许用户利用经过词干技术的属性“Journals”的单一选择,来按属性名称“Journal”、“journasl”、“Journsl”等等进行过滤。
在某些优选实施例中,提供者添加的属性是检验后的类型。例如,检验URL、DateTime(日期时间)、Number(数字)、String(字符串)、Location(位置)、Boolean(布尔型)属性以查看其是否是有效值。一些实施例查验(ping)每一URL值以查看其是否是有效的,尽管这对不同的实施方式来说是可选择的。对于优选实施例,将位置进行地理编码以使其能够被在线地图服务,诸如GoogleMaps(谷歌地图)所引用。在某些实施例中,将不能被地理编码的“位置”属性认为是无效的。
一旦普遍的属性以及标签被确定并且被显示322(图3(b)),就允许用户为查询结果指定324一个或多个所显示的标签以及属性值(见图3(d))。
图4(c)示出了实例,在其中用户已经从图4(b)选择属性“期刊”并且正准备在栏408中输入期刊名称,其中该用户想要将其搜索限制在该期刊名称上。注意到查询词402现在是“癌受体过滤:期刊”。属性“期刊”已经从所列出的核心属性404消失。
类似地,在图4(d)中,用户选择第二属性“年份”410并且输入年份或年份范围,其中该用户想要在该年份或年份范围内在所指定的期刊中搜索查询词。注意到查询词402现在是“癌受体过滤:期刊过滤:年份”。属性“年份”已经从所列出的属性404消失。如果用户选择GO(执行)按钮411,就会使用所选择的属性作为过滤器再次执行搜索,并且显示诸如图4(e)的显示。从而,用户能够为所显示的查询结果选择一个或多个普遍的属性,并且能够根据所显示的属性(或标签)过滤最初的搜索。如果用户让属性值为空,则所有的属性值都匹配。例如,如果用户选择属性期刊但是没有输入期刊名称,所有具有期刊属性(以及同样命名的属性)的数据项都被选择来作为对查询结果的可能候选者。不具有期刊属性的数据项不会被选择为查询结果。
图4(d)示出了实例,其中用户已经选择了多于一个的属性或标签来缩小搜索范围。在所描述的实施例中,通过点击属性和标签404的多个标签以及属性,来选择多个标签以及属性。其它优选实施例允许将标签以及属性输入进搜索窗口402。例如,如果存在属性价格,用户可以键入以下内容作为查询词:
属性(价格:$150)
该查询将在当前查询结果中定位具有价格属性以及属性值为$150的数据项。
作为另外的实例,用户可以键入:
属性(价格:$150)AND标签(小于面包盒)
该查询将在当前查询结果中定位具有价格属性,以及属性值为$150,以及小于面包盒标签的数据项。其它优选实施例将使用其它适当的用户界面元素来允许用户有逻辑地组合属性以及标签。
图4(e)示出了局限于如图4(d)中所指定的特定年份或年份范围的特定期刊的查询结果。允许用户决定其是否想要在期刊412内继续搜索或者是否搜索全部的数据项集合(例如“搜索所有的Googlebase”)413。在实例中,在区域414向用户提供多个标签的选择(“生物技术”、“医学”、以及“摄影”,其分别与在查询结果406’中的30、15、以及6个项相关联)。在实例中,进一步向用户提供选择来为区域416中的属性指定值:日期、作者、pubmed、引文。也向用户提供了通过相关性、数据属性、或任何用户已经定义的属性(例如价格、位置等等)来对查询结果406’进行分类416的选项。
在图4(f)中,用户已经从图4(e)的区域414选择了属性“日期”,并且给予用户机会来输入数据420。当用户选择下拉操作件“两者之间(between)”时其被给予机会来选择日期范围(如所示出的)。属性“日期”已经从所列出的属性418中消失。在此实例中,“作者”属性已经从属性414中消失。如果属性不再与查询以及查询结果有关,则其即消失。用户没有通过期刊进行过滤的事实现在是假设用户仅在考虑受限制的项目集。用户选择执行按钮来执行搜索,并且作者词再次出现。
图4(g)示出了用户指定作者名字422。当查询正被改善时新的属性以及标签就会显现,这是因为属性以及标签是基于查询结果的,并且查询结果在不断地改变。当用户按下执行按钮423时,另外的搜索被执行,进一步过滤查询结果来反映用户指定的属性以及属性值。
以下段落论述在搜索的时候或在使用属性以及标签缩小搜索范围的时候对属性储存库195的访问。
对引用储存库195的查询以及索引优选地支持以下运算符:
数字-Is(是)、Between(两者之间)、Greater Than(大于)、Less Than(小于)、Number Range(数字范围)
建议
字符串-Is(是)、Has(具有)
日期-Range(范围)、Before(在之前)、After(在之后)、Is(是)
位置-Within(在之内)
可以至少以以下方式查询储存库195:
-给出与特定的属性名称-类型对相匹配的所有项
-基于属性-值的值对这些项进行分类
-支持对以下属性类型的分类
-DateTime(日期时间)
-Number(数字)-Int(整型)、Float(浮点型)
-String(字符串)
-Location(位置)-距用户所输入的位置的距离
该查询能力允许用户输入以下类型的属性查询:
-给出具有特定名称-类型对的所有项
-将所给出的这些项按照属性值分类(例如给出具有事件_日期的所有项,并且将其按升序排序给出)
-为特定名称-类型属性给出介于值1与值2中间的所有项
实例
-给出具有以烹饪_类型作为属性并且具有在15与30之间的值的所有项,所述值的单位为分钟
-给出具有以大小作为属性并且具有不带单位的值1和15的所有项
-给出具有事件_日期并且值为小于今日的所有项
-给出具有发行_日期并且值为在1925年的所有项
支持以下运算符
-对数字-int(整型)、float(浮点型)
-Less than(小于)
-Greater than(大于)
-Between(两者之间)
对日期时间-
-Is(是)
-Before(在之前)
-After(在之后)
-Between(两者之间)
-Scoring of Items(项的评分)
当前存在2个主要的信号,通过其对项进行评分
-依赖于查询的排名-主要为IR分值
-独立于查询的排名-页面排名以及项排名的混合页面排名是提供者的网站页面排名。在项被装载在数据集合190中和/或项没有被链接或被连接到其它项的情况中,页面排名不存在。
项排名能够由多个因素所确定。两个主要的信号是
-特定于提供者的信号(例如评级)。
-特定于要约的信号(例如描述的长度、属性的数量、标签、图片等等)。
-项排名能够由以下信号定义
-描述的长度
-标题的长度
-标签的数量
-属性的数量
-图片
-要约已经被报告为垃圾的次数
-提供者的评级
-要约的新近性
将项评分为-依赖于查询的排名*独立于查询的排名
对默认排序来说排名即为默认排序。
在优选实施例中,在系统中能够设置某些参数。这些参数包括每个提供者最多的项数。其防止了由特定提供者造成的页面拥挤。
当用户选择属性和/或标签来缩小搜索范围时,系统搜索标签、标题、描述以及属性值。属性名称作为完整名称也应该是可搜索的。与相距较远出现的词语相比,短语被赋予更大的权重。与描述相比较标题被赋予更大的权重,与标题相比较标签被赋予更大的权重。属性值被赋予与标签同样的权重。用户可以开启或关闭提供者造成的商业拥挤来管控来自个体提供商的一个页面数的项是否会或不会被作为搜索结果显示。取决于所执行的搜索,商人拥挤(merchant crowding)可以是被需要的或不被需要的。
在优选实施例中,基于与同样或相似类型的其它项相关联的属性,系统定义了特定类型的新项的结构(例如,如果信息类型“工作”的多数项具有工作职责、工作类型以及雇主的属性,那么信息类型“工作”的数据项的共同属性结构将默认为是工作类型、雇主以及工作职责)。搜索者以及其它程序能够用诸如“给出其雇主是ABC公司并且其工作-类型是产品管理的所有工作”的查询查询数据集。
应当理解,尽管在此所描述的实例涉及人类用户,本发明的其它实施例可以被设计为与诸如人工智能软件程序的非人类用户一起或与在网络上通信的实体一起运行,该实体可能是人类或非人类。如果非人类用户是软件程序,显示如在此所描述的结果以及属性就可以是不必要的了。替代地,此种实施方式可以仅传达能够被用来缩小查询结果范围的可能的属性。在此种实施例中,由于非人类的人工智能能够处理需从其中选择的大量属性,因此能够显示大量的属性选项。在此种实施例中,可以不需要诸如确定柱状图的方法的元素或者该元素可以被用来仅对属性选择进行排名并且不限制多个可用的属性选择。
应当理解,在结构化数据190中各种信息类型的核心属性可能需要被周期性地更新。当将数据添加到结构化数据集合时,某些最初不普遍的属性可以变得普遍。例如,具有整型属性类型的“季”属性可以指定:作为演员图片的来源的哪一季电视节目可能并没有在最初被信息类型“电视节目”的初始核心属性所考虑,但是当越来越多的演员图片被添加到数据集合中时其可以变得普遍。在一些实施例中,基于普遍性(popularity)以及季节性(seasonality),并且在通过垃圾过滤器以后,核心属性也会被自动更新。
图3(e)示出了周期性执行的方法350,该方法确定任何新的、提供者所提供的属性是否应该被提升为信息类型的核心属性。项信息类型的属性核心组是如下属性:即只要提供者添加该信息类型的新项就自动提供该属性。在优选实施例中,仅提供核心属性以减少提供者滥发(spam)属性从而使其挤进所显示的属性的可能性。对于每种信息类型,所述方法考虑该信息类型322的最普遍的用户所添加的属性,并且将最普遍的属性提升为该信息类型的核心属性。
作为被用于决定将哪个属性提升为核心属性的,“最普遍的”对不同的实施例来说定义不同。例如,最普遍的可以是不在核心属性中的属性,而在诸如周或月的预先确定的时段里用户最为频繁地选择352该属性。作为另一个实例,最普遍的可以是不在核心属性中的属性,且该属性具有在预先确定的时段里最为频繁地出现在查询结果中的数据项。作为另一个实例,最普遍的可以是不在核心属性中的属性,且该属性在预先确定的时段里出现在数量最多的提供者的数据中。可以以任何适当的方式来确定最普遍的,只要其产生的属性对缩小搜索范围有用,就将其添加到核心属性。
例如,提供者可以为文章的项信息类型着手添加“博客”属性来指示已经在博客中提及该文章。此种属性将具有URL属性类型,指示提及项的博客的URL。如果阈值数量354的唯一提供者或用户使用了信息类型的特定的新属性,则该属性被添加356到该信息类型的属性核心组。在优选实施例中,阈值将是基于使用系统的提供者的总数的。其将以如2-3开始并且增加到较大数量。对标签执行类似的方法来将普遍的标签添加到标签核心集。在某些优选实施例中,所提升的属性将由人类或实现方法的适当的软件或硬件进行常识性检验(sanitycheck)。
前述段落已经大体上论述了搜索以及更新输入到结构化数据集合190的数据的方法。以下段落论述提供者能够将数据输入到或将数据添加到结构化数据集合190的方法。在某些优选实施例中,提供者也能够为其数据指定新的属性。
图6(a)-6(e)是示出了提供者能够如何编辑数据集合中的项的实例截屏。提供者是将内容添加到或能够将内容添加到数据集合190的任何人。在所描述的实施例中,数据集合190是由一个或多个提供者所拥有的数据,提供者诸如个人、非营利的组织、或公司。实施例允许此种提供者通过网络来设置并且增加其自己的结构化数据集合(例如数据库),并且通过网络或类似网络来使其集合是可搜索的。预期的是,为了报酬或交换其许可(permission)以允许数据被其他人搜索,提供者将乐于把数据存储到中央储存库中。在此种情况中,通过网络或基于网络的浏览器可以搜索数据集合,所述浏览器诸如谷歌浏览器或谷歌桌面搜索引擎,其版本为包含在此所描述的一些或所有的功能的版本。
图6(a)-6(e)是示出了允许提供者编辑以及向系统内输入数据的用户界面的实例截屏。
图6(a)示出了用户界面600,该界面允许提供者查看并且编辑数据集合190中的数据项。也可以使用用户界面来将项添加到数据集合190中。区域602包含数据集合190中的项的部分列表。在本实例中,该列表包括项标题601、项类型(也被称为信息类型)605、状态603、到期日、闪现次数(项已经显示的次数)、在对象上的点击数、以及点进率、在搜索结果中项被点击的次数。在实例中,在区域602示出数据集合中所有项的一个子集,但是提供者也可以搜索其个人的数据集合620或搜索整个数据集合622。提供者也可以查看非活动项616或上载批量文件618。每个数据项具有相关联的“编辑”链接619。在优选实施例中,提供者能够只编辑其自己的数据项。区域604允许提供者显示诸如下拉菜单的选择装置,该装置示出现有信息类型(事件以及活动、住房等等)。如果提供者选择信息类型,其能够在区域606为其数据添加信息类型的描述。
图6(b)示出了用户界面,该界面允许提供者查看并且编辑610数据集合190中的数据项。所述项具有“资讯和文章”的信息类型。如果提供者在图6(a)的区域602中已经选择了数据项,则该项的信息将被显示在区域611的栏中。然而,在实例中,提供者没有选择项,因此提供者可以自由地输入新的数据项。在实例中,“资讯和文章”610信息类型包含以下字段:标题、图片、描述以及在查询结果中所显示的链接614(例如URL)。
图6(b)的用户界面也允许提供者编辑项的属性以及标签。需注意到,尽管每种信息类型具有相关联的属性,但是不是特定类型的所有数据项都具有用于该信息类型的所有可能属性的值。在实例中,如参考数字612所示出,提供者已经指出有数量为“1”个的项是可用的或存在的。对该项来说,没有为作者或资讯来源属性指定值。每个属性具有“文本”属性类型。提供者可以自由地为个人数据项的属性添加值。提供者也能够使用区域613来添加属性。在此,提供者能够添加属性名称以及属性值。
提供者能够在区域618中提供与联系方式信息(contactinformation)有关的属性值。提供者能够在区域619中提供与位置信息有关的属性值。
提供者能够在区域619中将标签添加到项。在某些实施例中,信息类型是默认属性名称。在此,信息类型是“资讯和文章”并且其也是标签。
图6(c)示出了图6(b)的用户界面,该界面允许提供者查看并且编辑610数据集合190中的数据项。在实例中,提供者能够为新的提供者所定义的属性613添加名称以及值。尽管默认属性类型是“文本”,提供者可以选择另一个属性类型,诸如数字单位、数字、数据范围、大文本、URL、布尔型、以及位置。
图6(d)示出了用户界面,该界面允许提供者查看并且编辑610数据集合190中的数据项。该项具有“产品”630信息类型。如果提供者在图6(a)的区域602中已经选择了数据项,则该项的信息将被显示在区域611的栏中。然而,在实例中,提供者没有选择项,因此提供者可以自由地使用用户界面630输入新的项。在实例中,“产品”信息类型包含以下字段:标题、图片、描述以及在查询结果中所显示的链接634(例如URL)。
图6(d)的用户界面也允许提供者编辑项的属性以及标签。需注意到,尽管每种信息类型具有相关联的属性,但是不是特定信息类型的所有数据项都具有用于该信息类型的所有可能属性的值。在实例中,如参考数字632所示出,提供者已经指出每项价格150美元(例如与每磅或每打相对)。数量“1”被指定。价格类型是提供者设置的价格的类型(例如比价竞卖(best offer)、可商议的、固定的等等)。对该项来说,没有为价格选项、品牌、条件、以及产品类型指定值。每个属性具有“文本”属性类型。提供者可以自由地为个人数据项的属性添加值。提供者也能够使用区域613来添加属性。在该实施例中,提供者能够为其指定的属性改变属性类型。用户可以自由地为个人数据项的属性添加值。用户也能够使用区域613来添加属性。在此,提供者能够添加属性名称以及属性值。
在该实施例中,提供者添加的属性被添加到其当前信息类型的所有项。在此,例如,一旦属性被定义,提供者的类型为“产品”的所有项都被赋予最近所添加的属性613。通常单独地添加每个项的值。某些实施例也允许提供者为其指定的信息类型的所有项指定值。如上所述,新的属性逐渐变为属性核心集是可能的。在其它实施例中,新的属性不一定被添加到该信息类型的所有项。在其它实施例中,提供者可以同意限定的一组提供者都将具有相同的属性,以使得当一个提供者添加属性时,在组中的其它提供者也将具有相同的属性。
提供者能够在区域618中提供与联系方式信息有关的属性值。提供者能够在区域619中提供与位置信息有关的属性值。提供者能够在区域638中提供与支付方式有关的属性值。
提供者能够将标签添加到区域616中的项。在某些实施例中,信息类型是默认属性名称。在此,信息类型是“产品”并且其也是标签。在该实施例中,提供者添加的标签不被添加到其当前类型的所有项(除了是该信息类型的标签以外)。如上所述,新的标签逐渐变为核心标签集是可能的。在其它实施例中,新的标签总是被添加到该信息类型的所有项。
图6(e)示出了图6(d)的用户界面,该界面允许提供者查看并且编辑630数据集合190中的数据项。在该实例中,联系方式、支付方式、以及位置都是产品信息类型的属性。其是具有复合类型的属性(不只是整型或简单字符串)。在该实例中,提供者能够为信息类型“产品”的项添加与联系方式618有关的值。在此,提供者指定昵称、电话号码、电子邮件地址(从提供者信息数据库获得的可能值,未示出)中的一些或全部。在该实例中,提供者能够为信息类型“产品”的项添加与支付方式638有关的值。在此,提供者指定支付方式以及注释中的一些或全部。在该实例中,提供者能够为信息类型“产品”的项添加与位置619有关的值。在此,提供者指定文本注释中的一些或全部(例如“加州弗里蒙特”)。在该实施例中,也存在复选框来指示消费者是否能够从该位置获得产品以及递送半径。
在该实例中,为每个项分别地输入联系方式、支付方式、以及位置值。提供者添加的值不被添加到其当前信息类型的所有项。在此,例如,不是所有的提供者的信息类型为“产品”的项都被赋予在图6(e)中示出的联系方式、支付方式、以及位置值。通常单独地添加每个项的值。某些实施例也允许提供者为其指定的信息类型的所有项指定值。例如,对提供者的所有“产品”来说支付方式信息可以是相同的。
促销者可以通过图6的用户界面或经由图7以及8所示出的批量上载方法来输入项。
图7是示出了用于注册批量上载文件的用户界面的实例截屏700。批量上载文件被用来创建或添加到数据集合190。在该实例中,添加具相同信息类型的项的平面文件(flat file)。在该实例中,文件名称712是“本地商品目录(local inventory)”。提供者选择数据类型714,其是预先定义的信息类型或自定义的信息类型。提供者为数据中的文本字符串选择语言716。当提供者选择按钮“注册批量上载文件”718时,具有文件名称712的文件被注册,然后将允许提供者上载文件。提供者能够使用基于网页的上载界面或使用另外的诸如FTP(文件传送协议)或RSS的机制来上载文件。
图8(a)示出了将被批量上载的制表符分隔的(tab-delimited)文件的格式801。以下是批量上载文件的格式要求:
-制表符分隔的纯文本。
-文件首行是标题-必须包含属性名称(在以下描述),由制表符分隔。
-每行一个项;每一属性应该由制表符分隔。
-在行末端没有结尾制表符(trailing tab)。
-文件必须被保存为LATIN1或UTF-8编码。ASCII也是可接受的,因为其是LATIN1的子集。
-链接以及图像URL应该被完全限定。即,其必须包括http://部分,例如:http://www.example.com/image.gif
-制表符、回车、或换行符-如果这些中的任何一个在属性中出现,将不能显示该项。
-HTML标记、注释、以及换码顺序(escape sequence)-不会从批量上载移除html,但是为了最佳表现(appearance),不应该包括HTML。
在优选实施例中,数据项是所上载的文件的一部分,该文件也包含属性。在另外的优选实施例中,数据项以及属性在单独的文件中被上载,构建所述单独文件以使得哪个属性值属于哪个数据项是清楚的。
图8(b)是提供者用来创建批量上载文件的实例方法的流程图800。提供者可以是人类,或是硬件或软件。
要素802:在电子表格程序(spreadsheet program)中打开新的文件
所描述的方法使用诸如微软Excel的电子表格程序来创建批量上载文件。使用类似微软Excel的电子表格程序使创建批量上载并将其转换成适当格式变得容易。能够使用其它方法来产生适当格式化的文件。
要素804:创建标题行
作为一个实例,产品批量上载的标题行可能看起来像图8(c)中的行832。依照提供者想要提交的项的信息类型指定批量上载中的每一列(参见图7的714)。在电子表格832的首行输入每一属性的名称,提供者想要包括该名称来描述其的项。这就是标题行。标题行的内容将依赖于所提交信息的信息类型、以及提供者是否发送了所定义的信息类型、或其自己创建的信息类型。
自定义信息类型:
批量上载能够被用来提交任何信息类型。如果提供者发送其自己的信息类型,其可以使用预先定义的属性的任何组合。在优选实施例中,强烈地推荐提供者使用预先定义的属性。提供者也能够包括无限多的自定义属性:提供者应该挑选最能描述其的项的属性集。
限定信息类型:
提供者能够发送用于限定信息类型之一的批量上载。强烈地推荐提供者在其批量上载中包括信息类型。其允许将项更精确地匹配到搜索查询。提供者给出越多的信息,用户就越容易找到项。在优选实施例中,提供者必须包括所推荐的属性以使提供者的项能够出现在已完成的搜索的显著部分中。
要素806:输入项信息
在每行834上,提供者为其数据集合中的项输入信息。每个信息应该反映其所在的列的标题。(例如产品的价格应该输在“价格”标题下)。每一行仅包括一个项。参见图8(c)。
要素808:将批量上载转换为制表符分隔的纯文本
使用先前注册的文件名(参见图7)将电子表格转换为制表符分隔的文本(.txt)。在提供者已经将所有项输入进电子表格后,其将电子表格保存为制表符分隔的文本(.txt)格式。注册的文件名能够被再次用于后续的上载。如果所上载的文件具有未注册的名称,则该文件中的项将不会被添加到数据集合190。在优选实施例中,最新的批量上载必须至少每30天发送一次以确保项保留在数据集合190中。
要素810:上载文件
图8(d)示出了上载文件的用户界面840。
要素812:检查批量上载的错误
在提供者已经发送批量上载后,其能够通过登录到中央网站查看批量上载的状态。如果列出结果为“成功”,则不需要改变批量上载。否则,提供者可以点击批量上载的文件名来查看关于如何改正错误的信息。
在批量上载被上载后,文件将被处理以将项、属性、以及标签添加到数据集合190以及图5的数据结构。一旦上载已经被批准,具有相同文件名的任何未来的更新都将被自动地处理。
尽管本发明已经就几个实施例在以上进行了描述,但能够在本发明的范围内进行各种修改。例如,某些优选实施例包括检测无效的或“垃圾的”属性和标签的方法和系统。不希望的是,提供者把属性添加到其数据中,而该属性将允许数据项出现在搜索的顶端。一些用来避免此种属性的方法包括黑名单、特定的柱状图分布等等。
在其它优选实施例中,对显示的顶端的属性以及标签的确定不仅是基于属性关键类型元组(attribute key-type tuple)以及标签的普遍性,还是基于值的分布(分布越离散越好,并且越倾斜越好。例如,对一个属性5个普遍的值比50个均匀分布的值更好。实例如果颜色是属性并且将红色、蓝色、以及绿色看作顶端的颜色,那么其将是凭以改善的良好属性。另一方面颜色具有100个值每个值出现三次不是那么有用的。
另一个优选实施例基于使用属性、项排名/每个要约的要约排名的提供者的数量来执行复杂的置信度分值。
另一个优选实施例使用来自用户的点击信号来确定向用户显示哪个属性。通过被定义为普遍性排名的事物来对属性以及标签评分:
PR=在查询结果中的普遍性*用于该特定查询的CTR
在另一个优选实施例中,如果用户总是将2个属性约束用于特定的查询(例如90%的情况下Ipod总是受约束于价格以及位置,当用户键入ipod时依据价格以及位置的系统约束将发生)示出已经应用于所述查询结果的约束。
因此,本发明的公开意在是说明性的,而不是限制在权利要求中阐述的本发明的范围。

Claims (47)

1.一种用于对结构化数据进行搜索的计算机实现的方法,包括:
从集合中的数据项提取属性;
通过客户端设备从与搜索引擎交互的用户接收搜索查询;
接收对来自所述数据项集合的第一数据项的选择,所述第一数据项满足所述搜索查询,并且所述第一数据项共同具有已被从所述第一数据项提取的第一属性;
确定每一个已被从所述第一数据项提取的第一属性的属性频率,所述属性频率是所述搜索引擎的先前用户在预定时间期间内已经选择了所述第一属性的各个个体以缩小过往查询结果的相应频率;
选择具有最高的相应属性频率的第一属性作为核心组的属性,所述核心组的属性包括少于所有所述第一属性的第一属性;
向所述客户端设备输出搜索引擎结果页面,所述搜索引擎结果页面包括指向两个或更多个所述第一数据项中的每一个的相应引用,以及所述核心组的每一个属性的相应表示;
响应于对所述核心组的一个或多个属性的表示的用户选择,提供用于接收查询优化的搜索窗口;以及
接收对满足所述搜索查询的第二数据项的选择和所述查询优化。
2.如权利要求1所述的方法,进一步包括:
接收对少于所述核心组的所有属性的属性的表示的用户选择;以及
向所述客户端设备输出第二搜索引擎结果页面,所述第二搜索引擎结果页面包括指向两个或多个所述第二数据项中的每一个的相应引用。
3.如权利要求1所述的方法,进一步包括执行对所述集合的web爬行,所述集合存储所述数据项和描述每个数据项的信息类型的相关联的属性。
4.如权利要求1所述的方法,进一步包括:
从单个数据提供者接收数据项的所述集合和所述属性以及所述数据项的属性。
5.如权利要求1所述的方法,其中提取属性进一步包括:
确定数据项的信息类型;
访问将信息类型映射到属性的数据结构;
基于将所述信息类型应用到所述数据结构,确定与所述数据项相关联的属性。
6.如权利要求1所述的方法,其中提取属性进一步包括:
在发生对所述数据项的任何搜索之前提取所述属性。
7.如权利要求1所述的方法,进一步包括:
生成用于允许所述数据项的提供者编辑与所述数据项相关联的属性的用户界面;以及
通过所述用户界面接收信息,所述信息改变与一个或多个所述数据项相关联的属性。
8.一种用于对结构化数据进行搜索的系统,包括:
用于从集合中的数据项提取属性的装置;
用于通过客户端设备从与搜索引擎交互的用户接收搜索查询的装置;
用于接收对来自所述数据项集合的第一数据项的选择的装置,所述第一数据项满足所述搜索查询,并且所述第一数据项共同具有已被从所述第一数据项提取的第一属性;
用于确定每一个已被从所述第一数据项提取的第一属性的属性频率的装置,所述属性频率是所述搜索引擎的先前用户在预定时间期间内已经选择了所述第一属性的各个个体以缩小过往查询结果的相应频率;
用于选择具有最高的相应属性频率的第一属性作为核心组的属性的装置,所述核心组的属性包括少于所有所述第一属性的第一属性;用于向所述客户端设备输出搜索引擎结果页面的装置,所述搜索引擎结果页面包括指向两个或更多个所述第一数据项中的每一个的相应引用,以及所述核心组的每一个属性的相应表示;
用于响应于对所述核心组的一个或多个属性的表示的用户选择提供用于接收查询优化的搜索窗口的装置;以及
用于接收对满足所述搜索查询的第二数据项的选择和所述查询优化的装置。
9.如权利要求8所述的系统,进一步包括用于执行对所述集合的web爬行的装置,所述集合存储所述数据项和描述每个数据项的信息类型的相关联的属性。
10.如权利要求8所述的系统,进一步包括:
用于从单个数据提供者接收所述数据项集合和所述属性以及所述数据项的属性的装置。
11.如权利要求8所述的系统,其中提取属性进一步包括:
确定数据项的信息类型;
访问将信息类型映射到属性的数据结构;
基于将所述信息类型应用到所述数据结构确定与所述数据项相关联的属性。
12.如权利要求8所述的系统,其中提取属性进一步包括:
在发生对所述数据项的任何搜索之前提取所述属性。
13.如权利要求8所述的系统,进一步包括:
用于生成用于允许所述数据项的提供者编辑与所述数据项相关联的属性的用户界面的装置;以及
用于通过所述用户界面接收信息的装置,所述信息改变与一个或多个所述数据项相关联的属性。
14.一种用于使数据项结构化和可搜索的计算机实现的方法,包括:
接收并维护被拥有的资源的索引,每一个被拥有的资源具有相应的所有者,每一个被拥有的资源是由其相应的所有者使得公开可获得的资源,所述被拥有的资源包括由多个不同的所有者拥有的资源;提供用户界面由所述多个所有者中的每一个使用,所述用户界面包括由所述多个所有者中的任何一个用来将标签或属性人工关联到他们所拥有的资源的区域;
通过所述用户界面从所述多个所有者接收与所述多个所有者拥有的资源有关的标签或属性,所述属性的每一个包括属性名称和属性值;将所接收的标签或属性存储在所述索引中,所述索引可由搜索引擎搜索;以及
使用存储在所述索引中的所接收的标签或属性来在所述搜索引擎中生成搜索引擎结果。
15.如权利要求14所述的方法,其中与所述多个所有者拥有的资源有关的标签或属性是在不要求所述资源自身由所述多个所有者编辑的情况下而被接收的。
16.如权利要求14所述的方法,其中:
被拥有的资源的所述索引由第三方维护;并且
接收所述标签或属性进一步包括允许所述多个所有者将所述标签或属性直接添加到由所述第三方维护的所述索引。
17.如权利要求14所述的方法,其中:
将所接收的标签或属性存储在所述索引中进一步包括:
将所接收的标签或属性和与这些标签或属性相关的资源相关联地存储;以及
使用所接收的标签或属性来生成搜索引擎结果进一步包括:
搜索结构化数据的集合以识别由所述资源的各个所有者人工关联的具有标签或属性的一个或多个资源,所述一个或多个资源包括由用户指定作为搜索查询的一部分的一个或多个属性或标签。
18.如权利要求14所述的方法,进一步包括选择与每一个被拥有的资源相关联的属性的子集,
其中所述用户界面进一步包括用于显示所选择的与每一个被拥有的资源相关联的属性的子集的区域。
19.如权利要求14所述的方法,其中所述用户界面进一步包括以下区域,该区域允许用户在特定的被拥有的资源在所述搜索引擎结果中被识别时指定标题、图画、描述和资源标识符以与所述特定资源一起显示。
20.如权利要求14所述的方法,其中将所接收的属性存储在所述索引中进一步包括存储空属性值。
21.如权利要求14所述的方法,其中将所接收的属性信息存储在所述索引中进一步包括将属性名称-值对与特定的被拥有的资源相关联地存储。
22.如权利要求14所述的方法,其中所述属性包括数量、作者以及新闻源信息。
23.如权利要求14所述的方法,其中所述属性包括价格、价格选择权、数量属性、品牌、状态属性以及产品类型信息。
24.如权利要求14所述的方法,其中接收所述属性进一步包括:接收先前没被存储在属性存储库中的手工添加的属性名称以及与该手工添加的属性名称相关联的属性值。
25.如权利要求14所述的方法,其中所述用户界面进一步包括以下区域,该区域用于由所述多个所有者中的任何一个手工指定特定的被拥有的资源的联系人以及与该特定的被拥有的资源相关的地理位置。
26.如权利要求14所述的方法,其中所述用户界面进一步包括以下区域,该区域用于由所述多个所有者中的任何一个手工指定所述属性值的值类型。
27.如权利要求26所述的方法,其中所述值类型是以下中的一种:数字值类型、数据范围值类型、文本值类型、资源标识符值类型或布尔值类型。
28.一种用于使数据项结构化和可搜索的系统,包括:
用于接收并维护被拥有的资源的索引的装置,每一个被拥有的资源具有相应的所有者,每一个被拥有的资源是由其相应的所有者使得公开可获得的资源,所述被拥有的资源包括由多个不同的所有者拥有的资源;
用于提供用户界面由所述多个所有者中的每一个使用的装置,所述用户界面包括由所述多个所有者中的任何一个用来将标签或属性人工关联到他们所拥有的资源的区域;
用于通过所述用户界面从所述多个所有者接收与所述多个所有者拥有的资源有关的标签或属性的装置,所述属性的每一个包括属性名称和属性值;
用于将所接收的标签或属性存储在所述索引中的装置,所述索引可由搜索引擎搜索;以及
用于使用存储在所述索引中的所接收的标签或属性来在所述搜索引擎中生成搜索引擎结果的装置。
29.如权利要求28所述的系统,其中将所接收的属性存储在所述索引中进一步包括存储空属性值。
30.如权利要求28所述的系统,其中将所接收的属性信息存储在所述索引中进一步包括将属性名称-值对与特定的被拥有的资源相关联地存储。
31.如权利要求28所述的系统,其中接收所述属性进一步包括:接收先前没被存储在属性存储库中的手工添加的属性名称以及与该手工添加的属性名称相关联的属性值。
32.一种用于对结构化数据进行搜索的计算机实现的方法,包括:
从集合中的数据项提取属性;
通过客户端设备从与搜索引擎交互的用户接收搜索查询;
接收对来自所述数据项集合的第一数据项的选择,所述第一数据项满足所述搜索查询,并且所述第一数据项共同具有已被从所述第一数据项提取的第一属性;
对所述第一属性应用垃圾过滤器;
选择已经通过所述垃圾过滤器的第一属性作为核心组的属性,所述核心组的属性包括少于所有所述第一属性的第一属性;
向所述客户端设备输出搜索引擎结果页面,所述搜索引擎结果页面包括指向两个或更多个所述第一数据项中的每一个的相应引用,以及所述核心组的一个或多个属性的相应表示;
响应于对所述核心组的一个或多个属性的表示的用户选择,提供用于接收查询优化的搜索窗口;以及
接收对满足所述搜索查询的第二数据项的选择和所述查询优化。
33.如权利要求32所述的方法,其中对所述第一属性应用垃圾过滤器进一步包括将所述第一属性与垃圾属性的黑名单相比较。
34.如权利要求32所述的方法,其中对所述第一属性应用垃圾过滤器进一步包括将所述第一属性与垃圾属性所特有的直方图分布相比较。
35.一种用于对结构化数据进行搜索的计算机实现的方法,包括:
从集合中的数据项提取属性;
通过客户端设备从与搜索引擎交互的用户接收搜索查询;
接收对来自所述数据项集合的第一数据项的选择,所述第一数据项满足所述搜索查询,并且所述第一数据项共同具有已被从所述第一数据项提取的第一属性;
针对已从所述第一数据项提取的每一个第一属性,确定所述第一属性的值分布,所述值分布是指与所述第一属性相关联的每一个值在与所述第一属性相关联的所有属性中出现的频率;
选择与比预定阈值更为频繁地出现的值相关联的第一属性作为核心组的属性,所述核心组的属性包括少于所有所述第一属性的第一属性;
向所述客户端设备输出搜索引擎结果页面,所述搜索引擎结果页面包括指向两个或更多个所述第一数据项中的每一个的相应引用,以及所述核心组的一个或多个属性的相应表示;
响应于对所述核心组的一个或多个属性的表示的用户选择,提供用于接收查询优化的搜索窗口;以及
接收对满足所述搜索查询的第二数据项的选择和所述查询优化。
36.一种用于对结构化数据进行搜索的计算机实现的方法,包括:
从集合中的数据项提取属性;
通过客户端设备从与搜索引擎交互的用户接收搜索查询;
接收对来自所述数据项集合的第一数据项的选择,所述第一数据项满足所述搜索查询,并且所述第一数据项共同具有已被从所述第一数据项提取的第一属性;
确定已被从所述第一数据项中提取的每一个第一属性的提供者数量,所述提供者数量是已经将所述第一属性与所述集合中的一个或多个数据项手工关联的数据项提供者的相应数量;
选择具有最高相应提供者数量的第一属性作为核心组的属性,所述核心组的属性包括少于所有所述第一属性的第一属性;
向所述客户端设备输出搜索引擎结果页面,所述搜索引擎结果页面包括指向两个或更多个所述第一数据项中的每一个的相应引用,以及所述核心组的一个或多个属性的相应表示;
响应于对所述核心组的一个或多个属性的表示的用户选择,提供用于接收查询优化的搜索窗口;以及
接收对满足所述搜索查询的第二数据项的选择和所述查询优化。
37.一种用于对结构化数据进行搜索的计算机实现的方法,包括:
从集合中的数据项提取属性;
通过客户端设备从与搜索引擎交互的用户接收搜索查询;
接收对来自所述数据项集合的第一数据项的选择,所述第一数据项满足所述搜索查询,并且所述第一数据项共同具有已被从所述第一数据项提取的第一属性;
确定已被从所述第一数据项中提取的每一个第一属性的属性频率,所述属性频率是所述搜索引擎的先前用户在预定时间期间内已经选择了所述第一属性的各个个体以缩小过往查询结果的相应频率;
确定所述过往查询结果的每一个的点进率(CTR);
对于每一个第一属性,将所述属性频率和相应的点进率相结合以生成用于每一个第一属性的受欢迎程度排名;
选择具有最高受欢迎程度排名的第一属性作为核心组的属性,所述核心组的属性包括少于所有所述第一属性的第一属性;
向所述客户端设备输出搜索引擎结果页面,所述搜索引擎结果页面包括指向两个或更多个所述第一数据项中的每一个的相应引用,以及所述核心组的一个或多个属性的相应表示;
响应于对所述核心组的一个或多个属性的表示的用户选择,提供用于接收查询优化的搜索窗口;以及
接收对满足所述搜索查询的第二数据项的选择和所述查询优化。
38.一种用于对结构化数据进行搜索的计算机实现的方法,包括:
从集合中的数据项提取属性;
通过客户端设备从与搜索引擎交互的用户接收搜索查询;
接收对来自所述数据项集合的第一数据项的选择,所述第一数据项满足所述搜索查询,并且所述第一数据项共同具有已被从所述第一数据项提取的第一属性;
确定已被从所述第一数据项中提取的每一个第一属性的属性频率,所述属性频率是所述搜索引擎的先前用户在预定时间期间内已经选择了所述第一属性的各个个体以缩小过往查询结果的相应频率;
选择具有高于预定阈值的相应属性频率的第一属性作为核心组的属性,所述核心组的属性包括少于所有所述第一属性的第一属性;
向所述客户端设备输出搜索引擎结果页面,所述搜索引擎结果页面包括指向两个或更多个所述第一数据项中的每一个的相应引用,以及所述核心组的一个或多个属性的相应表示;
响应于对所述核心组的一个或多个属性的表示的用户选择,提供用于接收查询优化的搜索窗口;以及
接收对满足所述搜索查询的第二数据项的选择和所述查询优化。
39.如强烈要求38所述的方法,其中用于所述核心组的每一个属性的所述搜索窗口是在不要求所述用户选择所述核心组的一个或多个属性的表示的情况下而被自动地输出到所述客户端设备的。
40.一种用于对结构化数据进行搜索的系统,包括:
用于从集合中的数据项提取属性的装置;
用于通过客户端设备从与搜索引擎交互的用户接收搜索查询的装置;
用于接收对来自所述数据项集合的第一数据项的选择的装置,所述第一数据项满足所述搜索查询,并且所述第一数据项共同具有已被从所述第一数据项提取的第一属性;
用于对所述第一属性应用垃圾过滤器的装置;
用于选择已经通过所述垃圾过滤器的第一属性作为核心组的属性的装置,所述核心组的属性包括少于所有所述第一属性的第一属性;
用于向所述客户端设备输出搜索引擎结果页面的装置,所述搜索引擎结果页面包括指向两个或更多个所述第一数据项中的每一个的相应引用,以及所述核心组的一个或多个属性的相应表示;
用于响应于对所述核心组的一个或多个属性的表示的用户选择提供用于接收查询优化的搜索窗口的装置;以及
用于接收对满足所述搜索查询的第二数据项的选择和所述查询优化的装置。
41.如权利要求40所述的系统,其中对所述第一属性应用垃圾过滤器进一步包括将所述第一属性与垃圾属性的黑名单相比较。
42.如权利要求40所述的系统,其中对所述第一属性应用垃圾过滤器进一步包括将所述第一属性与垃圾属性所特有的直方图分布相比较。
43.一种用于对结构化数据进行搜索的系统,包括:
用于从集合中的数据项提取属性的装置;
用于通过客户端设备从与搜索引擎交互的用户接收搜索查询的装置;
用于接收对来自所述数据项集合的第一数据项的选择的装置,所述第一数据项满足所述搜索查询,并且所述第一数据项共同具有已被从所述第一数据项提取的第一属性;
用于针对已从所述第一数据项提取的每一个第一属性确定所述第一属性的值分布的装置,所述值分布是指与所述第一属性相关联的每一个值在与所述第一属性相关联的所有属性中出现的频率;
用于选择与比预定阈值更为频繁地出现的值相关联的第一属性作为核心组的属性的装置,所述核心组的属性包括少于所有所述第一属性的第一属性;
用于向所述客户端设备输出搜索引擎结果页面的装置,所述搜索引擎结果页面包括指向两个或更多个所述第一数据项中的每一个的相应引用,以及所述核心组的一个或多个属性的相应表示;
用于响应于对所述核心组的一个或多个属性的表示的用户选择提供用于接收查询优化的搜索窗口的装置;以及
用于接收对满足所述搜索查询的第二数据项的选择和所述查询优化的装置。
44.一种用于对结构化数据进行搜索的系统,包括:
用于从集合中的数据项提取属性的装置;
用于通过客户端设备从与搜索引擎交互的用户接收搜索查询的装置;
用于接收对来自所述数据项集合的第一数据项的选择的装置,所述第一数据项满足所述搜索查询,并且所述第一数据项共同具有已被从所述第一数据项提取的第一属性;
用于确定已被从所述第一数据项中提取的每一个第一属性的提供者数量的装置,所述提供者数量是已经将所述第一属性与所述集合中的一个或多个数据项手工关联的数据项提供者的相应数量;
用于选择具有最高相应提供者数量的第一属性作为核心组的属性的装置,所述核心组的属性包括少于所有所述第一属性的第一属性;
用于向所述客户端设备输出搜索引擎结果页面的装置,所述搜索引擎结果页面包括指向两个或更多个所述第一数据项中的每一个的相应引用,以及所述核心组的一个或多个属性的相应表示;
用于响应于对所述核心组的一个或多个属性的表示的用户选择,提供用于接收查询优化的搜索窗口的装置;以及
用于接收对满足所述搜索查询的第二数据项的选择和所述查询优化的装置。
45.一种用于对结构化数据进行搜索的系统,包括:
用于从集合中的数据项提取属性的装置;
用于通过客户端设备从与搜索引擎交互的用户接收搜索查询的装置;
用于接收对来自所述数据项集合的第一数据项的选择的装置,所述第一数据项满足所述搜索查询,并且所述第一数据项共同具有已被从所述第一数据项提取的第一属性;
用于确定已被从所述第一数据项中提取的每一个第一属性的属性频率的装置,所述属性频率是所述搜索引擎的先前用户在预定时间期间内已经选择了所述第一属性的各个个体以缩小过往查询结果的相应频率;
用于确定所述过往查询结果的每一个的点进率(CTR)的装置;
用于对于每一个第一属性将所述属性频率和相应的点进率(CTR)相结合以生成用于每一个第一属性的受欢迎程度排名的装置;
用于选择具有最高受欢迎程度排名的第一属性作为核心组的属性的装置,所述核心组的属性包括少于所有所述第一属性的第一属性;
用于向所述客户端设备输出搜索引擎结果页面的装置,所述搜索引擎结果页面包括指向两个或更多个所述第一数据项中的每一个的相应引用,以及所述核心组的一个或多个属性的相应表示;
用于响应于对所述核心组的一个或多个属性的表示的用户选择提供用于接收查询优化的搜索窗口的装置;以及
用于接收对满足所述搜索查询的第二数据项的选择和所述查询优化的装置。
46.一种用于对结构化数据进行搜索的计算机实现的系统,包括:
用于从集合中的数据项提取属性的装置;
用于通过客户端设备从与搜索引擎交互的用户接收搜索查询的装置;
用于接收对来自所述数据项集合的第一数据项的选择的装置,所述第一数据项满足所述搜索查询,并且所述第一数据项共同具有已被从所述第一数据项提取的第一属性;
用于确定已被从所述第一数据项中提取的每一个第一属性的属性频率的装置,所述属性频率是所述搜索引擎的先前用户在预定时间期间内已经选择了所述第一属性的各个个体以缩小过往查询结果的相应频率;
用于选择具有高于预定阈值的相应属性频率的第一属性作为核心组的属性的装置,所述核心组的属性包括少于所有所述第一属性的第一属性;
用于向所述客户端设备输出搜索引擎结果页面的装置,所述搜索引擎结果页面包括指向两个或更多个所述第一数据项中的每一个的相应引用,以及所述核心组的一个或多个属性的相应表示;
用于响应于对所述核心组的一个或多个属性的表示的用户选择提供用于接收查询优化的搜索窗口的装置;以及
用于接收对满足所述搜索查询的第二数据项的选择和所述查询优化的装置。
47.如强烈要求46所述的系统,其中用于所述核心组的每一个属性的所述搜索窗口是在不要求所述用户选择所述核心组的一个或多个属性的表示的情况下而被自动地输出到所述客户端设备的。
CN201010156907.9A 2005-10-23 2005-12-13 对结构化数据进行搜索的方法、系统以及使数据项结构化及可搜索的方法、系统 Active CN101866347B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/257,282 US7933900B2 (en) 2005-10-23 2005-10-23 Search over structured data
US11/257,282 2005-10-23
CN2005800523802A CN101341464B (zh) 2005-10-23 2005-12-13 对结构化数据进行搜索的方法、系统以及使数据项结构化及可搜索的方法、系统

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN2005800523802A Division CN101341464B (zh) 2005-10-23 2005-12-13 对结构化数据进行搜索的方法、系统以及使数据项结构化及可搜索的方法、系统

Publications (2)

Publication Number Publication Date
CN101866347A true CN101866347A (zh) 2010-10-20
CN101866347B CN101866347B (zh) 2017-05-17

Family

ID=38044965

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201010156907.9A Active CN101866347B (zh) 2005-10-23 2005-12-13 对结构化数据进行搜索的方法、系统以及使数据项结构化及可搜索的方法、系统
CN2005800523802A Active CN101341464B (zh) 2005-10-23 2005-12-13 对结构化数据进行搜索的方法、系统以及使数据项结构化及可搜索的方法、系统

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN2005800523802A Active CN101341464B (zh) 2005-10-23 2005-12-13 对结构化数据进行搜索的方法、系统以及使数据项结构化及可搜索的方法、系统

Country Status (9)

Country Link
US (2) US7933900B2 (zh)
EP (1) EP1952273B1 (zh)
JP (2) JP5112324B2 (zh)
KR (1) KR101222253B1 (zh)
CN (2) CN101866347B (zh)
AU (2) AU2005337489B2 (zh)
BR (1) BRPI0520649A2 (zh)
CA (1) CA2626860C (zh)
WO (1) WO2007046830A2 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101968807A (zh) * 2010-10-15 2011-02-09 北京思在信息技术有限责任公司 一种内容检索的方法及装置
CN102073725A (zh) * 2011-01-11 2011-05-25 百度在线网络技术(北京)有限公司 结构化数据的搜索方法和实现该搜索方法的搜索引擎系统
CN102073726A (zh) * 2011-01-11 2011-05-25 百度在线网络技术(北京)有限公司 搜索引擎系统及该搜索引擎系统的结构化数据引入方法
CN102968418A (zh) * 2011-09-01 2013-03-13 阿里巴巴集团控股有限公司 网站信息检索方法和系统
CN107004002A (zh) * 2014-12-02 2017-08-01 隆沙有限公司 根据结构化数据项的集合生成非结构化搜索查询
CN108268512A (zh) * 2016-12-30 2018-07-10 中国移动通信集团上海有限公司 一种标签查询方法及装置
US10120937B2 (en) 2014-09-04 2018-11-06 Wistron Corporation Method and system for masking and filtering web contents and computer program product

Families Citing this family (85)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070100862A1 (en) 2005-10-23 2007-05-03 Bindu Reddy Adding attributes and labels to structured data
US7933900B2 (en) * 2005-10-23 2011-04-26 Google Inc. Search over structured data
US8108388B2 (en) * 2006-04-26 2012-01-31 Microsoft Corporation Significant change search alerts
US7792821B2 (en) * 2006-06-29 2010-09-07 Microsoft Corporation Presentation of structured search results
US7890499B1 (en) 2006-07-28 2011-02-15 Google Inc. Presentation of search results with common subject matters
US9990110B1 (en) 2006-08-14 2018-06-05 Akamai Technologies, Inc. Private device cloud for global testing of mobile applications
US9154611B1 (en) 2006-08-14 2015-10-06 Soasta, Inc. Functional test automation for gesture-based mobile applications
US9720569B2 (en) 2006-08-14 2017-08-01 Soasta, Inc. Cloud-based custom metric/timer definitions and real-time analytics of mobile applications
US20080104542A1 (en) * 2006-10-27 2008-05-01 Information Builders, Inc. Apparatus and Method for Conducting Searches with a Search Engine for Unstructured Data to Retrieve Records Enriched with Structured Data and Generate Reports Based Thereon
US7895175B2 (en) * 2006-11-15 2011-02-22 Yahoo! Inc. Client-side federated search
US7987185B1 (en) 2006-12-29 2011-07-26 Google Inc. Ranking custom search results
US7725453B1 (en) * 2006-12-29 2010-05-25 Google Inc. Custom search index
US8584013B1 (en) 2007-03-20 2013-11-12 Google Inc. Temporal layers for presenting personalization markers on imagery
US9069853B2 (en) * 2007-03-30 2015-06-30 Innography, Inc. System and method of goal-oriented searching
US8725597B2 (en) * 2007-04-25 2014-05-13 Google Inc. Merchant scoring system and transactional database
US8655868B2 (en) * 2007-09-12 2014-02-18 Ebay Inc. Inference of query relationships based on retrieved attributes
US8442994B1 (en) 2007-09-14 2013-05-14 Google Inc. Custom search index data security
US8370372B2 (en) * 2007-11-05 2013-02-05 Jones Scott A Method and system of promoting human-assisted search
US20090210389A1 (en) * 2008-02-20 2009-08-20 Microsoft Corporation System to support structured search over metadata on a web index
US8290923B2 (en) * 2008-09-05 2012-10-16 Yahoo! Inc. Performing large scale structured search allowing partial schema changes without system downtime
US20100076979A1 (en) * 2008-09-05 2010-03-25 Xuejun Wang Performing search query dimensional analysis on heterogeneous structured data based on relative density
US20100076952A1 (en) * 2008-09-05 2010-03-25 Xuejun Wang Self contained multi-dimensional traffic data reporting and analysis in a large scale search hosting system
US8843476B1 (en) * 2009-03-16 2014-09-23 Guangsheng Zhang System and methods for automated document topic discovery, browsable search and document categorization
US7742933B1 (en) * 2009-03-24 2010-06-22 Harrogate Holdings Method and system for maintaining HIPAA patient privacy requirements during auditing of electronic patient medical records
US8250015B2 (en) * 2009-04-07 2012-08-21 Microsoft Corporation Generating implicit labels and training a tagging model using such labels
US8832133B2 (en) 2009-08-24 2014-09-09 Microsoft Corporation Answering web queries using structured data sources
CN102141990B (zh) * 2010-02-01 2014-02-26 阿里巴巴集团控股有限公司 一种搜索方法和装置
US20110225076A1 (en) * 2010-03-09 2011-09-15 Google Inc. Method and system for detecting fraudulent internet merchants
US9021362B2 (en) 2010-07-19 2015-04-28 Soasta, Inc. Real-time analytics of web performance using actual user measurements
US9436579B2 (en) 2010-07-19 2016-09-06 Soasta, Inc. Real-time, multi-tier load test results aggregation
US9495473B2 (en) 2010-07-19 2016-11-15 Soasta, Inc. Analytic dashboard with user interface for producing a single chart statistical correlation from source and target charts during a load test
US9251035B1 (en) 2010-07-19 2016-02-02 Soasta, Inc. Load test charts with standard deviation and percentile statistics
US9229842B2 (en) 2010-07-19 2016-01-05 Soasta, Inc. Active waterfall charts for continuous, real-time visualization of website performance data
US9450834B2 (en) 2010-07-19 2016-09-20 Soasta, Inc. Animated globe showing real-time web user performance measurements
US20120072860A1 (en) * 2010-09-17 2012-03-22 Microsoft Corporation Techniques to provide pivot-based search for business data
JP5811094B2 (ja) * 2010-09-22 2015-11-11 日本電気株式会社 属性情報処理装置、属性情報処理方法及び属性情報評価システム
US20120078925A1 (en) * 2010-09-27 2012-03-29 International Business Machines Corporation Searching within log files
KR101172487B1 (ko) * 2010-11-29 2012-08-14 엔에이치엔(주) 검색 결과 내에 첨부된 정보 데이터베이스에 기초한 검색 리스트 및 검색어 순위 제공 방법 및 시스템
US9898533B2 (en) * 2011-02-24 2018-02-20 Microsoft Technology Licensing, Llc Augmenting search results
CN102902695A (zh) * 2011-07-29 2013-01-30 上海博泰悦臻电子设备制造有限公司 导航系统及兴趣点搜索方法和装置
US9785533B2 (en) * 2011-10-18 2017-10-10 Soasta, Inc. Session template packages for automated load testing
FR2989189B1 (fr) * 2012-04-04 2017-10-13 Qwant Procede et dispositif de fourniture rapide d'information
US9916396B2 (en) 2012-05-11 2018-03-13 Google Llc Methods and systems for content-based search
US8954438B1 (en) 2012-05-31 2015-02-10 Google Inc. Structured metadata extraction
US9471606B1 (en) 2012-06-25 2016-10-18 Google Inc. Obtaining information to provide to users
US8997008B2 (en) 2012-07-17 2015-03-31 Pelicans Networks Ltd. System and method for searching through a graphic user interface
US9110852B1 (en) 2012-07-20 2015-08-18 Google Inc. Methods and systems for extracting information from text
CN103577436B (zh) * 2012-07-27 2017-10-13 阿尔派株式会社 内容检索装置及内容检索方法
CN108959394B (zh) * 2012-08-08 2022-01-11 谷歌有限责任公司 聚类的搜索结果
US9390174B2 (en) 2012-08-08 2016-07-12 Google Inc. Search result ranking and presentation
US9256682B1 (en) 2012-12-05 2016-02-09 Google Inc. Providing search results based on sorted properties
CN104021124B (zh) * 2013-02-28 2017-11-03 国际商业机器公司 用于处理网页数据的方法、装置和系统
US9218819B1 (en) 2013-03-01 2015-12-22 Google Inc. Customizing actions based on contextual data and voice-based inputs
US9772923B2 (en) 2013-03-14 2017-09-26 Soasta, Inc. Fast OLAP for real user measurement of website performance
US10108700B2 (en) 2013-03-15 2018-10-23 Google Llc Question answering to populate knowledge base
US9477759B2 (en) 2013-03-15 2016-10-25 Google Inc. Question answering using entity references in unstructured data
US10055462B2 (en) 2013-03-15 2018-08-21 Google Llc Providing search results using augmented search queries
EP2819029A1 (en) * 2013-06-28 2014-12-31 Alcatel Lucent Database interrogation
US9811830B2 (en) 2013-07-03 2017-11-07 Google Inc. Method, medium, and system for online fraud prevention based on user physical location data
US20150074101A1 (en) * 2013-09-10 2015-03-12 Microsoft Corporation Smart search refinement
US20150154292A1 (en) * 2013-12-03 2015-06-04 Yahoo! Inc. Recirculating on-line traffic, such as within a special purpose search engine
CN103699619A (zh) * 2013-12-18 2014-04-02 北京百度网讯科技有限公司 一种用于提供搜索结果的方法及装置
US10601674B2 (en) 2014-02-04 2020-03-24 Akamai Technologies, Inc. Virtual user ramp controller for load test analytic dashboard
CN103995870A (zh) * 2014-05-21 2014-08-20 百度在线网络技术(北京)有限公司 交互式搜索方法和装置
CN105302821A (zh) * 2014-06-26 2016-02-03 阿里巴巴集团控股有限公司 一种查询数据的方法及装置
US9934331B2 (en) 2014-07-03 2018-04-03 Microsoft Technology Licensing, Llc Query suggestions
CN105468601A (zh) * 2014-08-21 2016-04-06 富泰华工业(深圳)有限公司 信息处理装置和信息处理系统及其信息处理方法
US10025764B2 (en) * 2014-10-30 2018-07-17 Snap-On Incorporated Methods and systems for taxonomy assist at data entry points
US10346431B1 (en) 2015-04-16 2019-07-09 Akamai Technologies, Inc. System and method for automated run-tme scaling of cloud-based data store
US20170031998A1 (en) * 2015-07-31 2017-02-02 Linkedln Corporation Organizational directory access client and server leveraging local and network search
US10176175B2 (en) * 2015-08-19 2019-01-08 International Business Machines Corporation System and method for identifying candidates for back-of-book index
US20170068712A1 (en) * 2015-09-04 2017-03-09 Palantir Technologies Inc. Systems and methods for database investigation tool
KR101753768B1 (ko) * 2015-10-01 2017-07-04 한국외국어대학교 연구산학협력단 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템
KR102454725B1 (ko) * 2016-09-09 2022-10-13 엘에스일렉트릭(주) 그래픽 객체 편집 장치
CN107870915B (zh) * 2016-09-23 2021-08-17 伊姆西Ip控股有限责任公司 对搜索结果的指示
US11099716B2 (en) 2016-12-23 2021-08-24 Realwear, Inc. Context based content navigation for wearable display
US10620910B2 (en) 2016-12-23 2020-04-14 Realwear, Inc. Hands-free navigation of touch-based operating systems
US11507216B2 (en) 2016-12-23 2022-11-22 Realwear, Inc. Customizing user interfaces of binary applications
US10606736B1 (en) 2017-03-03 2020-03-31 Akamai Technologies Inc. System and method for automated creation of a load test plan
US10586358B1 (en) 2017-05-10 2020-03-10 Akamai Technologies, Inc. System and method for visualization of beacon clusters on the web
CN111753181A (zh) * 2019-03-28 2020-10-09 北京京东尚科信息技术有限公司 基于图像的搜索方法、装置、服务器、客户端及介质
US11176324B2 (en) * 2019-09-26 2021-11-16 Sap Se Creating line item information from free-form tabular data
US11449914B2 (en) * 2020-08-31 2022-09-20 Coupang Corp. Systems and methods for visual navigation during online shopping using intelligent filter sequencing
CN113806597A (zh) * 2021-09-10 2021-12-17 浙江创邻科技有限公司 一种基于图数据库的金融搜索系统及方法
CN114485713A (zh) * 2022-02-11 2022-05-13 龚加淦 一种基于大数据的交通服务智能推送方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040093321A1 (en) * 2002-11-13 2004-05-13 Xerox Corporation Search engine with structured contextual clustering

Family Cites Families (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6978277B2 (en) 1989-10-26 2005-12-20 Encyclopaedia Britannica, Inc. Multimedia search system
US5752242A (en) * 1996-04-18 1998-05-12 Electronic Data Systems Corporation System and method for automated retrieval of information
US6366923B1 (en) 1998-03-23 2002-04-02 Webivore Research, Llc Gathering selected information from the world wide web
US6192357B1 (en) * 1998-11-03 2001-02-20 Platinum Technology, Inc. Method and apparatus for optimizing query generation by selectively utilizing attributes or key values
US6845370B2 (en) 1998-11-12 2005-01-18 Accenture Llp Advanced information gathering for targeted activities
US7181459B2 (en) 1999-05-04 2007-02-20 Iconfind, Inc. Method of coding, categorizing, and retrieving network pages and sites
US7421648B1 (en) 1999-05-21 2008-09-02 E-Numerate Solutions, Inc. Reusable data markup language
US7181438B1 (en) 1999-07-21 2007-02-20 Alberti Anemometer, Llc Database access system
JP2001067262A (ja) 1999-08-31 2001-03-16 Degital Institute:Kk 情報処理システム及び情報記録媒体
WO2001033431A1 (en) 1999-11-02 2001-05-10 E-Clarity, Inc. Verbal classification system for the efficient sending and receiving of information
JP2001147922A (ja) 1999-11-18 2001-05-29 Canon Inc 文書管理装置、文書管理方法および記憶媒体
IL133546A0 (en) 1999-12-16 2001-04-30 Lewin Asaf A system for providing services through the internet
JP2001188760A (ja) * 1999-12-28 2001-07-10 Sony Corp 情報処理装置および方法、並びに記録媒体
US6701314B1 (en) 2000-01-21 2004-03-02 Science Applications International Corporation System and method for cataloguing digital information for searching and retrieval
WO2001061568A2 (en) 2000-02-17 2001-08-23 E-Numerate Solutions, Inc. Rdl search engine
AU2001251736A1 (en) 2000-03-27 2001-10-08 Documentum, Inc Method and apparatus for generating metadata for a document
US6499029B1 (en) 2000-03-29 2002-12-24 Koninklijke Philips Electronics N.V. User interface providing automatic organization and filtering of search criteria
JP2001326921A (ja) * 2000-05-15 2001-11-22 Sony Corp コンテンツ管理システム、コンシンツ管理方法、カメラ装置
US7062483B2 (en) * 2000-05-18 2006-06-13 Endeca Technologies, Inc. Hierarchical data-driven search and navigation system and method for information retrieval
DE10031351A1 (de) 2000-06-28 2002-01-17 Guru Netservices Gmbh Verfahren zur automatischen Recherche
US6675159B1 (en) 2000-07-27 2004-01-06 Science Applic Int Corp Concept-based search and retrieval system
US6757662B1 (en) 2000-08-21 2004-06-29 Richard L. Greenwald Method and system for display advertisement qualification and notification
US7185001B1 (en) * 2000-10-04 2007-02-27 Torch Concepts Systems and methods for document searching and organizing
US7647339B2 (en) 2000-10-04 2010-01-12 Gonzalez Emmanuel C Method for digitally labeling websites
US7069310B1 (en) * 2000-11-10 2006-06-27 Trio Systems, Llc System and method for creating and posting media lists for purposes of subsequent playback
JP2002183210A (ja) 2000-12-14 2002-06-28 Nippon Telegraph & Telephone East Corp 検索サーバにおけるコンテンツ検索方法およびそのプログラムが記録されたコンピュータ読み取り可能な記録媒体
JP3545347B2 (ja) 2001-01-15 2004-07-21 株式会社アマダ情報サービス 検索システム
US7272610B2 (en) * 2001-11-02 2007-09-18 Medrecon, Ltd. Knowledge management system
US7266563B2 (en) 2001-12-28 2007-09-04 Fotomedia Technologies, Llc Specifying, assigning, and maintaining user defined metadata in a network-based photosharing system
US7203675B1 (en) 2002-02-19 2007-04-10 Ncr Corp. Methods, systems and data structures to construct, submit, and process multi-attributal searches
JP2003296341A (ja) * 2002-04-03 2003-10-17 Nissan Motor Co Ltd データベース生成方法、データベース生成プログラム、データ構造、データベース生成システム、検索システム、及び検索方法
JP3793479B2 (ja) 2002-04-05 2006-07-05 富士通株式会社 情報提供システム
US20040143659A1 (en) 2002-04-26 2004-07-22 Milliken Russell C. System and method for a scalable notification server providing
JP4073734B2 (ja) * 2002-08-19 2008-04-09 日本電信電話株式会社 入力単語候補を推薦する情報検索システム
WO2004023243A2 (en) 2002-09-03 2004-03-18 X1 Technologies, Llc Apparatus and methods for locating data
KR20040048548A (ko) 2002-12-03 2004-06-10 김상수 지능형 데이터베이스 및 검색 편집 프로그램을 통한사용자 맞춤 검색 방법 및 시스템
US7472110B2 (en) * 2003-01-29 2008-12-30 Microsoft Corporation System and method for employing social networks for information discovery
US7885963B2 (en) * 2003-03-24 2011-02-08 Microsoft Corporation Free text and attribute searching of electronic program guide (EPG) data
JP2004310594A (ja) 2003-04-09 2004-11-04 Glory Ltd 紙葉類処理装置および紙葉類処理システム
JP2004341960A (ja) * 2003-05-16 2004-12-02 Sony Corp 位置依存情報検索方法、位置依存情報検索装置、位置依存情報提供装置、および位置依存情報検索プログラム
US8589373B2 (en) 2003-09-14 2013-11-19 Yaron Mayer System and method for improved searching on the internet or similar networks and especially improved MetaNews and/or improved automatically generated newspapers
JP2005202788A (ja) 2004-01-16 2005-07-28 National Institute Of Advanced Industrial & Technology 空間検索方法、空間検索装置、空間検索プログラムおよび空間検索プログラムを記録したコンピュータ読取可能な記録媒体
JP2005242586A (ja) 2004-02-25 2005-09-08 Fuji Xerox Co Ltd 文書ビュー提供のためのプログラム、装置、システム及び方法
US8676830B2 (en) * 2004-03-04 2014-03-18 Yahoo! Inc. Keyword recommendation for internet search engines
JP2005251115A (ja) * 2004-03-08 2005-09-15 Shogakukan Inc 連想検索システムおよび連想検索方法
US20050240393A1 (en) 2004-04-26 2005-10-27 Glosson John F Method, system, and software for embedding metadata objects concomitantly wit linguistic content
US20070100862A1 (en) 2005-10-23 2007-05-03 Bindu Reddy Adding attributes and labels to structured data
US7933900B2 (en) 2005-10-23 2011-04-26 Google Inc. Search over structured data

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040093321A1 (en) * 2002-11-13 2004-05-13 Xerox Corporation Search engine with structured contextual clustering

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101968807A (zh) * 2010-10-15 2011-02-09 北京思在信息技术有限责任公司 一种内容检索的方法及装置
CN102073725A (zh) * 2011-01-11 2011-05-25 百度在线网络技术(北京)有限公司 结构化数据的搜索方法和实现该搜索方法的搜索引擎系统
CN102073726A (zh) * 2011-01-11 2011-05-25 百度在线网络技术(北京)有限公司 搜索引擎系统及该搜索引擎系统的结构化数据引入方法
CN102073726B (zh) * 2011-01-11 2014-08-06 百度在线网络技术(北京)有限公司 搜索引擎系统的结构化数据的引入方法和装置
CN102968418A (zh) * 2011-09-01 2013-03-13 阿里巴巴集团控股有限公司 网站信息检索方法和系统
US10120937B2 (en) 2014-09-04 2018-11-06 Wistron Corporation Method and system for masking and filtering web contents and computer program product
CN107004002A (zh) * 2014-12-02 2017-08-01 隆沙有限公司 根据结构化数据项的集合生成非结构化搜索查询
CN108268512A (zh) * 2016-12-30 2018-07-10 中国移动通信集团上海有限公司 一种标签查询方法及装置

Also Published As

Publication number Publication date
WO2007046830A2 (en) 2007-04-26
WO2007046830A3 (en) 2007-11-15
KR20080066818A (ko) 2008-07-16
US20070168331A1 (en) 2007-07-19
AU2012200884A1 (en) 2012-03-08
AU2005337489B2 (en) 2012-03-08
JP2012043477A (ja) 2012-03-01
US8762372B2 (en) 2014-06-24
KR101222253B1 (ko) 2013-01-16
JP5560258B2 (ja) 2014-07-23
EP1952273A2 (en) 2008-08-06
US7933900B2 (en) 2011-04-26
CN101341464A (zh) 2009-01-07
EP1952273B1 (en) 2019-04-10
CA2626860C (en) 2015-12-08
AU2005337489A1 (en) 2007-04-26
JP2009512954A (ja) 2009-03-26
CN101866347B (zh) 2017-05-17
CA2626860A1 (en) 2007-04-26
CN101341464B (zh) 2010-05-26
US20110202517A1 (en) 2011-08-18
JP5112324B2 (ja) 2013-01-09
BRPI0520649A2 (pt) 2010-04-06
EP1952273A4 (en) 2009-04-29

Similar Documents

Publication Publication Date Title
CN101341464B (zh) 对结构化数据进行搜索的方法、系统以及使数据项结构化及可搜索的方法、系统
JP5300960B2 (ja) 属性およびラベルの構造化データへの追加
US8156105B2 (en) Rapid item data entry for physical items in the control of a user in an item data management server
US9965462B2 (en) Systems and methods for identifying and recording the sentiment of a message, posting, or other online communication using an explicit sentiment identifier
US20120221596A1 (en) Method and System for Automated Search for, and Retrieval and Distribution of, Information
US20130091090A1 (en) Semantic web portal and platform
KR20100094021A (ko) 이동통신 단말기와 아이피 기반 정보 단말기를 이용한 맞춤, 지능형 심볼, 아이콘 인터넷 정보 검색시스템
CN101160581A (zh) 实现基于位置的多模式电子目录服务方法、系统以及装置
US9626448B2 (en) System and/or method for linking network content
CN101124576A (zh) 集成有来自信任网络的用户注释的搜索系统和方法
US20070244868A1 (en) Internet book marking and search results delivery
CN102622402B (zh) 使用页面集而提供信息搜索服务的服务器、方法和系统
US7859550B2 (en) Item data management over a data network for physical items in the control of a user
KR101748245B1 (ko) 3d 프린팅 데이터 서비스 제공 방법
Slezak A Proposal for Establishing a Free Market Basis for Plant Genome Information Exchange
JP2003263318A (ja) Xml等のタグ情報利用のプログラム連携システム、及び連携プログラム作成システム
CN103390008A (zh) 一种获取用户个性化特征的方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: American California

Patentee after: Google limited liability company

Address before: American California

Patentee before: Google Inc.