CN100583082C - 信息提取方法及系统 - Google Patents
信息提取方法及系统 Download PDFInfo
- Publication number
- CN100583082C CN100583082C CN200480036436A CN200480036436A CN100583082C CN 100583082 C CN100583082 C CN 100583082C CN 200480036436 A CN200480036436 A CN 200480036436A CN 200480036436 A CN200480036436 A CN 200480036436A CN 100583082 C CN100583082 C CN 100583082C
- Authority
- CN
- China
- Prior art keywords
- latent image
- article
- shadow price
- price
- shadow
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000000605 extraction Methods 0.000 title description 6
- 230000004044 response Effects 0.000 claims description 11
- 240000006028 Sambucus nigra Species 0.000 claims description 5
- 230000008676 import Effects 0.000 description 5
- 238000003860 storage Methods 0.000 description 4
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 210000003484 anatomy Anatomy 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明揭示用于从文章中识别并提取信息的系统及方法。在一实施例中,一搜索引擎执行一种包括如下的方法:接收复数个文章,并将至少一第一文章识别为一购物文章。所述方法可进一步包括:接收一对一条目的搜索查询,选择与所述搜索查询相关联的第一文章,及至少部分地根据所述搜索查询从所述第一文章中识别一与第一条目相关联的第一属性,所述第一条目与所述搜索查询相关。
Description
技术领域
本发明大体而言涉及信息提取。更具体而言,本发明涉及用于从文章中提取信息的方法及系统。
背景技术
搜索引擎或搜索引擎程序为一种使用户能够在大量文档中搜索信息的广泛使用的机制。自动化通用搜索引擎通过使用户所输入的搜索查询项与一带索引的网页库相匹配来确定文档(例如网页)的位置。传统的网络搜索引擎(例如GoogleTM搜索引擎)响应于用户所提交的搜索查询而返回一搜索结果集合。所述搜索结果集合可包括一具有一至每一文档的链接的排序的文档列表且可向用户返回所述文档的摘要。所述搜索引擎可根据许多种量度(例如搜索项在文档中出现的次数及包含一通至一文档的链接的文档数量)在搜索结果集合中对各个文章或文档进行排序或分类。例如,一种已知方法(其阐述于由Sergey Brin及Lawrence Page所撰写的名称为“对一大型超级文本搜索引擎的剖析(The Anatomy of a Large-Scale Hypertextual Search Engine)”的文章中)是根据网页的链接结构为文档(例如网页)指定一重要度。
许多文档(例如网页)提供待售条目。此类购物文档允许用户直接(例如通过点击一链接)或间接购买各条目。希望对来自不同卖主的条目的价格进行比较的用户可在一通用搜索引擎中输入对所述条目的查询并获得一相关文档列表。同样,可能存在所述条目的不同版本且用户可能希望查看每一卖主带有哪个版本。为了比较价格或版本,用户必须访问所有提供所述待售条目的文档。另外,在搜索结果集合中可能存在不是购物文档而只是论述该条目(例如评论)的文档。
期望响应于对条目的搜索查询而自一搜索结果集合中的相关文档向用户提供所述条目的某些属性,例如价格、版本及图像。手动搜遍大量文档来提取条目属性可能极费时间且对于很多文档来说不切实际。
因此,需要响应于用户的搜索查询而自动从文档中提取产品信息。
发明内容
本发明的各实施例包括用于从文章中识别并提取信息的方法及系统。在一实施例中,一搜索引擎执行一种方法,该方法包括:接收复数个文章,并将至少一第一文章识别为一购物文章。所述方法可进一步包括:接收针对一条目的搜索查询,选择与所述搜索查询相关联的所述第一文章,及至少部分地根据所述搜索查询而从所述第一文章中识别出一第一属性,所述第一属性与一和搜索查询相关的第一条目相关联。本发明的其他方面涉及计算机系统并涉及具有与上述方面相关的特征的计算机可读媒体。
下文将对本发明各实施例的进一步细节及优点进行阐述。
附图说明
参照附图阅读下文详细说明,将会更好地了解本发明的这些及其他特征、方面及优点,附图中:
图1为一图解说明一本发明一实施例可在其中运行的实例性环境;
图2为一流程图,其图解说明一种根据本发明的一实施例从文章中识别并提取条目属性的方法;及
图3为一流程图,其图解说明一种根据本发明的一实施例从一文章中识别并提取条目价格及图像信息的方法的一实例。
具体实施方式
本发明包括用于信息提取的方法及系统。现在参见附图,在这几个图式中相同编号指示相同元件,图1为一图解说明一用于实施本发明一实施例的实例性环境的方块图。图1中所示的系统100包括多个通过一网络106与一服务器装置104通信的客户机装置102a-n。所示网络106包括因特网。在其他实施例中,可使用例如内联网等其他网络。此外,本发明的方法可在单个计算机内运行。
所示客户机装置102a-n各自包括一计算机可读媒体,例如一耦接至一处理器110的随机存取存储器(RAM)108。处理器110执行存储于存储器108中的计算机可执行程序指令。此类处理器可包括微处理器、ASIC及状态机。此类处理器包括存储指令的媒体(例如计算机可读媒体)或者可与所述媒体通信,所述指令在由所述处理器执行时会使所述处理器实施本文中所述的步骤。计算机可读媒体的各实施例包括(但不限于)能为处理器(例如客户机102a的处理器110)提供计算机可读指令的电子、光学、磁性或其他存储或传输装置。其他适合的媒体实例包括(但不限于)软盘、CD-ROM、DVD、磁盘、存储芯片、ROM、RAM、ASIC、经配置的处理器、所有光学媒体、所有磁带或其他磁性媒体、或计算机处理器可自其读取指令的任何其他媒体。此外,各种其他形式的计算机可读媒体也可向计算机传输或载送指令,包括路由器、专用或公用网络、或其他有线和无线传输装置或信道。所述指令可包括任一种计算机编程语言的代码,包括(例如)C、C++、C#、Visual Basic、Java、Python、Perl、及JavaScript。
客户机装置102a-n也可包括若干外部或内部装置,例如鼠标、CD-ROM、DVD、键盘、显示器或其他输入或输出装置。客户机装置102a-n的实例为个人计算机、数字助理、个人数字助理、蜂窝式电话、移动电话、智能电话、寻呼机、数字图形输入板、膝上型计算机、因特网设备及其他基于处理器的装置。通常,客户机装置102a可为连接至一网络106并与一个或多个应用程序交互作用的任一类型的基于处理器的平台。客户机装置102a-n可在任一能够支持浏览器或由浏览器启用的应用程序的操作系统(例如或Linux)上运行。所示客户机装置102a-n包括(例如)执行一浏览器应用程序(例如Microsoft公司的Internet ExplorerTM、Netscape通信公司的Netscape NavigatorTM及Apple计算机公司的SafariTM)的个人计算机。
通过客户机装置102a-n,用户112a-n可通过网络106来彼此通信并与耦接至网络106的其他系统及装置通信。如图1所示,一服务器装置104也耦接至网络106。在所示实施例中,一用户112a-n在一客户装置102a处产生一搜索查询114。客户装置102a通过网络106将查询114传输至服务器装置104。例如,一用户112a将一关于一条目的原文搜索查询输入至一显示于客户机装置102a上的购物搜索引擎界面或其他客户端软件的一网页中的查询域中,然后所述搜索查询通过网络106传输至服务器装置104。在所示实施例中,一用户112a在一客户机装置102a上输入一搜索查询114,由客户机装置102a将一反映搜索查询114的相关搜索查询信号122传输至服务器装置104。可如图所示直接将搜索查询114直接传输至服务器装置104。在另一实施例中,查询信号122可改为发送至一代理服务器(未显示),然后由代理服务器将查询信号122传输至服务器装置104。也可具有其他配置。
所示服务器装置104包括一执行一购物搜索引擎应用程序(例如FroogleTM搜索引擎)的服务器。类似于客户机装置102a-n,所示服务器装置104包括一耦接至一计算机可读存储器118的处理器116。服务器装置104-其被显示为单个计算机系统-可构建成一计算机处理器网络。服务器装置104的各实例为服务器、主计算机、联网的计算机、基于处理器的装置、及相似类型的系统及装置。客户机处理器110及服务器处理器116可为若干种计算机处理器中的任一种,例如位于Santa Clara,California的Intel公司的及位于Schaumburg,Illinois的Motorola公司的处理器。
存储器118包含购物搜索引擎应用程序-亦称作搜索引擎120。搜索引擎120响应于来自用户112a-n的搜索查询114而查找文章中的相关条目。条目可包括(例如)产品、商品、服务及任何其他待售物品。然后,搜索引擎120通过网络106将结果集合124提供至客户机102a。结果集合124可包括一排序的条目列表、每一条目的属性(例如价格及图像)及至每一包含所述条目的文章的链接(例如网页)。搜索引擎还包括一文档定位器130及一属性处理器132。在所示实施例中,每一搜索引擎均包括驻留于存储器118中的计算机代码。
在所示实施例中,服务器装置104或相关装置确定存储于与网络106相连的其他装置或系统上文章(例如网页)的位置,并在接收并处理一搜索查询114之前给存储器118中或另一数据存储装置上的所述文章加索引。文章包括(例如)各种格式(例如HTML、XML、XHTML)的网页、可移植文档格式(PDF)文件、及字处理器、数据库、及应用程序文档文件、音频、视频、或可在一网络(例如因特网)、个人计算机或其他计算或存储构件上获得的任何类型的任何其他文档或信息。本文所述实施例大体上是就HTML文件或文档来加以说明,但各实施例亦可对任一类型的文章(包括任一类型的图像)运行。在网络漫游期间或之后,服务器装置104或其他装置可确定是否所漫游文档中有的为购物文档。购物文档为一种提供待售条目的文档且在其中可通过与所述文档或相关文档交互作用来购买所述条目。
响应于一搜索查询信号122,文档定位器130识别包含与搜索查询信号122相关的条目的购物文档。一购物文档可包含单个或多个与所述搜索查询相关的条目。购物文档可包含条目属性,例如(举例而言)条目的价格、条目的图像、条目的SKU数及条目的版本。属性处理器132识别并提取某些关联于这一或这些与搜索查询相关的条目的属性。在一实施例中,属性处理器132从由文档定位器130定位出的与搜索查询相关的文档中识别并提取所述条目的价格及与所述条目相关联的图像。下文将进一步阐述文档定位器130及属性处理器132的其他功能及特性。
应注意,本发明可包括具有一不同于图1所示的架构的系统。例如,在根据本发明的一些系统中,属性处理器132可定位于搜索引擎120的外部且可在用户进行搜索查询之前离线实施其功能。图1所示系统100仅为实例性,用于解释图2及3所示的实例性方法。
可实施根据本发明的各种方法。例如,在一实施例中,接收复数个文章,识别一第一文章中的至少一个价格表示形式,识别第一文章中一链接元素或一形式元素中的至少一个购物字符串,并提供一所述第一文章为一购物文章的指示。所述价格表示形式可为一货币符号后面依次跟有一数字、一句点或逗点、两个单数位的数字。所述字符串可出现于一统一资源定位符(URL)、一HTML形式元素(例如<FORM>、<INPUT>、或<IMAGE>)的参数或值、或一HTML<A>标签中的URL中。所述字符串可为“add to cart(添加至推车)”、“add to basket(添加至篮子)”、“add to shopping bag(添加至购物袋)”、“update order(更新次序)”、“cart(推车)”、“basket(篮子)”及“checkout(收款处)”。
在一实施例中,接收对条目的搜索查询,选择与搜索查询相关联的一第一文章,至少部分地根据搜索查询来识别一与来自所述文章的条目相关联的第一属性,至少部分地根据所述搜索查询及所述第一属性来识别一与所述条目相关联的第二属性,并从第一文章中提取第一属性及第二属性。搜索查询可由用户输入或者可由搜索引擎或搜索引擎管理器产生。可从复数个文章中提取属性并可对每一条目进行排序。可将排序的条目列表作为一搜索结果集合提供给用户。或者,搜索引擎可将所提取的属性加上索引并加以存储。
可按众多种方式来识别第一属性及第二属性。例如,可至少部分地根据第一文章的结构来识别第一属性及第二属性。对第一属性及第二属性的识别可包括确定每一属性与一查询词之间的关系。第一文章可具有一树形结构且对第一属性及第二文章的识别可包括确定每一属性与一查询词之间的若干个字、确定自每一属性及一查询词至一最接近的共同先辈的距离、确定一既包含第一属性及一查询词又包含第二属性及一查询词的最小树中的若干节点、确定到一既包含第一属性及一查询词又包含第二属性及一查询词的最小树的深度、确定第一属性与第二属性之间的距离。对第一属性及第二属性的识别也可包括确定关联于与第一文章相关的文章的全局信息。对第一属性及第二属性的识别可同时实施,或者可逐次实施,例如先确定第一属性、然后再确定第二属性。
在一实施例中,第一属性为一与条目相关联的价格而第二属性为一与条目相关联的图像。识别价格可包括确定一价格表示形式得分、确定价格的字号、确定价格的字体、确定紧邻在价格前面的字、及确定紧跟在价格后面的字。识别图像可包括确定一与图像相关联的长宽比、及确定一与图像相关联的发生频率值。
图2图解说明一种实例性方法200,其提供一种用于从文档中识别并提取条目属性的方法。此实例性方法仅以举例说明方式提供,因为存在众多种实施本发明方法的方式。图2所示方法200可由各种系统中的任一系统执行或以其他方式实施。下文以举例方式将方法200阐述成由图1所示的系统100实施,且在对图2所示实例性方法的解说中引用系统100的各种元件。
在202中,搜索引擎120识别购物文档。购物文档为一种提供待售条目的文档且在其中可通过与所述文档或相关文档交互作用来购买所述条目。搜索引擎120可在网络漫游106期间或在网络漫游106之后确定购物文档。搜索引擎120可在所漫游文档的一索引中为每一被识别为购物文档的文档提供一指示(例如旗标)。
为了确定一文档是否为一购物文档,搜索引擎120可检测所述文档中指示所述文档提供待售条目的特定格式化特性。由于文档常常论述待售条目但不实际提供待售条目(例如是对条目的评论),因而用户可见的文档特征往往不可靠。因此,搜索引擎120可在确定一文档是否为购物文档时着重于所述文档的非用户可见的机械方面。例如,倘若为HTML文档,搜索引擎120可确定文档中是否存在任何指示所述文档为一购物文档的形式元素或链接元素。搜索引擎120可搜寻出现于URL、一HTML形式元素(例如<FORM>、<INPUT>、或<IMAGE>)的参数或值、或一HTML<A>标签中的URL中的字符串。例如,一形式或链接元素中的下列字符串指示一购物文档:“addto cart(添加至推车)”、“add to basket(添加至篮子)”、“add to shopping bag(添加至购物袋)”、“update order(更新次序)”、“cart(推车)”、“basket(篮子)”及“checkout(收款处)”。有众多种其他类似字符串也可指示一购物文档。在确定一文档是否为一购物文档时,搜索引擎120也可确定在所述文档上是否出现价格。具体而言,搜索引擎120可识别所述文档是否包含一价格表示形式。一价格表示形式可为货币符号后面依次跟有一数字、一句点、两个单数位的数字,例如“$15.89”。同样,搜索引擎可识别除“$”以外的其他货币符号并可寻找一指示一货币的小数的逗点而不是句点,例如15,89。
在204中,搜索引擎120通过网络106自一客户机装置102a接收一搜索查询信号122。一用户112a可将表示一所述用户希望购买或希望获得其购买信息的条目的文本输入一客户机装置102a中。客户机装置可产生一表示由用户输入的搜索查询114的相关搜索查询信号122并通过网络106将搜索查询信号122传输至服务器装置104。例如,如果用户112a对购买一照相机感兴趣,则其可在客户机装置102a中输入“照相机”且客户机装置将一相关搜索查询信号122发送至服务器装置104。或者,搜索引擎120或一搜索引擎管理器可产生一关于一个或多个条目的搜索查询,以便能够从文档中提取条目属性。
在206中,文档定位器130识别与在搜索查询中所请求的条目相关的购物文档。对于搜索查询“照相机”这一实例而言,文档定位器130可尝试对所有提供照相机以供购买的购物文档进行定位。文档定位器130可使用传统技术来识别相关购物文档,例如(举例而言)将所述搜索查询词与购物文档的索引词相比对。
在208中,对于在步骤206中由文档定位器130所识别的每一购物文档而言,由属性处理器132来识别并提取某些与包含于所述文档中的这一或这些条目相关联的属性。条目属性可包括(例如)条目名称、所述条目的价格、所述条目的图像、所述条目的SKU码、所述条目的版本、所述条目的说明、及与所述条目相关的其他信息。可根据众多个因素,例如查询词、文档结构、相关文档的全局信息及其他所识别出的或潜在的属性,来识别文档中的条目属性。
例如,属性处理器132可通过确定一潜在属性与所述搜索查询中所使用的词的关系来识别条目的潜在属性。可根据众多个距离量度及基于文档结构的结构量度来确定此种关系。例如,属性处理器132可通过确定一潜在属性距查询词的距离、一潜在属性在文档结构中的位置、及一潜在属性的字号及字体来确定一关系。属性处理器132也可使用文档中各潜在属性之间的关系来确定条目的属性。可识别并提取每一条目的多个属性。例如,属性处理器可根据查询词来识别并提取一条目标题,且随即使用此属性及所述查询词来识别并提取所述条目的价格,并使用所提取的两个属性及所述查询词来识别并提取所述条目的图像。通过使属性选择倾向于文档中彼此接近的东西,可提高所选属性的品质。由属性处理器132用于识别及选择与条目相关联的属性的全局信息可包括(例如)来自一特定卖主或主机的文档数量、一图像在网络上被引用的次数、及图像的尺寸。属性处理器132可同时确定一条目的不同属性或者每次确定一个属性。
图3图解说明子例程208的一实例并具体图解说明为一文档中的条目确定两个属性-价格及图像-的实例。在302中,属性处理器132确定条目的一潜在价格列表。属性处理器132可通过检查文档并确定与每一潜在价格相关联的价格信号来确定潜在价格。这些价格信号可包括价格表示形式、潜在价格的字体、潜在价格与特定字的接近性、及与潜在价格相关的距离及结构量度。
例如,可赋予每一潜在价格一表示所述价格看起来多么好像一价格的价格表示形式得分。一价格通常将具有一货币指示符(例如“$”)、一后面依次跟有一句点及两个单数位的数字,因而价格可形如“$15.89”。潜在价格的字号如果为一大的字号,则其可指示其为一价格。字体也可指示潜在价格是否为一实际价格。例如,一加删除线的字型可指示该潜在价格不是条目的价格。紧位于潜在价格前面的词(例如“our pricc(我方价格)”、“yourprice(你方价格)”、“sale price(售价)”及“sale(出售)”)可指示为一价格。相反地,某些紧位于一潜在价格前面的字可指示所述潜在价格不是一实际价格,例如(举例而言)“starting at(自...起)”、“over(超过)”、“about(约)”“was(曾为)”、“save(节约)”、“rebate(折扣)”及“shipping(发货)”。一紧位于潜在价格前面或后面的国家缩写(例如“US”)可指示其为一实际价格。
一条目的价格或其他属性有可能非常接近在所述条目的搜索查询中所用的词。因此,属性处理器132可利用各种距离及结构量度来确定一潜在价格与一查询词的接近性。一个此种距离量度为一潜在价格与一查询词之间的字数。可对具有一树形结构的文档使用其他距离量度。如为所属领域的技术人员所知,HTML文档具有一可由复数个小的树形结构形成的分层树形结构。对于树形结构的文档而言,属性处理器132可确定自一潜在价格至与一查询词共享的最接近共同先辈的距离及既包含一潜在价格又包含一查询词的最小树的深度。属性处理器还可使用既包含一潜在价格又包含一查询词的最小树中若干节点的结构量度来确定条目的潜在价格。
根据某些或所有这些价格信号,属性处理器132识别一文档中一条目的潜在价格并为来自一文档的条目编辑一潜在价格列表。在一实施例中,属性处理器132随后可根据在一决策树中所使用的这些相同信号来对所述列表进行分类及排序。对列表进行分类及排序的其他方法也是可能的。
在304中,属性处理器132可为来自一文档的条目确定潜在图像。如同确定条目的潜在价格一样,属性处理器132确定各种图像信号以识别与所述条目相关联的潜在图像。此类信号可为(例如)潜在图像及查询词的各种距离及结构量度、潜在图像及潜在价格的各种距离及结构量度、及关于潜在图像的全局信息。可将在识别潜在价格时所曾使用的类似距离量度及结构量度用于潜在图像及查询词及潜在图像及潜在价格。关于潜在图像的全局信息(例如潜在图像的文件类型、潜在图像的尺寸、潜在图像的长宽比及所述图像的一出现值)也可由属性处理器132用来确定潜在图像。所述出现值可基于所述图像在文档中及网络中的出现频率。最好选取所述条目的呈照片或其他表示形式的条目图像,而不是与条目相关联的标志图或其他不合乎需要的图像。图像可由具有“.gif”、“.jpeg”或“.jpg”扩展名的文件指示。具有奇特长宽比或频繁出现于文档或网络中的图像可能是标志图或其他不合乎需要的图像。另外,极大的图像或小的图像可能表示所述图像不适用或不合适。
根据某些或所有这些信号,属性处理器132为一文档中的条目编辑一潜在图像列表。在一实施例中,属性处理器132随后可根据一决策树中所使用的这些相同信号来对所述列表进行分类及排序。也可具有对所述列表进行分类及排序的其他方法。
在306中,属性处理器132从一文档中选择一条目的最佳潜在价格及最佳潜在图像。属性处理器可将最高有序潜在价格选择为最佳潜在价格且可将最高有序潜在图像选择为最佳潜在图像。使图像及价格选择偏向于文档上彼此接近的东西可提高所选图像及价格的品质。在另一实施例中,在处理器132识别潜在图像之前,处理器132识别最佳潜在价格。
在308中,由属性处理器132提取文档中与所述条目相关的最佳潜在价格及最佳潜在图像并可将其用于编辑所述文档的与所述条目相关的摘要。
现在回到图2,属性处理器可从由文档定位器130所识别出的相关文档中识别并提取所请求条目的属性。在210中,将每一相关文档的条目属性编辑于一搜索结果集合中。
在212中,所编辑的搜索结果集合可由服务器装置104通过网络106传输至客户机装置102a。或者,搜索引擎120可将条目属性加上索引并加以存储,以供响应于来自用户的搜索查询而加以使用。
虽然上文说明包含许多细节,但这些细节不应视为对本发明范围的限制,而应仅视为对所揭示实施例的举例说明。所属领域的技术人员将会设想出许多仍属于本发明的范围内的其他可能的变化形式。措词“第一”及“第二”在本文中只是用来将各条目、文章或属性相互区分。措词“第一”及“第二”并非用来指示时间上的第一或第二,或列表中的第一或第二,或其他次序,除非另外明确指出。例如,“第二”可能在时间上或列表中出现在“第一”之前,除非另外明确表明。
Claims (16)
1、一种计算机实施的用于显示信息的方法,所述方法包括:
响应于接收一对一产品的搜索查询,搜索描述待售产品的文章的一索引;
确定一包含在所述索引中的一第一文章响应于所述搜索查询,所述第一文章包括一个或一个以上潜在价格以及一个或一个以上潜在图像;
选择包含在所述第一文章中的一潜在价格为一针对所述产品的最佳潜在价格;
选择包含在所述第一文章中的一潜在图像为一针对所述产品的最佳潜在图像,所述选择所述最佳潜在图像是基于所述最佳潜在价格;及
显示针对所述产品的所述最佳潜在价格和所述最佳潜在图像。
2、如权利要求1所述的方法,其中选择包含在所述第一文章中的一潜在图像为一最佳潜在图像包括选自由下面所组成的群组中的至少一者:确定所述最佳潜在价格和所述潜在图像之间的一距离,确定所述最佳潜在价格和所述搜索查询的一词之间的一距离,确定所述潜在图像和所述搜索查询的所述词之间的一距离,及确定与所述产品相关联的全局信息。
3、如权利要求1所述的方法,其中选择包含在所述第一文章中的一潜在价格为一最佳潜在价格包括选自由下面所组成的群组中的至少一者:确定一价格表示形式得分,确定一所述潜在价格的字号,确定一所述潜在价格的字体,确定一紧邻在所述潜在价格前面的字,及确定一紧跟在所述潜在价格后面的字。
4、如权利要求2所述的方法,其中确认与所述产品相关联的全局信息包括选自由下面所组成的群组中的至少一者:确定来自与所述第一文章相关联的一源的文件的一数目,确定一潜在图像在一网络上的一出现频率,及确定一潜在图像的大小。
5、如权利要求1所述的方法,其中选择包含在所述第一文章中的一潜在图像为一最佳潜在图像进一步包括确定一与所述潜在图像相关联的长宽比。
6、如权利要求1所述的方法,其中选择包含在所述第一文章中的一潜在图像为一最佳潜在图像进一步包括确定一与所述潜在图像相关联的出现频率值。
7、如权利要求1所述的方法,其中选择包含在所述第一文章中的一潜在图像为一最佳潜在图像进一步包括确定所述最佳潜在价格、所述潜在图像和所述搜索查询的一词之间的字数。
8、如权利要求1所述的方法,其中所述第一文章具有一树形结构。
9、如权利要求8所述的方法,其中选择包含在所述第一文章中的一潜在图像为一最佳潜在图像进一步包括:
确定与所述最佳潜在价格和所述搜索查询的一词共享的一最接近的共同先辈;
确定从所述最接近的共同先辈到所述潜在图像的距离;及
确定从所述最接近的共同先辈到所述搜索查询的所述词的距离。
10、如权利要求8所述的方法,其中选择包含在所述第一文章中的一潜在图像为一最佳潜在图像进一步包括确定一最小树的节点数目,所述最小树包含所述最佳潜在价格、所述潜在图像和所述搜索查询的一词。
11、如权利要求8所述的方法,其中选择包含在所述第一文章中的一潜在图像为一最佳潜在图像进一步包括确定一最小树的一深度,所述最小树包含所述最佳潜在价格、所述潜在图像和所述搜索查询的一词。
12、如权利要求1所述的方法,其中选择包含在所述第一文章中的一潜在价格为一最佳潜在价格和选择包含在所述第一文章中的一潜在图像为一最佳潜在图像包括:
对所述潜在价格和所述潜在图像进行排序;
选择一最高有序潜在价格作为所述最佳潜在价格;
选择一最高有序潜在图像作为所述最佳潜在图像。
13、如权利要求12所述的方法,其中所述潜在价格和所述潜在图像的排序是根据每一潜在价格的一价格表示形式得分中的至少一者和每一潜在图像和每一潜在价格之间的所述距离。
14、如权利要求12所述的方法,其中所述最佳潜在价格是最可能与所述产品正确相关联的一潜在价格,且所述最佳图像是最可能与所述产品正确相关联的一潜在图像。
15、如权利要求1所述的方法,其进一步包括:
确定一包含在所述索引中的一第二文章响应于所述搜索查询,所述第二文章包括一个或一个以上潜在价格以及一个或一个以上潜在图像;
选择包含在所述第二文章中的一第二潜在价格为一针对所述产品的最佳第二潜在价格;
选择包含在所述第二文章中的一第二潜在图像为一针对所述产品的最佳第二潜在图像,所述选择所述最佳第二潜在图像是基于所述最佳第二潜在价格;及
自所述第二文章显示针对所述产品的所述最佳第二潜在价格和所述最佳第二潜在图像。
16、一种计算机实施的系统,其用于显示关于来自一文章的一产品的信息,所述系统包括:
搜索构件,其用于响应于接收一对一产品的搜索查询而搜索描述待售产品的文章的一索引;
确定构件,其用于确定包含在所述索引中的一第一文章响应于所述搜索查询,所述第一文章包括一个或一个以上潜在价格以及一个或一个以上潜在图像;
选择构件,其用于选择包含在所述第一文章中的一潜在价格为一针对所述产品的最佳潜在价格;
选择构件,其用于选择包含在所述第一文章中的一潜在图像为一针对所述产品的最佳潜在图像,其中所述选择所述最佳潜在图像是基于所述最佳潜在价格;及
显示构件,其用于显示针对所述特定产品的所述最佳潜在价格和所述最佳潜在图像。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/731,916 | 2003-12-10 | ||
US10/731,916 US7836038B2 (en) | 2003-12-10 | 2003-12-10 | Methods and systems for information extraction |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1890661A CN1890661A (zh) | 2007-01-03 |
CN100583082C true CN100583082C (zh) | 2010-01-20 |
Family
ID=34652769
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200480036436A Expired - Fee Related CN100583082C (zh) | 2003-12-10 | 2004-11-17 | 信息提取方法及系统 |
Country Status (5)
Country | Link |
---|---|
US (1) | US7836038B2 (zh) |
EP (1) | EP1695232A1 (zh) |
CN (1) | CN100583082C (zh) |
AU (1) | AU2004304285B2 (zh) |
WO (1) | WO2005062192A1 (zh) |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7536561B2 (en) | 1999-10-15 | 2009-05-19 | Ebrary, Inc. | Method and apparatus for improved information transactions |
US7840564B2 (en) | 2005-02-16 | 2010-11-23 | Ebrary | System and method for automatic anthology creation using document aspects |
US7433869B2 (en) | 2005-07-01 | 2008-10-07 | Ebrary, Inc. | Method and apparatus for document clustering and document sketching |
US20070078850A1 (en) * | 2005-10-03 | 2007-04-05 | Microsoft Corporation | Commerical web data extraction system |
US7529748B2 (en) | 2005-11-15 | 2009-05-05 | Ji-Rong Wen | Information classification paradigm |
US8145617B1 (en) * | 2005-11-18 | 2012-03-27 | Google Inc. | Generation of document snippets based on queries and search results |
US7693804B2 (en) * | 2005-11-28 | 2010-04-06 | Fatlens Inc. | Method, system and computer program product for identifying primary product objects |
US8156073B1 (en) * | 2006-03-29 | 2012-04-10 | Amazon Technologies, Inc. | Item attribute generation using query and item data |
US8484554B2 (en) * | 2006-08-31 | 2013-07-09 | Sap Ag | Producing a chart |
JP4281017B2 (ja) * | 2007-01-05 | 2009-06-17 | ソニー株式会社 | 情報処理装置、表示制御方法、およびプログラム |
US7809707B2 (en) * | 2007-07-23 | 2010-10-05 | Sap Ag | System and method for identifying element usage in a deep element structure |
US8655868B2 (en) | 2007-09-12 | 2014-02-18 | Ebay Inc. | Inference of query relationships based on retrieved attributes |
US20090327223A1 (en) * | 2008-06-26 | 2009-12-31 | Microsoft Corporation | Query-driven web portals |
US8538943B1 (en) * | 2008-07-24 | 2013-09-17 | Google Inc. | Providing images of named resources in response to a search query |
KR101368612B1 (ko) | 2009-02-24 | 2014-02-27 | 이베이 인크. | 다방향 비주얼 브라우징을 제공하는 시스템 및 방법 |
FR2945651A1 (fr) * | 2009-05-15 | 2010-11-19 | France Telecom | Dispositif et procede de mise a jour d'un profil utilisateur |
WO2012058339A1 (en) * | 2010-10-26 | 2012-05-03 | Barnes & Noble, Inc | System and method for displaying electronic publications cross reference to related application |
US9846902B2 (en) * | 2011-07-19 | 2017-12-19 | Slice Technologies, Inc. | Augmented aggregation of emailed product order and shipping information |
US8788436B2 (en) * | 2011-07-27 | 2014-07-22 | Microsoft Corporation | Utilization of features extracted from structured documents to improve search relevance |
US9130892B2 (en) * | 2012-06-25 | 2015-09-08 | Verizon Patent And Licensing Inc. | Multimedia collaboration in live chat |
GB2506450A (en) * | 2012-10-01 | 2014-04-02 | Wonga Technology Ltd | Web page categorisation |
DE102013000615A1 (de) | 2013-01-16 | 2014-07-17 | i-market GmbH | Automatisches Verfahren um auf Websites diejenigen Webseiten zu erkennen, welche Informationen über Produkte und/oder Dienstleistungen enthalten |
US9654906B2 (en) * | 2014-06-12 | 2017-05-16 | Samsung Electronics Co., Ltd | Method for processing data based on bluetooth protocol and electronic device thereof |
CN104375985A (zh) * | 2014-11-25 | 2015-02-25 | 苏州迪云信息科技有限公司 | 一种从文本中提取物品信息的方法和装置 |
US10482528B2 (en) * | 2016-04-16 | 2019-11-19 | Boris Sheykhetov | Philatelic search service system and method |
US10447635B2 (en) | 2017-05-17 | 2019-10-15 | Slice Technologies, Inc. | Filtering electronic messages |
US11803883B2 (en) | 2018-01-29 | 2023-10-31 | Nielsen Consumer Llc | Quality assurance for labeled training data |
Family Cites Families (53)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6037939A (en) * | 1995-09-27 | 2000-03-14 | Sharp Kabushiki Kaisha | Method for enabling interactive manipulation of data retained in computer system, and a computer system for implementing the method |
US6298174B1 (en) * | 1996-08-12 | 2001-10-02 | Battelle Memorial Institute | Three-dimensional display of document set |
US5982369A (en) * | 1997-04-21 | 1999-11-09 | Sony Corporation | Method for displaying on a screen of a computer system images representing search results |
US6567980B1 (en) * | 1997-08-14 | 2003-05-20 | Virage, Inc. | Video cataloger system with hyperlinked output |
US5974412A (en) * | 1997-09-24 | 1999-10-26 | Sapient Health Network | Intelligent query system for automatically indexing information in a database and automatically categorizing users |
US6237011B1 (en) * | 1997-10-08 | 2001-05-22 | Caere Corporation | Computer-based document management system |
US6009442A (en) * | 1997-10-08 | 1999-12-28 | Caere Corporation | Computer-based document management system |
US7124129B2 (en) * | 1998-03-03 | 2006-10-17 | A9.Com, Inc. | Identifying the items most relevant to a current query based on items selected in connection with similar queries |
US6424980B1 (en) | 1998-06-10 | 2002-07-23 | Nippon Telegraph And Telephone Corporation | Integrated retrieval scheme for retrieving semi-structured documents |
US6317722B1 (en) * | 1998-09-18 | 2001-11-13 | Amazon.Com, Inc. | Use of electronic shopping carts to generate personal recommendations |
US6271840B1 (en) * | 1998-09-24 | 2001-08-07 | James Lee Finseth | Graphical search engine visual index |
US6058417A (en) * | 1998-10-23 | 2000-05-02 | Ebay Inc. | Information presentation and management in an online trading environment |
US6332135B1 (en) * | 1998-11-16 | 2001-12-18 | Tradeaccess, Inc. | System and method for ordering sample quantities over a network |
US6678681B1 (en) * | 1999-03-10 | 2004-01-13 | Google Inc. | Information extraction from a database |
US6369840B1 (en) * | 1999-03-10 | 2002-04-09 | America Online, Inc. | Multi-layered online calendaring and purchasing |
US7096426B1 (en) * | 1999-05-07 | 2006-08-22 | Catherine Lin-Hendel | Clustered presentation of objects with group and individual identity in, and virtual layered composition of, electronically recorded, computer presented media |
US6606625B1 (en) * | 1999-06-03 | 2003-08-12 | University Of Southern California | Wrapper induction by hierarchical data analysis |
US7080070B1 (en) * | 1999-07-02 | 2006-07-18 | Amazon Technologies, Inc. | System and methods for browsing a database of items and conducting associated transactions |
WO2001013273A2 (en) | 1999-08-18 | 2001-02-22 | North Carolina State University | Systems, methods and computer program products for performing multi-lingual, multi-cultural searches, comparisons, and purchases of products offered for sale at multiple web sites on the internet |
US7797195B2 (en) * | 1999-09-17 | 2010-09-14 | Michael Jay Langhammer | Merchant-affiliated direct wholesale marketing and fulfillment system |
US6785671B1 (en) * | 1999-12-08 | 2004-08-31 | Amazon.Com, Inc. | System and method for locating web-based product offerings |
WO2001046870A1 (en) | 1999-12-08 | 2001-06-28 | Amazon.Com, Inc. | System and method for locating and displaying web-based product offerings |
US6615184B1 (en) * | 2000-01-04 | 2003-09-02 | Mitzi Hicks | System and method for providing customers seeking a product or service at a specified discount in a specified geographic area with information as to suppliers offering the same |
EP1266304A1 (en) * | 2000-03-02 | 2002-12-18 | MMC Webreporter Systems.Com INC. | System and method for creating a book of reports over a computer network |
CA2404814C (en) * | 2000-03-28 | 2016-10-11 | Stamps.Com, Inc. | Apparatus, systems and methods for online, multi-parcel, multi-carrier, multi-service parcel returns shipping management |
JP2001290966A (ja) * | 2000-04-05 | 2001-10-19 | Hitachi Ltd | コンピュータネットワークを利用した販売支援システム及びその方法 |
US7058598B1 (en) * | 2000-04-30 | 2006-06-06 | International Business Machines Corporation | Web price optimizer of multiple-item package orders for e-commerce on the internet and method of use |
US7076443B1 (en) * | 2000-05-31 | 2006-07-11 | International Business Machines Corporation | System and technique for automatically associating related advertisements to individual search results items of a search result set |
KR100403714B1 (ko) * | 2000-06-10 | 2003-11-01 | 씨씨알 주식회사 | 웹문서 레이아웃 이미지 및 웹사이트 구조를 제공하여인터넷 검색을 용이하게 할 수 있는 시스템 및 방법 |
WO2001097143A2 (en) | 2000-06-15 | 2001-12-20 | Infospace, Inc. | Unified product purchasing system and method |
US7409368B2 (en) * | 2000-07-13 | 2008-08-05 | Oes, Inc. | Dutch auction system with preregistered bid feature |
US6920609B1 (en) * | 2000-08-24 | 2005-07-19 | Yahoo! Inc. | Systems and methods for identifying and extracting data from HTML pages |
US6647383B1 (en) * | 2000-09-01 | 2003-11-11 | Lucent Technologies Inc. | System and method for providing interactive dialogue and iterative search functions to find information |
US7461024B2 (en) * | 2000-09-27 | 2008-12-02 | Montgomery Rob R | Bidder-side auction dynamic pricing agent, system, method and computer program product |
EP1193625B1 (fr) * | 2000-09-27 | 2006-09-13 | Pertinence Data Intelligence | Moteur de recherche collaboratif |
US7555448B2 (en) * | 2000-09-29 | 2009-06-30 | Victor Hsieh | Online intelligent information comparison agent of multilingual electronic data sources over inter-connected computer networks |
US7845554B2 (en) * | 2000-10-30 | 2010-12-07 | Fujitsu Frontech North America, Inc. | Self-checkout method and apparatus |
CA2327192A1 (en) * | 2000-11-30 | 2002-05-30 | Ibm Canada Limited-Ibm Canada Limitee | System and method for presenting marketing content on a web page |
US20020174076A1 (en) * | 2000-12-15 | 2002-11-21 | Bertani John A. | Search engine and multiple cost analysis for multiple items offered over the internet by different vendors |
US20030028446A1 (en) * | 2000-12-22 | 2003-02-06 | Stephen Akers | Web-enabled method and system for searching correct model data indicative of a porduct to be purchased online |
US7599855B2 (en) * | 2001-02-13 | 2009-10-06 | Lester Sussman | System and method for a complete and convenient shopping experience |
US7013289B2 (en) * | 2001-02-21 | 2006-03-14 | Michel Horn | Global electronic commerce system |
US6728706B2 (en) * | 2001-03-23 | 2004-04-27 | International Business Machines Corporation | Searching products catalogs |
US7149804B2 (en) * | 2001-04-30 | 2006-12-12 | Sony Computer Entertainment America Inc. | Method and system for providing evaluation of text-based products |
WO2002101590A2 (en) * | 2001-06-08 | 2002-12-19 | W.W. Grainger, Inc. | System and method for retrieving information from an electronic catalog |
US7127416B1 (en) * | 2001-06-18 | 2006-10-24 | I2 Technologies Us, Inc. | Distributed processing of sorted search results in an electronic commerce system and method |
US7092936B1 (en) * | 2001-08-22 | 2006-08-15 | Oracle International Corporation | System and method for search and recommendation based on usage mining |
US7124096B2 (en) * | 2001-09-13 | 2006-10-17 | International Business Machines Corporation | Query system for service availability according to customized criteria |
US20030126095A1 (en) * | 2001-12-28 | 2003-07-03 | Docomo Communications Laboratories Usa, Inc. | Context-aware market-making service |
GB0315154D0 (en) * | 2003-06-28 | 2003-08-06 | Ibm | Improvements to hypertext integrity |
US7130819B2 (en) * | 2003-09-30 | 2006-10-31 | Yahoo! Inc. | Method and computer readable medium for search scoring |
US20050075940A1 (en) * | 2003-10-06 | 2005-04-07 | Deangelis Lawrence J. | Remote shopping system with integrated product specific advertising |
US7340678B2 (en) * | 2004-02-12 | 2008-03-04 | Fuji Xerox Co., Ltd. | Systems and methods for creating an interactive 3D visualization of indexed media |
-
2003
- 2003-12-10 US US10/731,916 patent/US7836038B2/en not_active Expired - Fee Related
-
2004
- 2004-11-17 AU AU2004304285A patent/AU2004304285B2/en not_active Ceased
- 2004-11-17 CN CN200480036436A patent/CN100583082C/zh not_active Expired - Fee Related
- 2004-11-17 WO PCT/US2004/038559 patent/WO2005062192A1/en active Application Filing
- 2004-11-17 EP EP04811314A patent/EP1695232A1/en not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
EP1695232A1 (en) | 2006-08-30 |
WO2005062192A1 (en) | 2005-07-07 |
AU2004304285B2 (en) | 2011-08-04 |
US7836038B2 (en) | 2010-11-16 |
US20050131764A1 (en) | 2005-06-16 |
AU2004304285A1 (en) | 2005-07-07 |
CN1890661A (zh) | 2007-01-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100583082C (zh) | 信息提取方法及系统 | |
CN108268582B (zh) | 信息查询方法及装置 | |
US8190556B2 (en) | Intellegent data search engine | |
US20080072140A1 (en) | Techniques for inducing high quality structural templates for electronic documents | |
TW501033B (en) | Electronic shopping agent which is capable of operating with vendor sites which have disparate formats | |
US8707167B2 (en) | High precision data extraction | |
CN100517304C (zh) | 结果页分类方法 | |
US7483894B2 (en) | Methods and apparatus for entity search | |
US8793239B2 (en) | Method and system for form-filling crawl and associating rich keywords | |
US20090125529A1 (en) | Extracting information based on document structure and characteristics of attributes | |
EP2763054B1 (en) | Information processing apparatus, information processing method, and information processing program | |
KR100834360B1 (ko) | 적응형 카탈로그 페이지 디스플레이 | |
US9697282B2 (en) | Search apparatus, search method, search program, and recording medium | |
US20100169311A1 (en) | Approaches for the unsupervised creation of structural templates for electronic documents | |
CN102663025B (zh) | 一种违规在线商品检测方法 | |
CN106126630A (zh) | 一种业务对象的收藏、搜索方法和装置 | |
CN102687167A (zh) | 对于发布-订阅系统的上下文支持 | |
JP2020504879A (ja) | ネットワーク化環境における不正コンテンツに関連するデータを収集するためのシステムおよび方法 | |
KR102307598B1 (ko) | 딥러닝을 활용한 상품 가격 비교 방법 및 시스템 | |
Wong et al. | An unsupervised method for joint information extraction and feature mining across different web sites | |
US11763376B2 (en) | System, manufacture, and method for efficiently identifying and segmenting product webpages on an eCommerce website | |
WO2001027712A2 (en) | A method and system for automatically structuring content from universal marked-up documents | |
WO2016178068A1 (en) | System and method for testing web pages | |
CN111833085A (zh) | 一种计算物品价格的方法和装置 | |
JP6896557B2 (ja) | 情報処理装置、情報処理方法、及び情報処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder |
Address after: California, USA Patentee after: Google Inc. Address before: California, USA Patentee before: Google Inc. |
|
CP01 | Change in the name or title of a patent holder | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20100120 |
|
CF01 | Termination of patent right due to non-payment of annual fee |