CN101194255B

CN101194255B - 扩展分类索引以及分类文档的检索

Info

Publication number: CN101194255B
Application number: CN200580042196XA
Authority: CN
Inventors: A·恩格尔
Original assignee: Paterra Inc
Current assignee: Adus Data Development Co Ltd
Priority date: 2004-10-08
Filing date: 2005-10-05
Publication date: 2011-06-08
Anticipated expiration: 2025-10-05
Also published as: US20060242118A1; US8051109B2; CN101194255A; WO2006041950A3; KR20070106977A; US7574433B2; JP2008516341A; JP5069116B2; KR100985687B1; US20100017400A1; WO2006041950A2

Abstract

索引和检索分类文档的系统，其在文档记录中插入先前应用的分类的关键字、标题或定义，将得到的记录提供给搜索引擎(200)。检索者可以从分类系统中通过关键字检索而无需检索分类编码。

Description

扩展分类索引以及分类文档的检索

技术领域

本发明涉及已应用分类编码和方案的文档的索引和检索，具体涉及专利文档的索引和检索。

背景技术

知识产权机构使用一个或多个分类和/或索引方案对申请和文档进行分类是标准做法。例如，美国专利商标局(USPTO)对其专利申请使用美国专利分类(USPC)系统和国际专利分类(IPC)系统。类似的，欧洲专利局对其专利申请使用欧洲分类系统(ECLA)和IPC，日本专利局(JPO)对其专利申请使用文件索引系统(FI)和F-Terms系统。

更宽泛的，信息和数据库供应者常常开发不同的编码方案，在他们的服务中提供且建立索引的文档中应用这些方案。例如，由Reed Elsevier制造的数据库BIOBASE中使用了专有分类编码系统ESBIOBASE[ONLINE]。[2004-03-17查询获得]。信息地址：<http://www.cas.org/ONLINE/DBSS/esbiobasess.html>

这些分类和索引系统对于快速检索和处理信息是不可或缺的。它们是高效审查专利申请的必要工具。它们的应用结合了高度的智能输入。

但不幸的是，多数分类和索引系统十分深奥复杂。有效的使用需要高级别的培训。例如，欧洲专利局审查员在允许在无指导情况下使用ECLA系统进行在先技术检索前要接受两年的ECLA培训。美国专利分类和日本F-Term系统也有类似的复杂度。

此外，即使在专利信息领域内，对三方专利局的熟练检索需要检索者对每个国家或地区分类系统的分别学习和检索。换句话说，检索者需要学习ECLA以检索EPO文档，学习美国分类以检索美国专利文档，学习FI和F-term系统以检索JPO文档。甚至这样做所需的工具和资源也缺乏。例如，在JPO F-term系统中没有英文索引。在最近的一次研讨会中(FUJI，Yoshihiro的报告“Providing Japanesepatent information to non-Japanese users”(“为非日本用户提供日本专利信息”)Far East Meets West in Vienna EPIDOS Users’Meeting onJapanese Patent Information，2003-10-23，Vienna，Austria(Post-presentation discussion))，一位JPO专利审查员建议使用如下过程来为所检索的特定概念确定合适的FI类：首先，在EPO网站(http://v3.espacenet.com/eclasrch？CY＝ep&LG＝en)上确定合适的ECLA类。其次，假定ECLA和FI之间基本相同，然后在JPO网站(http://www4.ipdl.jpo.go.jp/Tokujitu/tjftermenb.ipdl)检索相应的FI类。这个过程很繁琐且易出错。

结果是，分类和索引系统的优势无法为更广大的用户和信息专业人员掌握。

另一方面，因特网上提供的基于全文的专利检索服务飞速增长，使得外行和信息专业人员同样逐渐依赖关键字进行检索。关键字检索有它的优势，易于使用，但是术语的变化很容易导致漏掉文档。此外，内嵌在文档分类上的知识产权产品完全丢失了。

在相关领域，DIALOG上的D&B Duns市场标识数据库(http://library.dialog.com/bluesheets/html/bl0516.html)提供检索SIC描述符作为一个检索域。TRADEMARKSCAN提供检索国际分类描述符作为一个检索域(http://library.dialog.com/bluesheets/html/bl0669.html)。

发明内容

本发明旨在使分类检索为信息用户所用，而无需强迫用户学习细节，具体而言，是不同分类系统的编码方案和格式。

本发明提出了一种索引和检索分类文档的系统，该系统包括：至少一台服务器计算机；至少一台计算机存储装置，连接至所述服务器计算机，包含至少一个文档汇总，所述文档汇总包含至少一个文档，所述文档根据预定义分类方案分类，所述预定义分类方案分类编码、对应于所述分类编码的标题和任选地包含对应于所述分类编码的定义；在所述服务器计算机上实施的至少一个服务器网页应用程序；以及至少一个web网络连接；其中所述服务器网页应用程序经所述web网络连接从所述计算机存储装置传输文档；及其中来自至少一个分类编码标题或分类编码定义的至少一个字被插入所述文档中以创建增大的文档。

本发明还提出了一种索引和检索分类文档的系统，该系统包括：至少一台服务器计算机；至少一台计算机存储装置，连接至所述服务器计算机，包含至少一个文档汇总，所述文档汇总包含至少一个文档，所述文档根据预定义分类方案分类，所述预定义分类方案包含分类编码、对应于所述分类编码的标题和任选地包含对应于所述分类编码的定义，所述文档进一步包含至少一个检索关键字，其中所述检索关键字对应所述分类编码标题或分类编码定义的至少一个的至少一术语；至少一个服务器网页应用程序；至少一个web网络连接；以及装置，用于将所述术语动态插入至所述文档，以创建加上标签的文档，其中所述插入操作是响应于经所述web网络连接接收的请求；其中所述服务器网页应用程序经所述web网络连接从所述计算机存储装置传输文档。

本发明还提出了一种用于分类文档的传输的计算机化方法，包含：从文档汇总中检索文档，所述文档汇总被存储在至少一台计算机存储装置中，所述文档根据预定义的分类方案分类，所述预定义分类方案包含分类编码、对应于所述分类编码的标题和任选地包含对应于所述分类编码的定义，其中所述检索响应于经网络的请求；其中来自至少一个分类编码标题或分类编码定义的至少一个字被插入所述文档中以创建增大的文档；以及经所述网络传输所述增大的文档。

本发明还提出了一种索引和检索分类文档的计算机化方法，包含：从文档汇总中检索文档，所述文档根据预定义的分类方案分类，所述预定义分类方案包含分类编码，所述分类编码包含标题和定义，所述文档进一步包含至少一个检索关键字，其中所述检索关键字对应所述分类编码标题或所述分类编码定义中的至少一个的至少一个术语，其中所述检索响应于经网络接收的请求，从数据库检索至少一个关键字，该关键字从所述分类编码标题或分类编码定义中的至少一个得到；将所述术语插入至所述文档，以创建加上标签的文档；以及响应于所述请求，经所述网络传输所述加上标签的文档。

本发明还提出了一种检索分类文档的计算机化方法，包含：启动客户端计算机内的客户软件应用程序与服务器计算机的连接；用所述客户端计算机内的所述客户软件应用程序发出至少一个请求，其中所述请求启动包含以下步骤的方法：从文档汇总检索文档，所述文档汇总包含至少一个文档，所述文档根据预定义分类方案分类，所述预定义分类方案包含分类编码，所述分类编码包含标题和定义，所述文档进一步包含至少一个检索码，其中所述检索码对应所述分类编码标题或分类编码定义中的至少一个；从数据库检索至少一个关键字，该关键字从所述分类编码标题或分类编码定义中的至少一个得到；将所述关键字插入至所述文档，以创建加上标签的文档；以及将所述加上标签的文档传输至所述搜索引擎。

本发明提供通过搜索引擎对分类文档进行检索和索引，其中部分分类编码用从分类系统的清单和定义中获得的插入的术语、关键字、标题或定义进行了补充。

本发明的一方面是用于分类文档的索引和检索的系统，该系统包含：至少一个连接至文档存储的服务器计算机，所述文档存储包含至少一个从文档汇总得到的静态文档，其中至少已经应用了一种分类系统编码，所述文档包含至少一个从所述编码标题或定义得到的关键字；以及服务器计算机与至少一个搜索引擎系统之间的连接。此外，静态文档可以是HTML或XML格式。此外，从该分类系统得到的术语可以使用与该文档存储中文档不同的语言。此外，该文档存储中的文档可以是专利文档。此外，服务器计算机与客户计算机之间可以相连。

本发明的另一方面是用于分类文档索引和检索的系统，该系统包含至少一个与文档存储相连的服务器计算机，所述文档存储包含至少一个从文档汇总得到的静态文档，其中至少已经应用了一种分类系统编码，所述静态文档包含至少一个与所述编码的标题和/或定义对应的检索关键字；数据库系统，包含至少一个从所述分类系统编码的标题和/或定义得到的术语；服务器计算机与至少一个搜索引擎系统之间的连接；将所述术语动态插入该静态文档中以及响应于该搜索引擎系统发出的请求，将结果文档传回该搜索引擎系统的装置。此外，该静态文档可以使用HTML、XML、PDF或MSWord格式。此外，从该分类系统得到的术语可以使用与该文档存储中文档不同的语言。此外，该文档存储中的文档可以是专利文档。此外，服务器计算机与客户计算机之间可以相连。

本发明的另一方面是用于分类文档索引和检索的计算机处理方法，其包含如下的方法步骤：响应搜索引擎系统的请求，从文档存储获得文档，所述文档存储包含至少一个从文档汇总得到的静态文档，其中已经应用了至少一种分类系统编码，所述文档包含至少一个从所述编码得到的标题或定义的术语；将所述文档传送给该搜索引擎系统。此外，该静态文档可以是HTML、XML、PDF或MSWord格式。此外，从该分类系统得到的术语可以使用与该文档存储中文档不同的语言。此外，该文档存储中的文档可以是专利文档。此外，服务器计算机与客户计算机之间可以相连。

本发明的另一方面是用于分类文档索引和检索的计算机处理方法，其包含如下方法步骤“响应搜索引擎系统的请求从文档存储获得文档，所述文档存储包含至少一个从文档汇编得到的静态文档，其中已经应用了至少一种分类系统编码，所述文档包含至少一个与所述编码标题和/或定义对应的检索码；从数据库检索至少一个从所述分类系统编码的标题和/或定义得到的术语；将所述术语动态插入该静态文档；以及将该结果文档传送给该搜索引擎系统。此外，该静态文档可以是HTML或XML格式。此外，从该分类系统得到的术语可以使用与该文档存储中文档不同的语言。此外，该文档存储中的文档可以是专利文档。此外，服务器计算机与客户计算机之间可以相连。

本发明的另一方面是用于分类文档索引和检索的计算机处理方法，包括如下方法步骤：使客户计算机中的客户软件应用程序启始至服务器计算机的连接；使客户计算机中的该客户软件应用程序发出至少一个请求至服务器计算机，所述请求使服务器计算机执行包含如下方法步骤的方法：从文档存储检索文档，所述文档存储包含至少一个从文档汇总得到的静态文档，其中已经应用至少一种分类系统编码，所述文档包含至少一个与所述编码的标题和/或定义对应的检索码；从数据库检索至少一个从所述分类系统编码的标题和/或定义得到的术语；将所述术语动态插入该静态文档；将结果文档传输至客户计算机。此外，该静态文档可以是HTML、XML、PDF或MSWord格式。此外，从该分类系统得到的术语可以使用与该文档存储中文档不同的语言。此外，该文档存储中的文档可以是专利文档。此外，该服务器计算机与客户计算机之间可以相连。

定义

搜索引擎

用来索引因特网网页、存储结果和返回与特定查询匹配的页面列表的专用服务器或它们的集合。该索引通常使用蜘蛛(spider)生成，但也可以基于由具有在该网站活跃地爬行的蜘蛛的搜索引擎提供的OEM内容生成。一些主要的搜索引擎有AltaVista、Excite、Hotbot、Infoseek、Lycos、Northern Light和Webcrawler。

“网页蜘蛛”或“网页机器人”

搜索万维网以标识新(或改变)的页面的程序，目的是将这些页面加入检索服务的(“搜索引擎的”)数据库。

网页抓取器(grabber)

自动下载网站内容以供随后离线浏览或处理的程序。

网站

用户可访问的服务器站点，它实现了超文本文档的编码和传输这些基本的万维网标准。这些标准现在包括但不限于，HTML(超文本标识语言)和HTTP(超文本传输协议)。此外还涉及Java脚本(也被称为JavaScript)，尽管也可以使用其它类型的脚本、编程语言和代码。要理解术语“站点”不是指单个地理位置，作为网站或其它网络站点可以，例如，包含多个地理上分散但互相适当链接的计算机系统。另外，虽然下面的描述涉及使用因特网和相关协议的实施例，其它网络，比如网络交互电视和其它协议也同样适用。

文档服务器-搜索引擎-客户环境

图1示出了本发明的普遍操作环境。该环境包含文档服务器网站100，搜索引擎200和客户端300。这些通过网络连接401、402和403互相连接。该操作环境可以驻留在单个组织的内网或扩展跨越全球因特网，网页站点100、搜索引擎200和客户端300物理上可以处于不同的大陆。

文档服务器网站

图2示出了根据本发明的文档服务器网站100的典型硬件和软件配置。网页服务器110为网页服务器应用提供物理宿主。数据库服务器120为包含分类系统数据的数据库提供物理宿主。网络存储(NAS)服务器131、132和133为通过网页服务器110提供通过网络服务的文档的数据存储。路由器140提供与因特网的连接。本领域的技术人员可以看出该配置有很多不脱离本发明范围的变化。例如，可以有多个网页服务器110，以提供负载平衡或服务多个文档汇总。同样，可以有多个数据库服务器120，以提供负载平衡、故障补救(failover)和多个分类系统。NAS服务器的数量可以有很大的不同以提供可扩展的数据存储。最后，图2中描述的硬件提供的所有功能可以集成到单个服务器上。另一个极端例子是，文档服务器网页站点100可以是逻辑站点，其物理组件远距离分散分布，通过因特网或其它通信网络连接。根据本发明的文档服务器网页站点的内容将在后面详细描述。

搜索引擎

公共搜索引擎

本发明可以使用的公共搜索引擎包括但不限于：Google、Yahoo、Ask Jeeves、AllTheWeb.com、AOL Search、HotBot、Teoma、AltaVista、Gigablast、LookSmart、Lycos、MSN Search、Excite、Inktomi、WebWombat、WebCrawler、Overture和WiseNut。当前英国内的主要搜索引擎图表和它们之间的关系示出于图3(来自http://www.alphaquad.co.uk/internet_marketing_notes/uk-search_engine_relationships.jpg)。

私有搜索引擎

本发明可以用与文档服务器关联控制的私有搜索引擎实现。通常的实现是在服务器计算机中安装搜索引擎软件应用程序。

可以担当该角色的服务器计算机例子包含但不限于：安装了Windows的下列计算机，比如Dell PowerEdge服务器、HP Proliant服务器、Sun Fire V20z和IBM e325服务器；安装了Linux的计算机，比如Dell PowerEdge服务器；安装了MacOS的计算机，比如Apple Xserve；以及安装了UNIX的服务器，比如Sun Netra服务器。

可以用作搜索引擎软件应用程序的例子包含但不限于：

Innerprise开发的ES.NET 2004，它运行在Windows2000/XP/2003服务器版上，是全文索引的网页爬行器和搜索引擎。使用ES.NET，文档从内部网、网站或网页上被抓取和索引。抓取和更新可以使用内置的调度器自动执行。ES.NET 2004包含Windows服务(实际是蜘蛛)、网页应用程序(服务接口)和搜索应用(与现有的网站集成)。ES.NET 2004通过使用过滤器支持通用文件类型，包括但不限于HTML、XML、微软Word(.DOC)、微软Excel(.XLS)、Adobe Acrobat(.PDF)、MP3ID3vl&ID3v2(.MP3)和富文本格式(.RTF)。

由Myrasoft开发的活动搜索引擎是允许开发者创建Yahoo风格搜索引擎的服务器应用程序。它的特性有交互式用户接口和管理工具用来管理链接和授权、创建分类、基于关键字搜索、自动准许新链接、用户电子邮件列表管理，以及其它特性。

由Xtreeme开发的Search Engine Studio使用四种方法自动索引目标网站，然后为该网站创建搜索引擎或以CD-ROM或DVD发行的方式创建离线搜索。

其它站点搜索引擎软件应用程序包括但不限于，SJ NamoInteractive，Inc.的Namo DeepSearch、Atrise Software 的AtriseEveryfind、ActiveSearch SiteSearch SDK、Albert网页、Alkaline(Vestris)、Amberfish、ARTS PDF Search、ASPSeek、ASTAwareSearchKey、Atomica、Atomz Search、Autonomy Search Server、Looksmart的BeSeen(也称为whatUSeek intraSearch)、BooleanSearch、BBDBot、BRS/Search、CGISRCH、Compass(现在的iPlanet Search)、Convera RetrivalWare、Copernic、crawl-it、Cybotics、DarWin Set、Datagold、Datapark Search、DeepSearch、Dieselpoint Search、DioWeb、DMP Scout、DocFather、DoclinxTeraXML、DolphinSearch、dtSearch Web、EasyAsk、ebhath、Educesoft ASP Search Engine、80-20Discovery、Elise MatchingEngine、Endeca Commerce、Catalog和Enterprise Search、EngeniumSemetric、Enterprise Search(Innerprise)、Eureka、eVe Image Search、Everyfind、Excalibur RetrievalWare、Extense、Extropia Site Search、F3DSearch、FAST Search Server、Findex(现在的Onix)、FluidDynamics Search、FreeFind、Fulcrum Search Server(现在的Hummingbird)、FusionBot、Glimpse、Harvest、HomepageSearchEngin、ht://Dig、Hummingbird Search Server、i411Faceted Metadata Search、IBM Intelligent Miner for Text、ICE、ic-find、IDKSM、IMP Database Search Engine、Index Search(Xavatoria)、Index Server(微软)、IndexMySite、Inktomi SearchSoftware、InMagic、InQuira for Search、Intelligent Miner for Text、Intelliseek Enterprise Search、Interactive Tools Search Engine、interMedia、Intermediate Search(Fluid Dynamics)、IntuiFind(Mercado)、Inxight SmartDiscovery、i-phrase、iPlanet Search(以前的Netscape Compass)、I-Search、Isearch、lsys:web、IXE IdeareindeXing Engine、JObjects QuestAgent、Juggernautsearch、JXTASearch、KSearch、K2(Verity)、LexiQuest LexiGuide、linkSearch、Lotus Extended Search(Domino)、Lucene、Lycos InSitePro Service、Master.com(Webinator Remote)、Matt′s SimpleSearch、Mercado IntuiFind、MetaStar、Microsearch WebSearch、微软IndexServer、微软SharePoint、微软Site Server、MiniSearch、mnoGoSearch(以前的UdmSearch)、MondoSearch、MPS Information Server、Muscat、Namazu、Nathra、Nav4、NetMind Search-It、Netrics Search(以前的Likelt)、Netscape Compass(现在的iPlanet Search)、Net.Sprint、NextPage(LivePublish)、Northern Light(search service&EIP)、Noviforum(以前的Trident)、NQL、Nutch、Onix、OmSearch、OpenBridge(以前的ZNOW)、OpenFTS、OpenText-LiveLink、OracleText、Ultra Search and interMedia、Orangevalley Intranet SearchEngine、orenge(empolis、Panoptic Search、PDF WebSearch、PerlScripts、Perlfect Search、Phantom、PicoSearch、PLWeb(PLS/AOL)、QuestAgent、QueryServer Metasearch Engine、Recommind MindServerIR、re.se@rch suite、RetrievalWare、RiSearch、RuterSearch、SearchKey Plus(ASTAWare)、Selena Sol′s Keyword Sedarch(现在的Extropia)、SharePoint(微软Tahoe)、Sharewire SiteSearch、SideranSeamark Faceted Metadata Search(以前的bpAllen Teapot)、SimpleSearch、SiteFerret Lite and Pro、siteLevel(以前的intraSearch)、SiteMiner、SiteSearch(现在的DocFather)、SiteSearch IndexerOavaScript)、Site Server(微软)、SiteSurfer、S.L.I.Search、SmartDiscovery(Inxight)、Spiderline、Spy-Server、Subject SearchServer(SSServer)、SurfMap Search、SWISH-E、SWISH++、Tahoe(微软SharePoint)、TEC-IMS、t.find(Eidetica)、Thunderstone Webinator、Trident(现在的Noviforum)、TYPENGO N300Search、UdmSearch(现在的mnoGoSearch)、Ultra Search(Oracle)、Ultraseek(Verity，以前由Infoseek开发，然后是Inktomi)、Universal KnowledgeProcessor、Verity-Search97&K2、Virage Audio&Video Search、Visual Net、WAIS and freeWAIS、WebCat、WebGlimpse、Webinator(Thunderstone)、WebMerger、Webrom、WebSearch Perl Script、Webserver 4D、WebSonar、WebSTAR Search(4D)、WideSource、Windex Search、WizDoc、Xapian(以前的Open Muscat，OmSearch)、XML Query Engine、YourAmigo、Zebra、NOW(现在的OpenBridge)以及Zoom.

Google营销Google Search Appliance，它是独立的搜索引擎。当应用到本发明时，该工具可以逻辑地放入与容纳该文档相同的域或组织中。或者，它可以放置在任何地点，只要它可以通过网络访问所述文档服务器以及客户可以通过网络访问它。

客户端

网页浏览器客户端

本发明中可以使用的浏览器应用程序包括但不限于：BrowserOne(由Digital Internet发布)、Opera(Opera Software)、Ultra Browser(UltraBrowser.com)、Xeonn-Turbo(Xeonn.net)、Avant Browser(Anderson Che)、Smart Bro(Bassam Jara)、NJStar Asian Explorer(NJStar Software)、GameNet Broswer(Smartalec)、Maxthon(MyIE2Team)、Omnibrowser(Omnibrowser.com)、SiteKiosk(PROVISIO)、Wichio Browser(Revopoint)、NetCaptor(Stilesoft)、Mozilla Firefox(Mozilla)、Deepnet Explorer(Deepnet Technologies)、Mozilla(Mozilla)、Slim Browser(FlashPeak)、SmartFox(StartplaneCommunications)、SportsBrowser(4comtech)、KidSplorer(DevicodeTechnology)、Optimal Desktop(Optimal Access)、Ace Explorer(Tronix Software)、Arlington Kiosk Browser(Arlington Technology)、Advanced Browser(Tronix Software)、iRider(Wymea Bay)、ImageBrowser(Image-browser.com)、WindowSurfer(WindowSurferSoftware)、550Access Browser(550Access)、FineBrowser(SoftInform)、Kopassa Browser(Kopassa)、4C Vision(euris)、InternetExplorer(微软)、Arlington Custom Browser(Arlington Technology)、Net Viewer(Accessary Software)、Play the Web(Philippe Vaugouin)、Wysigot(Wysigot)、ServiceHolder(LastReset)、CafeTimePro(Protocall Computer)、Freeware Browser(4comtech)、Web ServicesAccelerator(Virtual Communications)、Netadviser(SoftInform)、Netscape(Netscape Communications)、Surfnet(Info TouchTechnologies)、Eminem Browser(Interscope Records)、PhaseOut(PhaseOut team)、Proximal Voyager(InnovSoft Consulting)、WebView(ABC Enterprise Systems)、Internet Research Software(WebSoft)、Muse-Lite(Muse Communications)、Fast Browser(FastBrowser)、ActivatorDesk(R.Lee Heath)、Web Padlock(Leithauser Research)、LE-Multibrowser(LE-Software Sweden)、BrowseMan(SpecializedSearch)、InnerX(InnerX)、Aggressive Internet Research(FrankHarrison)、Cygsoft LDAP Browser(Cygsoft)以及WebSpeedReader(PerMaximumSoftware)。

网页抓取客户端

也被称作“离线浏览器”，本发明中可以使用的网页抓取应用程序包括但不限于：Surfware的Aaron′s Web Grabber(http://www.surfwarelabs.com/Awebvacuumg.htm)、kabestin software的Web Grabber(http://www.kabestin.com/webgrabber.html)、PicalLoader(http://www.vowsoft.com/)、HTTTrack Website Copier(由HTTrack发布)、Web Shutter(由MAB Software发布)、OfflineExplorer(MetaProducts)、Offline Explorer Pro(MetaProducts)、Offline Explorer Enterprise(MetaProducts)、Power Siphon(AppliedKinematics)、Leech(Aeria)、WebZIP(Spidersoft)、Web Dumper(Maxprog)、WebCopier(MaximumSoft)、MM3 WebAssistant(MM3Tools Muenzenberger)、GetBot(GetBot)、WebCloner(ProductsFoundry)、SurfOffline(Bimesoft)、QuadSucker/Web(SBSoftware)、RafaBot(Spadix Software)、Grab-a-Site(BlueSquirrel)、Offline CHM(Direct-Soft)、WebCatcher(Wizissoft)、ActiveSite Compiler(INTOREL)、NetGrabber(FuzzSoft)、Net-Ripper(SoftByte Labs)、BlackWidow(SoftByte Labs)、WebsiteExtractor(InternetSoft Corporation)、SuperBot(EliteSys)、PageSucker(Frederic Veynachter Software)、eNotebook(GoldKingko)、Baldgorilla Go-Getter(Baldgorilla Software)、Backstreet Browser(Spadix Software)、Offline Navigator(Asona)、WebWhacker(Blue Squirrel)、WebGainer(LuoSoft com)、Rip Clip(Kevlex Technologies)、JOC Web Spider(JOC Software)、WebCapture(E-SOFTWARE)、WebSlinky(webslinky.com)、HTTPWeazel(Imate Software)、SBWcc Website Capture(SB Software)和Teleport Pro(Tennyson Maxwell Information Systems)。

网页提取器客户端

网页提取器是从网页挖掘、提取数据的客户应用程序。本发明中可以使用的网页提取器应用包括但不限于：Poorva，Inc.的Advanced Information Extractor(AIE)、iOpus的Internet Macros、Ficstar Software的Web Grabber、Web-Site-Downloader、KnowleSys的WebEx Service、Lencom Software的Visual Web Task、WebExtractor System的Web Data Extractor以及Crystal Software的TextPipe。

网页内容打包器(repackager)

网页内容打包器是中间应用程序，它从下行客户计算机接收请求，响应于客户计算机请求从服务器计算机提取网页内容，然后修改、转换或翻译提取的内容；将内容结果传输给客户。网站打包器包括但不限于自动网页翻译器，比如Google Translate和AltaVista Translate。

文档服务器网站的详细描述

文档服务器网站100给搜索引擎200和客户300提供分类文档。根据本发明，服务提供的分类文档包含增加或用标题或定义编码替换已有分类编码的传统分类文档内容。图4展示了传统做法中典型的分类文档。该文档是已分类的专利申请，且用代表其分类的编码进行了公布。图5和图6展示了根据本发明的两份文档。在图5中，分类编码的标题被添加至该文档中。在图6中，分类编码的标题译文被添加至该文档中。当该分类系统是层次型的分类系统时，优选将标题子类与其父类的标题添加进去，如图5和图6那样。

根据本发明，文档服务器网站100可以存储静态分类文档汇总110，其中已经添加了编码标题或定义111。这些静态文档可以准备和存储成任意一种合适的文件格式，包括但不限于，HTML、XML、PDF和MSWord。这些文档可以存储在网页服务器本身或分开的服务器或NAS设备的磁盘上。

根据本发明，文档服务器网站100优选地响应于搜索引擎蜘蛛或其它网页客户端请求动态的生成文档110。

分类文档汇总

本发明为搜索引擎的索引而处理分类起始文档。优选的，这些起始文档是分类起始文档汇总的一部分。本发明可以使用的起始文档汇编的例子包括但不限于如下专利和商标专利汇总：

由美国专利和商标局提供的每周专利著录项目原始数据(http://www.uspto.gov/web/menu/patdata.html)，包括授权红皮书(Grant Red Book)V2.5(xml)著录项目数据，申请红皮书(Application Red Book)V1.5(XML)著录项目数据，以及专利全文/APS(绿皮书)著录项目数据。欧洲专利局提供的EPO著录项目数据和摘要(http://ebd.epoline.org/ebd/)，包括EBD ST.32格式数据和ST.32格式摘要。日本专利局的公布，包括Kokai和注册专利DVD和CD-ROM、专利和注册工具模型DVD和CD-ROM、Kokai英文摘要CD-ROM、外观设计专利CD-ROM、商标CD-ROM和国际商标CD-ROM。德国专利局的公布，包括Markenblatt(商标期刊)和Patentblatt(专利公报)。其它专利局的公布，包括但不限于，阿根廷专利局的Boletines de Patentes和Boletines de Marcas；PDF格式的澳大利亚专利局期刊增刊、澳大利亚专利摘要、OPI专利说明书和由澳大利亚专利局发行的澳大利亚专利；由澳大利亚专利局发行的专利和工具模型公报ASCII数据；由加拿大知识产权局发行的专利文档CD-R；中国专利说明书CD-ROM、中国专利摘要CD-ROM、专利公报CD-ROM、外观设计CD-ROM和由中华人民共和国国家知识产权局发行的中国专利数据库、由印度专利促进中心发行的Ekaswa-A和Ekaswa-B CD-ROM；俄罗斯专利摘要；由俄罗斯专利和商标局发行的RUPAT和RUABEN；由INPI发行的BREF CD-ROM；和由世界工业产权局发行的PCT电子公报和PCT数据库CD-ROM。

分类系统

本发明通过使已经应用于特定文档的分类定义或清单以下列方式为全文搜索引擎可用来解决问题，对在该分类定义和/或标题中出现的术语和短语进行全文检索时可以检索该文档。

有很多分类系统和信息编码系统适用本发明的实施例。

下面列出一些，但本发明不限于下面的例子。

美国专利分类系统(http://www.uspto.gov/go/classification/)被美国专利局用来分类专利申请、专利申请预授权和专利授权。每份文档被赋与一个或多个分类且在公报中公布。

世界知识产权组织(WIPO)使用四种分类系统(http://www.wipo.int/classifications/en/)：国际专利分类(IPC)系统用于专利，商品和服务的尼斯分类用于商标注册，Locarno分类用于工业设计，以及商标装饰的维也纳分类。

欧洲专利局使用欧洲专利分类(ECLA)系统管理欧洲专利申请和文档。(可在http://12.espacenet.com/eclasrch上搜索到。)

日本专利局(http://www.jpo.go.jp)使用文件索引(FI)分类系统(与ECLA类似)和File-Forming Term(F-Term)搜索编码系统以及IPC分类管理专利申请和专利授权。

Thomson Derwent使用德温特分类、Chemia专利索引(CPI)手册编码、以及用于电气和电子工程专利的电子专利索引手册编码(EPI手册编码)系统(http://thomsonderwent.com/support/dwpiref/reftools/classification)。

北美工业分类系统(NAICS)由美国、加拿大和墨西哥联合维护(http://www. census.gov/epcd/www/naics.html)，作为北美产品分类系统(http://www.census.gov/eos/www/napcs/napcs.htm)。NAICS被开发出来用于替代美国标准分类系统(SIC)，但该系统依然在使用且可以在本发明中使用。

联合国统计署(http://unstats.un.org/unsd/cr/registry/)维护的统计分类注册也可以在本发明中使用。这些包括经济活动分类，比如所有经济活动的国际标准工业分类(ISIC)、中央产品分类(CPC)、标准国际贸易分类(SITC)、泛经济种类的分类(BEC)、政府职能分类(COFOG)、基于用途的个人消费分类(COICOP)、非盈利机构家政服务目的分类(COPNI)、基于用途的生产费用分类(COPP)以及用时统计活动的试验性国际分类(ICATUS)。

EUROSTAT是欧洲共同体经济活动统计分类(NACE)(http://europa.eu.int/comm/eurostat/ramon)、欧洲经济共同体活动产品的统计分类(CPA)以及环境保护活动与支出分类的管理者。

AFRISTAT(http://www.afristat.org)是AFRISTAT成员国活动分类(NAEMA)、AFRISTAT成员国产品分类(NOPEMA)的管理者。

澳大利亚统计署(http://www.abs.gov.au/AUSSTATS)是澳大利亚和新西兰标准分类(ANZSIC)的管理者。

世界海关组织(http://www.wcoomd.org/ie/index.html)是统一商品描述和编码系统(HS)的管理者。

国际劳动组织是国际职业标准分类(ISCO)、就业状态国际分类(ICSE)、所有经济活动的国际标准工业分类(ISIC)、教育国际标准分类(是UNESCO分类)(ISCED)以及职业伤害分类的管理者。

世界卫生组织(www.who.int)是疾病与相关卫生问题国际统计分类(ICD-10)；损伤、残疾和残障国际分类(ICIDH)；和功能、残疾和卫生国际分类(ICF)的管理者。

国会图书馆维护国会图书馆分类(http://www.loc.gov/catdir/cpso/lcco/lcco.html)。Dewey Decimal分类(DDC)系统由OCLC拥有(http://www.oclc.org/dewey/about/)。

数个技术联盟和学术与技术期刊发行商维护能够在本发明中使用的分类系统。美洲经济联盟维护经济学术期刊分类系统。声学协会维护BEPAC声学图书分类系统(http://www.ioa.org)。

政府印刷局主管文档分类系统(http://www.access.gpo.gov/su_docs/fd Ip/pubs/classman/index)。

由在线数据库提供商维护的分类系统可以在本发明中使用。例子包括但不限于ABI/INFOM(http://support.dialog.com/searchaids/dialog/fl5_f635_ccodes.shtml)、

预览编码和有机分类转化(http://support.dialog.com/searchaids/dialog/f5_code)、CAP摘要的CABICODES(http://support.dialog.com/searchaids/dialog/f50_cabicodes_list.shtml)、CAS 注册号、CAL分类编码(http://support.dialog.com/searchaids/dialog/f8_ccodes.shtml)、Me！描述符和树状结构(http://www.nlm.nih.gov/mesh/introduction2004.html)、ACM计算分类系统(http://www.acm.org/class/1998/)、

分类系统(http://www.iee.Org/publish/support/inspec/document/electronic.c)。

分类系统数据库

为了自动生成静态文档汇编，或者动态生成合并的文档作为文档服务器网页应用的一部分，这些操作使用的分类信息被存储在数据库中。可以使用的多个商业软件包包括但不限于WatcomSQL、Oracle、Sybase、Access、微软SQL Server、IBM的DB2、AT&T的Daytona、NCR的TeraData和DataCache。

该数据库最简单的形式可以包含两列：规范化编码列和类标题列。标范化编码列包含唯一编码，它是用来定位图7展示的类标题的检索关键字。优选情况下，该表包括图8a中tblUSPCSchedule展示的列，即，识别列‘classid’，级别列‘level’，其中包含类的层次或缩进基本，以及CDISP列，其中包括通常在类的公共记录中使用的字符串格式。(图8a展示了美国专利分类系统清单表格的头几行。)表格可按classid列排序是很重要的，这样可以至少重新生成美国专利分类清单中单个类下的子类。

优选的，该数据库还包含顶部级别下每个类的直接层次子类的表格，如图8b中的tblUSPCHierachy。在这个展现美国专利分类系统的简化表格中，classid和ancestorid列对应表格tblUSPCSchedule中的classid列。

分类系统数据库的准备

分类系统数据库可以从分类系统的电子拷贝或者如果因特网上有的话通过因特网下载来准备。对于本领域的技术人员来说有多种编程方法实现，在下面的实施例中也包括了源代码。

文档服务器文档存储

文档存储保存提供给搜索引擎和网页客户的文档。尽管该存储可以在文件系统中包含静态文档，它优选在文件系统或数据库中包含文档基础汇总，或当要传送给搜索引擎和网页客户时与分类数据动态合并。

根据本发明的静态文档汇编包含的文档拥有从起始文档汇编得到的内容以及从分类系统清单和/或定义得到的分类信息。该静态文档优选使用HTML格式，但也可以使用任何可以被搜索引擎处理的格式，比如pdf、hdml、xml、cfm、doc、xls、ppt、rtf、wks、lwp、wri或swf。

从分类系统的清单和/或定义得到的信息可以是整类或子类标题、整类或子类定义、或者两者中的一部分，例如从标题和/或定义提取的所选关键字。

从分类系统的清单和/或定义得到的信息可以使用与所属文档一样的语言。它也可以使用第二种语言。例如，从USPTO起始文档汇编得到的一份英文专利记录可以与其适用的类编码标题的日文译文合并。这样提供了使该文档能够以第二种语言检索的机制。

如果分类系统是层次型的，优选将起始文档分类的直接父类的标题和/或定义插入其所属文档中。

文档服务器的文档存储准备

根据本发明的静态文档存储尽管可以通过手工将分类标题和/定义合并到分类文档中，优选自动化这一过程。手工准备文档的例子展示在图5和图6中。

根据本发明的静态文档存储的自动化准备优选作为根据本发明的动态文档存储准备的扩展，因此首先要描述动态文档存储的准备。

文档服务器网页应用程序

根据本发明，文档存储中的文档通过服务器网页应用程序为搜索引擎和网页客户所用，服务器网页应用程序响应于客户端请求在文档存储和搜索引擎客户端或网页客户端之间传输文档。该传输优选符合HTTP协议，但也可以根据其它协议，包括但不限于文件传输协议(FTP)、简单邮件传输协议(SMTP)和网络新闻传输协议(NNTP)。

本发明可以使用的服务器网页应用包括但不限于，Apache专用服务器，比如AbaSioux、Apache、Apache-(PZ)-1.3.31、Apache-1.3.27、Apache-ADTI、Apache-AdvancedExtranetServer、Apache-Coyote、Apache-NeoNova、Apache-NeoWebScript、Apache-SSL、Apache-l.3.29、DataClub-Apache、FJapache、Gonzolix-Apache、HP-UX_Apache-based_Web_Server、Rapidsite、Red、ServerApache、Stronghold以及SudApache；Microsoft NT专用服务器比如Commerce-Builder、Microsoft-IIS、Microsoft-Internet-Information-Server、Purveyor、WebSite以及WebSitePro；Roxen专用服务器，比如Roxen、Roxen Challenger、Roxen Webserver以及Spinner；Macintosh专用服务器，比如4D_WebSTAR_S、4D_WebStar_D、AppleLISA、AppleShareIP、AppleWSE、CL-HTTP、HomeDoor、Interaction、MACOS.PersonaLWebsharing、MacHTTP、NetPresenz、QuidProQuo、WebSTAR、WebSTAR4、WebStar、WebStarV以及Web_Server_4D。

尽管本发明可以通过简单的网页应用提供静态HTML文档服务，但优选通过能够提供动态文档的网页应用服务实现。动态文档(或者称作“服务器页面”)包含动态内容。以世界万维网为例，动态内容是如下的网页内容，它包括通常的静态内容比如显示文本和标识标签，另外还有可执行程序内容。可执行程序内容包括，例如Java、VBScript、CGI网关脚本、PHP脚本以及Perl代码。在任何特定动态服务器页面中的这种可执行程序内容根据用于执行该可执行程序内容的动态服务器页面引擎类型的不同而不同。例如，Java通常用于Java服务器页面(“JSP”)的Java服务器页面引擎(在本文中有时被称作“JSP引擎”)；VBScript用于活动服务器页面(“ASPs”)的微软活动服务器页面引擎(在本文中有时被称作“ASP引擎”)；Visual Basic和C#用于微软ASP.NET服务器页面应用中；PHP脚本，一种基于C、C++、Perl和Java的语言，用于PHP页面的PHP中的超文本处理器。

服务器网页应用程序生成的文档

服务器网页应用程序生成的以及传输给搜索引擎和/或客户端的文档可以是任何一种可以通过网络传输以及为搜索引擎和网页客户端读取的文件格式。这些格式包括但不限于HTML、XML、MSWord、MSExcel、RTF和PDF。

本领域的技术人员可以理解对上述系统和方法可以有多个修改而不脱离本发明的范围。

附图说明

图1：文档服务器-搜索引擎-客户环境的概念描述

图2：根据本发明的文档服务器网站的典型硬件和软件配置

图3：英国的公共搜索引擎的网页截图

图4：传统的分类文档

图5：根据本发明的分类文档

图6：根据本发明的插入第二种语言分类信息的分类文档

图7：根据本发明的分类信息表格

图8：根据优选实施例的分类信息表格

图9：根据第4实施例的生成文档存储的过程

图10：在文档中插入分类信息的过程

图11：根据第5实施例的生成文档存储的过程

图12：根据优选实施例的生成文档存储的过程

具体实施方式

附录1展示了存储在CD-ROM上的源代码和其它文档，它们是在开发根据本发明的原型过程中编写的。

该实施例公布了将分类专利记录和子类标题合并到动态XML文档中，该文档被插入到网站中，使网页蜘蛛或抓取器能够访问从而能够被网页搜索引擎建立索引。

硬件环境是Dell PowerEdge 1650服务器，配备了两个型号80530的Intel 1.4Ghz处理器，1Gb物理内存和136Gb配置成RAID 10的硬盘。操作系统是微软Windows 2000服务器版，包含微软Internet Information Services(IIS)第5版。网站根据IIS文档创建，配置使得允许匿名访问。该服务器通过LAN网络连接到CISCO 2621XM路由器，该路由器与因特网连接。此外，该网站还安装微软SQL Server 7.0版和微软.NET Framework。

分类数据的数据存储。根据SQL Server 7.0文档创建数据库。使用附录文件USPCScheduleAndHierarchyTables.sql中公布的SQL脚本在该数据库中创建两个表格，USPCSchedule和USPCHierarchy。

使用COM组件下载美国专利分类清单到两个表格中，该COM组件由微软Excel电子表格通过Visual Basic宏执行。将清单数据插入到表格USPCSchedule的宏源代码(Visual Basic代码)、SQL存储过程(Transact-SQL代码)，以及该COM组件(C++代码)列在附录的PCDownloadCode.txt文件中。

文档存储是从每周专利著录项目原始数据生成，该数据从美国专利和商标局(http://www.uspto.gov/web/menu/patdata.html)下载，它是Grant Red Book V2.5(xml)格式。该过程在图9中展示。除非下面特别说明，该应用在微软Visual Studio.NET 2003下开发成ATL可执行程序。从下载和解压缩的原始数据文件打开一个流。从该流中读取XML记录(步骤P101)。该记录使用XSL格式表进行转换(步骤P102)。在步骤P103中，列在该记录中对应美国分类编码的分类标题被插入至该记录中。在步骤P104中，得到的记录被保存至文档存储131。

步骤101是必需的，因为该原始数据文件是XML记录合并的流，但它本身不遵循XML格式。(没有包括全部内容的文档元素。)通过字符串搜索(wcsstr)从开始XML记录的部分寻找“＜？xml”来逐个读取XML记录然后将找到的记录拷贝到缓存中。

在步骤102中，缓存中的记录被加载至XML DOM对象，然后使用列在附录文件StepP102.txt中的计算机程序的XSL格式表进行转换。该转换过程生成两个元素′usco′和′uscx′，它们包含属性′pccode′。该属性值是搜索子类的检索关键字，它拥有与上面创建的tblUSPCSchedule中对应′pccode′的列相同的格式。得到的XML文档使用DOM的如下C++代码表示的保存方法被保存在NAS 131中。

hr＝m_spDOM-＞save(_variant_t(path))；

上述代码中的path使用如下代码从文档id数值计算得出

CComBSTR bstrdocid；bstrdocid.Empty()；

hr＝get_docid(Abstrdocid)；

wstring docid((wchar_t*)bstrdocid)；

wchar_t path[MAX_PATH]；

memset(path，′\0′，sizeof(path))；

wsprintf(path，L″％s\\％s\\％sOOOO\\％sOO\\％

s.xml″，/*root*/websiteroot，docid.substr(0，4).c_str()，

docid.substr(0，7).c_str()，docid.substr(0，9).c_str

()，docid.c_str())；

其中′websiteroot′是文档存储的根目录路径，′get_docid′是读取从步骤P102生成的XML文档中的元素<pdoc/sdbi/iden/nmbr/>的方法。

网站应用程序和搜索引擎的索引。准备七个文件放在根目录下：FolerBrowse.aspx，FolderBrowse.aspx.es，FolderBrowse.aspx.resx，ShowAbstract.aspx，ShowAbstract.aspx.es，ShowAbstract.aspx.resx以及Global.asax。

FolderBrowse.aspx和FolderBrowse.aspx.cs以及FolderBrowse.aspx.resx(分别作为FolderBrowse.aspx.txt、FolderBrowse.aspx.cs.txt和FolderBrowse.aspx.resx.txt附带)向客户端和搜索引擎以可浏览结构呈现文档存储内容。

ShowAbstract.aspx、ShowAbstract.aspx.cs和ShowAbstract.aspx.resx(分别作为ShowAbstract.aspx.txt、ShowAbstract.aspx.cs.txt和ShowAbstract.aspx.resx.txt附带)从文档存储中检索XML记录，插入从数据库中得到的分类标题，将结果转换成HTML格式，以及将得到的HTML返回给客户端。对应pccode属性的子类标题从数据库中检索，并使用它创建元素树′usctree′，作为包含美国分类信息的元素uscs的子树。该过程操作XML文档m_spDOM。其源代码在附录的计算机程序列表StepP103.txt中列出。该步骤使用在附录的计算机程序列表StepP103sql.txt中的SQL存储过程spGetSubclassHierarchy访问数据库。每个分类都要执行在图10中展示的步骤。子类检索关键字pccode从m_spDOM中检索，usctree要附加的根元素在<uscs/>初始化(P103.1和P103.2)。对于从spGetSubclassHierarchy检索的每行来说(P103.3)，当前的附加目标检查具有相同的classid属性的usctree元素(P103.5)。如果该元素已经被附加了，附加目标被赋值成该元素(P103.8)然后处理下一行。如果该元素还没有被加上去，创建新的usctree元素并附加使得在附加目标上的classids顺序保持(P103.6)，然后将附加目标赋值成该新元素(P103.7)。得到的XML文档通过附录的XML格式表cxptohtml.xsl.txt被转换成HTML。

Global.asax(附录在Global.asax.txt中)包含过程将“搜索引擎友好的”链接，即不含有′？′字符的URL转换成含有查询字符串的、与FolderBrowse.aspx和ShowAbstract.aspx兼容的URL。这样含有html扩展的URL会生成对global.asax中函数Application_BeginRequest的调用，该网页应用被配置成将此URL映射至aspnet_isapi.dll。

附录的XML格式表cxptohtml.xsl.txt被放置(去掉txt扩展名)在该网站的根目录下，该网站的根目录的URL被提交到Google搜索引擎(http://www.google.com/addurl.html)。

由google搜索检索。在该文档被Google建立索引后，此过程可能要花上几个星期，美国分类系统的术语被输入至Google搜索表格www.google.com然后提交该搜索。

实施例1

本实施例公布了搜索引擎可索引的网站，它包含了含有分类美国专利记录的静态文档，该文档包含子类标题。

硬件环境是Dell PowerEdge 1650服务器，它配备两个型号为80530Intel 1.4Ghz处理器，1Gb物理内存和配置成RAID 10的136GB硬盘。操作系统是微软Windows 2000服务器版，它包含微软Internet Information Services(IIS)第5版。网站根据IIS文档创建，且配置允许匿名访问和浏览。该服务器通过LAN网络连接CISCO 2621XM路由器，该路由器与因特网相连。

美国专利申请记录可以从美国专利局网站上通过使用微软Internet Explorer第6版访问。该记录源可以被查看，参考部分包括美国当前分类域被拷贝至HTML文档体，该HTML文档使用微软Notepad准备。当前分类域指定的子类标题从USPTO的专利分类主页(http://www.uspto.gov/go/classification)得到，它被拷贝至表格行中，该表格行在HTML文档的当前分类域下面。操作得到的文档被包含在附录的光盘中，文件名是20040177015.html.txt。该文档被保存在网站的根目录下。该网站根目录的URL被提交至Google搜索引擎(http://www.google.com/addurl.html)。

实施例2

本实施例公布了搜索引擎可索引的网站，它包含了含有分类美国专利记录的静态文档，该文档包含子类标题和其父辈子类的标题。

使用与实施例1一样的硬件和软件环境。美国专利申请可以从美国专利局网站通过使用微软Internet Explorer第6版访问。该记录源可以被查看，参考部分包括美国当前分类域被拷贝至HTML文档体，该HTML文档使用微软Notepad准备。当前分类域指定的子类标题从USPTO的专利分类主页(http://www.uspto.gov/go/classification)得到，它与其父辈子类和类标题一起被拷贝至表格行中，该表格行在HTML文档的当前分类域下面。操作得到的文档被包含在附录的光盘中，文件名是20040167928.html.txt。该文档被保存在网站的根目录下。该网站根目录的URL被提交至Google搜索引擎(http://www.google.com/addurl.html)。

实施例3

本实施例公布了搜索引擎可索引的网站，它包含了含有分类美国专利记录的静态文档，该文档包含第二语言的子类标题和其父辈子类标题。

使用与实施例1一样的硬件和软件环境。美国专利申请可以从美国专利局网站通过使用微软Internet Explorer第6版访问。该记录源可以被查看，参考部分包括美国当前分类域被拷贝至HTML文档体，该HTML文档使用微软Wordpad(日文版)准备。当前分类域指定的子类标题从USPTO的专利分类主页(http://www.uspto.gov/go/classification)得到，被翻译成日文，它与其父辈子类和类标题一起被插入至表格行中，该表格行在HTML文档的当前分类域下面。该文档被保存在网站的根目录下。该网站根目录的URL被提交至Google搜索引擎(http://www.google.com/addurl.html)。

实施例4

本实施例公布分类专利记录与子类标题合并至静态XML文档，该文档被插入至网站，可以被网页蜘蛛或抓取器访问从而能够被网页搜索引擎索引。

使用与实施例1一样的硬件和软件环境。此外网站需要安装微软SQL Server第7版和微软.NET Framework。

分类数据的数据存储。根据SQL Server 7.0文档建立数据库。使用附录文件USPCScheduleAndHierarchyTables.sql分布的SQL脚本，在该数据库中创建两个表，USPCSchedule和USPCHierarchy。

通过使用微软Excel电子表格的Visual Basic宏将美国专利分类清单下载至这两个表格中。插入清单数据至USPCSchedule的宏的源代码(Visual Basic语言)和SQL存储过程(Transact-SQL语言)，以及COM组件(C++语言)列在附录的文件PCDownloadCode.txt中。

文档存储是从美国专利和商标局(http://www.uspto.gov/web/menu/patdata.html)下载的每周专利参考原始数据生成的，是Grant Red Book V2.5(xml)格式。该处理过程展示在图9中。除非特别注明，该应用使用微软Visual Studio.NET2003开发成ATL可执行体。从下载和解压缩的原始数据文件打开一个流。从该流中读取XML记录(步骤P101)。该记录使用XSL格式表进行转换(步骤P102)。在步骤P103中，列在该记录中对应美国分类编码的分类标题被插入至该记录中。在步骤P104中，得到的记录被保存至文档存储131。

步骤101是必需的，因为该原始数据文件是XML记录合并的流，但它本身不遵循XML格式。(整个内容包含的不是文档元素。)通过字符串搜索(wcsstr)从开始XML记录的部分寻找“＜？xml”来逐个读取XML记录然后将找到的记录拷贝到缓存中。

在步骤102中，缓存中的记录被加载至XML DOM对象，然后使用列在附录文件StepP102.txt中的计算机程序的XSL格式表进行转换。该转换过程生成两个元素′usco′和′uscx′，它们包含属性′pccode′。该属性值是搜索子类的检索键，它拥有与上面创建的tblUSPCSchedule中对应′pccode′的列相同的格式。注意此格式表生成xml-格式表作为输出。

在步骤103中，对应pccode属性的子类标题从数据库中检索，并使用它创建元素树′usctree′，作为包含美国分类信息的元素的子树。该步骤的源代码在附录的计算机程序列表StepP103.txt中列出。该过程操作在步骤102中准备好的XML DOM对象(m_spDOM)。该步骤使用在附录的计算机程序列表StepP103sql.txt中的SQL存储过程spGetSubclassHierarchy访问数据库。每个分类都要执行在图10中展示的步骤。子类检索键pccode从m_spDOM中检索，usctree要附加的根元素在<uscs/>初始化(P103.1和P103.2)。对于从spGetSubclassHierarchy检索的每行来说(P103.3)，当前的附加目标与usctree元素的classid属性是否一致进行检查(P103.5)。如果该元素已经被附加了，附加目标被赋值成该元素(P103.8)然后处理下一行。如果该元素还没有被加上去，创建新的usctree元素并附加使得在附加目标上的classids顺序保持(P103.6)，然后将附加目标赋值成该新元素(P103.7)。得到的XML文档被保存在NAS 131中(P104)，使用DOM的如下C++代码表示的保存方法。

hr＝m_spDOM-＞save(_variant_t(path))；

上述代码中的path使用如下代码从文档id数值计算得出

CComBSTR bstrdocid；bstrdocid.Empty()；

hr＝get_docid(Abstrdocid)；

wstring docid((wchar_t*)bstrdocid)；

wchar_t path[MAX_PATH]；

memset(path，′\0′，sizeof(path))；

wsprintf(path，L″％s\\％s\\％sOOOO\\％sOO\\％

s.xml″，/*root*/websiteroot，docid.substr(0，4).c_str()，

docid.substr(0，7).c_str()，docid.substr(0，9).c_str

()，docid.c_str())；

其中′websiteroot′是网站的根目录路径，′get_docid′是读取从步骤P103生成的XML文档中的元素<pdoc/sdbi/iden/nmbr/>的方法。

网站应用和搜索引擎建索引。附录的XML格式表cxptohtml.xsl被放置在该网站的根目录下，该网站根目录的URL被提交到Google搜索引擎(http://www.google.com/addurl.html)。

实施例5

本实施例公布分类美国专利记录与子类标题合并至静态XML文档，该文档包含内嵌对象链接到分类定义，且被插入至已被索引的网站。

接着与实施例4一样，除了以下例外：

步骤P104被步骤P104html替换，如图11所示。在步骤P104html中，使用XML格式表cxptohtml.xsl.txt(附录)将步骤103生成的XML文档转换成HTML，然后保存到文档存储中。其源代码片段(省略了出错处理代码)被附录在文件Step104html.txt中。得到的HTML文档被保存至NAS 131。其path使用如下代码从文档id数值计算得出

CComBSTR bstrdocid；bstrdocid.Empty()；

hr＝get_docid(Abstrdocid)；

wstring docid((wchar_t*)bstrdocid)；

wchar_t path[MAX_PATH]；

memset(path，′\0′，sizeof(path))；

wsprintf(path，L″％s\\％s\\％sOOOO\\％sOO\\％

s.htm″，/*root*/websiteroot，docid.substr(0，4).c_str()，

docid.substr(0，7).c_str()，docid.substr(0，9).c_str

()，docid.c_str())；

XML格式表cxptohtml.xsl从该网站根目录处省略。

工业适用性

本发明适用于通过网络建立索引和检索分类文档。

Claims

1.索引和检索分类文档的系统，该系统包括，

至少一台服务器计算机；

至少一台计算机存储装置，连接至所述服务器计算机，包含至少一个文档汇总，所述文档汇总包含至少一个文档，所述文档根据预定义分类方案分类，所述预定义分类方案包含分类编码、对应于所述分类编码的标题和任选地包含对应于所述分类编码的定义；

在所述服务器计算机上实施的至少一个服务器网页应用程序；以及

至少一个web网络连接；

其中所述服务器网页应用程序经所述web网络连接从所述计算机存储装置传输文档；及

其中来自至少一个分类编码标题或分类编码定义的至少一个术语被插入所述文档中以创建加上标签的文档。

2.根据权利要求1的索引和检索分类文档的系统，其中所述文档为一种或多种格式，所述格式从包括下列格式的组中选取：HTML、XML、PDF和MSWord。

3.根据权利要求1的索引和检索分类文档的系统，其中所述文档使用第一语言，其中至少一个分类编码标题或分类编码定义使用第二语言。

4.根据权利要求1的索引和检索分类文档的系统，其中该系统进一步包括：

至少一台客户端计算机，其中所述客户端计算机与所述服务器计算机相连。

5.根据权利要求1的索引和检索分类文档的系统，其中所述至少一个web网络连接是至搜索引擎；且其中所述搜索引擎索引所述加上标签的文档用于后续的检索。

6.索引和检索分类文档的系统，该系统包括，

至少一台服务器计算机；

至少一台计算机存储装置，连接至所述服务器计算机，包含至少一个文档汇总，所述文档汇总包含至少一个文档，所述文档根据预定义分类方案分类，所述预定义分类方案包含分类编码、对应于所述分类编码的标题和任选地包含对应于所述分类编码的定义，所述文档进一步包含至少一个检索关键字，其中所述检索关键字对应于至少一个术语，所述术语来源于所述分类编码标题或分类编码定义的至少一个；

至少一个服务器网页应用程序；以及

至少一个web网络连接；

其中所述术语被动态插入至所述文档，以创建加上标签的文档，其中所述插入操作是响应于经所述web网络连接接收的请求；其中所述服务器网页应用程序经所述web网络连接从所述计算机存储装置传输文档。

7.根据权利要求6的索引和检索分类文档的系统，其中所述文档为一种或多种格式，所述格式从包括下列格式的组中选取：HTML、XML、PDF和MSWord。

8.根据权利要求6的索引和检索分类文档的系统，其中所述文档使用第一语言，其中所述术语使用第二语言。

9.根据权利要求6的索引和检索分类文档的系统，其中该系统进一步包含：

10.根据权利要求1的索引和检索分类文档的系统，其中该系统进一步包含：

至少一台客户端计算机，其中所述客户端计算机与所述服务器计算机相连，其中所述加上标签的文档被传输至所述客户端计算机。

11.根据权利要求6的索引和检索分类文档的系统，其中所述至少一个web网络连接是至搜索引擎；所述搜索引擎索引所述加上标签的文档用于后续的检索。

12.用于分类文档的传输的计算机可实现方法，包含：

从文档汇总中检索文档，所述文档汇总被存储在至少一台计算机存储装置中，所述文档根据预定义的分类方案分类，所述预定义分类方案包含分类编码、对应于所述分类编码的标题和任选地包含对应于所述分类编码的定义，

其中所述检索响应于经网络的请求；

其中来自至少一个分类编码标题或分类编码定义的至少一个术语被插入所述文档中以创建增大的文档；以及

经所述网络传输所述加上标签的文档。

13.根据权利要求12的索引和检索分类文档的计算机可实现方法，其中所述文档为一种或多种格式，所述格式从包括下列格式的组中选取：HTML、XML、PDF和MSWord。

14.根据权利要求12的索引和检索分类文档的计算机可实现方法，其中所述文档使用第一语言，并且其中至少一个分类编码标题或分类编码定义使用第二语言。

15.根据权利要求12的索引和检索分类文档的计算机可实现方法，其中所述文档汇总包含至少一个专利文档。

16.根据权利要求12的索引和检索分类文档的计算机可实现方法，其中该系统进一步包含：

17.根据权利要求12的索引和检索分类文档的计算机可实现方法，其中所述经网络的请求是来自由计算机实现的搜索引擎且所述传输是至所述搜索引擎用于后续的索引和检索。

18.索引和检索分类文档的计算机可实现方法，包含：

从文档汇总中检索文档，所述文档根据预定义的分类方案分类，所述预定义分类方案包含分类编码，所述分类编码包含标题和定义，所述文档进一步包含至少一个检索关键字，其中所述检索关键字对应所述分类编码标题或所述分类编码定义中的至少一个的至少一个术语，

其中所述检索响应于经网络接收的请求，

从数据库检索至少一个关键字，该关键字从所述分类编码标题或分类编码定义中的至少一个得到；

将所述术语插入至所述文档，以创建加上标签的文档；以及

响应于所述请求，经所述网络传输所述加上标签的文档。

19.根据权利要求18的索引和检索分类文档的计算机可实现方法，其中所述文档为一种或多种格式，所述格式从包括下列格式的组中选取：HTML、XML、PDF和MSWord。

20.根据权利要求18的索引和检索分类文档的计算机可实现方法，其中所述文档使用第一语言，其中所述术语使用第二语言。

21.根据权利要求18的索引和检索分类文档的计算机可实现方法，其中所述文档汇总包含至少一个专利文档。

22.根据权利要求18的索引和检索分类文档的计算机可实现方法，其中所述系统进一步包含：

至少一个客户端计算机，其中所述客户端计算机与所述服务器计算机相连。

23.根据权利要求18的索引和检索分类文档的计算机可实现方法，其中所述经网络接收的请求是来自搜索引擎且所述传输是至所述搜索引擎。

24.检索分类文档的计算机可实现方法，包含：

启动客户端计算机内的客户软件应用程序与服务器计算机的连接；

用所述客户端计算机内的所述客户软件应用程序发出至少一个请求，其中所述请求启动包含以下步骤的方法：

从文档汇总检索文档，所述文档汇总包含至少一个文档，所述文档根据预定义分类方案分类，所述预定义分类方案包含分类编码，所述分类编码包含标题和定义，所述文档进一步包含至少一个检索码，其中所述检索码对应所述分类编码标题或分类编码定义中的至少一个；

将所述关键字插入至所述文档，以创建加上标签的文档；以及

将所述加上标签的文档传输至所述搜索引擎。

25.根据权利要求24的索引和检索分类文档的计算机可实现方法，其中所述文档为一种或多种格式，所述格式从包括下列格式的组中选取：HTML、XML、PDF和MSWord。

26.根据权利要求24的索引和检索分类文档的计算机可实现方法，其中所述文档使用第一语言，其中所述关键字使用第二语言。

27.根据权利要求24的索引和检索分类文档的计算机可实现方法，其中所述文档汇编包含至少一个专利文档。

28.根据权利要求24的索引和检索分类文档的计算机可实现方法，其中所述系统进一步包含：至少一台客户端计算机，其中所述客户端计算机与所述服务器计算机相连。

29.根据权利要求24的索引和检索分类文档的计算机可实现方法，其中所述客户软件应用程序是网页浏览器。

30.根据权利要求24的索引和检索分类文档的计算机可实现方法，其中所述客户软件应用程序是网页抓取器。

31.根据权利要求24的索引和检索分类文档的计算机可实现方法，其中所述客户软件应用程序是网页提取器。

32.根据权利要求24的索引和检索分类文档的计算机可实现方法，其中所述客户软件应用程序是网页内容打包器。