CN100394427C - 网络搜寻系统及方法 - Google Patents

网络搜寻系统及方法 Download PDF

Info

Publication number
CN100394427C
CN100394427C CNB2005101241631A CN200510124163A CN100394427C CN 100394427 C CN100394427 C CN 100394427C CN B2005101241631 A CNB2005101241631 A CN B2005101241631A CN 200510124163 A CN200510124163 A CN 200510124163A CN 100394427 C CN100394427 C CN 100394427C
Authority
CN
China
Prior art keywords
mentioned
word
user
identification code
html
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CNB2005101241631A
Other languages
English (en)
Other versions
CN1825308A (zh
Inventor
李跃钦
金文正
陈奇奕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taiwan Semiconductor Manufacturing Co TSMC Ltd
Original Assignee
Taiwan Semiconductor Manufacturing Co TSMC Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taiwan Semiconductor Manufacturing Co TSMC Ltd filed Critical Taiwan Semiconductor Manufacturing Co TSMC Ltd
Publication of CN1825308A publication Critical patent/CN1825308A/zh
Application granted granted Critical
Publication of CN100394427C publication Critical patent/CN100394427C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99932Access augmentation or optimizing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching

Abstract

本发明提供一种网络搜寻系统及方法。一个服务器包括一个储存装置与一个第一程序模块。储存装置储存字数统计记录。每一笔字数统计记录包括相关于已由使用者所检索的多个短文中的一个字的出现次数的信息。第一程序模块接收一个使用者识别码及一个关键字,取得相应于关键字的多个超文本标记语言文件,依据相应于使用者识别码的多笔字数统计记录计算代表每一超文本标记语言文件的第一数值,根据第一数值由高而低排列相应于超文本标记语言文件的多个项目,以及显示一个包括经排序后的多个项目的网页。本发明所述网络搜寻系统及方法,可改善搜寻结果,并增进使用者浏览效率。

Description

网络搜寻系统及方法
技术领域
此发明是一种信息检索(information retrieval)技术,特别是一种关于网络搜寻(web search)的方法及系统。
背景技术
全球信息网(World Wide Web,WWW)与因特网中所存在的资源,让使用者可透过使用计算机或其它数据存取装置从大量的网站中取得广泛的大量信息。一般而言,网站所提供的信息是以网页呈现,其格式一般来说可为超文本标记语言(HyperTextmark-up language,HTML)格式,此为一种以文字为基础的格式,用以指示计算机如何显示个别网页。可提供通常为ASCII格式的文字内容与压缩后的图形信息,格式诸如“GIF”或“JPEG”。除此之外,网页通常可包含超文本链接(Hypertextlink),用以链接到同一个网站的其他网页,或是链接到其他网站所提供的网页。
因特网拥有超过数以亿计的网页,并且网页的数目仍持续增加中。要找到适宜的信息,有两种基本的方法:使用一个搜寻引擎或一个搜寻目录(如雅虎,Yahoo、LookSmart或OpenDirectory)。搜寻目录适用于找寻通俗主题的信息,搜寻引擎则特别适用在搜寻专业信息。现有的各种搜寻工具的进阶搜寻功能可进一步来改善搜寻结果。
大多数的搜寻引擎拥有大量的网站数据库,于搜寻时,可输入一些字、词组或句子至一个网页的文字字段中。搜寻引擎会搜寻整个超文本标记语言文件并且建立全文的索引(index)。搜寻引擎使用俗称“机器人”(robots)或称为“蜘蛛”(spiders)的计算机程序,这些程序透过依循网站至网站的链接爬(crawl)过一个又一个的网站,并且为所造访的每一个网页建立索引。每一搜寻引擎会拥有独有的判定准则来决定那些网页要包纳在数据库中。例如,某些搜寻引擎搜寻网站中的每一网页,而某些搜寻引擎则只搜寻主页(main page)。最近,最有名之一的搜寻引擎Google,则为超过三十亿的网页建立索引。
几乎所有的搜寻引擎会于网页数据库中进行关键字搜寻,但有各式各样的因素会影响搜寻结果,例如,搜寻引擎数据库的大小、数据库更新的频率、搜寻功能设计,以及速度。Google提供了不仅简单且进阶的搜寻效能。进阶搜寻功能透过输入包括或剔除想要的字或词组的信息来缩小搜寻范围,并且得以进行特定语言的搜寻请求。图1是为显示现有的搜寻结果的屏幕画面。该搜寻结果包含数百至千笔搜寻结果项目,每一搜寻结果项目包括带有链接于特定网页的一个全球资源链接的一个标题101a或101b、一段短文(例如,一个摘要或搜寻的关键字摘要)102a或102b、一个以位表示的文件大小103a或103b等等。
如此庞大的搜寻结果项目阻碍使用者浏览的效率,因此,产生许多排序技术来将无关紧要的项目移至列表的底部。排序演算法中的最主要规则之一为考虑关键字出现在一个网页上的位置及出现次数。例如,搜寻引擎可先决定搜寻的关键字是否出现于网页的开头位置,例如于标题或文字中的第一段落。搜寻引擎假定若关键字出现于网页的开头位置附近,则此网页较重要。另一种搜寻引擎则决定网页是否相关的因素为关键字于其中的出现次数。大多数的搜寻引擎会分析于一个网页中所包含的关键字相较于其他字的出现次数。有较高出现次数的网页相较于其他网页会更重要。
虽然解决方法是可行的,但仍存在许多问题。例如,传统的排序演算法是基于关键字的位置与出现次数模型来决定搜寻结果项目的次序安排,而未考虑诸如使用者浏览行为的重要因素。因此,需要一种网络搜寻系统及方法,用以改善搜寻结果及增进使用者浏览效率。
发明内容
有鉴于此,本发明提供一种网络搜寻的系统及方法,用以考虑使用者先前的浏览行为,且以智慧性的排序计算基础来安排每一个搜寻结果,将无关紧要的项目移至列表的底部。
本发明的系统包括一个服务器及一部客户端计算机。服务器透过通讯网络环境与多部客户端计算机链接。每一部客户端计算机配备有浏览器(browser)以存取服务器中的信息。网站浏览器为客户端应用程序,或者于较佳的情况下,为一能与服务器互动的整合公用程序。网站浏览器透过因特网从服务器接收信息,该信息通常以超文本标记语言(Hypertext Markup Language,HTML)、可扩展标记语言(Extensible Markup Language,XML)等编码而成。
服务器包括处理单元、储存装置、输入装置、显示装置及通讯装置。储存装置储存多个“停用字”以及字数统计记录。停用字(例如,干扰字,noise words)为无关于网络搜寻之字。字数统计记录储存相关于已由特定使用者所检索的多个短文中的字的出现次数信息。每一笔字数统计记录包括之前已建立的使用者识别码(identity,ID)、一个字以及一个计数数值等字段。
存储器于较佳的情况下包括一个计算模块与一个搜寻模块,搜寻模块包括用以执行字数计算与网络搜寻功能的常序(routine)。当使用者端点击相应于一个短文的一个超链接时,计算模块便开始执行。计算模块的功用为计算短文中的字的出现次数并且据以更新字数统计记录。当使用者于一个文字字段输入一或多个关键字并且点击搜寻按键时,搜寻模块开始执行。搜寻模块根据字数统计记录来产生搜寻结果。
计算模块接收一个使用者识别码与一个超链接的接口事件,并且取得相应于超链接的一段短文。计算模块使用一个停用字过滤演算法(例如,干扰字过滤)从短文中移除特定停用字来产生另一段短文。事先定义的停用字储存于储存装置中。计算模块循序地扫描相应于超链接的短文来取得其中的字。针对每一个取得的字,计算模块侦测带有使用者识别码的字是否存在于字数统计记录中,若存在,则将搜寻到的字数统计记录中的计数数值加一;若不存在,则建立一个含有取得的字与使用者识别码的新字数统计记录,并且将该新字数统计记录中的计数数值设定为一。
搜寻模块接收一个使用者识别码与一或多个关键字。搜寻模块取得多个相应于输入关键字的超文本标记语言文件。针对每一个超文本标记语言文件,搜寻模块从字数统计记录中取得相应于使用者识别码的字与其出现次数。搜寻模块为超文本标记语言文件计算一个匹配分数(matching score,MS)。搜寻模块产生一个含有搜寻结果项目的网页。于较佳的情况下,每一个项目包括带有链接于特定超文本标记语言网页的一个全球资源链接(Universal Resource Link,URL)的显示标题、一段短文、以及以位表示的文件大小等等。于较佳的情况下,根据匹配分数由高而低排列搜寻结果项目。
本发明是这样实现的:
本发明提供一种网络搜寻系统,应用于一个计算机网络系统中,包括:一个储存装置用以储存多笔字数统计记录,每一字数统计记录包括相关于已由一个使用者所检索的多个短文中的一个字的出现次数的信息;以及一个第一程序模块用以接收相应于上述使用者的一个使用者识别码,接收一个关键字,取得相应于上述关键字的多个超文本标记语言文件,依据相应于上述使用者识别码的上述字数统计记录计算代表每一超文本标记语言文件的第一数值,根据上述第一数值由高而低排列相应于上述超文本标记语言文件的多个项目,以及显示一个包括经排序后的上述项目的网页。
本发明所述的网络搜寻系统,上述字数统计记录包括一个使用者识别码、一个字、以及一个计数数值。
本发明所述的网络搜寻系统,上述项目包括带有链接于特定超文本标记语言文件的一个全球资源链接的一个显示标题、一段短文、以及以位表示的文件大小。
本发明所述的网络搜寻系统,上述计算机网络系统更包括一个客户端,上述客户端拥有一个网络浏览器,上述客户端经由上述网络浏览器与上述网络搜寻系统互动来进行网络搜寻。
本发明所述的网络搜寻系统,更包括一个第二程序模块接收上述使用者识别码,接收一个超链接的一个接口事件,取得相应于上述超链接的一段短文,上述短文包括多个字,上述第二程序模块更用以计算每一个字的一个计数数值,上述第二程序模块更用以储存上述字的上述计数数值以及上述使用者识别码至上述字数统计记录。
本发明所述的网络搜寻系统,上述第二程序模块使用一个停用字过滤演算法从上述短文中移除事先定义的停用字。
本发明所述的网络搜寻系统,上述第二程序模块用以侦测带有上述使用者识别码的上述字是否存在于上述字数统计记录中;以及若带有上述使用者识别码的上述字未存在于上述字数统计记录时,上述第二程序模块建立一个包括带有上述使用者识别码的上述字的新字数统计记录;以及将上述新字数统计记录的一个计数数值设定为一。
本发明所述的网络搜寻系统,上述第二程序模块用以侦测带有上述使用者识别码的上述字是否存在于上述字数统计记录中;以及,若带有上述使用者识别码的上述字存在于上述字数统计记录时,上述第二程序模块更用以于上述侦测到的字数统计记录中的一个计数数值加一。
本发明还提供一种网络搜寻方法,该方法包括使用一部计算机执行下列步骤:接收相应于一个使用者的一个使用者识别码;接收一个关键字;取得相应于上述关键字的多个超文本标记语言文件;依据相应于上述使用者识别码的字数统计记录计算代表每一超文本标记语言文件的第一数值,上述字数统计记录包括相关于已由上述使用者所检索的多个短文中的一个字的出现次数的信息;根据上述第一数值由高而低排列相应于上述超文本标记语言文件的多个项目;以及显示一个包括上述经排序后的多个项目的网页。
本发明所述的网络搜寻方法,上述字数统计记录包括一个使用者识别码、一个字、以及一个计数数值。
本发明所述的网络搜寻方法,上述项目包括带有链接于特定超文本标记语言文件的一个全球资源链接的一个显示标题、一段短文、以及以位表示的文件大小。
本发明又提供一种网络搜寻方法,该方法包括使用一部计算机执行下列步骤:接收一个使用者识别码;接收一个超链接的一个接口事件;取得相应于上述超链接的一段短文,上述短文包括多个字;计算每一个字的一个计数数值;以及储存上述字的上述计数数值以及上述使用者识别码至上述字数统计记录,上述字数统计记录储存相关于已由一个使用者所检索的多个短文中的一个字的出现次数的信息。
本发明所述网络搜寻系统及方法,可改善搜寻结果,并增进使用者浏览效率。
附图说明
图1是为显示现有的搜寻结果的屏幕画面;
图2是表示依据本发明实施例的网络搜寻系统架构图;
图3是依据本发明实施例的服务器架构示意图;
图4是依据本发明实施例的字数统计记录示意图;
图5是为依据本发明实施例的服务器的软件架构示意图;
图6a与图6b是为依据本发明实施例的范例短文示意图;
图7是为依据本发明实施例的短文字数统计方法的方法流程图;
图8是为依据本发明另一个实施例的超文本标记语言文件的搜寻方法的方法流程图;
图9是表示依据本发明实施例的字数统计的计算机可读取储存介质示意图;
图10是表示依据本发明实施例的网络搜寻的计算机可读取储存介质示意图。
具体实施方式
图2是表示依据本发明实施例的网络搜寻系统架构图。如图2所示,网络搜寻系统于较佳的情况下包括一个服务器10,以及客户端计算机20a、20b及20c。服务器10透过一个通讯网络160(可为局部区域网络LAN、广域网络WAN、企业内部网络或因特网)与客户端计算机20a、20b及20c等链接。
于一个网络环境下,其中范例的通讯网络160诸如因特网,服务器10为与客户端20(即上述20a、20b及20c)通讯的网站服务器,其通讯可透过任何已知的通讯协定,例如超文本传输通讯协定(hypertext transfer protocol,HTTP)等。每一部客户端计算机20(即上述20a、20b及20c)配备有浏览器180以存取服务器10中的信息。网站浏览器180为客户端应用程序,或者于较佳的情况下,为一能与服务器10互动的整合公用程序。网站浏览器180从服务器10接收信息。该信息通常以超文本标记语言、可扩展标记语言等编码而成。诸如此类的超文本标记语言文件中可包括脚本指令(scripts,例如JavaScript或Visual Basic Scripts)以提供网络搜寻功能。网站服务器180通常支援各式各样元件,诸如Java Applets、ActiveX Controls以及Plug-Ins等,以提供网络搜寻功能。
图3是依据本发明实施例的服务器架构示意图。服务器10包括一个处理单元11、一个存储器12、一个储存装置13、一个输入装置15、一个显示装置14以及一个通讯装置16。根据范纽曼(BonNeumann)架构,使用总线17将处理单元11、存储器12、储存装置13、显示装置14、输入装置15以及通讯装置16连接在一起。处理单元11、存储器12、储存装置13、显示装置14、输入装置15以及通讯装置16可整合为一部大型主机、一个迷你计算机、一个工作站计算机、一部主机、一个个人计算机或一个移动计算机。
处理单元11从存储器12或经由一操作人员透过输入装置15接收程序模块,用以执行网络搜寻功能。处理单元11可包含一个或多个处理器,使得计算机的处理单元可包含一个中央处理单元(CPU)、一个微处理单元(micro processing unit,MPU)或关联于一个平行运算环境的多处理单元。
储存装置13可包括数据库(database)系统或文件,以储存多个“停用字”(stop words)以及字数统计记录。停用字(例如,干扰字,noise words)为无关于网络搜寻的字,例如“the”、“is”、“are”等等。字数统计记录储存相关于已由特定使用者所检索的多个短文中的字的出现次数信息。每一笔字数统计记录包括之前已建立的使用者识别码(identity,ID)、一个字以及一个计数数值等字段。使用者识别码可指向计算机识别码或使用者帐号等,以区别出使用者。字数统计记录的实作不仅限于单一数据表、文件,亦可实作于数据库管理系统或文件系统中的多个相关连的数据表或文件。在不违背本发明的范围及精神下,本领域技术人员可加上更多或使用不尽相同的记录字段。
图4是依据本发明实施例的字数统计记录示意图。依据记录41a至41d,已由使用者“A”所检索的短文中的字包括“quality”、“yield”、“revenue”以及“sale”,并且这些字的出现次数依次为40、10、1以及1。另一方面,依据记录42a至42d,已由使用者“B”所检索的短文中包含相同的字,并且这些字的出现次数依次为1、1、40以及10。于此例中,范例的字数统计记录可描述出使用者“A”倾向于取得有关数量控制的信息,而使用者“B”则意图搜寻有关销售的信息。
图5是为依据本发明实施例的服务器的软件架构示意图。存储器12于较佳的情况下为一动态存取存储器(RAM),但亦可为一只读存储器(ROM)或一快闪只读存储器(flash ROM)。于较佳的情况下,存储器12储存计算模块(calculation module)121以及搜寻模块(search module)122,模块中包括常序(routines)用以实现字数计算与网络搜寻的功能。储存装置13于较佳的情况下包括字数统计记录131。例如,根据图1,当使用者点击相应于短文102a或102b的超链接101a或101b时,计算模块121便开始执行。计算模块121的功用为计算短文102a或102b中的字的出现次数,并据以更新字数统计记录131。当使用者于一个文字字段104输入一或多个关键字并且点击搜寻按键105时,搜寻模块122开始执行。搜寻模块122根据字数统计记录131来产生搜寻结果。
图6a与图6b是为依据本发明实施例的范例短文示意图。计算模块121可实作于网页中之一或多个脚本指令,诸如JavaScript、VB Script等等。计算模块121亦可实作成系统10或其他远端计算机中的一个元件(component)或对象(object)。计算模块121始于接收一个使用者识别码与一个超链接的一个接口事件。接口事件可为“点击”(click)、“双击”(double-click)等。计算模块121接着取得相应于该超链接的一段短文61a。计算模块121使用一个停用字过滤演算法(例如,干扰字过滤),从短文61a中移除特定停用字来产生另一段短文61b。事先定义的停用字储存于储存装置13中。而停用字过滤演算法为此领域的技术人员所熟知,不在此特别介绍。计算模块121循序地扫描短文61b来取得其中的字。针对每一个取得的字,计算模块121侦测带有使用者识别码的字是否存在于字数统计记录中,若存在,则将搜寻到的字数统计记录中的计数数值加一。若不存在,则建立一个含有取得的字与使用者识别码的新字数统计记录,并且将该新字数统计记录中的计数数值设定为一。
搜寻模块122可实作于网页中的一或多个脚本指令,诸如JavaScript、VB Script等等。搜寻模块122亦可实作成系统10或其他远端计算机中的一个元件或对象。搜寻模块122接收一个使用者识别码与一或多个关键字。搜寻模块122取得多个相应于输入关键字的超文本标记语言文件。相应于一或多个关键字的超文本标记语言文件的搜寻演算法为此领域的技术人员所熟知,不在此特别介绍。针对每一个超文本标记语言文件,搜寻模块122从字数统计记录中取得相应于使用者识别码的字与其出现次数。搜寻模块122为超文本标记语言文件计算一个匹配分数。方程式(1)显示计算匹配分数的公式。
MS = Σ i = 1 n P ( Wi ) * C ( Wi ) ,
其中MS代表超文本标记语言文件的匹配分数,n代表相应于使用者识别码的字数统计记录的总合,P(Wi)代表在该超文本标记语言文件中第i个字出现次数,C(Wi)代表在字数统计记录中第i个字的出现次数。搜寻模块122产生一个含有搜寻结果项目的网页。于较佳的情况下,每一个项目包括带有链接于特定超文本标记语言网页的一个全球资源链接的显示标题、一段短文、以及以位表示的文件大小等。于较佳的情况下,根据匹配分数由高而低排列搜寻结果项目。
图7是为依据本发明实施例的短文字数统计方法的方法流程图。该流程始于步骤S711,接收一个使用者识别码与一个超链接的一个接口事件。接口事件可为“点击“、“双击”等。如步骤S721,取得一段短文61a(如图6a所示)。如步骤S731,使用一个停用字过滤演算法(例如,干扰字过滤),从短文61a中移除停用字来产生另一段短文61b(图6b)。接着,使用包括由步骤S741至S745的循环以计算短文61b中的所有的字的出现次数。如步骤S741,在循环的一开始,取得短文61b中的一个字。如步骤S742,决定接收的使用者识别码与取得的字是否存在于字数统计记录中。若存在,则流程进行至步骤S743。若不存在,则流程进行至步骤S744。如步骤S743,将搜寻到的字数统计记录中的计数数值加一。如步骤S744,建立一笔含有取得的字与使用者识别码的新字数统计记录。该新字数统计记录中的计数数值设定为一。如步骤S745,决定短文61b中的所有的字是否已全部处理完成。若是,则循环结束。若否,则循环继续进行以取得短文61b中的下一个字。
图8是为依据本发明另一个实施例的超文本标记语言文件的搜寻方法的方法流程图。该流程始于步骤S811,接收一个使用者识别码与一或多个关键字。如步骤S821,取得多个相应于输入关键字的超文本标记语言文件。接着,使用包括从步骤S831至S833的循环以计算取得的超文本标记语言文件的匹配分数。如步骤S831,在循环的一开始,搜寻到一个超文本标记语言文件。如步骤S832,根据相应于使用者识别码的字数统计记录,计算搜寻到的超文本标记语言文件的匹配分数。计算方式可使用方程式(1)的公式。如步骤S833,决定所有搜寻到的超文本标记语言文件是否皆已计算出匹配分数。若是,则流程进行至步骤S841。若否,则流程进行至步骤S831,亦即为循环的开始,搜寻下一个超文本标记语言文件。如步骤S841,根据匹配分数由高而低排列所有搜寻到的超文本标记语言文件。如步骤S842,于显示装置14上显示含有搜寻结果项目的网页。于较佳的情况下,每一个搜寻结果项目包括带有链接于特定超文本标记语言网页的一个全球资源链接的显示标题、一段短文、以及以位表示的文件大小等。
本发明实施例另揭露一种用以储存短文字数统计计算机程序920的储存介质。图9是表示依据本发明实施例的短文字数统计的计算机可读取储存介质示意图。此计算机程序产品包括一个可使用于计算机系统并含有计算机可读取程序的储存介质90。计算机可读取程序包含接收一个使用者识别码与一个超链接的接口事件逻辑921,取得相应于超链接的短文逻辑922,从短文中移除停用字逻辑923,计算短文中的字的出现次数逻辑924,储存字的出现次数计算结果至字数统计记录逻辑925。
本发明实施例另揭露一种用以储存网络搜寻计算机程序940的储存介质。图10是表示依据本发明实施例的网络搜寻的计算机可读取储存介质示意图。此计算机程序产品包括一个可使用于计算机系统并含有计算机可读取程序的储存介质90。计算机可读取程序包含接收一个使用者识别码与搜寻的关键字逻辑941,取得相应于搜寻关键字的超文本标记语言文件逻辑942,计算搜寻到的超文本标记语言文件的匹配分数逻辑943,根据匹配分数由高而低排列搜寻到的超文本标记语言文件逻辑944,显示搜寻结果逻辑945。
虽然本发明已通过较佳实施例说明如上,但该较佳实施例并非用以限定本发明。本领域的技术人员,在不脱离本发明的精神和范围内,应有能力对该较佳实施例做出各种更改和补充,因此本发明的保护范围以权利要求书的范围为准。
附图中符号的简单说明如下:
101a、101b:带有超链接的标题
102a、102b:短文
103a、103b:以位表示的文件大小
104:输入字段
105:按钮
10:服务器
20a、20b、20c:客户端计算机
160:通讯网络
180:浏览器
11:处理单元
12:存储器
13:储存装置
14:显示装置
15:输出装置
16:通讯装置
17:总线
41a、...、42d:字数统计记录
121:计算模块
122:搜寻模块
131:字数统计记录
61a、61b:短文
S711、S721、...、S744、S745:流程步骤
S811、S821、...、S841、S842:流程步骤
90:储存介质
920:短文字数统计计算机程序
921:接收一个使用者识别码与一个超链接的接口事件逻辑
922:取得相应于超链接的短文逻辑
923:从短文中移除停用字逻辑
924:计算短文中的字的出现次数逻辑
925:储存字的出现次数计算结果至字数统计记录逻辑
90:储存介质
940:网络搜寻计算机程序
941:接收一个使用者识别码与搜寻的关键字逻辑
942:取得相应于搜寻关键字的超文本标记语言文件逻辑
943:计算搜寻到的超文本标记语言文件的匹配分数逻辑
944:根据匹配分数由高而低排列搜寻到的超文本标记语言文件逻辑
945:显示搜寻结果逻辑

Claims (12)

1.一种网络搜寻系统,应用于一个计算机网络系统中,包括:
一个储存装置用以储存多笔字数统计记录,每一字数统计记录包括相关于已由一个使用者所检索的多个短文中的一个字的出现次数的信息;以及
一个第一程序模块用以接收相应于上述使用者的一个使用者识别码,接收一个关键字,取得相应于上述关键字的多个超文本标记语言文件,依据相应于上述使用者识别码的上述字数统计记录计算代表每一超文本标记语言文件的第一数值,根据上述第一数值由高而低排列相应于上述超文本标记语言文件的多个项目,以及显示一个包括经排序后的上述项目的网页。
2.根据权利要求1所述的网络搜寻系统,其特征在于,上述字数统计记录包括一个使用者识别码、一个字、以及一个计数数值。
3.根据权利要求1所述的网络搜寻系统,其特征在于,上述项目包括带有链接于特定超文本标记语言文件的一个全球资源链接的一个显示标题、一段短文、以及以位表示的文件大小。
4.根据权利要求1所述的网络搜寻系统,其特征在于,上述计算机网络系统更包括一个客户端,上述客户端拥有一个网络浏览器,上述客户端经由上述网络浏览器与上述网络搜寻系统互动来进行网络搜寻。
5.根据权利要求1所述的网络搜寻系统,其特征在于,更包括一个第二程序模块接收上述使用者识别码,接收一个超链接的一个接口事件,取得相应于上述超链接的一段短文,上述短文包括多个字,上述第二程序模块更用以计算每一个字的一个计数数值,上述第二程序模块更用以储存上述字的上述计数数值以及上述使用者识别码至上述字数统计记录。
6.根据权利要求5所述的网络搜寻系统,其特征在于,上述第二程序模块使用一个停用字过滤演算法从上述短文中移除事先定义的停用字。
7.根据权利要求6所述的网络搜寻系统,其特征在于,上述第二程序模块用以侦测带有上述使用者识别码的上述字是否存在于上述字数统计记录中;以及
若带有上述使用者识别码的上述字未存在于上述字数统计记录时,上述第二程序模块建立一个包括带有上述使用者识别码的上述字的新字数统计记录;以及将上述新字数统计记录的一个计数数值设定为一。
8.根据权利要求6所述的网络搜寻系统,其特征在于,上述第二程序模块用以侦测带有上述使用者识别码的上述字是否存在于上述字数统计记录中;以及,若带有上述使用者识别码的上述字存在于上述字数统计记录时,上述第二程序模块更用以于上述侦测到的字数统计记录中的一个计数数值加一。
9.一种网络搜寻方法,该方法包括使用一部计算机执行下列步骤:
接收相应于一个使用者的一个使用者识别码;
接收一个关键字;
取得相应于上述关键字的多个超文本标记语言文件;
依据相应于上述使用者识别码的字数统计记录计算代表每一超文本标记语言文件的第一数值,上述字数统计记录包括相关于已由上述使用者所检索的多个短文中的一个字的出现次数的信息;
根据上述第一数值由高而低排列相应于上述超文本标记语言文件的多个项目;以及
显示一个包括上述经排序后的多个项目的网页。
10.根据权利要求9所述的网络搜寻方法,其特征在于,上述字数统计记录包括一个使用者识别码、一个字、以及一个计数数值。
11.根据权利要求9所述的网络搜寻方法,其特征在于,上述项目包括带有链接于特定超文本标记语言文件的一个全球资源链接的一个显示标题、一段短文、以及以位表示的文件大小。
12.一种网络搜寻方法,该方法包括使用一部计算机执行下列步骤:
接收一个使用者识别码;
接收一个超链接的一个接口事件;
取得相应于上述超链接的一段短文,上述短文包括多个字;
计算每一个字的一个计数数值;以及
储存上述字的上述计数数值以及上述使用者识别码至上述字数统计记录,上述字数统计记录储存相关于已由一个使用者所检索的多个短文中的一个字的出现次数的信息。
CNB2005101241631A 2005-02-22 2005-11-25 网络搜寻系统及方法 Active CN100394427C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/063,277 US7475074B2 (en) 2005-02-22 2005-02-22 Web search system and method thereof
US11/063,277 2005-02-22

Publications (2)

Publication Number Publication Date
CN1825308A CN1825308A (zh) 2006-08-30
CN100394427C true CN100394427C (zh) 2008-06-11

Family

ID=36914043

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005101241631A Active CN100394427C (zh) 2005-02-22 2005-11-25 网络搜寻系统及方法

Country Status (3)

Country Link
US (1) US7475074B2 (zh)
CN (1) CN100394427C (zh)
TW (1) TWI280492B (zh)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7478092B2 (en) * 2005-07-21 2009-01-13 International Business Machines Corporation Key term extraction
US8935290B2 (en) * 2006-05-03 2015-01-13 Oracle International Corporation User interface features to manage a large number of files and their application to management of a large number of test scripts
US8131722B2 (en) * 2006-11-20 2012-03-06 Ebay Inc. Search clustering
TWI427492B (zh) * 2007-01-15 2014-02-21 Hon Hai Prec Ind Co Ltd 資訊搜尋系統及方法
US8620896B2 (en) 2007-12-06 2013-12-31 Yahoo! Inc. Reverse matching relationships in networks of existing identifiers
CN101350154B (zh) * 2008-09-16 2013-01-30 北京搜狐新媒体信息技术有限公司 一种电子地图数据的排序方法及装置
WO2010141598A2 (en) * 2009-06-02 2010-12-09 Index Logic, Llc Systematic presentation of the contents of one or more documents
US20110282765A1 (en) 2009-12-17 2011-11-17 American Express Travel Related Services Company, Inc. System and method for enabling ip data access in an ip marketplace
US20110153573A1 (en) * 2009-12-17 2011-06-23 American Express Travel Related Services Company, Inc. System and method for valuing an ip asset based upon patent quality
US8306866B2 (en) * 2009-12-17 2012-11-06 American Express Travel Related Services Company, Inc. System and method for enabling an intellectual property transaction
US20110153852A1 (en) * 2009-12-17 2011-06-23 American Express Travel Related Services Company, Inc. System and method for valuing and rating intellectual property assets
US20110154451A1 (en) * 2009-12-17 2011-06-23 American Express Travel Related Services Company, Inc System and method for for an industry based template for intellectual property asset data
US8650317B2 (en) 2009-12-17 2014-02-11 American Express Travel Related Services Company, Inc. System and method for searching channels based on channel rating
US20110153552A1 (en) * 2009-12-17 2011-06-23 American Express Travel Related Services Company, Inc. System and method for standardizing ip transactions
US8977761B2 (en) * 2009-12-17 2015-03-10 American Express Travel Related Services Company, Inc. System and method for enabling product development
US20110153434A1 (en) * 2009-12-17 2011-06-23 American Express Travel Related Services Company, Inc. System and method for merchandising intellectual property assets
US20110153444A1 (en) * 2009-12-17 2011-06-23 American Express Travel Related Services Company, Inc. System and method for registering users for an ip marketplace
US8001012B2 (en) * 2009-12-17 2011-08-16 American Express Travel Related Services Company, Inc. System and method for enabling product development
US9037733B2 (en) * 2009-12-17 2015-05-19 American Express Travel Related Services Company, Inc. System and method for enabling product development
US20110153473A1 (en) * 2009-12-17 2011-06-23 American Express Travel Related Services Company, Inc. System and method for managing royalty payments
US20110153851A1 (en) * 2009-12-17 2011-06-23 American Express Travel Related Services Company, Inc. System and method for adjusting intake based on intellectual property asset data
US20110154476A1 (en) * 2009-12-17 2011-06-23 American Expres Travel Related Services Company, Inc. System and method for collecting and validating intellectual property asset data
TW201239642A (en) 2011-03-03 2012-10-01 Brightedge Technologies Inc Optimization of social media engagement
US8972275B2 (en) 2011-03-03 2015-03-03 Brightedge Technologies, Inc. Optimization of social media engagement
CN105975632B (zh) * 2011-06-24 2019-11-19 阿里巴巴集团控股有限公司 一种搜索方法、关系建立方法及相关设备
KR102322031B1 (ko) * 2014-07-31 2021-11-08 삼성전자주식회사 메타 데이터를 관리하는 시스템 및 방법
CN109299244A (zh) * 2018-11-15 2019-02-01 天津字节跳动科技有限公司 一种在线文档检索方法、装置、存储介质及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6336117B1 (en) * 1999-04-30 2002-01-01 International Business Machines Corporation Content-indexing search system and method providing search results consistent with content filtering and blocking policies implemented in a blocking engine
CN1404590A (zh) * 2000-12-22 2003-03-19 皇家菲利浦电子有限公司 元数据分类和信息入口的创建方法
CN1430165A (zh) * 2001-12-29 2003-07-16 财团法人资讯工业策进会 搜寻引擎关键字的关联建立系统及方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3108015B2 (ja) * 1996-05-22 2000-11-13 松下電器産業株式会社 ハイパーテキスト検索装置
US7072883B2 (en) * 2001-12-21 2006-07-04 Ut-Battelle Llc System for gathering and summarizing internet information

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6336117B1 (en) * 1999-04-30 2002-01-01 International Business Machines Corporation Content-indexing search system and method providing search results consistent with content filtering and blocking policies implemented in a blocking engine
CN1404590A (zh) * 2000-12-22 2003-03-19 皇家菲利浦电子有限公司 元数据分类和信息入口的创建方法
CN1430165A (zh) * 2001-12-29 2003-07-16 财团法人资讯工业策进会 搜寻引擎关键字的关联建立系统及方法

Also Published As

Publication number Publication date
TWI280492B (en) 2007-05-01
CN1825308A (zh) 2006-08-30
US7475074B2 (en) 2009-01-06
US20060190446A1 (en) 2006-08-24
TW200630830A (en) 2006-09-01

Similar Documents

Publication Publication Date Title
CN100394427C (zh) 网络搜寻系统及方法
US9183281B2 (en) Context-based document unit recommendation for sensemaking tasks
CN102073725B (zh) 结构化数据的搜索方法和实现该搜索方法的搜索引擎系统
CN102073726B (zh) 搜索引擎系统的结构化数据的引入方法和装置
CN102722498B (zh) 搜索引擎及其实现方法
US20070078889A1 (en) Method and system for automated knowledge extraction and organization
CN113822067A (zh) 关键信息提取方法、装置、计算机设备及存储介质
US20130013616A1 (en) Systems and Methods for Natural Language Searching of Structured Data
CN111708740A (zh) 基于云平台的海量搜索查询日志计算分析系统
Manjari et al. Extractive Text Summarization from Web pages using Selenium and TF-IDF algorithm
CN102737021B (zh) 搜索引擎及其实现方法
CN102360367A (zh) 一种xbrl数据搜索方法及搜索引擎
CN103714140A (zh) 一种基于主题网络爬虫的搜索方法及装置
US20130159828A1 (en) Method and Apparatus for Building Sales Tools by Mining Data from Websites
US8121970B1 (en) Method for identifying primary product objects
CN114090861A (zh) 一种基于知识图谱的教育领域搜索引擎构建方法
Baker et al. A novel web ranking algorithm based on pages multi-attribute
US20030018617A1 (en) Information retrieval using enhanced document vectors
Bharamagoudar et al. Literature survey on web mining
CN109948015B (zh) 一种元搜索列表结果抽取方法及系统
CN114117242A (zh) 数据查询方法和装置、计算机设备、存储介质
Manna et al. Information retrieval-based question answering system on foods and recipes
Praba et al. Evaluation of Web Searching Method Using a Novel WPRR Algorithm for Two Different Case Studies
US20160283605A1 (en) Information extraction device, information extraction method, and display control system
Shaker et al. Information extraction from hypertext mark-up language web pages

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant