CN1494018A - 识别符生成、发送方法和装置同一性判定方法和装置 - Google Patents

识别符生成、发送方法和装置同一性判定方法和装置 Download PDF

Info

Publication number
CN1494018A
CN1494018A CNA031581382A CN03158138A CN1494018A CN 1494018 A CN1494018 A CN 1494018A CN A031581382 A CNA031581382 A CN A031581382A CN 03158138 A CN03158138 A CN 03158138A CN 1494018 A CN1494018 A CN 1494018A
Authority
CN
China
Prior art keywords
identifier
file data
data
mentioned
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA031581382A
Other languages
English (en)
Inventor
��Ұ���
金野晃
ʷ
荣藤稔
米本佳史
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Publication of CN1494018A publication Critical patent/CN1494018A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99932Access augmentation or optimizing

Abstract

本发明提供识别符生成、发送方法和装置同一性判定方法和装置。本发明的识别符生成方法具有;对于文件数据对表示的起伏施加校正规范化处理的规范化处理步骤;根据规范化处理步骤中进行了规范化处理的文件数据全部或其一部分,生成唯一性地特定该文件数据或其一部分的识别符的识别符生成步骤。这样,在生成识别符之前通过规范化处理消除表示的起伏,具有同一意义的XML文件或RDF文件就成为同一表示的文件,通过从以单向函数代表的文字排列生成识别符的函数,可以生成同一识别符。

Description

识别符生成、发送方法和 装置同一性判定方法和装置
发明领域
本发明涉及相对于表示不同但具有同一意义的文件数据生成同一识别符的方法、用此识别符判定同一性的方法、发送生成的识别符的方法、识别符生成装置、同一性判定装置与识别符发送装置。
背景技术
随着XML的普及,在以因特网为代表的宽带网上实现种种服务的动态连接的体系结构的Web(万维网)服务,正受到重视。
Web服务中虽可考虑将XML技术用于网络协议、服务的接口描述与内容的管理等,但XML文件中,由于采用标记进行描述,文件服务与已有的HTPP的报文相比,变得非常庞大。因此,网络的负载与终端或服务器的处理时间长都成为问题,为了减轻网络的负载与简化处理,可考虑从XML文件唯一性地生成识别符的处理。
作为识别符生成方法,可将XML文件取作为文字的排列,把由单向函数求得的结果值生成为识别符(例如可参考特开2001-282105号公报)。但是在XML的规格下,为简化XML文件的描述,即使有若干空白也并无妨碍,能够描述存在交叉标记(cross tag)缩写的注释,若是依循格式的定义不论怎样地描述也无妨碍时,对应于因XML文件的描述者所作表示的变化,也能灵活地对应而不影响到XML处理。此外,在RDF规格下,不论文件数据的结构要素按何种顺序排列描述,作为文件数据的整体也可按同一意义处理。再有,按照RDF规格所定义的CC/PP规格以URI指示原来的缺省数据,通过描述与其相反的更新差分,可能缺省更新部分以外数据的描述。因此,上述已有的技术即使是对于本来具有同一意义的XML文件、RDF文件,由于表示的起伏或格式的不同、结构要素排列顺序的不同,以及缺省数据与差分数据的描述等,作为文字排列来看文件时,可以充分地认为是不同文件的情形,这就是说,若根据XML文件、RDF文件利用单向函数等来生成识别符时,即令是具有同一意义的文件,也不限于生成同一识别符。
发明内容
本发明是为了解决上述问题而提出的,目的在于提供当XML文件或RDF文件是原本具有同一意义的文件时生成同一识别符的识别符生成方法,应用此识别符判定多个文件数据同一性的同一性判定方法、发送此识别符的识别符发送方法,以及能实施上述这些方法的识别符生成装置,同一性判定装置与识别符发送装置。
本发明的识别符生成方法(识别符生成装置)的特征在于,它具有:对于文件数据对表示的起伏施加校正规范化处理的规范化处理步骤(规范化处理单元);根据此规范化处理步骤中进行的规范化处理的文件数据的全部或其一部分,生成唯一性地特定该文件数据或其一部分的识别符的识别符生成步骤(识别符生成单元)。
上述识别符生成方法(识别符生成装置)中,其特征还在于,上述规范化处理步骤(规范化处理单元)具有:应用描述了格式定义的文件数据的类定义文件,根据由类定义文件所定义的描述于文件数据中的值的格式,对表示的格式进行统一的格式统一化处理步骤(格式统一化处理单元)。
上述识别符生成方法(识别符生成装置)的特征还在于,在上述格式统一化处理步骤中(经由格式统一化处理单元),根据文件数据的类定义文件中描述的数字数据格式定义,统一文件数据中描述的数值数据精度。
上述识别符生成方法(识别符生成装置)的特征还在于,上述规范化处理步骤(规范化处理单元)具有:根据预定的变换规则将第一部分数据与第二部分数据变换为文件数据的文件数据生成步骤(文件数据生成单元)。
本发明的同一性判定方法(同一性判定装置)的特征在于,它具有:对于文件数据对表示的起伏施加校正规范化处理的规范化处理步骤(规范化处理单元);根据此规范化处理步骤中(经由规范化处理单元)进行了规范化处理的文件数据的整体或其一部分,生成唯一性地特定识别符的识别符生成步骤(识别符生成装置);基于此识别符生成步骤中(经由识别符生成单元)生成的识别符,判定一文件数据与另一文件数据有无一致部分的同一性判定步骤(同一性判定单元)。
上述同一性判定方法(同一性判定装置)的特征还在于,上述规范化处理步骤(规范化处理单元)具有:应用描述了格式定义的文件数据的类定义文件。根据由类定义文件所定义的描述于文件数据中的值的格式,对表示的格式进行统一的格式统一处理步骤(格式统一化处理单元)。
上述同一性判定方法(同一性判定装置)的特征还在于,在上述格式统一化处理步骤中(经由格式统一化处理单元),根据文件数据的类定义中描述的数字数据格式定义,统一文件数据中描述的数值数据精度。
上述同一性判定方法(同一性判定装置)的特征还在于,上述规范化处理步骤(规范化处理单元)具有:根据预定的变换规则将第一部分数据与第二部分数据变换为文件数据的文件数据生成步骤(文件数据生成单元)。
上述同一性判定方法的特征还在于,此方法还具有将上述识别符生成步骤中生成的识别符与文件数据或对上述文件数据进行预定处理的结果相关联,预先存储于高速缓冲存储器中的识别符存储步骤,而上述同一性判定步骤基于上述识别符生成步骤中生成的成为同一性判定对象的文件数据识别符检索此高速缓冲存储器,当存在有与此识别符相同的识别符时,判定存在同一文件数据,当不存在与此识别符相同的识别符时,则判定不存在同一的文件数据。
上述同一性判定装置的特征在于,它还具有将上述识别符生成单元生成的识别符与文件数据或对文件数据进行预定处理的结果相关联作预先存储的高速缓冲存储器,而上述同一性判定装置基于上述识别符生成步骤中生成的成为同一性判定对象的文件数据识别符检索此高速缓冲存储器,当存在有与此识别符相同的识别符时,判定存在同一文件数据,当不存在与此识别符相同的识别符时,判定不存在同一的文件数据。
上述同一性判定方法的特征还在于此方法还具有:在上述规范化处理步骤之前,基于文件数据的全部或其一部,生成唯一性地特定该文件数据或其一部分的识别符的第二识别符生成步骤;基于上述第二识别符生成步骤中生成的识别符,判定一文件数据与另一文件数据的同一性,在判定为同一的情形,不进行下一处理步骤的处理而结束,当判定为不同一的情形,则转换到规范化处理步骤中的处理。
上述同一性判定装置的特征还在于它还具有:在由上述规范化处理单元进行规范化处理之前,基于文件数据的全部或其一部,生成唯一性地特定该文件数据或其一部分的识别符的第二识别符生成单元,且基于此第二识别符生成装置生成的识别符判定一文件数据与另一文件数据的同一性,而当判定为不同一情形,则上述规范化处理单元便进行文件数据的规范化处理。
本发明的同一性判定方法(同一性判定装置)的特征在于,它具有:基于文件数据的编码数据全部或其一部分,生成唯一性地特定该文件数据或其一部分的识别符的识别符生成步骤(识别符生成单元),基于此识别符生成步骤中(经由识别符生成单元)生成的识别符,判定一文件数据与另一文件数据有无一致部分的同一性判定步骤(同一性判定单元)。
上述同一性判定方法(同一性判定装置)的特征还在于,当上述同一性判定步骤中(经由同一性判定单元)判定了文件数据为同一时,输出对文件数据的编码数据进行译码的处理作跳过的命令。
本发明的识别符发送方法(识别符发送装置)的特征在于它包括:对于文件数据对表述的起伏施加校正规范化处理的规范化处理步骤(规范化处理单元);根据此规范化处理步骤中进行的规范化处理的文件数据的全部或其一部分,生成唯一性地特定该文件数据或其一部分的识别符的识别符生成步骤(识别符生成单元);将上述识别符生成步骤中(经由识别符生成单元)生成的识别符发送的识别符发送步骤(识别符发送单元)。
上述识别符发送方法(识别符发送装置)的特征还在于,上述识别符发送步骤(识别符发送单元)具有生成将文件数据全部或其一部由识别符置换的数据的发送数据生成步骤(发送数据生成装置)。
上述识别符发送方法(识别符发送装置)的特征还在于,上述发送数据生成步骤(发送数据生成单元),生成通过唯一性地特定文件数据中所含部分数据的识别符以及此部分数据与文件数据的差分数据所描述的发送数据。
为了解决前述的问题,本发明在生成XML文件或RDF文件的识别符之前,对表示的起伏进行校正的规范化处理。以XML规范化为代表的规范化处理是删除冗余的空白、解除交叉标记缺省等,校正XML允许的表示起伏的处理。通过规范化处理,具有同一意义的XML文件或RDF文件成为同一表示的文件,根据单向函数代表的由文字排列生成识别符的函数,能生成同一识别符。
本发明参照XML文件或RDF文件的类定义文件,使XML文件、RDF文件内描述的数据格式统一化。通过格式的统一化处理,使Double格式与Float格式数字的精度等统一化,与规范化处理相同,具有同一意义的XML文件与RDF文件成为同一表示的文件,通过由单向函数代表的文字排列生成识别符的函数,可以生成同一识别符的函数。
本发明为了能用CC/PP规格的缺省数据与差分数据来描述文件数据,通过参照多个部分数据,对于表示原始文件数据意义的文件数据取得部分数据,根据某种变换规则变换此部分数据,于生成原始文件数据之后生成识别符。通过在识别符生成前生成原始文件数据后,具有同一意义的XML文件、RDF文件便成为同一表示的文件,经由从单向函数所代表的文字的排列生成识别符的函数,即可生成同一识别符。
本发明也可根据预定规则对文件数据的结构要素顺序进行重排处理后生成识别符。
本发明也可通过分别具备上述的识别符生成前的处理,而相对于具有同一意义的XML文件、RDF文件生成同一识别符。
本发明还能应用由上述生成方法生成的识别符来判定多个XML文件或RDF文件的同一性。此外在本发明的同一性判定方法(同一性判定装置)中,此同一性判定步骤(同一性判定单元)可对一文件数据与另一文件数据判定其有无一致部分。具体地说,能够判定:1)一文件数据的一部分与另一文件数据的一部分是否相同?2)一文件数据和另一文件数据的一部分是否相同?3)一文件数据的一部分和另一文件数据是否相同?4)一文件数据和另一文件数据是否相同?
本发明将分阶段地布置规范化处理、格式的统一化处理,并在各个处理后生成识别符,进行同一性判定。在各同一性判定中判定为同一的情形时,不变换到下一阶段而原样地结束,这样可缩短同一性判定的处理时间。
本发明能通过采用从将XML编码的数据全部或其一部分唯一性地生成的识别符,判定XML的同一性。借助XML的编码,首先由代码变换规则对唯一性地确定了具有同一意义的代码进行分配(参考ISO/IEC15938Part 1 Systems Binary format-BiM),于是编码的数据成为校正了它的表示的起伏后的状态。这就是说,由于具有同一意义的XML文件是作为同一编码数据生成,通过将编码数据作为文字的排列由单向函数来生成识别符,则能进行相对于具有同一意义的XML文件的同一性判定。
根据本发明,能够一致具有同一意义的多个XML文件、RDF文件或其一部分,于终端或服务器能简化过去所处理的XML文件、RDF文件或其部分的处理,可缩短处理时间。此外,根据本发明,能相对于XML文件、RDF文件或其一部分唯一性地生成识别符,并用作文件数据的压缩。再有,与一致相同,能简化终端或服务器中XML文件、RDF文件的处理。
附图说明
图1是示明实施形式的识别符生成方法动作的流程图。
图2是示明实施形式的识别符生成方法动作的流程图。
图3是详示格式统一化处理步骤S201的动作的流程图。
图4是示明实施形式的识别符生成方法的动作的流程图。
图5是示明实施形式的同一性判定方法的动作的流程图。
图6是示明实施形式的同一性判定方法的动作的流程图。
图7是示明实施形式的同一性判定方法的动作的流程图。
图8是示明实施形式的同一性判定方法的动作的流程图。
图9是示明实施形式的同一性判定方法的动作的流程图。
图10是示明实施形式的同一性判定装置的结构的框图。
图11示明作为输入的文件数据例的XML文件的情形。
图12例示相同于图11所示的文件数据,根据XML规范化规格进行了规范化的情形。
图13例示存储于高速缓冲存储器中文件数据识别符与文件数据URI。
图14A-14C中,(A)示明对象文件数据变换前的文件数据1、(B)示明对象文件数据变换前的文件数据2、(C)例示类定义文件。
图15A与15B例示对象文件数据变换后的文件数据。
图16是示明项改写处理装置结构的框图。
图17是示明实施形式识别符发送方法的动作的流程图。
图18A与18B中,(A)例示缺省数据、(B)例示动作对象文件数据的RDF文件。
图19示明通过文件数据生成步骤S401变换后的文件数据。
图20是示明实施形式识别符发送装置结构的框图。
图21例示由多个结构要素组成的文件数据。
图22例示由本实施形式的识别符发送方法发送的文件数据。
图23例示应用附有由实施形式的识别符发送方法发送的部分识别符的文件数据的服务系统。
图24是示明实施形式的分阶段同一性判定方法动作的流程图。
图25说明编码数据。
图26是示明文件数据存储/获取装置结构的框图。
图27示明按字母顺序重排结构要素的文件数据:
具体实施形式
第一实施形式
下面参照附图说明本发明的第一实施形式。图1是示明本实施形式的识别符生成方法的动作的流程图。
如图1所示,识别符生成方法包括:获取识别符生成对象文件数据的对象文件数据的获取步骤S101、对于对象文件数据表示的起伏进行校正的规范化处理步骤S102、根据对象文件数据的全部或选择范围生成唯一的识别符的识别符生成步骤S103。
图11示明作为输入的文件数据例的XML文件的情形。如图11所示,输入的文件数据采用无用的空白或交叉标记的缺省形。由于制作者表述的起伏,为了不使生成的识别符不同,需要在识别符生成前进行规范化。
图12例示相对于图11所示文件数据,依从XML规范化的规格进行规范化的情形。如图12所示,规范化处理后的文化数据删除了无用的空白,插入了交叉标记,没有制成者表述的起伏。根据图12所示的文化数据,生成识别符。
于识别符生成步骤103,从规范化处理后的文件数据全部或所选择范围,生成唯一的识别符,例如应用散列函数等的单向函数,生成散列值作为识别符。但是识别符的生成函数可不必一定是单向函数,只要是能生成唯一的识别符即可。
图2是流程图,示明确认在规范化处理步骤S102中对象文件数据的类定义文件,附加进行格式(型)统一化的格式统一化处理步骤S201的识别符生成方法的动作。
图3是详示格式统一化处理步骤S201动作细节的流程图。如图3所示,格式的统一化处理包括:获取对象文件数据类定义文件的步骤S301;确认对象文件数据中描述的所有数据格式的数据格式确认步骤S302;依据类定义文件变换对象文件数据的文件数据变换步骤S303。
文件数据变换步骤S303是在数据格式确认步骤S302中,按照类定义文件中描述的数据类型交换数据。图14A与14B示明对象文件数据变换前的文件数据,图14C例示类定义文件。如图14C所示,类定义文件中描述有<ElementType name=“value”dt:type=“double”/>,可知value的要素值的格式是double格式。图14A所示的文件数据1与图14B中所示文件数据,可知分别为double格式、12.0、12.00作为value的要素值进行描述。虽然这任一个都是根据格式定义描述的,但作为文字的排列观察时则不同。
图15A与15B例示了对象文件数据变换后的文件数据。如这些图所示,通过使double格式定义的value的要素值的精度等同于double精度,图14A与14B所示的文件数据1。文件数据2的value要素值12.0、12.00变为相等,格式被统一化,作为文字的排列观察时也变得相等。
图4是流程图,示明对象文件数据由缺省数据与更新差分数据组成时,在规范化处理步骤S102中,附加由缺省数据与更新差分数据生成原来的文件数据的文件数据生成步骤S401的识别符生成方法的操作。
图18A例示缺省数据。如图18A所示,作为缺省,按以下定义(参看图18A中的第10、11行)。
<up:role>guest<</up:role>
<up:age>16</up:age>
图18B例示作为对象文件数据的RDF文件。如图18B所示,RDF文件进行两重定义,描述了缺省数据的URI(<ccpp:defaults rdf:resource=“UserProfileDefault”></ccpp:defaults>)与更新差分数据(<up:role>vip</up:role>)(参看图18B中的第12、13行)。此RDF文件于文件数据生成步骤S401变换为原来的文件数据。图19示明由文件数据生成步骤S401变换后的文件数据。图中表明了用更新差分数据重写缺省数据中的情形。如此图所示,从缺省数据的URI获取缺省数据,通过差分数据重写。<up:role>guest</up:role>变换为<up:role>vip</up:role>(参考图19的12行)。
图26是框图,示明利用本实施形式的识别符生成方法,将对象文件数据与此识别符一起存储于高速缓冲存储器中,然后能利用此识别符从此高速缓冲存储器取得对象文件的文件数据存储/获取装置2700的结构。如图26所示,文件数据存储/获取装置2700包括:获取对象文件数据的对象文件数据获取单元2701;实现本实施形式的识别符生成方法的识别符生成单元2702;将生成的识别符与对象文件数据一起存储到高速缓冲存储器2704中的识别符存储单元2703;从高速缓冲存储器2704获取拟获取的文件数据的识别符的识别获取单元2705;利用识别符从高速缓冲存储器获取文件数据的文件数据获取单元2706。
图13例示由识别符存储单元2703存储到高速缓冲存储器2704中的文件数据识别符与文件数据URI。如图13所示,能够利用识别符管理输入的文件数据。此外,在拟存储业已存储于高速缓冲存储器的识别符之际,也可以不进行存储而废弃文件数据。
在图1、2与4所示的规范化处理系统S102中,可以依据预定规则变更文件数据内的结构要素。例如在图21所示的多个结构要素组成的文件数据输入时,为了将<rdf:Description rdf:about=“xxxx”>的xxxx部分按字母顺序排列,可以重排结构要素的顺序。图27是把结构要素的顺序重排为字母顺序的文件数据。根据RDF的规格,不论文件数据内的结构要素按何种顺序排列,观察文件数据整体时都能视作为具有同一意义的。这就是说,即使具有同一意义的文件数据,也可以认为结构要素顺序会有不同的情形。因此,在依预定规则变更结构要素的顺序后,通过生成识别符,对于结构要素的顺序不同而有同一意义的文件数据,也能生成同一识别符。
第二实施形式
下面参照附图说明本发明的第二实施形式。图5是示明本实施形式的同一性判定方法动作的流程图。
如图5所示,此同一性判定方法包括:获取同一性判定对象文件数据的对象文件数据获取步骤S501;对于对象文件数据表示的起伏作校正的规范化处理步骤S502;从对象文件数据的全部或选择的范围生成唯一的识别符的识别符生成步骤S503;根据识别符生成步骤S503生成的识别符判定多个文件数据同一性的同一性判定步骤S504。
规范化处理前的文件数据与规范化处理后的文件数据例示于图11与12。如这两个图所示,通过规范化处理,校正了表示的起伏。
图6是流程图,示明规范化处理步骤S502中,确认文件数据的类定义文件,附加有进行格式统一化的格式统一化处理步骤S601的同一性判定方法的动作。
图3是详示格式统一化处理步骤S601动作的流程图。动作的细节与第一实施形式相同。
图14A与14B分别示明格式统一化处理前的文件数据1与文件数据2,图14C例示类定义文件,图15A与15B分别例示格式统一化处理后的文化数据1与文件数据2。如这些图所示,表示不同的Value的值通过格式统一化步骤S601而成为同一表示。
图7是流程图,示明对象文件数据是由缺省数据与更新差分数据组成时,在规范化处理步骤S502中附加有根据缺省数据与更新差分数据生成原始文件数据的文件数据生成步骤S701的同一性判定方法的动作。
图18A与18B例示缺省数据与对象文件数据,图19例示由文件数据生成步骤S701生成的变换后的文件数据例。动作的细节与第一实施形式相同。
图8是详示同一性判定步骤S504中动作的流程图。如此图所示,同一性判定步骤S504包括获取由判定同一性的对象文件数据生成的识别符的识别符获取步骤S801;将识别符存储于高速缓冲存储器中的识别符存储步骤S803;从高速缓冲存储器检索该识别符,当检索成功时即判断存在同一的文件数据,而在检索失败时则判断不存在同一的文件数据的同一性判定步骤S802。当该识别符不存在于高速缓冲存储器中时,则前进到S803,将识别符存储于高速缓冲存储器中。
图10为框图,示明根据本实施形式的同一性判定方法,判定输入的文件数据是否是已处理的同一性判定装置1101的结构。如图10所示,同一性判定装置1101包括:获取对象文件数据的对象文件数据获取单元1102;由对象文件数据生成识别符的识别符生成单元1103;应用生成的识别符与高速缓冲存储器1110,判定已否处理过的同一性判定单元1108;以及当由此同一性判定单元判定为未曾处理时,为进行下一次同一性判定而将识别符存储于高速缓冲存储器1110中的识别符存储单元1109。识别符生成单元1103则包括:由缺省数据与更新差分数据生成原始文件数据的文件数据生成单元1104、进行校正表示起伏的规范化处理的规范化处理单元1105、应用类定义文件进行数据格式统一化处理的格式统一化处理单元1106以及由对象文件数据唯一性地生成识别符的识别符生成处理单元1107。
图16是框图,示明应用本实施形式的同一性判定的方法,当已处理过的文件输入时,对文件数据中的项的改写处理进行跳跃处理的项改写处理装置的结构。如图16所示,本实施形式的同一性判定方法包括实现本实施形式的同一性判定方法的同一性判定单元1701、根据项改写规则文件进行文件数据项改写的项改写单元1702、将项改写单元1702生成的变换后的文件数据与由同一性判定单元1701生成的文件数据识别符一起存储的变换后文件数据高速缓冲存储单元1703。
同一性判定单元1701在文件数据输入后,生成识别符。应用生成的识别符与变换后文件数据高速缓冲存储器1703,判定某一元件数据是否业已进行了改写。对于业已进行了改写的某一文件数据,对项改写部1702进行跳过处理,输出由变换后文件数据高速缓冲存储器内存在的由相应识别符能获取的变换后的文件数据。根据本发明,一般能跳过花费处理时间的项改写处理,因而能进行高速的处理。
第三实施形式
下面参照附图说明本发明的第三实形式。图9是示明本实施形式同一性判定方法中动作的流程图。
如图9所示,此同一性判定方法包括:获取同一性判定对象文件数据的编码数据的编码数据获取步骤S901;从获取的编码数据全部或其一部生成识别符的识别符生成步骤S902,根据此识别符生成步骤S902生成的识别符来判定多个文件数据同一性的同一性判定步骤S903。
由于通过XML的编码,具有同一意义的表示能预先经码变换规则分配给唯一性地确定的代码,编码数据就成为校正了表示起伏的状态。这就是说,由于具有同一意义的XML文件能作为相同编码数据生成,通过将编码数据作为文字的排列由单向函数等来生成识别符,就能对于具有同一意义的XML文件作同一性判定。
图25示明相对于具有同一意义但作为文字排列观察时是不同文件的文件数据1与文件数据2,通过依据字节代码表进行编码而生成同编码数据。在此图中,只需插入换行,相对于具有同一意义的文件数据1与文件数据2进行编码,就能获取同一编码数据。通过根据此编码数据生成识别符,就能相对于文件数据生成同一识别符。
图16中,作为输入的文件数据是将进行了数据压缩的XML文件的编码数据作为输入。在输入了编码数据时,为了进行处理而必须译码,通过利用本实施形式的同一性判定方法,由此能在原样的编码数据状态下作同一性判定,在已处理完的文件数据前冠以标记,则译码处理也能跳过。
第四实施形式
下面参照附图说明本发明的第四实施形式。图17是示明本实施形式的识别符发送方法中动作的流程图。
如图17所示,识别符发送方法包括;获取成为对象的文件数据的文件数据获取步骤S1801;对于对象文件数据进行规范化处理与格式统一化处理等,生成文件数据全部或其一部分的识别符的识别符生成步骤S1802;将文件数据全部或其一部分与生成的识别符置换的识别符置换处理步骤S1803;将以识别符替换的文件数据或其一部分作为缺省,把它的差分数据附加到文件数据中的差分数据附加步骤S1804;发送由以上处理生成的文件数据的发送步骤S1805。
图20是框图,示明应用本实施形式的识别符发送方法发送附有识别符的文件数据的识别符发送装置2101的结构。如图20所示,识别符发送装置2101包括:获取对象元件数据的对象文件数据获取单元1102;进行规范化处理与格式统一处理等生成识别符的识别符生成单元1103;对于生成识别符的识别符生成单元1103与对象文件,进行识别符附加处理而发送的识别符发送单元2102。
识别符发送部2102包括:将文件数据的全部或其一部分与由识别符生成单元1103生成的识别符置换的识别符置换处理单元2103;将由识别符置换的文件数据或其一部分作为缺省。将它的差分数据附加到文件数据中的差分数据附加单元2104;将通过上述处理生成的文件数据发送的发送单元2105。
图21例示对象文件数据。如图所示,对象文件数据,描述了<ccpp:component>…</ccpp:component>这样的三个结构要素。对象文件数据于识别符生成步骤S1802中相对于各结构要素生成识别符。
图22作为由本实施形式的识别符发送方法发送的文件数据例,例如是将图21所示的文件数据一部分的描述(结构要素1、结构要素2)置换为识别符,而把附有描述了结构要素3的部分识别符的文件数据作为追加数据。如图22所示,结构要素1与结构要素2通过用识别符置换,可以减少文件数据的整体的数据量。
图23例示采用附有由本实施形式识别符发送方法发送的部分识别符的文件数据的服务系统。如图23所示,此服务系统包括:发送附有由本实施形式的识别符发送方法所发送的识别符的文件数据的终端2400;接收附有部分识别符的文件数据,将部分识别符扩展成原始结构要素,生成原始的文件数据而发送的代理2401;接收文件数据进行服务的服务器2402。代理2401连接到将部分识别符与原始结构要素相关连而存储的数据库2403。由于能从终端2400将应发送到原始服务器的文件数字之中业已通过代理发送的某个结构要素置换为识别符发送,就可用作为不增加网络负载的文件数据发送方法。
第五实施形式
以下参考附图说明本发明的第五实施形式。图24是示明本实施形式的分阶段的同一性判定方法中动作的流程图。
如图24所示,此阶段性的同一性判定方法包括:从输入的文件数据原样地生成识别符进行同一性判定的第一判定步骤S2501;进行规范化处理后生成识别符而进行同一性判定的第二判定步骤S2502;应用类定义文件进行格式统一化后生成识别符。作同一性判定的第三判定步骤S2503;输出判定结果的结果输出步骤S2504。
当由第一判定步骤S2501未认定同一的情形,转移到第二判定步骤S2502的处理。当第二判定步骤S2502与第一判定步骤S2501相同地也未认定同一情形时,再移到第三判定步骤S2503的处理。当第一判定步骤S2501与第二判定步骤S2502都能认定同一的情形下,则不进行以下的处理而于结果输出步骤S2504中输出判定结果。第三判定步骤S2503将进行同一性判定的结果转送至结果输出步骤S2504,输出判定结果。
根据本发明,相对于具有同一意义的文件数据或其一部分能生成同一识别符,故能鉴别具有同一意义的文件数据。
根据本发明,在终端或服务器中,在输入过去已处理的文件数据时,能将由同一性判定方法进行的处理跳过而缩短处理时间。
再有,根据本发明,能将由具有同一意义的文件数据全部或其一部分生成的识别符置换文件数据全部或其一部分后生成文件数据,因而可以减少文件数据的数据量,例如在发送文件数据时。通过将已发送完的部分置换为识别符进行发送,则可减轻网络的负载。

Claims (19)

1.一种识别符生成方法,其特征在于,具有:
对于文件数据对表示的起伏施加校正规范化处理的规范化处理步骤;
根据此规范化处理步骤中进行规范化处理后的文件数据的全部或其一部分,生成唯一性地特定该文件数据或其一部分的识别符的识别符生成步骤。
2.一种同一性判定方法,其特征在于,它具有:
对于文件数据对表示的起伏施加校正规范化处理的规范化处理步骤;
根据此规范化处理步骤中进行了规范化处理的文件数据的全部或其一部分,生成唯一性地特定该文件数据或其一部分的识别符的识别符生成步骤;
基于此识别符生成步骤中生成的识别符,判定一文件数据与另一文件数据有无一致部分的同一性判定步骤。
3.一种同一性判定方法,其特征在于,它具有:基于文件数据的编码数据全部或其一部分,生成唯一性地特定该文件数据或其一部分的识别符的识别符生成步骤,
基于此识别符生成步骤中生成的识别符,判定一文件数据与另一文件数据有无一致部分的同一性判定步骤。
4.一种识别符发送方法,其特征在于它包括:
对于文件数据对表述的起伏施加校正规范化处理的规范化处理步骤;
根据此规范化处理步骤中进行的规范化处理的文件数据的全部或其一部分,生成唯一性地特定该文件数据或其一部分的识别符的识别符生成步骤;
将上述识别符生成步骤中生成的识别符发送的识别符发送步骤。
5.一种识别符生成装置,其特征在于,它具有:
对于文件数据对表示的起伏施加校正规范化处理的规范化处理单元;
根据此规范化处理单元中进行的规范化处理的文件数据的全部或其一部分,生成唯一性地特定该文件数据或其一部分的识别符的识别符生成单元。
6.权利要求5上述的识别符生成装置,其特征在于,上述规范化处理单元具有:应用描述了格式定义的文件数据的类定义文件,根据由类定义文件所定义的描述于文件数据中的值的格式,对表示的格式进行统一的格式统一化处理单元。
7.权利要求6上述识别符生成单元,其特征在于,由上述格式统一化处理单元,根据文件数据的类定义文件中描述的数值数据格式定义,统一上述文件数据中描述的数值数据精度。
8.权利要求5-7上述的识别符生成装置,其特征在于,上述规范化处理单元具有:根据预定的变换规则将第一部分数据与第二部分数据变换为文件数据生成单元。
9.一种同一性判定装置,其特征在于,它具有:
对于文件数据对表示的起伏施加校正规范化处理的规范化单元;
根据此规范化处理单元进行了规范化处理的文件数据的全部或其一部分,生成唯一性地特定识别符的识别符生成单元;
基于此识别符生成单元生成的识别符,判定一文件数据与另一文件数据有无一致部分的同一性判定单元。
10.权利要求9上述的同一性判定装置,其特征在于,上述规范化处理单元具有:应用描述了格式定义的文件数据的类定义文件,根据由类定义文件所定义的描述于文件数据中的值的格式,对表示的格式进行统一的格式统一处理单元。
11.权利要求10上述的同一性判定装置,其特征在于,上述格式统一化处理单元,根据文件数据的类定义中描述的数值数据格式定义,统一文件数据中描述的数值数据精度。
12.权利要求9-11上述的同一性判定装置,其特征在于,上述规范化处理单元具有:根据预定的变换规则将第一部分数据与第二部分数据变换为文件数据的文件数据生成单元。
13.权利要求9-12中任一项上述的同一性判定装置,其特征在于,此装置还具有将上述识别符生成单元中生成的识别符与上述文件数据或对上述文件数据进行预定处理的结果相关联而预先存储的高速缓冲存储器,
上述同一性判定单元基于上述识别符生成单元中生成的成为同一性判定对象的文件数据识别符检索此高速缓冲存储器,当存在有与此识别符相同的识别符时,判定存在同一文件数据,当不存在与此识别符相同的识别符时,则判定不存在同一的文件数据。
14.权利要求9-13中任一项上述的同一性判定装置,其特征在于它还具有:在由上述规范化处理单元进行规范化处理之前,基于上述文件数据的全部或其一部,生成唯一性地特定该文件数据或其一部分的识别符的第二识别符生成单元;
基于此第二识别符生成装置生成的识别符判定一文件数据与另一文件数据的同一性,而当判定为不同一的情形,上述规范化处理单元进行文件数据的规范化处理。
15.一种同一性判定装置,其特征在于,具有:
基于文件数据的编码数据全部或其一部分,生成唯一性地特定该文件数据或其一部分的识别符的识别符生成单元,
基于此识别符生成单元生成的识别符,判定一文件数据与另一文件数据有无一致部分的同一性判定单元。
16.权利要求15上述的同一性判定装置,其特征在于,当上述同一性判定单元判定了文件数据为同一时,输出跳过对文件数据的编码数据进行译码的处理的命令。
17.一种识别符发送装置,其特征在于,包括:
对于文件数据对表述的起伏施加校正规范化处理的规范化处理单元;
根据此规范化处理单元中进行的规范化处理的文件数据的全部或其一部分,生成唯一性地特定该文件数据或其一部分的识别符的识别符生成单元;
将上述识别符生成单元生成的识别符发送的识别符发送单元。
18.权利要求17上述的识别符发送装置,其特征在于,上述识别符发送单元具有生成将文件数据全部或其一部由识别符置换后的数据的发送数据生成单元。
19.权利要求18上述的识别符发送装置,其特征在于,上述发送数据生成单元生成由唯一性地特定文件数据中所含的部分数据的识别符以及此部分数据与文件数据的差分数据所描述的发送数据。
CNA031581382A 2002-09-12 2003-09-12 识别符生成、发送方法和装置同一性判定方法和装置 Pending CN1494018A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP267274/2002 2002-09-12
JP2002267274A JP4231261B2 (ja) 2002-09-12 2002-09-12 同一性判定装置

Publications (1)

Publication Number Publication Date
CN1494018A true CN1494018A (zh) 2004-05-05

Family

ID=31884799

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA031581382A Pending CN1494018A (zh) 2002-09-12 2003-09-12 识别符生成、发送方法和装置同一性判定方法和装置

Country Status (5)

Country Link
US (1) US7200585B2 (zh)
EP (1) EP1398712B1 (zh)
JP (1) JP4231261B2 (zh)
CN (1) CN1494018A (zh)
DE (1) DE60330099D1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101090337B (zh) * 2006-06-12 2010-12-08 国际商业机器公司 用于语义网更新的可伸缩分发的系统和方法

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4218590B2 (ja) * 2004-05-26 2009-02-04 ソニー株式会社 画像処理システム、情報処理装置および方法、画像処理装置および方法、記録媒体、並びにプログラム
GB2416049B (en) * 2004-07-10 2010-04-28 Hewlett Packard Development Co Document delivery
DE102004043269A1 (de) * 2004-09-07 2006-03-23 Siemens Ag Verfahren zur Codierung eines XML-basierten Dokuments
JP4667024B2 (ja) * 2004-12-03 2011-04-06 株式会社日立製作所 文書データ同一性検証装置及び方法、並びに文書データ同一性検証プログラム
US7860841B2 (en) * 2005-09-09 2010-12-28 Sap Ag Method and apparatus to support mass changes to business objects in an integrated computer system
US7552151B2 (en) * 2006-02-06 2009-06-23 International Business Machines Corporation System, method and program product for adding, updating and removing RDF statements stored on a server
US8392174B2 (en) 2006-08-07 2013-03-05 International Characters, Inc. Method and apparatus for lexical analysis using parallel bit streams
US8832822B2 (en) * 2007-01-19 2014-09-09 Kryptiq Corporation Smart identifiers
US20090083612A1 (en) * 2007-09-20 2009-03-26 Baker Allen F Method for processing electronic documents
US7778982B2 (en) * 2007-09-20 2010-08-17 Baker Allen F System for processing and using electronic documents
US8090731B2 (en) * 2007-10-29 2012-01-03 Oracle International Corporation Document fidelity with binary XML storage
JP5134989B2 (ja) * 2008-01-31 2013-01-30 株式会社東芝 サーバ、データ転送方法及びプログラム
JP5626554B2 (ja) * 2009-03-11 2014-11-19 日本電気株式会社 同一性判定装置、同一性判定方法、及び同一性判定用プログラム
US10331658B2 (en) * 2011-06-03 2019-06-25 Gdial Inc. Systems and methods for atomizing and individuating data as data quanta
CN104142923A (zh) * 2013-05-06 2014-11-12 佳能株式会社 用于获取以及分享网页的部分内容的方法和设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6249844B1 (en) * 1998-11-13 2001-06-19 International Business Machines Corporation Identifying, processing and caching object fragments in a web environment
US6539396B1 (en) * 1999-08-31 2003-03-25 Accenture Llp Multi-object identifier system and method for information service pattern environment
JP2001282105A (ja) 2000-03-27 2001-10-12 Internatl Business Mach Corp <Ibm> 電子コンテンツの証明方法、システムおよびプログラムが記録された媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101090337B (zh) * 2006-06-12 2010-12-08 国际商业机器公司 用于语义网更新的可伸缩分发的系统和方法

Also Published As

Publication number Publication date
US20040122851A1 (en) 2004-06-24
US7200585B2 (en) 2007-04-03
JP2004102926A (ja) 2004-04-02
JP4231261B2 (ja) 2009-02-25
EP1398712A2 (en) 2004-03-17
EP1398712B1 (en) 2009-11-18
EP1398712A3 (en) 2005-06-29
DE60330099D1 (de) 2009-12-31

Similar Documents

Publication Publication Date Title
CN1494018A (zh) 识别符生成、发送方法和装置同一性判定方法和装置
CN1205574C (zh) 数据压缩、扩展方法和装置
CN100339855C (zh) 内容管理系统
CN1215415C (zh) 文件管理方法和存储信息记录重放装置
CN101040283A (zh) 表格相关数据缩减
CN1577271A (zh) 数据的包内增量压缩的系统和方法
CN1913441A (zh) 连续变化数据集传输及更新方法
CN1784653A (zh) 用于从搜索查询中产生概念单元的系统和方法
CN102402605A (zh) 用于搜索引擎索引的混合分布模型
CN1266237A (zh) 多语言域名服务
US20150143536A1 (en) System and method for locating and retrieving private information on a network
CN1783084A (zh) 用于定制搜索结果的系统和方法
CN1466722A (zh) 管理文档文本的工作流程系统及利用其的文档文本管理方法
CN1825321A (zh) 词典类数据的检索方法、保存方法及检索系统
CN101355590B (zh) 下载提示方法、系统及装置
CN101075239A (zh) 一种复合搜索方法和系统
CN106777258B (zh) 一种医疗大数据存储中Hbase行键的编码及压缩方法
CN103838876A (zh) 使用拼音检索文件的文件检索方法及系统
CN1886976A (zh) 用于使用动作列表及版本控制对一无线装置执行动作的方法、软件及设备
CN108255877A (zh) 裁判文书的存储方法及装置
CN1991842A (zh) 用于管理移动终端的图像的装置和方法
CN1831811A (zh) 文档处理装置
CN1598811A (zh) 数据压缩器、数据解压缩器以及数据管理系统
CN1961269A (zh) 用于查询受保护的结构化数据的方法和设备
CN1107277C (zh) 扩大利用用户字符的系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20040505