CN100447781C - 用于将可扩展标记语言映射到n维数据结构的方法和系统 - Google Patents

用于将可扩展标记语言映射到n维数据结构的方法和系统 Download PDF

Info

Publication number
CN100447781C
CN100447781C CNB2004800018067A CN200480001806A CN100447781C CN 100447781 C CN100447781 C CN 100447781C CN B2004800018067 A CNB2004800018067 A CN B2004800018067A CN 200480001806 A CN200480001806 A CN 200480001806A CN 100447781 C CN100447781 C CN 100447781C
Authority
CN
China
Prior art keywords
array
dimension
data
result
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CNB2004800018067A
Other languages
English (en)
Other versions
CN1723463A (zh
Inventor
詹姆斯·L·霍林斯沃思
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qindarui Co
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1723463A publication Critical patent/CN1723463A/zh
Application granted granted Critical
Publication of CN100447781C publication Critical patent/CN100447781C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/953Organization of data
    • Y10S707/957Multidimensional
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface

Abstract

采用倾斜树、旋转锥形过程来将最初采用标记语言的n维数组数据映射到适合于由COBOL应用程序使用的n维表。在不扫描空存储槽的结果数组的情况下执行映射。这允许用状态数据预加载该结果数组存储槽。在映射期间,使用具有用于每个数组层次的锥形的反转树结构来以二维表示标记语言n维数据的分级性质。将该树倾斜,以使给定层次的成员与树图的一个轴相接触,随后旋转适当的锥形,以使该层次的某成员与同一个轴相接触。这导致了使用一维映射数组的能力。然后,可以将映射轴上的维偏移量用作用于存储或检索元素数据的映射数组输出中的索引值。

Description

用于将可扩展标记语言映射到N维数据结构的方法和系统
技术领域
本发明涉及一种用于将数据从一种格式或编程范式转化为另一种编程格式或范式的方法和过程,并特别涉及一种用于将可扩展标记语言数据结构转换为COBOL数据结构的方法。
背景技术
面向商业的通用语言或“COBOL”是当今仍在广泛使用的最古老的高级计算机编程语言之一。与其它编程语言相似,COBOL被设计为允许开发执行特定目的和任务的计算机程序。COBOL特别适于与科学或工程数据处理任务相对的商业数据处理任务。面向商业的数据以“交易”为特征,通常,所述交易是人工进行的活动(例如销售、存款、提款等)的反映或自动进行的活动(例如,将利息加到本金金额上)的反映。面向商业的任务的共同“输出”是“报告”。因此,COBOL适合于关于面向商业的数据的收集、组织、验证、更新、处理和报告。
由于COBOL最初是以大型“主机(mainframe)”商业计算机为目标并由这种计算机执行,因此它是在20到30年前的“客户机-服务器”拓扑中采用的源语言(original language)之一。因为计算的演进已随着“瘦客户机(thinclient)”、联网服务器、广域网和因特网的出现而周而复始地提出处理范式,所以“客户机-服务器”架构再次流行,尽管“客户机”现在通常是万维网浏览器计算机,而服务器在处理带宽、存储容量、和通信能力方面成千上万倍地强大。
COBOL以及相关产品和系统例如国际商业机器公司(IBM)的顾客信息控制系统(“CICS”)和IBM的信息管理系统(“IMS”)在本行业内众所周知,其被用于从银行业、金融、投资、保险到制造和服务经营范围内的商业和政府企业。
在软件行业,诸如包括“C”、“C++”和太阳微系统公司的JAVA[TM]的面向对象语言的较新的编程语言已被广泛接受,这可能导致一些人认为COBOL、IMS、CICS以及类似产品和语言具有有限的未来价值。不管COBOL、CICS、和IMS/DC是否被认为是战略产品,从商业场合的观点来看,如今简直有数十亿行的COBOL商业应用程序代码正使用中。尽管Java现在已经成为特别好的应用程序开发语言,但是自20世纪70年代早期起直到最近,COBOL是在CICS和IMS/DC交易处理环境下使用的主要应用程序开发语言。例如,在1999年,IBM Hursley(英国)开发实验室估计:在世界范围内的IBM客户的CICS装置中,每天处理超过200亿次交易。因此,COBOL仍然是一项重要技术,并且必须与任何其它“前沿”技术问题一样创造性地解决COBOL资源和较新技术资源(例如小应用程序(applet)、小服务程序(servlet)等)的连接和交互所引起的问题。例如,对每天执行200亿次的COBOL问题的低效解决方案累积了巨大的浪费处理带宽、存储器和存储设备浪费、以及通信的低效率。通过COBOL应用程序的本质(例如,商业交易),这种结果自身表现为增大的成本、完成交易的延迟时间、和减少的利润。
更为时髦的“数据挖掘”的概念可概括为再次使用来自现有应用程序的商业应用逻辑以解决未来商业问题的能力。数据挖掘实现以变化的复杂程度而存在。例如,简单的应用程序界面重整(refacing)解决方案可使用连接到万维网服务器的万维网浏览器,该万维网浏览器反过来又使用可扩展标记语言(“XML”)接口访问来自交易处理服务器的数据。在另一示例中,紧密结合的企业-企业(“B2B”)应用可以使公司连接到供应商,其中XML文档充当公共数据传输。在此示例中,可以看到,基于XML的服务器将使网络服务的演进能够访问更老的“遗留(legacy)”数据,使得随着时间的过去,企业可以在持续更新、升级、和移植其商业应用程序以便以不断增大的成本和响应效率提供增强的服务和产品的同时,向顾客极大地扩大其影响力。
因此,网络化经济正驱使企业从僵化设计的商业计算系统发展到可升级的计算平台上的灵活应用程序设计、从伙伴之间的静态交互发展到伙伴之间的动态交互、以及从技术整合发展到商业整合。
因而,稳固地建立了两个技术极端--一端是利用确保未来的商业应用程序访问和使用遗留数据的能力的XML数据传输技术的代表数不清的数十亿美元的商业投资的数十亿行COBOL代码。XML和COBOL均不能被专有地使用。然而,将COBOL和XML互相连接存在着相当大的技术挑战,尤其是对于在当今商业应用需求中非常普遍的数据的多维数组或“表”更是如此。
COBOL字段(field)定义和表的简要回顾
尽管COBOL在本领域内是公知的,但是为了充分理解将表列或索引数据结构转换为COBOL和XML以及从COBOL和XML转换表列和索引数据结构的影响,简要地回顾COBOL中数据的“表”或“数组”的实现将是有益的。
在COBOL语法中,使用“picture(画面)”从句来定义供使用的字段,如表1所示。
表1:示例COBOL字段定义
01 Data-Field
   02 Data-Item-1   Pic X(1).
   03 Data-Item-2   Pic X(1).
在此示例中,以一个字符的“精度”定义了两个数据项,它们均为字母数字字段。“Pic”之后的“X”表示该字段是字母数字,而“X”之后的“(1)”表示该字段长度为1个字符。如同“Pic 999”字段类型那样,“Pic 9(3)”字段类型是具有3位的数字字段。正如本领域所公知的那样,可以定义诸如文字、和带有小数(例如分数部分(component))的数字的其他字段类型。同样如本领域所公知的那样,可以在组中定义字段,如组层次(level)内的基本层次所示。
因此,例如,可以如表2所示定义顾客信息记录,其中,顾客名称可以有多达30个字符,电话号码是10位,而账号是18个字母数字字符。
表2:在COBOL中定义的示例顾客信息
01 Data-Field
   02 Customer-Name       Pic X(30).
   03 Customer-Telephone  Pic 9(10).
   04 Customer-Acctnum    Pic x(18).
这种类型的顾客数据常常被组织成信息数组或表,例如由关系数据库应用程序采用的排列。
数组结构的实现和存储布局根据语言而变。通过使用COBOL“occurs(发生)”从句实现的COBOL语言表结构将数组元素存储在连续的存储位置中。
例如,在COBOL程序中,如下定义了一维数组T,其在存储位置x开始,包含6个元素e,其中每个元素长度是4个字符:
01T.
05e OCCURS 6TIMES PICTURE 9999.
图1示出了由该数据结构定义表示的表。如在其它编程语言中那样,COBOL根据对于大小(例如,维数)和字段类型的数据定义,将数据组织为数组。然而,声明(declare)这种表的多种方法可能导致数据结构的不同实际运行时间实现,尤其是对于当数据存储在存储器中时的该数据的物理组织更是如此。例如,表3示出了COBOL中的示例单索引(例如,一维)数组,其中在7个字段的数组中定义了8个字符的字母数字字段。
表3:COBOL中的示例单维表定义
01 DaysOtWeek-Table.
   03 Day-Name    Pic X(8)Occurs 7Times.
在使用这种数组的程序初始化期间,或者紧靠如表3所示的这种数组定义之后,可以使用COBOL“move(移动)”动词来设置字段的初始值(例如,包含工作日名称的串),如表4所示。
表4:COBOL中的示例表初始化
000061 Move“Monday”To DAY-Name(1)
000062 Move“Tuesday”To DAY-Name(2)
000063 Move“Wednesday”To DAY-Name(3)
:   :
:   :
000067 Move“Sunday”To DAY-Name(7)
一旦表被加载或初始化,就可以使用天编号(day number)索引来迅速且直接地访问单个字段的值,并且可以使用诸如COBOL“search(搜索)”动词的专有动词来检查或验证信息。
然而,大多数面向商业的数据不能被简单地组织为单维数组。例如,可以利用产品类型、销售量、地理位置等来组织顾客。COBOL允许将多维表实质上定义为表中的表,如表5所示。
表5:COBOL中的示例多维表定义
000040  01 Sales-Transactions.
       03 Customer-Num Occurs 100Times Indexed by Cust-Index
          05Order-Num Pic X(3)Occurs 15Times Indexed by
    Order-Index
07 Order-Items Pic X(45)Occurs 25Times Indexed by
    Item-Num
在此示例中,针对15个订单(每个订单具有订单编号)跟踪每个都具有顾客编号的100个不同的顾客,并且每个订单列出或描述了多达25个条目,在每个条目的描述中使用多达45个字符。在COBOL实施中,这被实现为15个25个字段的表,这些表被进一步组织为100个表的数组(例如,100×15×25)。
以行优先次序存储多维COBOL表,其中将行一个接一个地放置在存储器中,如同Harry R.Lewis和Larry Denenberg(HarperCollins,1991)所著的教科书(text)“Data Structures&Their Algorithms(数据结构及其算法)”所描述的那样。行被定义为第一索引,其中使用3元组(x,y,z)来给具有3维的表编索引,x是用于行的索引。
例如,在存储位置x处开始的2维数组T包含2行和3列,其中每个元素(x)长度是2个字符,而每个元素(y)长度是4个字符,如具有3个COBOL语句的COBOL程序所定义的那样:
01T.
   05 x  OCCURS 2TIMES PICTURE XX.
        10 y OCCURS 3 TIMES PICTURE 9999.
图2示出如何将此结构表示为相邻存储的表。此存储方法提供了用于由应用程序快速访问位于主存储器中的表元素的有效手段,但是对于存储空间非常重要的长期存储和检索可能是低效率的。
例如,数据库可以通过使用指针的链表或分级表来存储稀疏数组(部分填充的数组)。在处理期间,应用程序可以决定将数组元素存储在数据库中。
标记语言和COBOL之间的n维数组数据映射
XML文档请求可以从外部源(例如另一公司、另一代理商、另一企业等)发起,或者它可以由需要XML接口以访问主机应用程序的网络服务器生成。将XML文档映射为COBOL数据结构不同于开发用于大容量介质上的XML文档的高效存储和检索的算法的挑战。
XML分析器和映射器开发简单的XML文档相当简单明了。然而,在映射可具有多维表或数组数据的XML文档的时候出现挑战。但是,这一需求实际上非常常见。
例如,用于显示关于体育运动联盟(league)的信息的系统可以使用XML文档来显示对队内、联合会(conference)内、大区(division)内、和联盟内的单个运动员的统计数字。所得到的结构是4维数组。
使用国家足球联盟(“NFL”)的示例可用来说明用于将数据元素映射到结果数组中的一般概念过程。在此示例中,NFL大区是第一维(w),联合会是第二维(x),队是第三维(y),而运动员是第四维(z)。如果从包含相关统计数字的XML文档中分析队名,则必须遵循以下过程来将队名映射到结果数组:
1.识别结果数组的维。所分析的XML标签和元素可以表现为:
<team_name>Dolphins</team_name>
可使用标签名来确定team_name属于队维(第三维)。
2.浏览(navigate)到所识别的目标维。Dolphins(海豚队)是AFC东部联合会中的队伍,该联合会在AFC大区中。如果我们先前已经分析并映射了NFC大区以及AFC大区中的AFC西部、AFC中部、和AFC东部联合会的元素,那么我们已经通过(1,x,y,z)、(2,1,y,z)和(2,2,y,z)逐渐进行了浏览。目前,我们正在处理AFC东部联合会中的队伍,因此我们知道数组索引将是(2,3,y)。
3.确定目标维数组索引。在此情况中,目标维数组索引是y的值。然后,系统在目标维(y)中搜索第一空team_name存储桶(bucket)。如果这是我们在AFC东部中处理过的第三支队伍,则第三存储桶将是空的,并且目标维数组索引将是3。
4.将当前数据值移动到数组内的空字段中(该数组字段可以是空的或者可以不是空的)。在此示例中,我们最后将值“Dolphins”移动到结果数组内的(2,2,3)。
然而,实际设计此一般概念过程的软件实现对开发浏览该结果数组并用于确定目标维数组索引的有效方法提出了挑战,特别是在结果数组已预加载了状态数据的情况下。因此,在本领域内存在对于将多维表数组数据高效地映射到XML和COBOL以及从XML和COBOL高效地映射多维表数组数据的方法和系统的需求。
发明内容
在本发明的第一方面,提供了一种用于将最初用标记语言表示的n维数组数据(“源数据”)映射为适合于由商业应用程序使用的n维表(“目标数据”)的方法,所述方法包括以下步骤:(a)建立可搜索的储存库,其包含关于结果数组结构的元数据信息和一个或多个结果数组数据元素,所述结果数组是适于COBAL应用程序的至少一个一维表或线性组织的数组;(b)分析所述源数据,以查找第一或下一个标签名;(c)如果所找到的标签名对应数组名,则执行以下步骤:(i)将维数计数器设置为新的结果数组维数;(ii)用数组标签名、这一维和更高维的所有元素的总长度(维组长度)、以及最大数组元素来加载映射数组;(iii)将维字段计数设置为1;以及(iv)对于每个较低层次的维,通过将维组长度乘以当前维字段计数来计算维数组偏移量(offset),并对结果求和;(d)如果所找到的标签名对应数组元素,则执行以下步骤:(i)将维数计数器设置为对应的维层次;(ii)将对应的标签值存储在由维字段计数加上维数组偏移量指示的结果存储槽(slot)中;(iii)将所述维字段计数增加1;以及(iv)对于同一维层次的连续源数据元素,重复所述步骤(d)(i)、(d)(ii)和(d)(iii),直到这一维的所有元素已存储到所述结果数组中为止;(e)以及重复步骤(b)、(c)和(d),直到所述源数据的所有维已被映射到所述结果数组中为止。
在本发明的第二方面,提供了一种用于将标记语言n维数组数据(“源数据”)映射为适合于由商业应用程序使用的n维表(“目标数据”)的系统,所述系统包括:(a)可搜索储存库,其包含关于结果数组结构的元数据信息和一个或多个结果数组数据元素,所述结果数组是适于COBAL应用程序的至少一个一维表或线性组织的数组;(b)源数据分析器,其配置为在所述源数据中查找第一或下一个标签名;(c)数组维处理器,其配置为如果所发现的标签名对应数组名则执行以下步骤:(i)将维数计数器设置为新结果数组维数;(ii)用数组标签名、这一维和更高维的所有元素的总长度(维组长度)、以及最大数组元素加载映射数组;(iii)将维字段计数设置为1;以及(iv)对于每个较低层次的维,通过将维组长度乘以当前维字段计数来计算维数组偏移量,并对结果求和;(d)数组元素处理器,其配置为如果所发现的标签名对应数组元素则执行以下步骤:(i)将维数计数器设置为对应的维层次;(ii)将对应的标签值存储在由维字段计数加上维数组偏移量所指示的结果存储槽中;(iii)将所述维字段计数增加1;以及(iv)对于同一维层次的连续源数据元素,重复所述步骤(d)(i)、(d)(ii)和(d)(iii),直到这一维的所有元素已存储到所述结果数组中为止;(e)以及数组映射控制器,其配置为反复操作所述分析器、所述数组维处理器、以及所述数组元素处理器,直到所述源数据的所有维和所有元素已被映射到所述结果数组中为止。
在本发明的第三方面,提供了一种计算机可读介质,其被编码有用于将最初用标记语言表示的n维数组数据(“源数据”)映射为适合于由商业应用程序使用的n维表(“目标数据”)的软件,所述软件执行以下步骤:(a)建立可搜索的储存库,其包含关于结果数组结构的元数据信息和一个或多个结果数组数据元素,所述结果数组是适于COBAL应用程序的至少一个一维表或线性组织的数组;(b)分析所述源数据,以查找第一或下一个标签名;(c)如果所找到的标签名对应数组名,则执行以下步骤:(i)将维数计数器设置为新的结果数组维数;(ii)用数组标签名、这一维和更高维的所有元素的总长度(维组长度)、以及最大数组元素来加载映射数组;(iii)将维字段计数设置为1;以及(iv)对于每个较低层次的维,通过将维组长度乘以当前维字段计数来计算维数组偏移量(offset),并对结果求和;(d)如果所找到的标签名对应数组元素,则执行以下步骤:(i)将维数计数器设置为对应的维层次;(ii)将对应的标签值存储在由维字段计数加上维数组偏移量指示的结果存储槽中;(iii)将所述维字段计数增加1;以及(iv)对于同一维层次的连续源数据元素,重复所述步骤(d)(i)、(d)(ii)和(d)(iii),直到这一维的所有元素已存储到所述结果数组中为止;(e)以及重复步骤(b)、(c)和(d),直到所述源数据的所有维已被映射到所述结果数组中为止。
附图说明
结合在此呈现的附图的以下详细描述提供了对本发明的完整公开。
图1提供了一维数组的表列(tabular)图示。
图2同样提供了COBOL用来存储表列数据的线性性质的图示。
图3图示了XML数据结构的分级组织。
图4示出了我们的倾斜树(tilted tree)、旋转锥形(spinning cone)过程的第一步骤,其中用锥形代替了分级结构中的方形组。
图5示出了我们的倾斜树、旋转锥形过程的后续步骤,其中,树被旋转以引入与图中两个轴之一(映射轴)的相合(congruence)。
图6图示了我们的倾斜树、旋转锥形过程的旋转动作,其允许使分级结构中每组(例如每个数组)的每个成员与该图的映射轴相接触。
概括地说,新的倾斜树、旋转锥形过程可用来高效地将诸如XML的标记语言文档中包含的多维数组数据映射为适合于由COBOL应用程序使用的数据结构。该过程以效率高得多的方式映射数据,从而允许以减少的处理资源映射更多的数据。使用锥形来表示XML数组的二维反转树结构被虚拟化,这实现了n维XML数据到二维表示的映射。接下来,通过倾斜反转锥形树而在二维图上将其重新定位,使得每一维中的一个数组(锥形)成员相对于轴例如y轴平直地布置。这个轴现在被称为映射轴。现在,XML结构中的维对应于y轴的段。最后,通过每次旋转一个锥形(例如,旋转数组),每个数组的每个成员可以与映射轴相接触。映射轴的维段可表示为适用于COBOL应用程序的一维或线性组织的数组。
具体实施方式
本发明优选地在这样的计算机程序中实施,该计算机程序提供诸如可扩展标记语言(“XML”)的格式和诸如COBOL的结构化编程格式之间的n维数据结构的连接。本发明可作为用于在诸如企业服务器的计算系统中使用的、采用高级语言(COBOL、C、C++、Java等)、低级或汇编语言或者甚至是采用可编程或固定设计的固件和逻辑的软件来实施。
已经有一段时间可以从国际商业机器公司以一种或另一种形式获得对于万维网支持的CICS应用程序的一般转换器解决方案,其中所述CICS应用程序包括与3270桥的接口以提供对3270应用程序的访问。
该一般转换器解决方案现在已经利用包含我们发明的“倾斜树、旋转锥形”过程的XML接口而得到了进一步增强。这通过提供WebSphere Java客户机使得Java开发者能够成为解决方案参与者。这是本发明的主题。
为了提供实施例的过程,首先回顾如何用XML来表示n维数组是有益的。XML文档的结构通常被图示为反转树(30),如图3所示。顶部的主根分支为渐低的层次或维。任何特定层次的垂直成员代表该层次的数组元素。
以下示例示出了根据我们的NFL示例的用图表示的XML结构,其中联盟为根元素,大区为第一维数组,联合会为第二维数组,队为第三维数组,而运动员为第四维数组(32)。从该图可以看出,可以以这种方式在二维空间中表示XML文档的所有元素。不考虑维的数目(y轴)或单个数组的大小(x轴),这是正确的。
当前述一般概念过程的讨论完成时,我们指出:可以在分析和映射XML文档数组元素之前用状态数据预加载结果数组。因此,使用结果数组来基于结果数组中数据的存在确定所分析的XML文档数组元素的映射是不可靠的。然而,使用这一方法,可以在二维空间中表示n维结果数组,这使得有可能创建可用于映射的n维结果数组的镜像数组。
不幸地是,这一镜像数组可能变得非常大。在每个维层次保存20个信息条目的简单的足球联盟示例将需要大小至少为50k字节的镜像数组。此外,如果对于每个数据元素需要再次浏览更高的维层次,那么搜索正确的数组维(例如浏览表)可能是麻烦和效率低下的。
然而,可以采用我们的新倾斜树、旋转锥形过程,从而导致这样的表示:其需要少得多的存储空间,对于我们的示例是164字节,并且在映射时效率高得多。以下讨论和说明解释这一过程。
首先,如图4所示,也可以使用锥形(41)代表数组,来说明与图3示出的反转树结构类似的反转树结构(40)。
接下来,通过倾斜反转锥形树而在图上将其重新定位,使得每一维中的一个数组(锥形)成员相对于轴平直地布置。现在,XML结构(41’)中的维(32)对应于y轴的段,如图5所示。
最后,可以看到,如图6所示,通过每次旋转(60)一个锥形(例如,旋转数组),可以使每个数组的每个成员与这个轴相接触,其中,我们现在可以将这个轴称为映射轴。映射轴的维段可表示为一维数组。返回我们的NFL示例,需要映射数组具有4个元素组,每一维一组。每组可包含:
1.与这一维关联的XML标签名(即队、运动员等);
2.结果数组元素或元素组的长度;
3.结果数组中的最大允许元素出现次数(occurrences);以及
4.当前元素出现次数计数,其用来确定目标维数组索引。
当通过该过程分析XML文档时,每一维的映射数组组保存关于当前被旋转到与映射轴相接触(例如,被旋转地定位以对准映射轴)的锥形的信息。分析和映射以XML文档根元素开始,并通过向下分析而进行到逐渐降低的维的锥形。当遇到锥形元素时,映射它们。
例如,如果在处理队层次的锥形元素(在适当的位置旋转)期间,遇到了代表更低层次锥形的运动员元素,则立即将该更低层次运动员锥形“旋转为接触”该映射轴。一旦对于队完成了运动员锥形处理,就将映射数组上移一维,以便将新的队锥形旋转到适当的位置,从而重复该过程,直到处理了n维数组中的所有锥形为止。
为了进一步理解本发明,现在我们提出用于映射n维数据的我们的倾斜树、旋转锥形过程的功能性、操作示例实施例和应用程序。以下讨论将使用表6示出的具有表7所示的对应COBOL程序4维表定义的入站(inbound)XML文档请求、以及它所创建的映射数组的另一示例。
表6:示例XML入站数据
<league>
<league_name>NFL</league_name>
     <division>
     <division_name>AFC</division_name>
          <conference>
          <conference_name>AFC_East</conference_name>
                   <team>
                   <team_name>Dolphins</team_name>
                   <team_games_played>16</team_games_played>
                   <team_player>
                       <player_name>Jay Fiedler</player_name>
                       <player_games_played>16</player_games_played>
                   </team_player>
                   <team_player>
                       <player_Name>Ed Perry</player_Name>
                       <playergames_played>16</player_games_played>
                   </team_player>
                   <team_player>
                         :
                         :
                   </team_player>
                   </team>
                   <team>
                      :
                      :
                   </team>
          </conference>
            <conference>
                  :
                  :
            </conference>
      </division>
      <division>
           :
           :
      </division>
</league>
表7:示例COBOL程序语句
01 COBOL-RESULT-ARRAY
     02 LEAGUE-NAME PIC X(20).
     02 DIVISION OCCURS 2 TIMES.
            04 DIVISION-NAME PIC X(03).
            04 CONFERENCE OCCURS 3 TIMES.
            06 CONFERENCE-NAME PIC X(09).
            06 TEAM OCCURS 6 TIMES.
                 08 TEAM-NAME PIC X (20).
                 08 TEAM-GAMES-PLAYED PIC 9(03).
                 08 TEAM-PLAYER OCCURS 70 TIMES
                      10 PLAYER-NAME PIC X (20).
                      10 PLAYER-GAMES-PLAYED PIC 9(03).
05 DIMENSION-COUNTER PIC S9(4)COMP.
05 MAPPING-ARRAY
   10 DIMENSION-TABLE OCCURS 4 TIMES.
         20 DIMENSION-TAG-NAME         PIC X(32).
         20 DIMENSION-OCCURS-GROUP-LEN PIC S9(4)COMP.
         20 DIMENSION-OCCURS-MAX-TIMES PIC S9(4)COMP.
         20 DIMENSION-FIELD-COUNT        PIC S9(4)COMP.
根据我们在IBM CICS计算环境下的示例实施例,当接收到XML请求时,SAX(用于XML的标准API)分析器开始在XML文档的开头进行分析。SAX分析器是事件驱动的,从而意味着当发现XML标签名(事件)时,对我们的用于元素映射的倾斜树、旋转锥形过程给出控制。
进一步根据我们的示例实施例,映射数组具有两个关联的控制值。维数计数器指示正在处理的多维结果数组的当前维层次。维数组偏移量是到当前正在处理的维的开头的数组的偏移量。将树倾斜到映射数组轴的思想使映射数组是一维数组的事实成为可能。记住,树是多维源数组的二维表示。
对于每个分析器事件,处理进行如下:
1.内存储器(in-memory)储存库包含关于结果数组结构的元数据信息和结果数组数据元素。在该储存库中搜索XML标签名的匹配。
2.如果该标签名对应于数组名(即DIVISION、CONFERENCE、TEAM、或TEAM-PLAYER),则:
(a)将维数计数器设置为新结果数组维数(这对应于将锥形旋转为与映射数组相接触);
(b)用数组标签名、这一维和更高维的所有元素的总长度(维组长度)、以及最大数组元素加载映射数组;
(c)将维字段计数设置为1,使得这一维的下一个XML数据元素将被映射到第一存储槽;以及
(d)对于每个较低层次的维,通过将维组长度乘以当前维字段计数来计算维数组偏移量,并对结果求和。
3.如果标签名对应于数组元素(即DIVISION-NAME、CONFERENCE-NAME、TEAM-NAME、TEAM-GAMES-PLAYED、PLAYER-NAME、或PLAYER-GAMES-PLAYED),则:
(a)将维数计数器设置为对应的维层次;以及
(b)将对应的标签值存储在由维字段计数加上维数组偏移量指示的结果存储槽中(结合储存库执行元素存储,该储存库包含对于存储槽1的元素结果数组偏移量、元素长度、和元素类型(字母数字、数字等))。
(c)将维字段计数增加1;以及
(d)按照刚才所述,处理同一维层次的下一个连续的数组元素(对应于在适当的位置旋转锥形),直到存储了这一维的所有元素为止。
尽管紧靠之前的解释可能看起来简单直接,但是实际的代码实现复杂得多,以便能够处理表8示出的COBOL数组定义。在此示例中,注意,TEAM-LOCATION是TEAM数组的元素,但是跟随在TEAM-PLAYER的更高维数组之后。CONFERENCE-BOARD数组是与CONFERENCE数组维数相同的数组,并跟随在TEAM和TEAM-PLAYER的更高层次的数组之后,其中,CONFERENCE-BOARD数组和CONFERENCE数组均在DIVISION数组之下。
表8:示例COBOL实现
01 COMMAREA.
     02 LEAGUE-NAME    PIC X(20).
     02 DIVISION OCCURS 2 TIMES.
          04 DIVISION-NAMEPIC X(03).
          04 CONFERENCE OCCURS 3 TIMES.
             06 CONFERENCE-NAME PIC X(09).
             06 TEAM OCCURS 6 TIMES.
                   08 TEAM-NAME    PIC X(20).
                   08 TEAM-GAMES-PLAYED PIC 9(03).
                   08 TEAM-PLAYER OCCURS 70 TIMES.
                       10 PLAYER-NAME PIC X(20).
                       10 PLAYER-GAMES PLAYED PIC 9(03).
                   08 TEAM-LOCATION PIC X(20).
          04 CONFERENCE-BOARD OCCURS 12TIMES.
             06CONFERENCE-BOARD-MEMBER-NAME PIC X(20).
总而言之,新的倾斜树、旋转锥形过程可用来将包含在标记语言文档例如XML中的多维数组数据高效地映射为适合于由COBOL应用程序使用的数据结构。该过程以效率高得多的方式映射数据,从而允许以减少的处理资源映射更多的数据。使用锥形来表示XML数组的二维反转树结构被虚拟化,其实现了n维XML数据到二维表示的映射。接下来,通过倾斜反转锥形树而将其在二维图上重新定位,使得每一维中的一个数组(锥形)成员相对于轴例如y轴平直地布置。这个轴现在被称为映射轴。现在,XML结构中的维对应于y轴的段。最后,通过每次旋转一个锥形(例如,旋转数组),可以使每个数组的每个成员与映射轴相接触。映射轴的维段可表示为适合于COBOL应用程序的一维或线性组织的数组。

Claims (9)

1.一种用于将最初用标记语言表示的n维数组数据即“源数据”映射为适合于由商业应用程序使用的n维表即“目标数据”的方法,所述方法包括以下步骤:
(a)建立可搜索的储存库,其包含关于结果数组结构的元数据信息和一个或多个结果数组数据元素,所述结果数组是适于COBOL应用程序的至少一个一维表或线性组织的数组;
(b)分析所述源数据,以发现第一或下一个标签名;
(c)如果所发现的标签名对应于数组名,则执行以下步骤:
(i)将维数计数器设置为新结果数组维数;
(ii)用数组标签名、这一维和更高维的所有元素的总长度即维组长度、以及最大数组元素加载映射数组;
(iii)将维字段计数设置为1;以及
(iv)对于每个较低层次的维,通过将维组长度乘以当前维字段计数来计算维数组偏移量,并对结果求和;
(d)如果所发现的标签名对应于数组元素,则执行以下步骤:
(i)将维数计数器设置为对应的维层次;
(ii)将对应的标签值存储在由维字段计数加上维数组偏移量指示的结果存储槽中;
(iii)将所述维字段计数增加1;以及
(iv)对于同一维层次的连续源数据元素,重复所述步骤(d)(i)、(d)(ii)和(d)(iii),直到这一维的所有元素已存储到所述结果数组中为止;
(e)以及重复步骤(b)、(c)和(d),直到所述源数据的所有维已被映射到所述结果数组中为止。
2.如权利要求1所述的方法,其中,结合储存库执行所述存储对应标签值的步骤,所述储存库包含对于第一存储槽的元素结果数组偏移量、元素长度、和元素类型。
3.如权利要求1或2所述的方法,还包括将状态数据预加载到所述目标数据数组中的步骤。
4.如权利要求1、2或3所述的方法,其中,所述分析所述源数据的步骤包括分析以可扩展标记语言定义的数据结构和/或采用用于可扩展标记语言分析器的标准应用程序编程接口。
5.如权利要求1至4中任意一项所述的方法,还包括由面向商业的通用语言应用程序使用所述目标数据数组的步骤。
6.一种用于将标记语言n维数组数据即“源数据”映射为适合于由商业应用程序使用的n维表即“目标数据”的系统,所述系统包括:
(a)可搜索储存库,其包含关于结果数组结构的元数据信息和一个或多个结果数组数据元素,所述结果数组是适于COBOL应用程序的至少一个一维表或线性组织的数组;
(b)源数据分析器,其配置为在所述源数据中查找第一或下一个标签名;
(c)数组维处理器,其配置为如果所发现的标签名对应于数组名则执行以下步骤:
(i)将维数计数器设置为新结果数组维数;
(ii)用数组标签名、这一维和更高维的所有元素的总长度即维组长度、以及最大数组元素加载映射数组;
(iii)将维字段计数设置为1;以及
(iv)对于每个较低层次的维,通过将维组长度乘以当前维字段计数来计算维数组偏移量,并对结果求和;
(d)数组元素处理器,其配置为如果所发现的标签名对应于数组元素则执行以下步骤:
(i)将维数计数器设置为对应的维层次;
(ii)将对应的标签值存储在由维字段计数加上维数组偏移量所指示的结果存储槽中;
(iii)将所述维字段计数增加1;以及
(iv)对于同一维层次的连续源数据元素,重复所述步骤(d)(i)、(d)(ii)和(d)(iii),直到这一维的所有元素已存储到所述结果数组中为止;
(e)以及数组映射控制器,其配置为反复操作所述分析器、所述数组维处理器、以及所述数组元素处理器,直到所述源数据的所有维和所有元素已被映射到所述结果数组中为止。
7.如权利要求6所述的系统,其中,所述数组元素处理器配置为结合储存库执行所述存储步骤,所述储存库包含对于第一存储槽的元素结果数组偏移量、元素长度、和元素类型。
8.如权利要求6或7所述的系统,还包括目标数据预加载器,其配置为将状态数据预加载到所述目标数据数组中。
9.如权利要求6或7所述的系统,其中,分析器配置为分析可扩展标记语言分析器,并包括用于可扩展标记语言分析器的标准应用程序编程接口。
CNB2004800018067A 2003-02-06 2004-01-22 用于将可扩展标记语言映射到n维数据结构的方法和系统 Expired - Lifetime CN100447781C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/361,170 2003-02-06
US10/361,170 US6985910B2 (en) 2003-02-06 2003-02-06 Tilting tree spinning cones method and system for mapping XML to n-dimensional data structure using a single dimensional mapping array

Publications (2)

Publication Number Publication Date
CN1723463A CN1723463A (zh) 2006-01-18
CN100447781C true CN100447781C (zh) 2008-12-31

Family

ID=32849599

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2004800018067A Expired - Lifetime CN100447781C (zh) 2003-02-06 2004-01-22 用于将可扩展标记语言映射到n维数据结构的方法和系统

Country Status (6)

Country Link
US (1) US6985910B2 (zh)
EP (1) EP1590749B1 (zh)
CN (1) CN100447781C (zh)
AT (1) ATE372557T1 (zh)
DE (1) DE602004008742T2 (zh)
WO (1) WO2004070500A2 (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2400590A1 (en) * 2002-08-29 2004-02-29 Ibm Canada Limited-Ibm Canada Limitee Method and apparatus for converting legacy programming language data structures to schema definitions
US8683318B1 (en) 2004-07-14 2014-03-25 American Express Travel Related Services Company, Inc. Methods and apparatus for processing markup language documents
US7681118B1 (en) * 2004-07-14 2010-03-16 American Express Travel Related Services Company, Inc. Methods and apparatus for creating markup language documents
US7505960B2 (en) 2005-11-15 2009-03-17 Microsoft Corporation Scalable retrieval of data entries using an array index or a secondary key
US7747942B2 (en) * 2005-12-20 2010-06-29 American Express Travel Related Services Company, Inc. System and method for obtaining a markup language template through reversing engineering
US9070178B2 (en) * 2006-08-11 2015-06-30 Siemens Product Lifecycle Management Software Inc. Method and system for organizing topology elements for better compression
JP5014212B2 (ja) * 2008-03-14 2012-08-29 キヤノン株式会社 メッセージ通信装置及びその制御方法及びコンピュータプログラム
CN101261645B (zh) * 2008-03-26 2010-08-11 北京搜狗科技发展有限公司 一种获取多层信息的方法和装置
US8037404B2 (en) * 2009-05-03 2011-10-11 International Business Machines Corporation Construction and analysis of markup language document representing computing architecture having computing elements
CN101923569B (zh) * 2010-07-09 2012-07-25 江苏瑞中数据股份有限公司 一种实时数据库的结构类型数据的存储方法
CN101976239A (zh) * 2010-09-19 2011-02-16 北京腾瑞万里科技有限公司 地理对象信息检索方法与装置
CN102509350B (zh) * 2011-09-30 2013-12-25 北京航空航天大学 一种基于立方体的体育运动赛事信息可视化方法
US8744840B1 (en) 2013-10-11 2014-06-03 Realfusion LLC Method and system for n-dimentional, language agnostic, entity, meaning, place, time, and words mapping
CN105631608A (zh) * 2016-02-02 2016-06-01 明博教育科技股份有限公司 一种多级机构映射及同步的方法和系统
CN107577506B (zh) * 2017-08-07 2021-03-19 台州市吉吉知识产权运营有限公司 一种数据预加载的方法和系统
US11170448B2 (en) * 2019-12-20 2021-11-09 Akasa, Inc. Claim analysis with deep learning
CN111414390A (zh) * 2020-03-20 2020-07-14 北京思特奇信息技术股份有限公司 一种数据处理方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001065419A2 (en) * 2000-03-02 2001-09-07 Nimble Technology, Inc. Method and apparatus for storing semi-structured data in a structured manner
EP1231547A2 (en) * 2001-01-18 2002-08-14 Hitachi, Ltd. System and method for mapping structured documents to structured data of program language and program for executing its method
US6502101B1 (en) * 2000-07-13 2002-12-31 Microsoft Corporation Converting a hierarchical data structure into a flat data structure

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5943674A (en) 1996-07-11 1999-08-24 Tandem Computers Incorporated Data structure representing an interface definition language source file
US6301579B1 (en) 1998-10-20 2001-10-09 Silicon Graphics, Inc. Method, system, and computer program product for visualizing a data structure
US6336214B1 (en) * 1998-11-10 2002-01-01 International Business Machines Corporation System and method for automatically generating browsable language grammars
US6209124B1 (en) 1999-08-30 2001-03-27 Touchnet Information Systems, Inc. Method of markup language accessing of host systems and data using a constructed intermediary
US7559066B2 (en) * 2000-08-08 2009-07-07 International Business Machines Corporation CICS BMS (basic message service) meta model
US7275079B2 (en) 2000-08-08 2007-09-25 International Business Machines Corporation Common application metamodel including C/C++ metamodel
US20040268242A1 (en) * 2000-08-09 2004-12-30 Microsoft Corporation Object persister
US6795868B1 (en) * 2000-08-31 2004-09-21 Data Junction Corp. System and method for event-driven data transformation
US20020161907A1 (en) * 2001-04-25 2002-10-31 Avery Moon Adaptive multi-protocol communications system
US7013311B2 (en) * 2003-09-05 2006-03-14 International Business Machines Corporation Providing XML cursor support on an XML repository built on top of a relational database system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001065419A2 (en) * 2000-03-02 2001-09-07 Nimble Technology, Inc. Method and apparatus for storing semi-structured data in a structured manner
US6502101B1 (en) * 2000-07-13 2002-12-31 Microsoft Corporation Converting a hierarchical data structure into a flat data structure
EP1231547A2 (en) * 2001-01-18 2002-08-14 Hitachi, Ltd. System and method for mapping structured documents to structured data of program language and program for executing its method

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Wrapping legacy COBOL programs behind an XML-interface. Harry M. Sneed.IEEE. 2001
Wrapping legacy COBOL programs behind an XML-interface. Harry M. Sneed.IEEE. 2001 *

Also Published As

Publication number Publication date
WO2004070500A3 (en) 2004-10-21
DE602004008742T2 (de) 2008-06-12
EP1590749B1 (en) 2007-09-05
DE602004008742D1 (de) 2007-10-18
ATE372557T1 (de) 2007-09-15
EP1590749A2 (en) 2005-11-02
US6985910B2 (en) 2006-01-10
CN1723463A (zh) 2006-01-18
US20040162813A1 (en) 2004-08-19
WO2004070500A2 (en) 2004-08-19

Similar Documents

Publication Publication Date Title
US20230084389A1 (en) System and method for providing bottom-up aggregation in a multidimensional database environment
CN100447781C (zh) 用于将可扩展标记语言映射到n维数据结构的方法和系统
US9805080B2 (en) Data driven relational algorithm formation for execution against big data
US7805341B2 (en) Extraction, transformation and loading designer module of a computerized financial system
US8051034B2 (en) Parallel processing of assigned table partitions
US7251653B2 (en) Method and system for mapping between logical data and physical data
US5966704A (en) Storage plane organization and storage systems based thereon using queries and subqueries for data searching
US20110087708A1 (en) Business object based operational reporting and analysis
US7814045B2 (en) Semantical partitioning of data
CN101566986A (zh) 联机事务处理中的数据处理方法和装置
US9547646B2 (en) User-created members positioning for OLAP databases
US20110093487A1 (en) Data provider with transient universe
JP2006503357A5 (zh)
US7099727B2 (en) Knowledge repository system for computing devices
JP2005018778A (ja) ディメンジョン属性およびディメンジョン当たり複数の階層を使用するオンライン分析処理のためのシステムおよび方法
Kalna et al. A meta-model for diverse data sources in business intelligence
Černjeka et al. NoSQL document store translation to data vault based EDW
US7984045B2 (en) Scalable data extraction from data stores
EP2312463A1 (en) Data provider with transcient universe
US20240037146A1 (en) Efficient Storage and Query of Schemaless Data
CN117575741A (zh) 秒杀请求的处理方法、装置、设备、介质和程序产品
WO2004031989A1 (en) A database provider system
Bog et al. Enterprise Data Management for Transaction and Analytical Processing
Kakivaya et al. Durable storage of .NET data types and instances
ElDahshan et al. A COMPARATIVE STUDY AMONG THE MAIN CATEGORIES OF NoSQL DATABASES

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20211117

Address after: New York, United States

Patentee after: Qindarui Co.

Address before: New York grams of Armand

Patentee before: International Business Machines Corp.

CX01 Expiry of patent term
CX01 Expiry of patent term

Granted publication date: 20081231