CN1281564A - 自动识别文本的文体结构 - Google Patents

自动识别文本的文体结构 Download PDF

Info

Publication number
CN1281564A
CN1281564A CN98811864A CN98811864A CN1281564A CN 1281564 A CN1281564 A CN 1281564A CN 98811864 A CN98811864 A CN 98811864A CN 98811864 A CN98811864 A CN 98811864A CN 1281564 A CN1281564 A CN 1281564A
Authority
CN
China
Prior art keywords
subordinate clause
node
subordinate
clause
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN98811864A
Other languages
English (en)
Other versions
CN1127030C (zh
Inventor
西蒙·科斯通
米格尔·卡多索·德坎普斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN1281564A publication Critical patent/CN1281564A/zh
Application granted granted Critical
Publication of CN1127030C publication Critical patent/CN1127030C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Abstract

本发明针对识别文本的文体结构。在优选实施例中,文体结构识别功能程序例用与文本有关的语法信息,产生一个表征文本文体结构的文体结构树。功能程序首先在文本中识别从句的号码。然后,对每一个区别的从句对,根据有关的从句对的文本语法结构和语义,功能程序确定可能的文体关系的那一个号码将在从句对之间被假定。然后,功能程序应用假定的关系到该从句,以便产生一个表征文本的文体结构的文体结构树。在某些实施例中,功能程序从产生的文体结构树中还产生一个反映了作者追求的最初目标的文本的提要。

Description

自动识别文本的文体结构
技术领域
本发明涉及一般的计算语言学领域,特别是文体处理领域。
发明背景
文体理论是一种理解自然语言文档和自然语言的其它单位的内容和意义的一种方法。按照文体理论,每一个自然语言文档有一个“文体结构”,该文体结构反映了文档的作者编辑该文档的目的。识别自然语言文档的文体结构通常被认为是理解文档的重要部分。
文档的文体结构常常使用分层“文体结构树”模拟,或简单称为“树”,例如有Mann和Thompson建议的“修辞结构理论树”(“RST树”),“在文体中的有关论题,”文体处理9:57-90(1986)。这样的文体结构树表征了文档的组成段落的相对意义,称为论题。这些论题通常是从句或短语。文体结构树识别存在于文档中论题之间的关系或“文体的关系”。
文体结构树一般以昂贵的费用由训练为语言学家的专家人工产生。因为人工产生文体结构树是昂贵的,所以它们仍然完全是用来研究一般文体的理论工具。因此,便宜的产生文体结构树并代表自然语言文档的文体结构的自动方法将允许应用文体理论分析任意的文档。
发明简述
本发明涉及自动识别文本或其它自然语言表达的文体结构。由文本展示的文体结构是组织,或“结构”,多词文本单元,或“论题”,文本是由“结构”和“论题”构成的。识别文本的文体结构有助于容易发现作者在写作该文本的目的,并因此在某种意义中有助于识别文本的中心意思。
为了识别输入文本的文体结构,功能程序产生一个或多个文体结构树。象在此讨论的一样,文体结构树是一种代表输入文本的文体结构的数据结构。输入文本通常可设计为一系列从句。当对于输入文本由功能程序产生的文体结构树时,严格说来,表征了这些从句的逻辑表达的论题之间的文体结构,功能程序产生了基于从句的内容的文体结构,而不是基于可适当称为论题的从句的任何严格的逻辑表达。因此,功能程序产生的文体结构树不依赖于从输入文本的从句产生的严格逻辑论题。
按照本发明,功能程序接收输入文本,以及由完成严格的输入文本的语法分析所产生的数据。这个数据最好包括一个或多个代表输入文本的语法结构的语法分析图表和对应的逻辑形式,该图表和逻辑形式提供了包括语义信息的这个语法结构的规格化的形式。这些从句基本上是以文体结构树的形式排列,其中,它们在显示输入文本的文体结构的特殊设置中由文体关系连接。
在识别输入文本中的从句之后,功能程序成对地考虑这些从句。重要的是注意到,功能程序试图假定每一对从句之间的文体关系,而不仅仅是假定邻近从句之间的关系。对于每一对从句,功能程序使用一组线索识别可能合理地与该对从句关联的文体关系。这些识别关系被称为在每一对从句之间的“假定”。所用的线索指定一个或多个条件级,该条件级必须由每对从句或由逻辑形式或与每对从句关联的语法分析的内容所满足,以便假定从句对之间的特殊关系。每一个线索进一步指定了一个显示相对似然性的定量得分,以至在从句对之间假定的关系是正确的,其中满足了线索条件。当相同对的从句几个线索满足了相同的关系时,由这些线索指定的得分被相加以产生用于假定关系的得分。
功能程序在每一对从句之间有假定关系之后,功能程序把假定关系组合在“袋子”内,每一个袋子包含所有的给定从句对之间的假定关系。在每个袋子中,假定关系被按照它们得分的降序排列。袋子本身也按照它们第一个假定关系(即,在该袋子中的最高单个得分)以降序排列。功能程序然后以倒置的方式从对应从句的终端节点继续进行构建一个或多个文体结构树,并试图以一种方式把假定关系应用到终端节点,首先在每一个袋子中通过第一个假定关系,然后在每一个袋子中通过连续的假定关系重复该方式。构建算法利用在袋子中的遍历的回溯法以便剪除没被形成的大量树组。每一次,假定的关系实际上组合两个节点,组合的结果被加到树作为非终端节点。新节点具有相等于假定得分的得分,如果存在该得分,加上被组合的节点的得分。因此,以这种方式构建的每一个树有一个与根节点关联的得分,该得分反映了相对的似然性,即,对于输入文本该树是正确的。
以这种方式构建的每一个树是二叉树,每一个非终端节点刚好有两个子节点。在某些方面,考虑n叉文体结构树比二叉文体结构树更有用。功能程序最好“平坦”所构建二叉树以便形成n叉树。
功能程序可以从以这种方式构建的任何树中产生反映由作者寻求的主要得分的输入文本的提要。为达此目的,功能程序执行了从顶部到指定深度的树的宽度优先遍历(breadth-first traversal),并连接到由每一个访问节点所代表的从句的文本的概要。
因此,本发明的功能程序最好假定基于从句的文本的从句之间的文体关系,没有依赖人工产生的输入文本代表的论题,利用加强的线索检验从句的文本语法和段落的特征;应用假定的文体关系以基于段落进入袋子的顺序和利用回退产生文体关系树;平坦二叉文体结构树为n叉文体结构树;以及从产生的文体结构树产生输入文本的提要。
附图的简单描述
图1是一般应用的功能程序优选执行的计算机系统的高层示意图。
图2是由功能程序执行的步骤高层流程图,以便产生一个或多个用于输入文本的文体结构树和产生输入文本的提要。
图3是用样本输入文本的第一个句子产生的语法树的示意图。
图4是用样本输入文本的第一个句子产生的逻辑形式图形的逻辑形式示意图。
图5是用样本输入文本的第二个句子产生的语法树的示意图。
图6是用样本输入文本的第二个句子由功能程序产生的逻辑形式图形的逻辑形式示意图。
图7是用样本输入文本的第三个句子产生的语法树的示意图。
图8是用样本输入文本的第三个句子由功能程序产生的逻辑形式图形的逻辑形式示意图。
图9是用样本输入文本的第四个句子产生的语法树的示意图。
图10是用样本输入文本的第四个句子由功能程序产生的逻辑形式图形的逻辑形式示意图。
图11是由功能程序执行的优选步骤的流程图,以便假定在输入文本中识别的从句之间的文体关系。
图12是由功能程序执行的优选步骤的流程图,以便为输入文本产生文体结构树。
图13是附加终端节点到树的文体结构树的示意图。
图14是附加覆盖从句2-3的新节点的文体结构树的示意图。
图15是附加覆盖从句4和5的新节点的文体结构树的示意图。
图16是附加覆盖从句1-3的新节点的文体结构树的示意图。
图17是从图16中的树到图15中的树功能程序回退,然后附加覆盖从句3-5的新节点的文体结构树的示意图。
图18是由功能程序产生的第一个完整的文体结构树的文体结构树示意图。
图19是由功能程序执行的优选步骤的流程图,以便把二叉文体结构树转换为n叉文体结构树。
图20是样本二叉文体结构树的文体结构树的示意图。
图21是使用来自图20的二叉文体结构树的级,功能程序构建的n叉文体结构树的文体结构树示意图。
图22是由功能程序执行的优选步骤的流程图,以便产生基于由功能程序产生的最高得分文体结构树的输入文本的提要。
发明的详细描述
本发明涉及自动识别文本或其它自然语言表达的文体结构。由文本展示的文体结构是组织,或“结构”,多词文本单元,或“论题”,文本是由“结构”和“论题”构成的。识别文本的文体结构有助于容易发现作者在写作该文本的目的,并因此在某种意义中有助于识别文本的中心意思。
为了识别文本(输入文本)的文体结构,功能程序产生一个或多个文体结构树。象在此讨论的一样,文体结构树是一种代表输入文本的文体结构的数据结构。输入文本通常可设计为一系列从句。当对于输入文本由功能程序产生的文体结构树时,严格说来,表征了这些从句的逻辑表达的论题之间的文体结构,功能程序产生了基于从句的内容的文体结构,而不是基于可适当称为论题的从句的任何严格的逻辑表达。因此,功能程序产生的文体结构树不依赖于从输入文本的从句产生的严格逻辑论题。
下面讨论的非常详细的样本文体结构树显示在图18中。文体结构树包含许多排列在树中的节点。每一个节点代表或“覆盖”从句的邻近组或“跨度”。每一个节点在它所覆盖的从句之中进一步识别称为“投射”的最重要的节点。每一个文体结构树的叶节点或“终端节点”对应单个从句。另一方面,文体结构树的非终端节点通过一个或多个文体关系对应组合的多从句,或“有关的”。称为“根节点”的一个非终端节点覆盖所有从句,并在它的子节点之中具有所有的终端节点。
许多不同类型的文体关系被用来代表可以在从句之间发生关系的类型(或从句组之间)。这些文体关系类型被分成为两类:非对称文体关系类型和对称文体关系类型。非对称文体关系以一种方式关联从句,以至显示作者在输入文本内认为从句有不同级的重要性。因此,通过非对称文体关系关联的从句(1)包括比较重要的“核心”从句和不重要的“从属”从句,(2)象它们的投射序列一样,只具有它们的核心节点的投射。作为一个例子,下面的从句A和B由论述两个从句的详尽的细节关系所关联,从属从句详细描述在核心从句上,在该句中,代表从句A的节点是核心,代表从句和B的节点是从属从句:
A.望远镜使他的使用者远距离观察景色。
B.例如,鸟类观察者使用望远镜以避免打扰它们的鸟类对象。
图18显示了三种非对称关系的表示法:在节点1812中代表的非对称对比关系有节点1804作为它的核心和节点1805作为它的从属;在节点1804中代表的详尽描述关系有节点1803作为它的核心和节点1812作为它的从属;在节点1815中代表的详尽描述关系有节点1801作为它的节点及作为它的核心和节点1811作为它的从属。
另一方面,对称文体关系以一种方式关联从句,以至显示作者在输入文本内认为从句有类似的重要性。同样地,,代表对称文体关系的节点(1)只有“核心”作为子节点,(2)象它们的投射序列一样,具有它们子节点的投射的结合。作为一个例子,下面的从句C和D由论述从句的排序次序的顺序关系所关联,在该句中,代表从句C和D的节点都是核心的子节点:
C.首先,搅拌蛋白。
D.然后,拌入糖。
图18显示了一种对称关系的表示法:由节点1811代表的对比关系有作为它的核心节点的1802和1814。形式上,一个有效的,或适当形成的,文体结构树展示了四个特征:(1)“完整性,”即,文体结构树覆盖整个输入文本;(2)“连通性”即,对于每一个输入文本的从句,文体结构树包含一终端节点;(3)“唯一性,”即,在文体结构树中的每一节点有单个父节点;(4)“邻近性,”即,只有邻近跨度可以群聚到节点以形成大的跨度,就是说,在文体结构树中的非终端节点仅覆盖邻近跨度。
按照本发明,功能程序接收输入文本作为它的输入,以及通过执行输入文本的严格语法分析产生的数据。这个数据最好包括一个或多个代表输入文本语法结构的语法分析图表,及对应的逻辑形式,该逻辑形式提供包括语义信息的标准化语法结构。功能程序使用逻辑形式把输入文本分成为从句。这些从句最后以文体结构树的形式排列,其中,在显示输入文体结构的特殊设置中,这些从句通过文体关系连接。
在识别输入文本中的从句之后,功能程序成对的考虑这些从句。重要的是注意到,功能程序试图假设每一对从句之间的文体关系,而不仅仅是邻近从句之间的文体关系。对于每一对从句,功能程序使用一组线索识别可能合理地发生关系的从句对的文体关系。所用的线索指定一个或多个条件级,该条件级必须由从句对或逻辑形式的内容或与从句对关联的语法分析所满足,以便假设从句对之间的特殊关系。每一个线索进一步指定一个显示相对似然性的定量的得分,以至在每一对从句之间假设的关系是正确的,其中,线索条件被满足。当相同关系的几个线索满足相同从句对时,由这些线索指定的得分被相加以产生假设关系的得分。
在功能程序已经假设每一对从句之间的关系后,功能程序把假定关系聚合在“袋子”内,每一个袋子包含所有的给定从句对之间的假定关系。在每个袋子中,假定关系被按照它们得分的降序排列。袋子本身也按照它们第一个假定关系(即,在该袋子中的最高单个得分)以降序排列。功能程序然后以倒置的方式从对应从句的终端节点继续进行构建一个或多个文体结构树,并试图以一种方式应用假定关系到终端节点,首先在每一个袋子中通过第一个假定关系,然后在每一个袋子中通过连续的假定关系重复该方式。构建算法利用在袋子中的遍历的回溯法以便剪除没被形成的大量树组。每一次,假定的关系实际上组合两个节点,组合的结果被加到树作为非终端节点。新节点具有等于假定得分的得分,如果存在该得分,加上被组合的节点的得分。因此,以这种方式构建的每一个树有一个与根节点关联的得分,该得分反映了相对的似然性,即,对于输入文本该树是正确的。
以这种方式构建的每一个树是二叉树,每一个非终端节点刚好有两个子节点。在某些方面,考虑n叉文体结构树比二叉文体结构树更有用。功能程序最好“平坦”所构建二叉树以便形成n叉树。
功能程序可以从以这种方式构建的任何树中产生反映由作者寻求的主要得分的输入文本的提要。为达此目的,功能程序执行了从顶部到指定深度的树的宽度优先遍历(breadth-first traversal),并连接到由每一个访问节点所代表的从句的文本的概要。
图1是一般应用的功能程序优选执行的计算机系统的高层示意图。计算机系统100包括中央处理单元(CPU)110、输入输出装置120和计算机存储器130。在输入输出装置中是存储装置121,如硬盘驱动器,以及计算机可读介质驱动器122,在可读介质驱动器中可以安装包括功能程序的软件产品,提供的计算机可读介质如CD-R0M。存储器130最好包括文体结构识别功能程序131;词汇知识库132包括词汇和与输入文本表达的自然语言有关的语义信息;源于输入文本语形、语法和语义信息的语法分析程序133在此是固有的,包括逻辑形式;使用假定数据结构134的文体关系,以便假定在输入文本内的关联从句对的文体关系;以及,通过功能程序使用的假定文体关系数据结构135代表输入文本从句之间的一组假定的文体关系。因为语法分析程序133和功能程序131在一起识别语形、语法、语义和输入文本的文体结构,所以语法分析程序和功能程序在一起被称为自然语言处理系统,用于识别语形、语法、语义和输入文本的文体结构。当优选的功能程序运行在上述设置的计算机系统上时,本领域的技术人员将公认它也可以运行在不同设置的计算机系统上。
图2是由功能程序执行的步骤高层流程图,以便产生一个或多个用于输入文本的文体结构树和产生输入文本的提要。在步骤201,功能程序分列输入文本,并产生分列树和逻辑形式。对于语法分析自然语言输入文本的详细讨论,参考美国专利申请号:08/265,845,题目是“把统计处理引入基于规则的自然语言语法分析程序的方法和系统”。对于从自然语言输入文本产生逻辑形式的详细论述,参考参考美国专利申请号:08/674,610,题目是“从句法树计算语义逻辑形式的方法和系统”。这两个申请全文被包含在此作为参考。
在步骤202,功能程序使用步骤201产生的逻辑形式识别文本内的从句。在步骤203,功能程序使用一组线索假定步骤202识别的从句对之间可能的文体关系。在步骤204,功能程序应用步骤203假定的关系,以便为输入文本构建一个或多个文体结构树。产生的得分为每一个文体结构数显示相对的似然性以致文体结构树正确地模仿了输入文本的文体结构。在步骤205,功能程序平坦了步骤204构建的二差(二叉)文体结构树,并把它们转换成为普通的n差树。在步骤206,功能程序从最高加权的文体结构树产生包括最重要的输入文本从句的样本输入文本的概要。步骤206之后,步骤结束。
为了较完整地论述功能程序,在此参考简单的例子详细论述它的操作。对此例子的样本输入文本显示在文本方框1中。
土狼被分类为土狼属。它通常被放在鬣狗家族,鬣狗属。然而,因为在土狼和鬣狗之间某些解剖学的差别,某些专家把土狼放在不同的家族,土狼属。例如,土狼的前脚有5个脚指头,而鬣狗有4个。文本方框1:样本输入文本
按照步骤201,功能程序首先分列样本输入文本的每一个句子,为每一个句子产生分列树和逻辑形式。图3¨CO显示为样本输入文本的4个句子的分列树和逻辑形式。
图3是一个分列树图表,该图表显示对样本输入文本的第一个句子产生的分列树。分列树300描绘了整个句子的语法结构。放在顶部节点301分列树的叉描述了句子的不同成分。名词短语叉310描述名词“土狼”。辅助短语叉320描述动词“是”。动词叉330描述动词“分类”。介词短语叉340描述介词短语“象土狼属”。最后,标点符号叉350描述句子结束的句号。
图4是用样本输入文本的第一个句子产生的逻辑形式图形的逻辑形式图表。逻辑形式400以比分列树概略的形式描述了句子的语法组织。逻辑形式通过在句子中的其它词修改动词,依赖相对小量的语法语义关系。所用的几个标志识别表1论述的关系。附加的这些标志论述在美国专利申请号:08/674,610中。
标志 意思
Dsub “深奥的主题”。(a)有效从句的主题或(b)被动的主体或奇怪的结构。
Dobj “深奥的对象”(a)有效从句的对象或(b)奇怪结构的对象。
TmeAt 暂时关系。这个相同的标志被用于合拍点以及持续时间。
Instr 手段
Manr 方式
Mods 修饰
LocAt 位置
Goal 空间得分
             表1:使用在逻辑形式中的标志
通过分列文本产生的逻辑形式由功能程序使用(1)确定如何把输入文本分成从句,(2)当假定了从句之间的文体关系时,测试线索的条件。
象图3、5、7和9是分别显示为样本输入文本的第二、第三和第四个句子产生的分列树的图表。类似地,图6、8和10分别由功能程序为样本输入文本的第二、第三和第四个句子产生的逻辑形式图形的图表。
在功能程序已经按步骤201分列输入文本的句子后,功能程序按照步骤202进行识别输入文本中出现的从句。功能程序识别从句所用的标准显示在表2中。本领域的技术人员对下面表2和表4所用的语言术语是熟悉的。这些术语的附加讨论,读者可直接阅读Finegan,Edward,《语言:它的结构和使用》,Harcourt Brace Jovanovich,San Diego,1989,以及Fromkin、Victoria和Robert Rodman,《语言绪论》,Holt,Rinehart,Winston,New York,1988。
标准数 标准
    1 成分的头节点是一个动词或成分是一个省略的从句。
    2 成分的头节点不是辅助的。
    3 对象的补语只允许以义务的“不得不”造句,例如,主教允许大多数英国的进口税,但亨利“不得不屈服于教会教规”
    4 对象不是主题的补语。
    5 如果成分的父节点是NP,那么,如果它是现在分词从句,成分只是RST图表中的终端节点。(这种情况可能单数出现,取决于NP的相关从句、其它类从属从句没有考虑。然而,该条件对系统的语法分析模糊度只是一个简单的工作区,其中,分开的分词从句不正确地从属到NP。例如:“这个大胆的策略给他们一个有利条件,因此,引起了混淆”。)
    6 如果成分是一个补语从句,那么,它不能有一个名词短语或介词短语作为它的父节点。
    7 成分不是关系从句。
    8 成分不能有关系从句作为它的祖先(为了避免不适当的间隔尺寸)。
    9 头节点是过去分词的分开的分词从句不能是终端节点。
       表2:识别从句的标准
功能程序用尽一切地遍历产生逻辑形式的节点,将表2所示的标准应用到每一个逻辑形式节点。对于每一个满足所有标准的逻辑形式节点,功能程序识别单个从句。
在处理本例的样本输入文本中,功能程序将表2所示的标准应用到图4、6、8和10,以把样本输入文本分为表3所示的从句。
从句数 从句
    1 土狼被分类为土狼属。
    2 它通常被放在鬣狗家族,鬣狗属。
    3 然而,因为在土狼和鬣狗之间某些解剖学的差别,某些专家把土狼放在不同的家族,土狼属。
    4 例如,土狼的前脚有5个脚指头。
    5 而鬣狗有4个。
         表3:识别的从句
为样本输入文本的第一、第二和第三个句子分别显示在图4、6、和8中的逻辑形式,只有头节点满足表2所示的所有从句识别标准。由于这个原因,前三个句子被识别为只包括单个从句。在图10显示的样本输入文本的第四个句子的逻辑形式情况中,从句识别标准由头节点“have1”和内部节点“have 2”所满足。因此,功能程序把第四个句子分成为两个从句,从句4和从句5。
在功能程序按照步骤202已经识别出现在输入文本中的从句之后,功能程序进行假定按照步骤203已识别从句之间的文体关系。图11是由功能程序执行的优选步骤的流程图,以便假定在输入文本中识别的从句之间的文体关系。在高层,为假定从句之间的文体关系,这些步骤对每对从句评价了与每一线索有关的条件,以确定是否对这对从句假定与该线索有关的关系。对于给定的从句对,因为文体关系是定向的,所以功能程序应用线索的情况考虑向前方向的假定关系一次,然后再一次考虑向后方向的假定关系。这显示在通过所有被排序的从句对的循环而不仅仅指通过未被排序的从句对的循环流程图。
在步骤1101-1107,功能程序通过每一个被排序的已识别从句对循环。对于每一个被排序的已识别从句对,在步骤1102-1110,功能程序通过每一个不同文体关系类型循环。对于每一个不同文体关系类型,在步骤1103-1109,功能程序通过所提供的每一个文体关系线索用于当前文体关系类型。表4显示一列由功能程序优选使用的文体关系线索。每一线索是一个单独的要素,用于声称已排序的从句对之间的特殊文体关系。如果线索能够成功地应用到从句对,线索有一个识别被假定的关系的关系名。每一个线索还有一个涉及线索所用的线索号码。每一个线索还有一组已排序的条件,每一条件必须由从句所满足,被识别为“从句1”和“从句2”,以便假定依赖于线索的识别关系。条件被排序,在第二个条件被测试之前,测试第一个条件并必须满足条件。类似地,对每一个附加线索的条件,顺序在前的条件在下一条件被评价之前必须先被评价并满足条件。最后,每一线索有一个显示相对似然性的得分,以致识别关系正确地关联给出满足排序组条件的两个排序从句对。
关系名 线索号码 条件1 条件2 得分
非对称对比 H20 从句1是主从句,如果从句2是从属从句,那么,它必须从属从句1。 从句2包括从属连接词whereas  30
从句 H17 从句1是主从句,如果从句2是从属从句,那么,它必须从属从句1。 从句2或任何祖辈节点包括与从句关系一致的线索短语。 25
从句 H18 从句1不是主从句,或从句2是从属从句,但不从属从句1 。 在逻辑形式中,从句2与从句1是因果关系。 10
从句 H29a 从句1不是主从句,或从句2是从属从句,但不从属从句1。 从句2是被动语态的,具有词汇项“cause”作为它的头节点。 10
从句 H29b 从句1不是主从句,或从句2是从属从句,但不从属从句1。 从句2的头节点包括短语“result/ed/ing/sfrom”。 10
环境 H12 从句1是主从句,如果从句2是从属从句,那么,它必须从属从句1。 从句2被支配或包含环境连接词(after、before、while…)。 20
环境 H13 从句1是主从句,如果从句2是从属从句,那么,它必须从属从句1。 从句2是分离的-ing分词短语,从句2的头节点在从句1的头节点之前。 5
关系名 线索号码 条件1 条件2 得分
让步 H11 从句1是主从句,如果从句2是从属从句,那么,它必须从属从句1。 从句2包含让步连接词(although、even、though)。 10
条件 H21 从句1是主从句,如果从句2是从属从句,那么,它必须从属从句1。 从句2包含条件连接词(as-long-as、if、unless…)。 10
对比 H4 从句1在从句2之前;从句1语法上不从属从句2;从句2语法上不从属从句1;从句2的主题不是指示代词,也不由指示代词修饰。 从句2被支配或包含对比连接词(but、however、or…)。如果从句2是并列结构,那么,它必须与从句1并列. 25
对比 H39 从句1在从句2之前;从句1语法上不从属从句2;从句2语法上不从属从句1;从句2的主题不是指示代词,也不由指示代词修饰。 线索H4被满足从句1和从句2的头节点动词有相同的主旨。 10
对比 H5 从句1在从句2之前;从句1语法上不从属从句2;从句2语法上不从属从句1;从句2的主题不是指示代词,也不由指示代词修饰。 从句1和从句2的极性不同(即,一个从句是正的,另一个是负的) 5
对比 H6 从句1在从句2之前;从句1语法上不从属从句2;从句2语法上不从属从句1;从句2的主题不是指示代词,也不由指示代词修饰。 从句1的语法主题是指示代词”some”或有修饰词”some”,从句2的主题是指示代词“other”或有修饰词“other”。 30
关系名 线索号码 条件1 条件2 得分
详细描述 H24 从句1在从句2之前;从句1不从属从句2;从句2不从属从句1; 从句1是句子的主从句(句子1)从句2是句子的主从句(句子j),句子l立刻先于句子j以及,(a)从句2包含详细描述连接词(also、for-example)或(b)从句2是并列结构,它的父节点包含详细描述连接词。 35
详细描述 H26 从句1在从句2之前;从句1不从属从句2;从句2不从属从句1; 线索H24应用,从句1在选录中是第一个句子的主从句。 15
详细描述 H41 从句1在从句2之前;从句1不从属从句2;从句2不从属从句1; 从句2包含一个谓语名词词性,该词的头节点是在设置{portion componentmember type kindexample instance}或从句2包含一个谓语,该词的头节点动词是在设置{include consist} 35
详细描述 H25 从句1在从句2之前;从句1不从属从句2;从句2不从属从句1; 从句1和从句2没有被并列,(a)从句1和从句2展示了主题的连续性或(b)从句2是被动语态及从句1的Dobj的头节点和从句2的Dobj的头节点是相同的主旨或(c)从句2包含详细描述连接词 10
关系名 线索号码 条件1 条件2 得分
详细描述 H25a 从句1在从句2之前;从句1不从属从句2;从句2不从属从句1; 线索H25应用,从句2在包含惯常副词(sometimes、usually…)。 17
详细描述 H38 从句1在从句2之前;从句1不从属从句2;从句2不从属从句1; 线索H25应用,从句2的语法主题是指示代词“some”或包含修饰词“some” 10
关系名 线索号码 条件1 条件2 得分
连接 H0 没有其它语法关系在从句1和从句2之间被假定;从句1在从句2之前;从句1不从属从句2;从句2不从属从句1;从句1和从句2是相同的要素(说明性的、疑问的等);从句2的主题即不是指示代词也不由指示代词修饰;如果从句1有一个代词的主题,那么,从句2肯定也有一个代词的主题;既不是从句2也不是从句2的祖辈包含对比连接词、非对称对比连接词或详细描述连接词;如果从句2的是并列结构,那么,它通过连接连接词肯定与从句1并列(and、and/or)。 5
关系名 线索号码 条件1 条件2 得分
序列 H7 从句1在从句2之前;从句1在语法上不从属从句2;从句2在语法上不从属从句1;从句2的主题即不是指示代词也不由指示代词修饰;从句1和从句2极性一致;不存在选择:从句1的语法主题是代词”some”或有修饰词”some”从句2的主题是代词“other”或有修饰词“other”;如果从句2的语法主题是代词,那么,从句1的语法主题肯定是相同的代词;从句2没有被支配并没有包含与对比、非对称对比或详细描述关系一致的连接词。 从句1和从句2包含计数连接词(first、second、third…). 15
关系名 线索号码 条件1 条件2 得分
序列 H8 从句1在从句2之前;从句1在语法上不从属从句2;从句2在语法上不从属从句1;从句2的主题即不是指示代词也不由指示代词修饰;从句1和从句2极性一致;不存在选择:从句1的语法主题是代词”some”或有修饰词”some”,从句2的主题是代词“other”或有修饰词“other”;如果从句2的语法主题是代词,那么,从句1的语法主题肯定是相同的代词;从句2没有被支配并没有包含与对比、非对称对比或详细描述关系一致的连接词。 从句1是被动语态或包含定语性谓语,从句2是被动语态或包含定语性谓语, 10
关系名 线索号码 条件1 条件2 得分
序列 H9 从句1在从句2之前;从句1在语法上不从属从句2;从句2在语法上不从属从句1;从句2的主题即不是指示代词也不由指示代词修饰;从句1和从句2极性一致;不存在选择:从句1的语法主题是代词”some”或有修饰词”some”,从句2的主题是代词“other”或有修饰词“other”;如果从句2的语法主题是代词,那么,从句1的语法主题肯定是相同的代词;从句2没有被支配并没有包含与对比、非对称对比或详细描述关系一致的连接词。 从句2是并列结构,并列连接词是序列连接词(also、and、lastly…)。 10
关系名 线索号码 条件1 条件2 得分
序列 H10 从句1在从句2之前;从句1在语法上不从属从句2;从句2在语法上不从属从句1;从句2的主题即不是指示代词也不由指示代词修饰;从句1和从句2极性一致;不存在选择:从句1的语法主题是代词”some”或有修饰词”some”,从句2的主题是代词“other”或有修饰词“other”;如果从句2的语法主题是代词,那么,从句1的语法主题肯定是相同的代词;从句2没有被支配并没有包含与对比、非对称对比或详细描述关系一致的连接词。 从句1和从句2包含Dobj,这些Dobj的头节点是相同的主旨。 5
目的 H15 从句1是主从句,如果从句2是从属从句,那么,它必须从属从句1。 从句2是不定式从句。 5
目的 H16 从句1是主从句,如果从句2是从属从句,那么,它必须从属从句1。 从句2或任何从句2祖辈节点包括目的连接词(in-order-to、so-that)。 10
结果 H22 从句1是主从句,如果从句2是从属从句,那么,它必须从属从句1。 从句2的头节点跟随从句1的头节点;从句2是分离的-ing分词短语;如果从句2从属NP,那么,NP的父节点肯定是从句1°  15
结果 H23 从句1是主从句,如果从句2是从属从句,那么,它必须从属从句1。 从句2跟随从句1,从句2包含结果连接词(as-a-result、consequently、so…). 35
关系名 线索号码 条件1 条件2 得分
结果 H31 从句1不是主从句,或从句2是从属从句,但不从属从句1。 从句2有心理上的谓语 5
结果 H32 从句1不是主从句,或从句2是从属从句,但不从属从句1。 从句2包含结果连接      词(consequently…)。 10
结果 H33 从句1不是主从句,或从句2是从属从句,但不从属从句1。 从句2包含短语“result/ed ing/sin”。 10
结果 H34 从句1不是主从句,或从句2是从属从句,但不从属从句1。 从句2不是被动语态,从句2的谓语作为它的头节点具有需要结果的动词。 5
          表4:文体关系线索
可以从表4中看出,列在此的一组线索使得功能程序识别下述类型的文体关系:非对称对比、原因、环境、让步、条件、对比、详细描述、连接、序列(list)、目的和结果。应当注意,功能程序可以直接地对这个序列通过增加或删除线索而被改编。对于假定附加关系类型,以这种方式增加的线索可以扩展一组关系类型,以致功能程序能够在输入文本中假定和识别。
在步骤1104,对于假定当前关系的每一个线索,功能程序按次序评价与当前输入文本关联的被排序组的情况。在步骤1105,如果这组情况被满足,功能程序继续步骤1106,否则,功能程序继续步骤1109。在步骤1106,如果当前关系早已经被假定,即,该关系出现在假定的关系的序列中,那么,功能程序继续步骤1108,否则,功能程序继续步骤1107。在步骤1107,功能程序增加该关系到假定的关系的序列。步骤1107之后,功能程序继续步骤1108。在步骤1108,功能程序对当前关系增加当前线索的得分到总得分。步骤1108之后,功能程序继续步骤1109。在步骤1109,功能程序返回到步骤1103,以对当前关系处理下个线索。在处理完所有线索之后,功能程序继续步骤1110。在步骤1110,功能程序返回到步骤1102,以对当前排序的从句对处理下个关系类型。在处理完所有关系类型之后,功能程序继续步骤1111。在步骤1111,功能程序返回到步骤1101,以处理下个排序的从句对。在处理完所有的排序的从句对之后,停止处理步骤。
在图11所示的步骤应用到表3所示的从句例子中,功能程序假定了表5所示的文体关系。对于每一个假定的关系,表5显示了假定的关系的关系类型,排序从句对之间的关系被假定,条件组的线索被满足,最后,通过把条件组的线索的得分相加在一起获得的每一个假定关系,总的得分被满足。
# 名称 从句 线索和线索的基准 总数
1 详细描述 1、2 H25a:“Usually(通常)”在从句2中。H25:从句没有并列,因为“it”指代“The aardwolf(土狼)”,所以它们展示了主语的连续性。 27
 2 对比 1、3 H4:“However(然而)”在从句3中。 25
 3 详细描述 1、3 H38:从句3的语法主题由“some(某些)”修饰。H25:从句1是被动语态,从句1的Dobj与从句3的Dobj有相同的头节点(“aardwo1f(土狼)”) 20
 4 对比 2、3 H39:两个从句有相同的主动词。H4:从句3包括“however(然而)”。 35
 5 详细描述 3、4 H24:从句4包括“for example(例如)”,是紧跟从句3的句子。 35
 6 非对称对比 4、5 H2O:从句5包括“whereas”。 30
           表5:假定的关系
功能程序按照步骤203已经假定识别的从句之间的关系后,功能程序按照步骤204继续应用假定关系对样本输入文本构建一个或多个文体结构树。图12是由功能程序执行的优选步骤的流程图,以便为输入文本产生文体结构树。在步骤1201-1205,功能程序把假定的关系分离装入“袋子”以组织它们应用。分离之后,每个袋子包括所有关联(任一方向)特殊从句对的假定关系。因此,袋子被创建,用于每一个被一个或多个假定的关系关联的未排序从句对。此外,在每一个袋子内的假定关系以其得分降序排列,以及,袋子本身以其最高得分的降序排列。这个分离处理在几个方面简化了假定关系的应用。首先,把关联特殊命题对的假定关系分离装入单个袋子使得功能程序直接确保由假定关系的应用形成的每一个文体结构树包括不超过一个关联任何命题对的节点。其次,按照它们的得分排序袋子和在袋子内的假定关系并且以这种次序应用假定关系使得功能程序以可能正确性降序排列产生文体结构树。以这种方式,功能程序能够快速产生最可能正确的树。
在步骤1201-1205,功能程序通过每一个假定关系循环。对于每一个假定关系,在步骤1201,如果存在一个袋子用于假定未从句对之间的关系,那么,功能程序继续步骤1204,否则,功能程序继续步骤1203。在步骤1203,功能程序创建一个袋子用于假定未排序从句对之间的关系。步骤1203之后,功能程序继续步骤1204。在步骤1204,功能程序把当前假定关系加到袋子用于假定未排序从句对之间的关系。在步骤1205,功能程序循环回到步骤1201处理下一个假定关系。在处理完所有的假定关系之后,功能程序继续步骤1206。在步骤1206,功能程序在每一个袋子以其假定关系得分的降序排列。在步骤1207,功能程序排序袋子,以在每一个袋子中以第一个假定关系得分的降序排列,即,在每一个袋子中,以假定关系中最大得分的降序排列。表6显示了袋子排序的例子。例如,包括假定关系2和3的袋子5是从句1和3。可以看到,袋子5中的假定关系从假定关系2的得分25降到假定关系3的得分20。还可以看到,袋子的最大得分从袋子1中的假定关系的得分35降到袋子5中的假定关系2的得分25。
袋子号码 有关的从句 假定关系数(表5)和得分
    1     2和3  4:得分=35
    2     3和4  5:得分=35
    3     4和5  6:得分=30
    4     1和2  1:得分=27
    5     4和5  2:得分=25;3:得分=20
           表6:袋子的排序
在步骤1208,功能程序创建一个空文体结构树。在步骤1209,功能程序把这个空树加到输入文本内的每一个从句的终端节点。这些终端节点形成用于为输入文本产生每一树的基础。
图13是附加终端节点到树的文体结构树的示意图。在这些附加之后,树1300包括终端节点1301-1305。在每一节点中的文本的第一行识别由节点覆盖的从句组。根据定义的每一个终端节点只覆盖单个从句。例如,终端节点1301至覆盖从句1。每一节点还指明从它的覆盖从句中“伸出”的从句,或它覆盖从句中是最重要的从句之一。
在步骤1210,功能程序调用命名为结构树的递归的子程序,以便为输入文本构建所要求的文体结构树的号码。在功能程序从递归调用返回之后,构建了所要求树的号码,最后,这些步骤结束。构建树递归子程序的伪码定义显示在代码方框1中。在高层,如果允许完整的运行,则构建树将创建所有可能的与假定文体关系兼容的形成的很好的文体结构树。然而,当实际实施时,研究人员指定所要求的树的号码——通常10或20。然后,构建树产生规定号码的树或所有可能的树,无论哪一个是较小的号码。因为该算法首先产生较好的树,所以,通常不需要在文体分析者做出是似是而非的分析之前产生许多树。
构建树的递归、回溯性质防止构建大量不合适的树。例如,考虑一个虚构的5个假定R1…R5的组,其中,应用R1之后的R2导致无效的树。而不是试图通过测试所有五个假定的交换构建假定,然后,只检查树发现通过应用{R1R2R3R4R5}或{R1R2R3R5R4}等形成的树是无效的,构建树应用R1,然后R2。这样,立刻就确定了不合适子树的结果,也没有影响完成跟随头两步构建任何树。因此,甚至没有产生整个6个树,结果获得高效率。
由构建树产生的树存储在序列中。可以使用每一个树的根节点的值的属性评价一个树,因为值的属性是通过附加用于构建树的启发式的关系的得分所确定,所以,通过使用具有高启发式得分构建的树将有比使用低启发式得分的关系构建的树较大的值。理想地,构建树应当在低等级树产生之前产生高等级的树。不幸的很,构建树偶尔产生失序的树。为校正这个反常的情况,按照每一个树的根节点的值的属性将构建树产生的树的序列排序,以确保文体分析者对文本判断是最好的分析的树出现在顶部等级的树,而似是而非的分析也出现在靠近排序表的顶部。
Figure 9881186400301
代码方框1:用于构建树子程序的伪码
在应用假定关系产生树中,功能程序从袋子1开始,并试图应用第一个假定关系,关系4。这个关系指定了从句2和3之间的对比关系。功能程序检索树的当前节点,“树节点”,用于包括从句2的投射节点和包括从句3的投射节点。功能程序发现这两个节点。功能程序从树节点移动这些节点,并组合它们形成覆盖从句2和3的新节点,然后,把这个新节点加回到树节点。在这个点上,树节点包括图14给出的元素。
然后,功能程序改变其它袋子的序列,即,袋子2、3、4、5。在第一个置换中,第一个袋子是袋子2。功能程序试图应用袋子2中的第一个假定关系,假定5,该假定关系指定作为核心的从句3和作为附属的从句4的详细描述关系。功能程序在树节点中检索包括从句3的投射节点和包括从句4的投射节点。在树节点中发现了这些投射的节点。由袋子1中的第一个假定的应用产生的对比节点,包括从句3的投射节点在它的投射中也包括从句2。只有当假定关系的最初序列,“最初假定”包括作为核心的从句2和作为附属的从句4的详细描述关系时,功能程序才可以附加从句4作为这个节点的附属。因为没有这样的关系被假定,所以它没有出现在最初假定中。因此,功能程序不能够附加从句4作为这个节点的附属。
如果袋子2包括较多的假定关系,在这个阶段,功能程序就会考虑它们。因为袋子2仅包括单个关系,所以功能程序已经完成当前袋子的处理,并移到袋子3。
在袋子3中的第一个假定关系,关系6,指定一个非对称关系,用从句4作为核心,从句5作为附属。功能程序发现了包括这两个从句的投射节点。并创建了如图15所示的覆盖从句4和5的新节点。
然后,功能程序改变其它袋子的序列,即,袋子2、4、5。在第一个置换中,第一个袋子是袋子2。如上所述,尽管存在由关系指定的投射,袋子2包括不能应用的单个假定关系。因此,功能程序进到袋子4,应用关系1。关系1指定了作为核心的从句1和作为附属的从句2的详细描述关系。发现必不可少的投射节点。从句2出现在具有另一个投射的节点中,从句3。因为最初假定包括详细描述关系,从句1作为核心,从句3作为附属,如图16所示,所以功能程序构建了覆盖从句1到从句3的新节点。
然后,功能程序改变其它袋子的序列,即,袋子2和5。在第一个置换中,第一个袋子是袋子2。在树节点中,功能程序不能够发现在袋子2中覆盖从句3和4的假定关系的投射。因此,通过进一步考虑删除袋子2,功能程序剪断从当前置换得出的检索空间内的所有节点。在这个特殊例子中,袋子2包括单个假定关系,删除袋子2只剩下单个袋子,袋子5。然而,以这种方式剪断检索空间常常产生效率的基本提高。测量功能程序的执行表明剪断检索空间大约减少三分之一通过一个袋子到另一个袋子的环路的次数。
然后,功能程序移动并考虑袋子5。如同袋子2一样,功能程序不能够发现由袋子5中的假定关系指定的两个透射。因此,功能程序进一步考虑删除袋子5。因为没有袋子剩下,所以,功能程序回溯到图15的树的状态,并继续处理。最后,树节点包括图17所示的两个节点。
然后,功能程序试图从袋子4应用假定关系1。这个关系指定了作为头节点的从句1合作为附属节点的从句2的详细描述关系。在树节点的节点的透射中可以得到从句1和从句2。从句2作为也包括从句3的透射节点的透射存在。因为最初假定也包括从句1作为核心和从句3作为附属的详细描述关系,所以,功能程序结合从句1和覆盖从句2到从句5的对比节点。现在,如图18所示,树节点包括覆盖从句1到从句5的单个节点。这个节点是代表样本输入文本的文体结构树的头节点。
在步骤204,由功能程序使用构建树子程序产生的文体结构树是二叉树,在二叉树中,每一个非终端节点有两个子节点。对于代表对称关系的非终端节点,这两个子节点都是核心。另一方面,对于代表非对称关系的非终端节点,两个子节点之一是比较重要的核心,而另一个是不重要的附属。
当二叉文体结构树构成对他们产生的输入文本的文体结构的完整表达时,某些文体结构树的使用者偏爱用n叉树表达文体结构树。在n叉文体结构树中,非终端节点可以有无限个子节点。代表对称关系的非终端节点可以有任何数量的核心子节点。类似地,代表非对称关系的非终端节点有一个核心子节点,可有有任何数量的附属子节点。
图19是由功能程序执行的优选步骤的流程图,以便把二叉文体结构树转换为n叉文体结构树。在步骤1901-1907,在文体结构树的倒置遍历中,功能程序在二叉文体结构树中通过每一个终端节点循环。对于每一个终端节点,如果非终端节点有父节点,那么,功能程序继续步骤1903,否则功能程序继续步骤1907。在步骤1903,如果非终端节点代表对称关系,那么,功能程序继续步骤1904,否则非终端节点代表非对称关系,功能程序继续步骤1905。在步骤1904,当前非终端节点代表非对称关系时,如果当前非终端节点的父节点代表了与当前非终端节点相同的关系时,那么,功能程序继续步骤1906,把当前非终端节点并入它的父节点,否则,功能程序继续步骤1907。在步骤1905,其中,当前非终端节点代表非对称关系,如果父节点代表任何非对称关系,那么,功能程序继续步骤1906把当前非终端节点并入它的父节点,否则,功能程序继续步骤1907。在步骤1906中把当前非终端节点并入它的父节点之后,功能程序继续步骤1907。在步骤1907,功能程序循环回到步骤1901处理下一个文体结构树的非终端节点。在处理完文体结构树的所有非终端节点之后,二叉树被转换成为n叉树,这些步骤停止。
图20和图21是二叉文体结构树转换为n叉文体结构树的示意图。图20是样本二叉文体结构树的文体结构树的示意图。二叉文体结构树2000包括终端节点2001-2007。非终端节点2011代表作为它的核心的节点2003和作为它的附属的节点2004的结果关系。非终端节点2012代表作为它的核心的节点2011和作为它的附属的节点2005的手段关系。非终端节点2013代表作为它的核心的节点2012和作为它的附属的节点2002的详细描述关系。非终端节点2014代表作为它的核心的节点2013和作为它的附属的节点2001的环境关系。节点2015代表作为它的核心的节点2014和2006的顺序关系。最后,非终端节点2016代表作为它的核心的节点2014和2006的顺序关系。从图20可以看到,当每一个非终端节点确切地有两个子节点时,这个文体结构树是二叉文体结构树。
图21是使用来自图20的二叉文体结构树的以图19的逐渐降低的方式,功能程序构建的n叉文体结构树的文体结构树示意图。可以从图21看出,在文体结构树2100中,图20所示的非终端节点2011-2013已经被组合成为节点2014,并形成节点2114。因此,非终端节点2014代表作为它的核心的节点2103和作为它的附属的节点2104的结果关系。作为它的核心的节点2103和作为它的附属的节点2105的手段关系。作为它的核心的节点2103和作为它的附属的节点2102的详细描述关系。作为它的核心的节点2013和作为它的附属的节点2101的环境关系。此外,图20所示的非终端节点2015已经被组合进入节点2016,形成非终端节点2016。同样,非终端节点2116代表作为它的核心的节点2114、2106和2107的顺序关系。
在功能程序按照步骤205已经转换产生的二叉文体结构树成为n叉文体结构树之后,功能程序按照步骤206从最高得分的文体结构树继续产生提要。图22是由功能程序执行的优选步骤的流程图,以便产生基于由功能程序产生的最高得分的文体结构树的输入文本的提要。这些步骤使用一个称为“切断深度”的整数值确定包括在提要中的详细的级。切断深度越小,包括在提要中的详细信息越少。在步骤2201-2205,功能程序在最高得分文体结构树中以深度优先遍历的顺序通过每一个节点循环。对于每一个节点,如果节点在文体结构树中至少象切断深度一样浅,那么,功能程序继续步骤2203,否则,功能程序继续步骤2205。定义每一个节点的深度是从文体结构树的头节点分离节点的附属弧线的数。在步骤2203,如果在文体结构树中,当前节点是终端节点,那么,功能程序继续步骤2204,否则,功能程序继续步骤2203。在步骤2204,功能程序把由当前节点代表的从句的文本的提要连接在一起。在步骤2205,功能程序循环回到步骤2201,在深度优先遍历中处理下一个节点。当处理完所有节点时,提要是完整的,这些步骤停止。
如上所述,包括产生的提要的详细的级是通过选择切断深度来控制,该切断深度最好由使用者设置。表7显示对每一个可能的切断深度为样本输入文本产生的提要。可以从表7看出,用较浅的切断深度产生的提要比较简明地概括了输入文本,而用较深的切断深度产生的提要包括输入文本的详细的附加内容。
切断深度 提要
0 土狼被分类为土狼属。
1 土狼被分类为土狼属。它通常被放在鬣狗家族,鬣狗属。然而,因为在土狼和鬣狗之间某些解剖学的差别,某些专家把土狼放在不同的家族,土狼属。
2 土狼被分类为土狼属。它通常被放在鬣狗家族,鬣狗属。然而,因为在土狼和鬣狗之间某些解剖学的差别,某些专家把土狼放在不同的家族,土狼属。例如,土狼的前脚有5个脚指头。
3 土狼被分类为土狼属。它通常被放在鬣狗家族,鬣狗属。然而,因为在土狼和鬣狗之间某些解剖学的差别,某些专家把土狼放在不同的家族,土狼属。例如,土狼的前脚有5个脚指头,而鬣狗有4个。
         表7:不同切断深度产生的图要
当参考可仿效的实施例显示和论述本发明时,本领域的技术人员将理解,形式上的各种改编和变体都没有脱离本发明的范围。例如,可以使用功能程序确定样本输入文本内的文体结构,其中,终端节点的文本比在此讨论的从句大或小。同样,可以使用功能程序确定自然语言表达而不是文本的形式内的文体结构,例如,语音和视频符号,或以非文本形式表达的书写的自然语言,例如,语言数据库的参考序列。此外,功能程序可以直接使用从信息源而不是分列器得到的关于输入文本的语法和语义信息,例如,从预编译程序的语言数据库得到的语法和语义信息。

Claims (20)

1.一种自动识别文本的文体结构的方法,在计算机系统中,确定定量的得分用于反映似然性的文体结构树,以致文体结构树正确地表征包括从句的文本的文体结构,文体结构树包括代表从句的节点,节点包括终端节点和非终端节点,每一个非终端节点识别两个或多个子节点之间的文体关系,只有一个节点是根节点并且该根节点不是任何节点的子节点,方法包括步骤:
对每一个非终端节点:
确定定量的得分用于反映似然性的当前节点所代表的文体关系,以致文体关系在当前节点的子节点所代表的从句之间被正确地识别,
组合具有当前节点所代表的文体关系得分的任何非终端子节点的得分,以及,
组合的得分归属到当前的节点;以及
把根节点的得分归属到文体结构树。
2.按权利要求1所述的方法,其特征是组合的步骤包括把非终端子节点的得分与当前节点所代表的文体关系的得分相加。
3.按权利要求1所述的方法,其特征是进一步包括步骤:
对表征文本的文体结构的多个文体结构树的每一个重复列举的步骤,以把得分归到多个文体结构树中的每一个;以及,
选择具有最大得分的文体结构树作为优选的文体结构树。
4.计算机可读介质的内容引起计算机系统为自然语言表达产生一个文体结构树,该自然语言表达表征了自然语言表达的文体结构,利用与自然语言表达有关的语法信息,执行下述步骤:
在自然语言表达中,选择多个从句;
对每一个从句对,确定多个可能的文体关系的哪一个基于有关从句对的自然语言表达的语法结构的从句对之间的假定;以及
应用从句的假定关系产生表征自然语言表达的文体结构的文体结构树。
5.按权利要求4所述的计算机可读介质,其特征是计算机可读介质的内容还引起计算机系统完成接收作为文本的自然语言表达的步骤。
6.按权利要求4所述的计算机可读介质,其特征是计算机可读介质的内容还引起计算机系统完成接收作为语音的自然语言表达的步骤。
7.按权利要求4所述的计算机可读介质,其特征是计算机可读介质的内容还引起计算机系统完成接收作为视频符号的自然语言表达的步骤。
8.按权利要求4所述的计算机可读介质,其特征是确定的步骤确定了选择的从句对之间的假定的文体关系,该选择的从句对从有关的出现在选择的从句对中的词的语言数据库获得信息。
9.按权利要求4所述的计算机可读介质,其特征是,其特征是计算机可读介质的内容还引起计算机系统完成从自然语言表达产生包括由本方法利用的语法信息的语法分析结果的步骤。
10.按权利要求4所述的计算机可读介质,其特征是计算机可读介质的内容还引起计算机系统完成从自然语言表达产生包括由本方法利用的至少一部分语法信息的逻辑形式的步骤。
11.按权利要求4所述的计算机可读介质,其特征是进一步利用与自然语言表达有关的语义信息,其中,确定的步骤确定了基于有关的选择的从句对的语义信息的区别从句对之间的假定文体关系。
12.按权利要求4所述的计算机可读介质,其特征是产生的树由每一个在树中具有一个深度的节点构成,该节点包括在自然语言表达中识别的代表从句的从句节点和应用到该从句的代表关系的关系节点,其中,计算机可读介质的内容还引起计算机系统完成了产生自然语言表达的概要的步骤,该步骤是通过从自然语言表达从句中删除在树中的从句节点比预定的切断深度深的从句节点。
13.一种计算机存储器包括文体关系假定数据结构,用于从句对之间的假定文体关系,对于多个关系的每一个,数据结构包括一个或多个项目的序列,每一个项目包括:
具有一个表明应用到有关从句对的语言信息次序的条件的序列;
反映相对似然性的定量得分,以致关系正确定关联了满足条件的序列的从句对,所以,对于从句对、对于一个或多个关系、对于每一个项目,条件的序列可以应用到有关从句对的语言信息,如果条件的序列被满足,则定量得分可以组成整个相对似然性的定量得分,以致关系正确地关联了从句对。
14.按权利要求13所述的计算机存储器,其特征是每一个文体关系假定数据结构的条件的序列应用到有关从句对的语法信息。
15.按权利要求13所述的计算机存储器,其特征是每一个文体关系假定数据结构的条件的序列应用到有关从句对的语义信息。
16.按权利要求13所述的计算机存储器,其特征是每一个文体关系的条件的序列应用到有关从句对的语法信息和语义信息。
17.按权利要求13所述的计算机存储器,其特征是每一个文体关系假定数据结构的条件的序列应用到从语言数据库获得的在从句对内的有关词的信息。
18.一种装置,用于识别一个或多个出现在自然语言文本中的两个从句之间的可能的文体关系,对于多个可能的关系的每一个,包括:
存储器存储,对于多个可能的关系的每一个、一个或多个条件组,每一个条件与涉及两个从句的文本的语法结构有关;以及,
合理的关系识别子系统,对于多个可能的关系的每一个,识别可能的关系作为两个从句之间的合理关系,其中,通过涉及从句对的文本的语法结构,满足至少一个条件组的每一个条件。
19.按权利要求18所述的装置,其特征是存储器存储涉及两个从句的有关文本的语法或语义结构的条件。
20.按权利要求18所述的装置,其特征是对于确定满足每一个排序条件组,存储器还存储与代表似然性的满足排序条件组有关的定量得分,以致基于满足排序条件组的从句之间的当前可能的文体关系被正确地识别,装置还包括得分子系统,对于确定满足每一个排序条件组,该子系统把得到的定量得分加入总得分,用于当前可能的文体关系,以致在装置操作之后,识别作为合理关系的每一个关系具有代表相对似然性的总得分,由于所有的条件组都满足该关系,所以从句之间的关系被正确地识别。
CN98811864A 1997-10-20 1998-10-15 自动识别文本的文体结构的方法及装置 Expired - Fee Related CN1127030C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/954,566 US6112168A (en) 1997-10-20 1997-10-20 Automatically recognizing the discourse structure of a body of text
US08/954,566 1997-10-20

Publications (2)

Publication Number Publication Date
CN1281564A true CN1281564A (zh) 2001-01-24
CN1127030C CN1127030C (zh) 2003-11-05

Family

ID=25495626

Family Applications (1)

Application Number Title Priority Date Filing Date
CN98811864A Expired - Fee Related CN1127030C (zh) 1997-10-20 1998-10-15 自动识别文本的文体结构的方法及装置

Country Status (6)

Country Link
US (1) US6112168A (zh)
EP (1) EP1023676A1 (zh)
JP (1) JP4625178B2 (zh)
CN (1) CN1127030C (zh)
CA (1) CA2305875A1 (zh)
WO (1) WO1999021105A1 (zh)

Families Citing this family (77)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3781561B2 (ja) * 1998-08-13 2006-05-31 日本電気株式会社 自然言語解析装置、システム及び記録媒体
US6243670B1 (en) * 1998-09-02 2001-06-05 Nippon Telegraph And Telephone Corporation Method, apparatus, and computer readable medium for performing semantic analysis and generating a semantic structure having linked frames
US6415283B1 (en) * 1998-10-13 2002-07-02 Orack Corporation Methods and apparatus for determining focal points of clusters in a tree structure
US6405190B1 (en) * 1999-03-16 2002-06-11 Oracle Corporation Free format query processing in an information search and retrieval system
US6609087B1 (en) * 1999-04-28 2003-08-19 Genuity Inc. Fact recognition system
US7509572B1 (en) * 1999-07-16 2009-03-24 Oracle International Corporation Automatic generation of document summaries through use of structured text
US6834280B2 (en) 2000-02-07 2004-12-21 Josiah Lee Auspitz Systems and methods for determining semiotic similarity between queries and database entries
JP2004501429A (ja) * 2000-05-11 2004-01-15 ユニバーシティ・オブ・サザン・カリフォルニア 機械翻訳技法
US20020042707A1 (en) * 2000-06-19 2002-04-11 Gang Zhao Grammar-packaged parsing
US7013259B1 (en) * 2000-06-30 2006-03-14 Fuji Xerox Co., Ltd. System and method for teaching writing using microanalysis of text
US7219332B2 (en) * 2000-07-07 2007-05-15 Microsoft Corporation Configuring software components(merge) with transformation component using configurable and non-configurable data elements
US6961692B1 (en) * 2000-08-01 2005-11-01 Fuji Xerox Co, Ltd. System and method for writing analysis using the linguistic discourse model
US7069207B2 (en) * 2001-01-26 2006-06-27 Microsoft Corporation Linguistically intelligent text compression
US7519529B1 (en) * 2001-06-29 2009-04-14 Microsoft Corporation System and methods for inferring informational goals and preferred level of detail of results in response to questions posed to an automated information-retrieval or question-answering service
US7409335B1 (en) 2001-06-29 2008-08-05 Microsoft Corporation Inferring informational goals and preferred level of detail of answers based on application being employed by the user
US7295966B2 (en) * 2002-01-14 2007-11-13 Microsoft Corporation System for normalizing a discourse representation structure and normalized data structure
US7177799B2 (en) * 2002-01-14 2007-02-13 Microsoft Corporation Semantic analysis system for interpreting linguistic structures output by a natural language linguistic analysis system
US7305336B2 (en) * 2002-08-30 2007-12-04 Fuji Xerox Co., Ltd. System and method for summarization combining natural language generation with structural analysis
JP2004110161A (ja) * 2002-09-13 2004-04-08 Fuji Xerox Co Ltd テキスト文比較装置
JP4038717B2 (ja) * 2002-09-13 2008-01-30 富士ゼロックス株式会社 テキスト文比較装置
US20040133579A1 (en) * 2003-01-06 2004-07-08 Richard Gordon Campbell Language neutral syntactic representation of text
US6980949B2 (en) 2003-03-14 2005-12-27 Sonum Technologies, Inc. Natural language processor
US20040243531A1 (en) * 2003-04-28 2004-12-02 Dean Michael Anthony Methods and systems for representing, using and displaying time-varying information on the Semantic Web
US20050033750A1 (en) * 2003-08-06 2005-02-10 Sbc Knowledge Ventures, L.P. Rhetorical content management system and methods
US7296027B2 (en) * 2003-08-06 2007-11-13 Sbc Knowledge Ventures, L.P. Rhetorical content management with tone and audience profiles
US7593845B2 (en) * 2003-10-06 2009-09-22 Microsoflt Corporation Method and apparatus for identifying semantic structures from text
US7596485B2 (en) * 2004-06-30 2009-09-29 Microsoft Corporation Module for creating a language neutral syntax representation using a language particular syntax tree
US7584103B2 (en) * 2004-08-20 2009-09-01 Multimodal Technologies, Inc. Automated extraction of semantic content and generation of a structured document from speech
US7702500B2 (en) * 2004-11-24 2010-04-20 Blaedow Karen R Method and apparatus for determining the meaning of natural language
US7421651B2 (en) * 2004-12-30 2008-09-02 Google Inc. Document segmentation based on visual gaps
US8280719B2 (en) * 2005-05-05 2012-10-02 Ramp, Inc. Methods and systems relating to information extraction
US20060256937A1 (en) * 2005-05-12 2006-11-16 Foreman Paul E System and method for conversation analysis
RU2005124030A (ru) * 2005-07-28 2007-02-10 Александр Михайлович Юров (RU) Способ визуальной адресации команд в дереве
US20070067155A1 (en) * 2005-09-20 2007-03-22 Sonum Technologies, Inc. Surface structure generation
US8560314B2 (en) 2006-06-22 2013-10-15 Multimodal Technologies, Llc Applying service levels to transcripts
US8131536B2 (en) * 2007-01-12 2012-03-06 Raytheon Bbn Technologies Corp. Extraction-empowered machine translation
US7890539B2 (en) 2007-10-10 2011-02-15 Raytheon Bbn Technologies Corp. Semantic matching using predicate-argument structure
US8959102B2 (en) 2010-10-08 2015-02-17 Mmodal Ip Llc Structured searching of dynamic structured document corpuses
US8620836B2 (en) * 2011-01-10 2013-12-31 Accenture Global Services Limited Preprocessing of text
US8504492B2 (en) 2011-01-10 2013-08-06 Accenture Global Services Limited Identification of attributes and values using multiple classifiers
US8924394B2 (en) 2011-02-18 2014-12-30 Mmodal Ip Llc Computer-assisted abstraction for reporting of quality measures
EP2915068A4 (en) * 2012-11-02 2016-08-03 Fido Labs Inc METHOD AND SYSTEM FOR NATURAL LANGUAGE PROCESSING
US9727619B1 (en) 2013-05-02 2017-08-08 Intelligent Language, LLC Automated search
US9471561B2 (en) * 2013-12-26 2016-10-18 International Business Machines Corporation Adaptive parser-centric text normalization
JP6499537B2 (ja) * 2015-07-15 2019-04-10 日本電信電話株式会社 接続表現項構造解析装置、方法、及びプログラム
US10133724B2 (en) * 2016-08-22 2018-11-20 International Business Machines Corporation Syntactic classification of natural language sentences with respect to a targeted element
US10394950B2 (en) * 2016-08-22 2019-08-27 International Business Machines Corporation Generation of a grammatically diverse test set for deep question answering systems
US10679011B2 (en) 2017-05-10 2020-06-09 Oracle International Corporation Enabling chatbots by detecting and supporting argumentation
US11586827B2 (en) 2017-05-10 2023-02-21 Oracle International Corporation Generating desired discourse structure from an arbitrary text
US11386274B2 (en) 2017-05-10 2022-07-12 Oracle International Corporation Using communicative discourse trees to detect distributed incompetence
US10817670B2 (en) * 2017-05-10 2020-10-27 Oracle International Corporation Enabling chatbots by validating argumentation
US10796102B2 (en) 2017-05-10 2020-10-06 Oracle International Corporation Enabling rhetorical analysis via the use of communicative discourse trees
US11373632B2 (en) 2017-05-10 2022-06-28 Oracle International Corporation Using communicative discourse trees to create a virtual persuasive dialogue
US10599885B2 (en) 2017-05-10 2020-03-24 Oracle International Corporation Utilizing discourse structure of noisy user-generated content for chatbot learning
US11615145B2 (en) 2017-05-10 2023-03-28 Oracle International Corporation Converting a document into a chatbot-accessible form via the use of communicative discourse trees
US10839154B2 (en) 2017-05-10 2020-11-17 Oracle International Corporation Enabling chatbots by detecting and supporting affective argumentation
US10839161B2 (en) 2017-06-15 2020-11-17 Oracle International Corporation Tree kernel learning for text classification into classes of intent
US11100144B2 (en) 2017-06-15 2021-08-24 Oracle International Corporation Data loss prevention system for cloud security based on document discourse analysis
US11138195B2 (en) * 2017-08-31 2021-10-05 Salesforce.Com, Inc. Systems and methods for translating n-ary trees to binary query trees for query execution by a relational database management system
US11182412B2 (en) * 2017-09-27 2021-11-23 Oracle International Corporation Search indexing using discourse trees
EP3688609A1 (en) * 2017-09-28 2020-08-05 Oracle International Corporation Determining cross-document rhetorical relationships based on parsing and identification of named entities
US11809825B2 (en) 2017-09-28 2023-11-07 Oracle International Corporation Management of a focused information sharing dialogue based on discourse trees
CN116992859A (zh) 2017-09-28 2023-11-03 甲骨文国际公司 使自主代理能够区分问题和请求
US11537797B2 (en) * 2017-12-25 2022-12-27 Koninklijke Philips N.V. Hierarchical entity recognition and semantic modeling framework for information extraction
CN111670435A (zh) 2018-01-30 2020-09-15 甲骨文国际公司 使用交流话语树来检测对解释的请求
US11537645B2 (en) 2018-01-30 2022-12-27 Oracle International Corporation Building dialogue structure by using communicative discourse trees
US10956670B2 (en) 2018-03-03 2021-03-23 Samurai Labs Sp. Z O.O. System and method for detecting undesirable and potentially harmful online behavior
US11328016B2 (en) 2018-05-09 2022-05-10 Oracle International Corporation Constructing imaginary discourse trees to improve answering convergent questions
US11455494B2 (en) 2018-05-30 2022-09-27 Oracle International Corporation Automated building of expanded datasets for training of autonomous agents
US10467344B1 (en) 2018-08-02 2019-11-05 Sas Institute Inc. Human language analyzer for detecting clauses, clause types, and clause relationships
US11449682B2 (en) 2019-08-29 2022-09-20 Oracle International Corporation Adjusting chatbot conversation to user personality and mood
US11556698B2 (en) * 2019-10-22 2023-01-17 Oracle International Corporation Augmenting textual explanations with complete discourse trees
US11580298B2 (en) 2019-11-14 2023-02-14 Oracle International Corporation Detecting hypocrisy in text
US11775772B2 (en) * 2019-12-05 2023-10-03 Oracle International Corporation Chatbot providing a defeating reply
US11494560B1 (en) * 2020-01-30 2022-11-08 Act, Inc. System and methodology for computer-facilitated development of reading comprehension test items through passage mapping
US11822892B2 (en) * 2020-12-16 2023-11-21 International Business Machines Corporation Automated natural language splitting for generation of knowledge graphs
US20230133843A1 (en) * 2021-11-03 2023-05-04 iSchoolConnect Inc. Machine learning system for analyzing the quality and efficacy of essays for higher education admissions

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4887212A (en) * 1986-10-29 1989-12-12 International Business Machines Corporation Parser for natural language text
US4914590A (en) * 1988-05-18 1990-04-03 Emhart Industries, Inc. Natural language understanding system
US5377103A (en) * 1992-05-15 1994-12-27 International Business Machines Corporation Constrained natural language interface for a computer that employs a browse function
US5528491A (en) * 1992-08-31 1996-06-18 Language Engineering Corporation Apparatus and method for automated natural language translation
US5642520A (en) * 1993-12-07 1997-06-24 Nippon Telegraph And Telephone Corporation Method and apparatus for recognizing topic structure of language data
US5794050A (en) * 1995-01-04 1998-08-11 Intelligent Text Processing, Inc. Natural language understanding system
US5694523A (en) * 1995-05-31 1997-12-02 Oracle Corporation Content processing system for discourse
DE69518326T2 (de) * 1995-10-13 2001-01-18 St Microelectronics Srl Niederspannungsneuronalnetzwerk mit sehr niedrigem Leistungsverbrauch

Also Published As

Publication number Publication date
WO1999021105A1 (en) 1999-04-29
WO1999021105A9 (en) 1999-07-08
JP4625178B2 (ja) 2011-02-02
CN1127030C (zh) 2003-11-05
US6112168A (en) 2000-08-29
CA2305875A1 (en) 1999-04-29
EP1023676A1 (en) 2000-08-02
JP2001523019A (ja) 2001-11-20

Similar Documents

Publication Publication Date Title
CN1127030C (zh) 自动识别文本的文体结构的方法及装置
Dey et al. Opinion mining from noisy text data
CN110489760A (zh) 基于深度神经网络文本自动校对方法及装置
US20030149692A1 (en) Assessment methods and systems
US20050086222A1 (en) Semi-automatic construction method for knowledge base of encyclopedia question answering system
EP1508861A1 (en) Method for synthesising a self-learning system for knowledge acquisition for text-retrieval systems
Curto et al. Question generation based on lexico-syntactic patterns learned from the web
Morgan et al. University of Durham: Description of the LOLITA System as Used in MUC-6.
CN112395395B (zh) 文本关键词提取方法、装置、设备及存储介质
EP3483747A1 (en) Preserving and processing ambiguity in natural language
Tesfaye A rule-based Afan Oromo Grammar Checker
Cahill et al. Wide-coverage deep statistical parsing using automatic dependency structure annotation
CN115048944A (zh) 一种基于主题增强的开放域对话回复方法及系统
CN1224954C (zh) 含有固定和可变语法块的语言模型的语音识别装置
Ogrodniczuk et al. Rule-based coreference resolution module for Polish
Michelbacher Multi-word tokenization for natural language processing
Wilson The creation of a corpus of English metalanguage
CN1273915C (zh) 修改或改进词语使用的方法和装置
Vicente et al. Statistical language modelling for automatic story generation
WO1999021104A1 (en) Automatically recognizing the discourse structure of a body of text
WO1999021106A1 (en) Automatically recognizing the discourse structure of a body of text
Di Fabbrizio et al. Referring expression generation using speaker-based attribute selection and trainable realization (ATTR)
da Silva Robust handling of out-of-vocabulary words in deep language processing
Ye et al. Semantic role labelling of prepositional phrases
Rehbein Treebank-based grammar acquisition for German

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20031105

Termination date: 20141015

EXPY Termination of patent right or utility model