CN1463420A - 词序列输出设备 - Google Patents

词序列输出设备 Download PDF

Info

Publication number
CN1463420A
CN1463420A CN02801755A CN02801755A CN1463420A CN 1463420 A CN1463420 A CN 1463420A CN 02801755 A CN02801755 A CN 02801755A CN 02801755 A CN02801755 A CN 02801755A CN 1463420 A CN1463420 A CN 1463420A
Authority
CN
China
Prior art keywords
unit
word sequence
output
message handler
robot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN02801755A
Other languages
English (en)
Other versions
CN1221936C (zh
Inventor
狩谷真一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN1463420A publication Critical patent/CN1463420A/zh
Application granted granted Critical
Publication of CN1221936C publication Critical patent/CN1221936C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Abstract

一种用于输出动人的合成语音的词序列输出设备。文本产生部分(31)根据行为命令信息产生用作来自各文本的合成语音的口语文本,即其中包含的词序列。情绪检查部分(39)检查情绪模型值,并且基于该情绪模型值确定是否引起机器人的情绪。如果判断该机器人的情绪被引起,情绪检查部分(39)指令文本产生部分(31)改变词序。文本产生部分(31)根据情绪检查部分(39)的指令改变口语文本的词序。如果口语文本是例如“Kimi-wa kireida”,将该词序改变为:“Kireida kimi-wa”。本发明能够应用于输出合成语音的机器人。

Description

词序列输出设备
技术领域
本发明涉及一种词序列输出设备。本发明尤其涉及用于实现通过改变词序列的词序,以由语音合成器基于娱乐机器人的情绪状态合成的语音的形式形成一句子输出,执行在情绪上有表现力的语音的机器人的一种词序列输出设备。
背景技术
例如,公知的语音合成器基于文本或者通过分析该文本获得的发音符号产生合成语音。
最近,已经建议了包括一语音合成器以便对用户说话并且执行与用户的交谈(对话)的一种宠物型宠物机器人。
另外,已经建议了具有用于表达情绪状态的情绪模型的一种宠物机器人。该类型机器人取决于由该情绪模型指示的情绪状态遵从或者不遵从该用户的命令。
相应地,如果合成语音能够根据情绪模型改变,则能够根据该情绪输出合成语音,并且由此能够开发宠物机器人的娱乐特征。
发明内容
已经考虑到这些状况作了本发明,并且本发明的目的是输出在情绪上富于表情的语音。
本发明的词序列输出设备包括:输出部件,用于根据信息处理器的控制输出词序列;以及改变部件,用于基于信息处理器的内部状态改变由所述输出部件输出的词序列的词序。
本发明的输出词序列的方法包括:输出步骤,用于根据信息处理器的控制输出一词序列;以及改变步骤,用于基于所述信息处理器的内部状态改变在所述输出步骤中输出的词序列的词序。
本发明的程序包括:输出步骤,用于根据信息处理器的控制输出词序列;以及改变步骤,用于基于所述信息处理器的内部状态改变在所述输出步骤中输出的词序列的词序。
本发明的记录介质包含一程序,该程序包括:输出步骤,用于根据信息处理器的控制输出词序列;以及改变步骤,用于基于信息处理器的内部状态改变在所述输出步骤中输出的词序列的词序。
在本发明中,所述词序列是根据信息处理器的控制输出的。在另一方面,输出的词序列的词序是基于信息处理器的内部状态改变的。
附图说明
图1是示出根据本发明的一实例的机器人的外部结构的一例子的透视图;
图2是示出所述机器人的内部结构的一例子的方框图;
图3是示出控制器10的功能结构的一例子的方框图;
图4是示出语音合成器55的结构的一例子的方框图;
图5是用于说明由语音合成器55执行的合成语音的处理的流程图;
图6是示出根据本发明的一实例的计算机结构的一例子的方框图。
具体实施方式
图1示出根据本发明的一实例的机器人的外部结构的一例子。图2示出其电气结构。
在本实例中,机器人是诸如狗的四腿动物的形式。腿单元3A、3B、3C、以及3D分别连接在身体单元2的两侧的前后,并且头单元4和尾单元5分别连接在身体单元2的前后端。
尾单元5从配置在所述身体单元2的上表面上的基部5B以两个自由度伸出,使得该尾单元能够被弯曲或者摆动。
身体单元2容纳了:控制器,用于控制整个机器人;电池11,充作该机器人的电源;以及内部传感器单元14,包括电池传感器12和热传感器13。
头单元4包括:对应于耳的麦克风15;对应于眼的电荷耦合器件(CCD)摄像机16;对应于触觉的触摸传感器17;以及对应于嘴的扬声器18;它们是在预定位置提供的。另外,对应于嘴的下颚的下颚部4A带有一个自由度,可移动地连接头单元4上。当下颚部4A移动时,机器人的嘴张开或者闭合。
如图2所示,致动器3AA1至3AAK、3BA1至3BAK、3CA1至3CAK、3DA1至3DAK、4A1至4AL、以及5A1及5A2分别配置在腿单元3A至3D的关节、在腿单元3A至3D与身体单元2之间的关节、在头单元4和身体单元2之间的关节、在头单元4和下颚部4A之间的关节、以及在尾单元5和身体单元2之间的关节上。
在头单元4中的麦克风15采集包括用户2的语音的环境话音(声音),并且输出获得的语音信号到控制器10。CCD摄像机16采集环境的图象并且输出获得的图象信号到控制器10。
触觉传感器17配置在例如头单元4的上部。触觉传感器17检测由用户的诸如轻拍或者打击的身体动作产生的压力,并且作为压力检测信号输出该检测结果到控制器10上。身体单元2中的电池传感器12检测在电池11中的剩余电量,并且输出该检测结果作为剩余电量检测信号到控制器10上。热传感器13检测在机器人内部的热并且输出该检测结果作为一热检测信号到控制器10。
控制器10包括中央处理单元(CPU)10A和存储器10B。CPU 10A执行存储在存储器10B中的控制程序,以便执行各种处理。
即,控制器10基于从麦克风15、CCD摄像机16、触觉传感器17、电池传感器12、以及热传感器13中提供的语音信号、图象信号、压力检测信号、剩余电量检测信号、以及热检测信号,来检测环境状态、来自用户的命令、以及该用户的动作。
另外,控制器10基于该检测结果等决定相继的动作,并且基于该决定驱动致动器3AA1至3AAK、3BA1至3BAK、3CA1至3CAK、3DA1至3DAK、4A1至4AL、5A1及5A2中的需要的致动器。相应地,头单元4能够从一侧到另一侧以及上下摇晃,并且下颚部4A能够张开和闭合。另外,控制器10允许机器人动作,例如通过移动尾单元5并且驱动每个腿单元3A至3D来行走。
另外,控制器10根据要求产生合成语音以便该合成语音会提供到扬声器18上并且输出,并且接通/关断或者闪动配置在机器人的眼睛位置上的发光二极管(LED)(未示出)。
以此方式,该机器人基于环境状态等自主地动作。
偶然地,存储器10B能够由能够容易地连接和拆去的诸如Memory Stick存储卡形成。
图3示出了图2中示出的控制器10的功能结构的例子。图3中示出的该功能结构是在CPU 10A执行存储于存储器10B中的控制程序时实现的。
控制器10包括:传感器输入处理器50,用于识别特定的外部状态;模型存储单元51,用于累积由传感器输入处理器50产生的识别结果,以便表达情绪、本能、以及成长的状态;动作决定单元52,用于基于由传感器输入处理器50产生的识别结果决定相继的动作;姿态改变单元53,用于允许机器人基于由所述动作决定单元52产生的决定去动作;控制单元54,用于驱动和控制致动器3AA1至5A1及5A2中的每一个;以及语音合成器55,用于产生合成语音。
传感器输入处理器50基于从麦克风15、CCD摄像机16、触觉传感器17中提供的语音信号、图象信号、压力检测信号来识别特定所外部状态、特定的用户动作、来自用户的命令等。另外,传感器输入处理器50将指示该识别结果的状态识别信息告知给模型存储单元51和动作决定单元52。
即,该传感器输入处理器50包括基于从麦克风15中提供的语音信号识别语音的语音识别单元50A。接着,该语音识别单元50A将从语音识别结果中产生的作为状态识别信息的例如“行走”、“躺下”、以及“追逐球”的命令告知模型存储单元51和动作决定单元52。
另外,该传感器输入处理器50包括通过使用从CCD摄像机16提供的图象信号执行图象识别处理的图象识别单元50B。接着,在所述处理之后,图象识别单元50B将当该图象识别单元50B检测例如“红的和圆的物体”以及“垂直于地面并且具有比预定水平高的高度的平面”时诸如“这有球”、“这有墙”的图象识别结果作为状态识别信息告知模型存储单元51和动作决定单元52。
而且,传感器输入处理器50包括处理从触觉传感器17中提供的压力检测信号的压力处理器50C。接着,在所述处理之后,该压力处理器50C识别当它检测其级别在预定阈值或更高的短时间压力时的“我被打了(被训斥了)”,以及识别当它检测其级别低于预定阈值时的长时间压力时的“我被轻拍了(被表扬了)”。还有,压力处理器50C将该识别结果作为状态识别信息告知给模型存储单元51和动作决定单元52。
模型存储单元51存储和管理分别表示该机器人的情绪、本能以及成长的情绪模型、本能模型、以及成长模型。
其中,情绪模型表示具有在预定范围(例如,-1.0至1.0)内的值的诸如“高兴”、“悲伤”、“愤怒”、“愉快”的情绪的状态(级别(level)),并且根据从所述传感器输入处理器50发送的状态识别信息以及流逝时间改变该值。本能模型表示来自诸如“胃口”、“睡眠本能”、以及“运动本能”的本能的需要、具有在预定范围内的值的状态级别,并且根据从所述传感器输入处理器50发送的状态识别信息以及流逝时间改变该值。成长模型表示诸如“幼年”、“成年”、“中年”、以及“老年”的成长、具有在预定范围内的值的状态(级别),并且根据从所述传感器输入处理器50发送的状态识别信息以及流逝时间改变该值。
模型存储单元51输出状态信息,即,由情绪模型、本能模型、以及成长模型指示的情绪、本能、以及成长的状态到动作决定单元52上。
状态识别信息从传感器输入处理器50中提供到模型存储单元51上。还有,指示机器人的当前或者过去动作的例如“我走了很长时间”的动作信息从动作决定单元52提供到模型存储单元51上。由此,即使提供了相同的状态识别信息,模型存储单元51根据由动作信息指示的机器人的动作产生不同的状态。
即,例如,当机器人致意用户以及当该用户轻拍该机器人头时,指示该机器人致意该用户的动作信息和指示该机器人被轻拍了的状态识别信息传送到模型存储单元51上。在此时,表示“高兴”的情绪模型的值在模型存储单元51中增加了。
在另一方面,当在机器人工作时轻拍它的头部时,指示该机器人正在工作的动作信息和指示轻拍该机器人的头部的状态识别信息传送到模型存储单元51上。在此时,表示“高兴”的情绪模型的值在该模型存储单元51中没有变化。
以此方式,模型存储单元51通过参考指示该机器人的当前或者过去动作的动作信息以及状态识别信息来设置该情绪模型的值。相应地,例如,当机器人在作任务时用户轻拍机器人的头部开玩笑时,表示“高兴”的情绪模型的值没有增加,并且由此能够防止在情绪上的不自然的变化。
另外,模型存储单元51还如在情绪模型中那样基于状态识别信息和动作信息两者增加或者减少所述本能模型和成长模型的值。另外,模型存储单元51基于其它模型的值增加或者减少所述情绪模型、本能模型以及成长模型的每一个的值。
动作决定单元52基于从传感器输入处理器50发送的状态识别信息、从模型存储单元51发送的状态信息、流逝的时间等决定相继的动作。另外,动作决定单元52输出所确定动作的内容作为动作命令信息到姿态改变单元53。
即,动作决定单元52管理其中由该机器人作的动作与状态相关的受限自动操作(automation),作为用于指定该机器人动作的动作模型。另外,动作决定单元52基于从传感器输入处理器50发送的状态识别信息、在模型存储单元51中的情绪模型、本能模型、或者成长模型的值、流逝时间等改变在该受限自动机器中的状态作为动作模型,并且接着决定作为对应于所述改变之后的状态的动作的相继动作。
这里,当动作决定单元52检测预定的触发器时,它改变该状态。即,当自从对应于当前状态的动作开始已经过预定时间、当动作决定单元52接收特定状态识别信息、以及当由从模型存储单元51提供的状态信息指示的情绪、本能、以及成长的状态的值达到预定阈值或者超过该阈值、或者减少为低于该阈值时,动作决定单元52改变该状态。
如上所述,动作决定单元52基于模型存储单元51的情绪模型、本能模型、以及成长模型的值以及基于从传感器输入处理器50发送的状态识别信息改变在动作模型中的状态。由此,当相同状态识别信息输入到动作决定单元52时,所改变的状态取决于情绪模型、本能模型、以及成长模型的值(状态信息)可以是不同的。
结果,当该状态信息指示“我不愤怒”以及“我不饥饿”时,以及当该状态信息指示“一只手伸在眼睛前”时,动作决定单元52产生用于允许该机器人根据一只手伸在眼睛前的该状态产生动作命令信息,并且输出该动作命令信息到姿态改变单元53上。
另外,当该状态信息指示“我不愤怒”以及“我饥饿”时,以及当该状态信息指示“一只手伸在眼睛前”时,动作决定单元52产生用于允许该机器人根据一只手伸在眼睛前的该状态去“舔该手”的动作命令信息,并且输出该动作命令信息到姿态改变单元53上。
另外,当该状态信息指示“我愤怒”时,以及当该状态信息指示“一只手伸在眼睛前”时,动作决定单元52产生用于允许该机器人即使当该状态信息指示“我饥饿”或者“我不饥饿”时也去“摇摆头”,并且输出该打命令信息到姿态改变单元53上。
动作决定单元52能够基于由从模型存储单元51提供的状态信息指示的情绪、本能、以及成长的状态决定对应于该改变状态的动作的参数,例如,步行速度、移动手掌和腿的方式及其速度。在此情况中,包括所述参数的动作命令信息会输出到姿态改变单元53上。
另外,如上所述,动作决定单元52产生用于允许该机器人说话的动作命令信息以及用于移动该机器人的头、手掌、腿等的动作命令信息。用于允许机器人说话的动作命令信息会发送到语音合成器55上。提供到语音合成器55的动作命令信息包括对应于在语音合成器55中产生的合成语音的文本。当语音合成器55从动作决定单元52中接收动作命令信息时,它基于包括在该动作命令信息中的文本产生合成语音,并且提供该合成语音到扬声器18上以便输出该语音。相应地,机器人的话音;对该用户的各种要求,例如“我饿了”;对该用户的响应,例如,“什么?”等会从扬声器18输出。这里,语音合成器55还从模型存储单元51中接收状态信息。由此,语音合成器55通过基于由该状态信息指示的情绪状态执行各种控制能够产生合成语音。
另外,语音合成器55能够通过基于本能或者本能的状态、以及情绪执行各种控制产生合成语音。当输出合成语音时,动作决定单元52产生用于根据需要张开和闭合下颚部4A的动作命令信息,并且输出该动作命令信息到姿态改变单元53。在此时,下颚部4A同步于合成语音的输出张开和闭合。由此,用户接收该机器人在说话的印象。
姿态改变单元53基于从动作决定单元52中提供的动作命令信息产生用于改变机器人的当前姿态的信息到下一姿态的姿态改变信息,并且输出该姿态改变信息到控制单元54上。
这里,能够被实现的下一姿态是根据机器人的诸如身体、手掌以及腿的形状和重量的物理形状、以及在所述单元之间的连接状态、以及致动器3AA1至5A1及5A2的诸如弯曲关节的方向和角度的机制而决定的。
还有,该下一姿态包括能够通过直接改变当前姿态而实现的姿态以及通过直接改变当前姿态不能够实现的姿态。例如,其胳膊和腿伸展地躺着的四腿机器人能够直接地通过躺倒改变其姿态。然而,该躺的姿态不能够直接改变为站立姿态。为了将该躺的姿态改变为站立姿态,需要两步。即,该机器人首先通过将它的手掌和腿拉近身体躺倒,并且接着站立。还有,存在不能够安全地实现的姿态。例如,当四腿站立的该四腿机器人试图举起前两腿以便欢呼时,该机器人容易跌倒。
相应地,能够通过直接改变前一姿态实现的姿态被预先寄存在姿态改变单元53中。当从动作决定单元52中提供的动作命令信息指示通过直接改变当前姿态能够实现的姿态时,动作命令信息会按照原来的样子输出到控制单元54上作为姿态改变信息。在另一方面,当动作命令信息指示不能够通过直接改变当前状态实现的一姿态时,姿态改变单元53产生姿态改变信息以便当前姿态被改变到另一姿态,并且接着所要求的姿态能够得以实现,并且输出该姿态改变信息到控制单元54上。相应地,该机器人不能够强力地采取不能够通过直接改变当前状态实现的一姿态,并且由此能够防止该机器人的跌倒。
控制单元54根据从姿态改变单元53发送的姿态改变信息产生用于驱动致动器3AA1至5A1及5A2的控制信号,并且输出该控制信号到3AA1至5A1及5A2上。相应地,致动器3AA1至5A1及5A2会根据控制信号受到驱动,并且该机器人自主地动作。
图4示出了在图3中示出的语音合成器55的结构的一例子。
从动作决定单元52输出和包括用于语音合成的文本的动作命令信息会提供到文本产生单元31上。该文本产生单元31通过参考字典存储单元36和语法存储单元37分析包括在该动作命令信息中的文本。
即,字典存储单元36存储包括诸如关于词的语音、发音以及重音部分的信息的信息的字典。语法存储单元37存储诸如关于包括在字典存储单元36中存储的字典中的词的词链的约束的语法规则。文本产生单元31基于该字典和该语法规则分析该输入文本的词素和句子结构。接着,文本产生单元31提取按在下阶段在合成单元32中执行的规则的语音合成所需的信息。这里,按规则执行语音合成要求的信息包括韵律学信息,诸如用于控制顿号、重音、以及语调的位置的信息,以及诸如词的发音的音位信息。
在文本产生单元31中获得的信息会提供到合成单元32上,合成单元32通过利用音素存储单元38产生对应于输入到文本产生单元31的文本的合成语音的语音数据(数字数据)。
即,音素存储单元38以例如CV(辅音-元音)、VCV、以及CVC的形式存储音素数据。合成单元32基于来自文本产生单元31的信息连接所要求的音素数据,并且恰当地添加顿号、重音、以及语调等,以便产生对应于输入到文本产生单元31上的文本的合成语音数据。
该语音数据会提供到数据缓冲器33上。数据缓冲器33存储从合成单元32提供的合成语音数据。
输出控制单元34控制存储于数据缓冲器33的合成语音数据的读取。
即,输出控制单元34在下阶段中同步于数字-模拟(DA)转换器35,从数据合成器33中读取合成语音数据,并且提供该数据到DA转换器35上。DA转换器35将作为数字信号的合成语音数据DA转换为作为模拟信号的语音信号,并且提供该语音信号到扬声器18。相应地,输出对应于输入到文本产生单元31上的文本的合成语音。
情绪检查单元39规则地或者不规则地检查存储于模型存储单元51中的情绪模型的值(情绪模型值),并且提供该结果到文本产生单元31和合成单元32上。文本产生单元31和合成单元32考虑从情绪检查单元39提供的情绪模型值执行处理。
接着,将参考图5中示出的流程图描述由图4中示出的语音合成器55执行的合成语音的处理。
当动作决定单元52输出包括用于语音合成文本的动作命令信息到语音合成器55时,在步骤S1中文本产生单元31接收动作命令信息,并且该处理进入到步骤S2。在步骤S2中,情绪检查单元39通过参考模型存储单元51识别(检查)情绪模型值。该情绪模型值从情绪检查单元39中提供到文本产生单元31和合成单元32上使得处理进入到步骤S3。
在步骤S3中,文本产生单元31基于情绪模型值设置用于从包括在从动作决定单元52中发送的动作命令信息中的文本中产生要实际作为合成语音输出的文本(在下文中称为口语文本)的词汇表(口语词汇表),并且处理进入到步骤S4。在步骤S4中,文本产生单元31通过利用在步骤S3中设置的口语词汇表产生对应于包括在动作命令信息中的文本的口语文本。
即,包括在从动作决定单元52中发送的动作命令信息中的文本是以例如正常情绪状态中的语音为前提的。在步骤S4中,该文本是考虑机器人的情绪状态而修改的以便产生口语文本。
更具体地,当包括在动作命令信息中的文本是“什么?”时,以及当该机器人愤怒时,产生了用于表达该愤怒的口语文本“什么?”。当包括在动作命令信息中的文本是“请停止。”以及当该机器人愤怒时,产生用于表达该愤怒的口语文本“停止!”。
接着,处理进入到步骤S5,情绪检查单元39确定该机器人的情绪是否是基于在步骤S2中识别的情绪模型值引起的。
即,如上所述,情绪模型值表示诸如“高兴”、“悲伤”、“愤怒”、以及“愉快”的、带有一在预定范围内的值的情绪的状态(级别)。由此,当该情绪之一的值高时,可以认为会引起该情绪。相应地,在步骤S5中,通过将每种情绪的情绪模型值与预定阈值比较能够确定是否引起该机器人的情绪。
当在步骤S5中确定引起该情绪时,处理进入到步骤S6,在这里情绪检查单元39将用于指令组成口语文本的词序的改变的改变信号输出到文本产生单元31。
在此情形中,文本产生单元31基于来自情绪检查单元39的改变信号改变组成口语文本的词序列的次序,以便该口语文本的谓语位于该句子的前头。
例如,当口语文本是否定句:“Watashi wa yatte imasen.”(我没做它)时,文本产生单元31改变该词序并且造一句子:“Yatte imasen,watashi wa.”(不是我做的)。还有,当口语文本是表达愤怒的“Anata wa nan to iu koto osuru no desuka?”(你在干什么!?)时,文本产生单元31改变该词序并且造一句子:“Nan to iu koto o suru no desuka,anata wa?”(在干什么,你!?)。还有,当口语文本是表达同意的“Watashi mo sore ni sansei desu.”(我也同意它)时,文本产生单元31改变该词序并且造一句子:“Sanseidesu,watashi mo sore ni.”(我同意它,我确实同意)。还有,当口语文本是表达赞扬的“Kimi wa kirei da.”(你是美丽的)时。文本产生单元31改变该词序并且造一句子:“Kirei da,kimi wa.”(你是美丽的,确实美丽)。
如上所述,当口语文本的词序改变以便将谓语放置在该句子的前头时,该谓语受到强调。由此,能够获得用于给出表达了一种与在改变之前的口语文本相比较的强烈情绪的印象的口语文本。
改变词序的方法不限于上述方法。
在步骤S6中改变口语文本的词序之后,处理进入到步骤S7。
在另一方面,当在步骤S5中确定未引起该情绪时,跳过步骤S6并且处理进入到步骤S7。由此,在此情形中,口语文本的词序未被改变并且保留它原来的样子。
在步骤S7中,文本产生单元31执行关于口语文本的诸如语形学分析和句子结构分析的文本分析(其词序被改变或者未被改变),并且产生诸如音调频率、功率、以及时长的韵律学信息,这是按规则对口语文本执行语音合成所要求的信息。另外,文本产生单元31还产生诸如组成该口语文本的每个词的发音的音韵学信息。在步骤S7中,产生标准韵律学信息作为该口语文本的韵律学信息。
此后,处理进入到步骤S8,在这里文本产生单元31基于从情绪检查单元39中提供的情绪模型值修改在步骤S7中产生的口语文本的韵律学信息。相应地,以合成语音的形式输出的口语文本的情绪表达受到强调。具体地,修改该韵律学信息,例如,强调重音或者强调该句子结尾。
在文本产生单元31中获得的口语文本的音韵学信息和韵律学信息提供到合成单元32上。在步骤S9中,合成单元32根据所述音韵学信息和韵律学信息按规则执行语音合成,以便产生该口语文本的合成语音的数字数据(合成语音数据)。这里,当合成单元32按规则执行合成时,能够通过合成单元32改变诸如该合成语音的顿号的位置、重音的位置、以及语调的韵律,以便基于从情绪检查单元39中提供的情绪模型值恰当地表达机器人的情绪。
在合成单元32中获得的合成语音数据会提供到数据缓冲存储器33,并且数据缓冲存储器33在步骤10中存储该合成语音数据。接着,在步骤S11中,输出控制单元34从数据缓冲存储器33中读取合成语音数据并且提供该数据到DA转换器35上以便完成该处理。相应地,对应于该口语文本的合成语音会从扬声器18中输出。
如上所述,由于该口语文本的词序是基于该机器人的情绪状态改变的,所以能够输出在情绪上有表现力的合成语音。结果,例如,能够对用户表达所引起的该机器人的情绪。
在以上描述中,本发明被应用到娱乐机器人(作为伪宠物的机器人)上。然而,本发明不限于这些,并且能够广泛地被应用到例如其中对系统引入了诸如情绪的内部状态的交互系统。
还有,能够将本发明应用到显示在诸如液晶显示器的显示设备上的虚拟机器人、以及真实机器人上。当将本发明应用到虚拟机器人上时(或者当将本发明具有显示设备的真实机器人上时),其中词序已经改变的口语文本不会输出为合成语音、或者会输出为合成语音,并且能够显示在显示设备上。
在该实例中,上述序列处理是通过允许CPU10A执行程序执行的。然而,该序列处理也能够通过利用专用硬件来执行。
这里,该程序可以预先存储在存储器10B(图2)中。还有,该程序可以临时地或者永久地存储(记录)在可拆去记录介质上,诸如软盘、致密光盘只读存储器(CD-ROM)、磁光(MO)盘、数字通用盘(DVD)、磁盘、或者半导体存储器。能够作为所谓封装软件提供该可拆去记录介质以便安装在该机器人(存储器10B)上。
或者,该程序能够经由用于数字广播的人造卫星无线地从下载站点传送、或者经由诸如局域网(LAN)或者因特网的网络有线地传送,并且能够安装在存储器10B上。
在此情形中,当更新该程序的版本时,能够容易地在存储器10B上安装版本更新程序。
在所述中,描述允许CPU10A执行各种处理的程序的步骤不需要以该流程图中描述的次序以时间序列执行。该步骤可以并行或者独立地执行(例如,并行处理或者按目标处理)。
另外,该程序可以由一CPU执行、或者由以分布式的多个CPU执行。
图4中示出的语音合成器55能够由专用硬件或者软件来实现。当语音合成器55是由软件实现的时,组成软件的程序会安装在多用途计算机上等。
图6示出了根据一实例的计算机结构的例子,在其上安装了用于实现语音合成器55的程序。
该程序能够预先记录在作为包括在计算机中的记录介质的硬盘105或者ROM(只读存储器)103上。
或者,该程序能够临时地或者永久地存储(记录)在可拆去记录介质111上,诸如软盘、CD-ROM、MO盘、DVD、磁盘、或者半导体存储器。能够提供该可拆去记录介质作为所谓封装软件。
该程序能够从上述可拆去记录介质111安装在计算机上。或者,该程序能够经由用于数字卫星广播的人造卫星无线地从下载站点传送。还有,该程序能够经由诸如局域网(LAN)或者因特网的网络有线地传送。计算机的通信单元108接收所传送的程序以便该程序安装在硬盘105上。
该计算机包括中央处理单元(CPU)102。输入/输出接口110会经由总线101连接到CPU102上。当用户操作包括键盘、鼠标、以及麦克风的输入单元107以便经由输入/输出接口110将命令输入到CPU102时,CPU102执行存储在只读存储器(ROM)103中的程序。或者,CPU102装载存储在硬盘105中的程序、经由卫星或者网络发送由通信单元108接收、并且安装在硬盘105上的程序,或者从被装载在驱动器109上的可拆去记录介质111中读取、并且安装在硬盘105上的程序到随机访问存储器(RAM)104上,并且执行该程序。相应地,CPU102根据上述流程图或者由该方框图的结构来执行的处理。接着,CPU102经由输入/输出接口110从包括液晶显示器(LCD)和扬声器的输出单元106输出该处理的结果,或者根据要求从通信单元108中发送该结果、或者记录该结果在硬盘105上。
在该实例中,合成语音是从由动作决定单元52产生的文本中产生的。然而,本发明也能够在合成语音是从预先准备的文本中产生时应用。而且,本发明能够在当所要求的合成语音是通过编辑预先记录的语音数据产生时应用。
还有,在该实例中,改变了口语文本的词序,并且合成语音数据是在该词序改变之后产生的。然而,有可能在改变词序之前从口语文本中产生合成语音数据,并且接着通过操作该合成语音数据改变该词序。合成语音数据的该操作可以由图4中示出的合成单元32执行。或者,如由图4的虚线所示,情绪模型值可以从情绪检查单元39提供到输出控制单元34上以便由输出控制单元34执行该操作。
另外,词序的改变可以基于该宠物机器人的诸如本能和成长的内部状态以及基于情绪模型值执行。工业应用性
如上所述,根据本发明,一词序列会根据信息处理器的控制来输出。在另一方面,所输出的词序列的词序是基于该信息处理器的内部状态改变的。因此,例如,能够输出在情绪上有表现力的合成语音。

Claims (8)

1.一种词序列输出设备,用于根据信息处理器的控制输出词序列,所述设备包括:
输出部件,用于根据所述信息处理器的控制输出所述词序列;以及
改变部件,用于基于所述信息处理器的内部状态改变由所述输出部件输出的所述词序列的词序。
2.根据权利要求1所述的设备,其中所述信息处理器是真实的或者虚拟的机器人。
3.根据权利要求2所述的设备,其中所述信息处理器包括作为所述内部状态的情绪状态,并且所述改变部件基于所述情绪状态改变所述词序列的词序。
4.根据权利要求1所述的设备,其中所述输出部件以语音或者文本的形式输出所述词序列。
5.根据权利要求1所述的设备,其中所述改变部件改变所述词序列的词序,以便由所述词序列形成的句子的谓语被放置在所述句子的前头。
6.一种根据信息处理器的控制输出词序列的方法,所述方法包括:
输出步骤,用于根据所述信息处理器的控制输出所述词序列;以及
改变步骤,用于基于所述信息处理器的内部状态改变在所述输出步骤中输出的所述词序列的词序。
7.一种用于允许计算机根据信息处理器的控制执行输出词序列的处理的程序,所述程序包括:
输出步骤,用于根据所述信息处理器的控制输出所述词序列;以及
改变步骤,用于基于所述信息处理器的内部状态改变在所述输出步骤中输出的所述词序列的词序。
8.一种记录介质,其中记录了一种用于允许计算机根据信息处理器的控制执行输出词序列的处理的程序,所述程序包括:
输出步骤,用于根据所述信息处理器的控制输出所述词序列;以及
改变步骤,用于基于所述信息处理器的内部状态改变在所述输出步骤中输出的所述词序列的词序。
CNB028017552A 2001-04-05 2002-04-05 词序列输出设备 Expired - Fee Related CN1221936C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP107476/2001 2001-04-05
JP2001107476A JP2002304188A (ja) 2001-04-05 2001-04-05 単語列出力装置および単語列出力方法、並びにプログラムおよび記録媒体

Publications (2)

Publication Number Publication Date
CN1463420A true CN1463420A (zh) 2003-12-24
CN1221936C CN1221936C (zh) 2005-10-05

Family

ID=18959795

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB028017552A Expired - Fee Related CN1221936C (zh) 2001-04-05 2002-04-05 词序列输出设备

Country Status (6)

Country Link
US (1) US7233900B2 (zh)
EP (1) EP1376535A4 (zh)
JP (1) JP2002304188A (zh)
KR (1) KR20030007866A (zh)
CN (1) CN1221936C (zh)
WO (1) WO2002082423A1 (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1345207B1 (en) * 2002-03-15 2006-10-11 Sony Corporation Method and apparatus for speech synthesis program, recording medium, method and apparatus for generating constraint information and robot apparatus
JP2005157494A (ja) * 2003-11-20 2005-06-16 Aruze Corp 会話制御装置及び会話制御方法
US8340971B1 (en) * 2005-01-05 2012-12-25 At&T Intellectual Property Ii, L.P. System and method of dialog trajectory analysis
US8065157B2 (en) * 2005-05-30 2011-11-22 Kyocera Corporation Audio output apparatus, document reading method, and mobile terminal
US7983910B2 (en) * 2006-03-03 2011-07-19 International Business Machines Corporation Communicating across voice and text channels with emotion preservation
US8150692B2 (en) 2006-05-18 2012-04-03 Nuance Communications, Inc. Method and apparatus for recognizing a user personality trait based on a number of compound words used by the user
WO2007138944A1 (ja) * 2006-05-26 2007-12-06 Nec Corporation 情報付与システム、情報付与方法、情報付与プログラム及び情報付与プログラム記録媒体
US20080243510A1 (en) * 2007-03-28 2008-10-02 Smith Lawrence C Overlapping screen reading of non-sequential text
US9261952B2 (en) * 2013-02-05 2016-02-16 Spectrum Alliance, Llc Shifting and recharging of emotional states with word sequencing
US9786299B2 (en) 2014-12-04 2017-10-10 Microsoft Technology Licensing, Llc Emotion type classification for interactive dialog system
JP6729424B2 (ja) * 2017-01-30 2020-07-22 富士通株式会社 機器、出力装置、出力方法および出力プログラム
JP6486422B2 (ja) * 2017-08-07 2019-03-20 シャープ株式会社 ロボット装置、制御プログラム、および制御プログラムを記録したコンピュータ読み取り可能な記録媒体
US10621983B2 (en) * 2018-04-20 2020-04-14 Spotify Ab Systems and methods for enhancing responsiveness to utterances having detectable emotion
JP7035765B2 (ja) * 2018-04-25 2022-03-15 富士通株式会社 制御プログラム、制御方法及び制御装置
CN113727767B (zh) 2018-10-17 2023-05-23 派拓艺(深圳)科技有限责任公司 机器动物拼插模型

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6337552B1 (en) * 1999-01-20 2002-01-08 Sony Corporation Robot apparatus
JPS56161600A (en) * 1980-05-16 1981-12-11 Matsushita Electric Ind Co Ltd Voice synthesizer
US4400787A (en) * 1980-12-12 1983-08-23 Westinghouse Electric Corp. Elevator system with speech synthesizer for repetition of messages
DE4306508A1 (de) * 1993-03-03 1994-09-08 Philips Patentverwaltung Verfahren und Anordnung zum Ermitteln von Wörtern in einem Sprachsignal
JP3018865B2 (ja) * 1993-10-07 2000-03-13 富士ゼロックス株式会社 感情表出装置
DE19533541C1 (de) * 1995-09-11 1997-03-27 Daimler Benz Aerospace Ag Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens
US5746602A (en) 1996-02-27 1998-05-05 Kikinis; Dan PC peripheral interactive doll
JPH10260976A (ja) 1997-03-18 1998-09-29 Ricoh Co Ltd 音声対話方法
JPH11259271A (ja) 1998-03-13 1999-09-24 Aqueous Reserch:Kk エージェント装置
US6249720B1 (en) 1997-07-22 2001-06-19 Kabushikikaisha Equos Research Device mounted in vehicle
JP3681145B2 (ja) 1997-12-11 2005-08-10 株式会社東芝 発話装置及び発話方法
EP1138038B1 (en) * 1998-11-13 2005-06-22 Lernout & Hauspie Speech Products N.V. Speech synthesis using concatenation of speech waveforms
JP3879299B2 (ja) 1999-01-26 2007-02-07 松下電工株式会社 無電極放電灯装置
JP2000267687A (ja) * 1999-03-19 2000-09-29 Mitsubishi Electric Corp 音声応答装置
EP1112822A4 (en) * 1999-05-10 2005-07-20 Sony Corp ROBOTS AND CONTROL PROCESSES THEREOF
JP2001154681A (ja) * 1999-11-30 2001-06-08 Sony Corp 音声処理装置および音声処理方法、並びに記録媒体
JP4465768B2 (ja) * 1999-12-28 2010-05-19 ソニー株式会社 音声合成装置および方法、並びに記録媒体
JP2001215993A (ja) * 2000-01-31 2001-08-10 Sony Corp 対話処理装置および対話処理方法、並びに記録媒体
KR20020061961A (ko) * 2001-01-19 2002-07-25 사성동 지능형 애완로봇

Also Published As

Publication number Publication date
KR20030007866A (ko) 2003-01-23
EP1376535A4 (en) 2006-05-03
JP2002304188A (ja) 2002-10-18
US7233900B2 (en) 2007-06-19
EP1376535A1 (en) 2004-01-02
WO2002082423A1 (fr) 2002-10-17
CN1221936C (zh) 2005-10-05
US20040024602A1 (en) 2004-02-05

Similar Documents

Publication Publication Date Title
CN1221936C (zh) 词序列输出设备
CN1187734C (zh) 机器人控制设备
CN1220174C (zh) 话音输出装置和方法
CN1236422C (zh) 机器人装置、字符识别方法和装置
US7065490B1 (en) Voice processing method based on the emotion and instinct states of a robot
CN1132148C (zh) 语音识别对话装置
US7228276B2 (en) Sound processing registering a word in a dictionary
JP4150198B2 (ja) 音声合成方法、音声合成装置、プログラム及び記録媒体、並びにロボット装置
EP1345207B1 (en) Method and apparatus for speech synthesis program, recording medium, method and apparatus for generating constraint information and robot apparatus
US20020198717A1 (en) Method and apparatus for voice synthesis and robot apparatus
CN1761554A (zh) 机器人设备、信息处理方法和程序
US20040054519A1 (en) Language processing apparatus
JP2002268663A (ja) 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体
JP2003271172A (ja) 音声合成方法、音声合成装置、プログラム及び記録媒体、並びにロボット装置
JP2002258886A (ja) 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体
JP2002311981A (ja) 自然言語処理装置および自然言語処理方法、並びにプログラムおよび記録媒体
JP2002304187A (ja) 音声合成装置および音声合成方法、並びにプログラムおよび記録媒体
JP2004258289A (ja) ロボット制御装置および方法、記録媒体、並びにプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee