WO2002078328A1

WO2002078328A1 - Processeur d'informations multicanal

Info

Publication number: WO2002078328A1
Application number: PCT/JP2001/002423
Authority: WO
Inventors: Toshihiro Azami; Katsutoshi Yano; Tomoharu Matsushita; Tomonori Yasumoto
Original assignee: Fujitsu Limited
Priority date: 2001-03-26
Filing date: 2001-03-26
Publication date: 2002-10-03
Also published as: JPWO2002078328A1; CN1494801A; CN1258285C; US20040056885A1; JP3910537B2; US7633487B2

Description

明細書マルチチャネル情報処理装置 (技術分野）

本発明は、音声データを伴う複数の動画像情報を同時に表示装置上に表示可能なマルチチャネル情報処理に関し、特に、表示装置上に表示された複数の動画像の中から特定の動画像の内容を容易に把握することができるマルチチャネル情報処理装置、マルチチャネル情報処理方法、マルチチャネル情報処理方法のプログラムおよびこのプログラムを記憶するコンピュータ読み取り可能な記憶媒体に関する。

(背景技術）

近年、 A D ¾ L (Asymmetric Digital Subscriber Line) や C A T Vモデムなどのィンタ一ネッ卜に高速にアクセスする手段が普及しており、これに伴って T V番組などの動画像情報を家庭からインタ一ネッ卜を通じてダウンロードする機会が増えている。また、ディジタルビデオカメラとパーソナルコンピュータ（以下、 P Cと称す）との間のインターフェイスが普及しており、ユーザが自分で撮影した動画像情報を P Cに取り込んで処理することも盛んに行われている。

また、 P Cの性能が向上していることやハードディスクの容量が拡大していることから、大量の動画像情報をハードディスクに格納して再生表示することも容易になってきており、複数の動画像情報を表示装置上に同時に表示できる環境にも容易に対応可能となっている。このような複数の動画像情報の表示には、 C R Tや液晶デイスプレイなどの表示装置上に複数のウィンドウを任意の位置に配置し、これらの動画像情報を同時に表示させることが可能である。

このような複数の動画像を表示する場合に、これら動画像に付随している音声データは、全ての音声データを出力しないか、あるいは全ての音声データを同一の音量で合成して出力することが行われている。音声データを出力しない場合には、各動画像情報の内容を把握するために音声デ一タを利用することができず、表示装置上に表示された画像のみでその内容を判断する必要がある。また、全ての音声データを同一の音量で合成して出力する場合には、それぞれの音声データが干渉しあつて音声を認識することが困難であり、またどの音声デ一タがどの動画像情報に対応しているかを認識することも困難であるという問題を包含している

本発明は、複数の動画像情報を表示装置上に表示する際に、特定の動画像情報に対応する音声データを認識することを容易にし、表示されている動画像 if報の内容を容易に把握することを可能にすることを目的とする ^

(発明の開示）

本発明の請求項 1に係るマルチチャネル情報処理装置は、複数の動画像情報を同時に表示装置に表示するマルチチャネル情報処理装置であって、複数の動画像情報を取得し、複数の動画像情報の表示装置上での表示位置に関する動画像位置情報を決定して複数の動画像情報を前記動画像位置情報に基づいて出力する動画像情報制御手段と、入力デバイスを介して入力される力一ソル指示情報に基づしヽて力一ソル位置情報を算出し力一ソル位置情報に基づいて力一ソル画像情報を生成してこれを出力するカーソル位置制御手段と、動画像表示制御手段が出力する複数の動画像情報と力一ソル位置制御手段が出力する力一ソル画像情報とを合成して表示装置上に表示する表示画像生成手段と、複数の動画像情報に対応する動画像位置情報と力一ソル位置制御手段で算出されたカーソル位置情報とに基づいて、各動画像情報の表示位置とカーソルの表示位置との距離を算出し距離情報を生成する距離情報生成手段と、距離情報生成手段で生成された距離情報に基づいて複数の動画像情報に対応する音声データの音量を決定して音声出力装置に出力する音声出力制御手段とを備える。本発明の請求項 2に係るマルチチャネル情報処理装置は、請求項 1に記載のマルチチャネル情報処理装置であって、音声出力制御手段が、距離情報生成手段で生成された距離情報のうち距離の値が最も小さい動画像情報に対応する音声デー夕の音量を予め定められた音量 V aに設定し、他の動画像情報に対応する音声デ一夕の音量を音量 V aよりも小さな予め定められた音量 V bに設定することを特徴としている。本発明の請求項 3に係るマルチチャネル情報処理装置は、請求項 1に記載のマルチチャネル情報処理装置であって、音声出力制御手段が、複数の動画像情報に対応する音声データの音量を、距離情報生成手段で生成された距離情報中の距離の値に反比例するように設定することを特徴としている。本発明の請求項 4に係るマルチチャネル情報処理装置は、請求項 1に記載のマルチチャネル情報処置装置であつて、距離情報生成手段で生成された距離情報は、力一ソルの表示位置から見た各動画像情報の表示位置の方向に関する方向情報を含み、音声出力制御手段は音声出力装置が形成する音像空間に複数の動画像情報に対応する音声データが定位するように距離情報に基づいて音声出力装置に出力を行うことを特徴としている。本発明の請求項 5に係るマルチチャネル情報処理装置は、請求項 1に記載のマルチチャネル情報処置装置であって、複数の動画像情報に対応する音声デ一夕に含まれる言葉を認識する音声データ認識手段と、音声データ認識手段で認識した言葉を文字情報に変換して表示装置に表示する文字情報表示手段とをさらに備えている。本発明の請求項 6に係るマルチチャネル情報処理装置は、請求項 5に記載のマルチチャネル情報処理装置であって、インタ—ネッ卜接続手段と、音声データ認識手段で認識した言葉をキーワードとしてインタ一ネット上に存在する関連ホームページを検索するホームページ検索手段と、ホームページ検索手段で検索されたホームページを前記表示装置上に表示するホームページ表示手段とを備えている。本発明の請求項 7に係るマルチチャネル情報処理装置は、請求項 1に記載のマルチチャネル情報処理装置であって、表示装置に表示される複数の動画像情報から所定のァルゴリズムに基づいて特定の動画像情報を選択する動画像選択手段をさらに備え、音声出力制御手段は動画像選択手段が選択した動画像情報に対応する音声データを音声出力装置に出力することを特徴としている。本発明の請求項 8に係るマルチチャネル情報処理装置は、請求項 7に記載のマルチチャネル情報処理装置であって、動画像選択手段は、所定時間毎に選択する動画像情報を切り換えることを特徴としている。本発明の請求項 9に係るマルチチャネル情報処理方法は、複数の動画像情報を同時に表示装置に表示する際のマルチチャネル情報処理方法であって、表示装置上に表示を行う動画像情報表示装置上での表示位置を決定する段階と、決定した表示位置に基づいて複数の動画像情報を出力する段階と、入力デバイスから入力されるカーソル指示情報を受け付ける段階と、カーソル指示情報に基づいてカーソルを表示するカーソル位置情報を算出する段階と、カーソル位置情報に基づいて力一ソル画像 'ft報を生成する段階と、複数の動画像情報とカーソル画像情報とを合成して表示画像を生成しこれを表示装置上に出力する段階と、複数の動画像情報の表示位置とカーソル位置情報との間の距離を算出し距離情報を生成する段階と、距離情報に基づいて複数の動画像情報に対応する音声データの音量を決定し音声出力装置に出力する段階とを含んでいる。本発明の請求項 1 0に係るマルチチャネル情報処理方法は、請求項 9に記載のマルチチヤネル情報処理方法であつて、複数の動画像情報について生成された距離情報のうち距離の値が最も小さい動画像情報に対応する音声データの音量を予め定められた音量 V aに設定し、他の動画像情報に対応する音声データの音量を音量 V aよりも小さな予め定められた音量 V bに設定することを特徴としている本発明の請求項 1 1に係るマルチチャネル情報処理方法は、請求項 9に記載のマルチチャネル情報処理方法であって、複数の動画像情報に対応する音声データの音量を、各距離情報中の距離の値に反比例するように設定することを特徴としている。本発明の請求項 1 2に係るマルチチャネル情報処理方法は、請求項 9に記載のマルチチヤネル情報処理方法であつて、カーソルの表示位置から見た各動画像情報の表示位置の方向に関する方向情報を生成する段階と、複数の動画像情報に対応する音声データが、音声出力装置の音像空間における距離情報および方向情報に応じた音像位置に定位するように、音声出力装置に出力を行う段階とをさらに 1厢えている。本発明の請求項 1 3に係るマルチチャネル情報処理方法は、請求項 9に記載のマルチチャネル情報処理方法であって、複数の動画像情報に対応する音声データに含まれる言葉を音声認識する段階と、音声認識した言葉を文字情報に変換して表示装置に表示する段階とをさらに備えている。本発明の請求項 1 4に係るマルチチャネル情報処理方法は、請求項 1 3に言 E のマルチチャネル情報処理方法であって、インタ一ネヅ卜に接続する段階と、音声認識した言葉をキーワードとしてィンタ一ネッ卜上に存在する関連ホームべ一ジを検索する段階と、検索された関連ホームページを前記表示装置上に表示する段階とを備えている。本発明の請求項 1 5に係るマルチチャネル情報処理方法は、請求項 9に記載のマルチチャネル情報処理方法であって、表示装置に表示される複数の動画像情報から所定のァルゴリズムに基づし、て特定の動画像情報を選択する段階と、選択した動画像情報に対応する音声データを音声出力装置に出力する段階とをさらに備えている。本発明の請求項 1 6に係るプログラムは、複数の動画像情報を同時に表示装置に表示する際のマルチチヤネル情報処理方法のプログラムであって、複数の動画像情報の表示装置上での表示位置を決定する段階と、決定した表示位置に基づいて複数の動画像情報を出力する段階と、入力デバイスから入力される力一ソル指示情報を受け付ける段階と、カーソル指示情報に基づいて力一ソルを表示する力 ―ソル位置情報を算出する段階と、力一ソル位置情報に基づいてカーソル画像情報を生成する段階と、複数の動画像情報とカーソル画像情報とを合成して表示画像を生成しこれを前記表示装置上に出力する段階と、複数の動画像情報の表示位置とカーソル位置情報との間の距離を算出し距離情報を生成する段階と、距離情報に基づいて複数の動画像情報に対応する音声データの音量を決定し音声出力装置に出力する段階とを含むマルチチャネル情報処理方法をコンピュータに実行させるためのプログラムである。本発明の請求項 1 7に係るプログラムは、複数の動画像情報を同時に表示装置に表示する際のマルチチャネル情報処理方法のプログラムであって、複数の動画像情報の表示装置上での表示位置を決定する段階と、決定した表示位置に基づいて複数の動画像報を出力する段階と、入力デバイスから入力されるカーソル指示情報を受け付ける段階と、カーソル指示情報に基づいてカーソルを表示する力一ソル位置情報を算出する段階と、カーソル位置情報に基づいて力一ソル画像情報を生成する段階と、複数の動画像情報とカーソル画像情報とを合成して表示画像を生成しこれを表示装置上に出力する段階と、複数の動画像†ff報の表示位置と力一ソル位置情報との間の距離を算出し距離情報を生成する段階と、複数の動画像情報について生成された距離情報のうち距離の値が最も小さい動画像情報に対応する音声データの音量を予め定められた音量 V aに設定し、他の動画像情報に対応する音声データの音量を音量 V aよりも小さな予め定められた音量 V bに設定し音声出力装置に出力する段階とを含むマルチチャネル情報処理方法をコンビユー夕に実行させるためのプログラムである。本発明の請求項 1 8に係るプログラムは、複数の動画像情報を同時に表示装置に表示する際のマルチチャネル情報処理方法のプログラムであって、複数の動画像情報の表示装置上での表示位置を決定する段階と、決定した表示位置に基づいて複数の動画像情報を出力する段階と、入力デバイスから入力されるカーソル指示情報を受け付ける段階と、力一ソル指示情報に基づいてカーソルを表示する力 —ソル位置情報を算出する段階と、カーソル位置情報に基づいて力一ソル画像情報を生成する段階と、複数の動画像情報とカーソル画像情報とを合成して表示画像を生成しこれを表示装置上に出力する段階と、複数の動画像情報の表示位置とカーソル位置情報との間の距離を算出し距離情報を生成する段階と、複数の動画像情報に対応する音声データの音量を、各距離情報中の距離の値に反比例するように設定し音声出力装置に出力する段階とを含むマルチチャネル情報処理方法をコンピュータに実行させるためのプログラムである。本発明の請求項 1 9に係るプログラムは、複数の動画像情報を同時に表示装置に表示する際のマルチチャネル情報処理方法のプログラムであって、複数の動画像情報の表示装置上での表示位置を決定する段階と、決定した表示位置に基づいて複数の動画像情報を出力する段階と、入力デバイスから入力されるカーソル指示情報を受け付ける段階と、力一ソル指示情報に基づいてカーソルを表示する力一ソル位置情報を算出する段階と、カーソル位置情報に基づいて力—ソル画像情報を生成する段階と、複数の動画像情報と力一ソル画像情報とを合成して表示画像を生成しこれを表示装置上に出力する段階と、複数の動画像情報の表示位置とカーソル位置情報との間の距離を算出し距離情報を生成する段階と、カーソルの表示位置から見た各動画像情報の表示位置の方向に関する方向情報を生成する段階と、複数の動画像情報に対応する音声データが、音声出力装置の音像空間における距離情報および方向情報に応じた音像位置に定位するように、音声出力装置に出力を行う段階とを含むマルチチヤネル情報処理方法をコンピュータに実行させるためのプログラムである。本発明の請求項 2 0に係るプログラムは、複数の動画像情報を同時に表示装置に表示する際のマルチチャネル情報処理方法のプログラムであって、複数の動画像情報の表示装置上での表示位置を決定する段階と、決定した表示位置に基づいて複数の動画像情報を出力する段階と、入力デバイスから入力される力一ソル指示情報を受け付ける段階と、カーソル指示情報に基づいて力一ソルを表示する力 -ソル位置情報を算出する段階と、力—ソル位置情報に基づいてカーソル画像情報を生成する段階と、複数の動画像情報に対応する音声データに含まれる言葉を音声認識する段階と、音声認識した言葉を文字情報に変換してこれを出力する段階と、複数の動画像情報、カーソル画像情報および文字情報とを合成して表示画像を生成しこれを表示装置上に出力する段階とを備えるマルチチャネル情報処理方法をコンピュータに実行させるためのプログラムである。本発明の請求項 2 1に係るプログラムは、複数の動画像情報を同時に表示装置に表示する際のマルチチャネル情報処理方法のプログラムであって、複数の動画像情報の表示装置上での表示位置を決定する段階と、決定した表示位置に基づいて複数の動画像情報を出力する段階と、入力デバイスから入力されるカーソル指示情報を受け付ける段階と、力一ソル指示情報に基づいてカーソルを表示する力 -ソル位置情報を算出する段階と、カーリル位置情報に基づいて力一ソル画像情報を生成する段階と、複数の動画像情報の表示位置と力一ソル位置情報との間の距離を算出し距離情報を生成する段階と、距離情報に基づいて複数の動画像情報のうちから特定の動画像情報を選択し、この動画像情報に対応する音声データを音声出力装置に出力する段階と、音声出力装置に出力する音声データに含まれる言葉を音声認識する段階と、音声認識した言葉を文字情報に変換してこれを出力する段階と、複数の動画像情報、カーソル画像情報および文字情報とを合成して表示画像を生成しこれを表示装置上に出力する段階とを備えるマルチチャネル情報処理方法をコンピュータに実行させるためのプログラムである。本発明の請求項 2 2に係るプログラムは、複数の動画像情報を同時に表示装置に表示する際のマルチチャネル情報処理方法のプログラムであって、複数の動画像情報の表示装置上での表示位置を決定する段階と、決定した表示位置に基づいて複数の動画像情報を出力する段階と、入力デバイスから入力される力一ソル指示情報を受け付ける段階と、力一ソル指示情報に基づいてカーソルを表示する力一ソル位置情報を算出する段階と、カーソル位置情報に基づいてカーソル画像情報を生成する段階と、複数の動画像情報の表示位置とカーソル位置情報との間の距離を算出し距離情報を生成する段階と、距離情報に基づいて複数の動画像情報のうちから特定の動画像情報を選択し、この動画像情報に対応する音声データを音声出力装置に出力する段階と、音声出力装置に出力する音声データに含まれる言葉を音声認識する段階と、インターネッ卜に接続する段階と、音声認識した言葉をキ一ヮ一ドとしてィンターネヅ卜上に存在する関連ホームページを検索する段階と、複数の動画像情報、カーソル画像情報および検索された関連ホームべ— ジを合成して表示画像を生成しこれを表示装置上に出力する段階とを備えるマルチチャネル情報処理方法をコンピュータに実行させるためのプログラムである。本発明の請求項 2 3に係るプログラムは、複数の動画像情報を同時に表示装置に表示する際のマルチチャネル情報処理方法のプログラムであって、複数の動画像情報の表示装置上での表示位置を決定する段階と、決定した表示位置に基づいて複数の動画像情報を出力する段階と、表示装置に表示される複数の動画像情報から所定のァルゴリズ厶に基づいて特定の動画像情報を選択する段階と、選択した動画像情報に対応する音声データを音声出力装置に出力する段階とを備えるマルチチャネル情報処理方法をコンピュ一タに実行させるためのプログラムである o

本発明の請求項 2 4に係る記憶媒体は、請求項 1 6〜2 3のプログラムを記憶したコンピュータが読み取り可能な記憶媒体である。

(図面の簡単な説明）

図 1は、本発明の概略構成を示すブロック図である。

図 2は、動画像位置情報テーブルの一例を示す説明図である。

図 3は、画面構成の一例を示す説明図である。

図 4は、第 1実施形態の制御ブロック図である。

図 5は、第 1実施形態の制御フローチャートである。図 6は、動画像一情報テーブルの他の例を示す説明図である。

図 7は、第 1実施形態の変形例の制御フローチャートである。

図 8は、第 2実施形態の制御ブロック図である。

図 9は、第 2実施形態の制御フローチャートである。

図 1 0は、第 3実施形態の制御ブロック図である。

図 1 1は、第 3実施形態の制御フローチャートである。

図 1 2は、第 3実施形態の変形例の制御ブロック図である。

図 1 3は、第 4実施形態の制御ブロック図である。

図 1 4は、第 4実施形態の制御フローチャートである。

(発明を実施するための最良の形態）

〔基本構成〕

本発明の 1実施形態が採用される情報処理装置のハ—ド構成を図 1に示す。情報処理装置 1 0は、通常のパーソナルコンピュータで構成することが可能であり、 0本体1、 C R Tや液晶表示装置などで構成されるディスプレイ 2、スピー力 3、マウスやトラックボール、タヅチパッド、キーボードなどの入力デバイス 4、インタ一ネッ卜接続が可能なモデム 5などを備えている。モデム 5は、たとえば公衆回線を通じてインターネヅ卜接続を行う A D S Lモデムなどが採用される。

P C本体 1は、モデム 5および公衆回線を介して I S P (Internet Services P rovider) 2 0に接続を行い、 I S P 2 0に用意されているス卜リ一ミングデータから複数の動画像情報をダウンロードすることが可能な構成となっている。ダウンロードされた複数の動画像情報は、ディスプレイ 2上の予めプログラムで設定されている表示位置に表示される。もちろん、プログラム上に用意されたツールを用いてユーザが表示位置を設定するように構成することも可能である。

動画像情報の表示位置に関する位置情報テーブルの一例を図 2に示す。

この位置情報テーブルは、チャネル番号、中心の位置、左右の幅、上下の高さなどの項目を備えており、各チャネル番号 C H i ( i = 1〜n ) の動画像情報の中心の座標位置（C X "i , C Y i )、左右の幅 \AM、上下の高さ H がそれぞれ格納される。この位置情報テーブルは、表示されるチャネル数 n毎に設定されており、 P C本体 1で処理可能な最大チャネル数またはディスプレイ 2上に表示可能な最大チャネル数まで用意されている。

このような位置情報テーブルで設定された表示位置に基づいて動画像情報の表示を行う場合の表示画面の一例を図 3に示す。ここでは、表示チャネル数が 3の場合を示しており、それぞれ中心の座標位置（C X i， C Y i )、左右の幅 W i、上下の高さ H iによって、各動画像情報の表示位置を決定することができる。

〔第 1実施形態〕

本発明の第 1実施形態の制御プロック図を図 4に示す。

この情報処理装置 1 0 0は、動画像源 2 0 0から複数の動画像情報を取得する動画像表示制御手段 1 0 1を備えている。動画像情報表示制御手段 1 0 1は、たとえば、図 2に示されるような位置情報テ一ブルにしたがつて各動画像情報の表示位置を決定し、この動画像位置情報と動画像情報とを出力する。

力一ソル位置決定手段 1 0 2は、マウス、卜ラックポール、タツチパッド、キ —ボード、その他のボインティングデバイスで構成される入力デバイス 1 4 0により入力される力一ソル指示情報を受け付け、このカーソル指示情報と現在の力一ソルの表示位置とに基づいて次のカーソル位置情報を算出しこれを出力する。カーソル位置決定手段 1 0 2から出力される力一ソル位置情報はカーソル画像生成手段 1 0 3に入力される。カーソル画像生成手段 1 0 3は、力—ソル位置情報に基づいて力一ソル画像情報を生成しこれを出力する。

動画像表示制御手段 1 0 1から出力される動画像情報と動画像位置情報およびカーソル画像生成手段 1 0 3から出力される力一ソル画像情報は、表示画像生成手段 1 0 4に入力される。表示画像生成手段 1 0 4は、 V R A Mなどの画像出力用バッファを備え、複数の動画像情報をその位置情報に基づいて配置するとともに、カーソル画像を合成して表示装置 1 2 0に出力する。

動画像表示制御手段 1 0 1から出力される動画像位置情報とカーソル位置決定手段 1 0 2から出力されるカーソル位置情報は距離情報生成手段 1 0 5に入力される。距離情報生成手段 1 0 5は、動画像位置情報とカーソル位置情報に基づいて各動画像情報の表示位置とカーソルの表示位置との距離を算出する。この各動画像情報の表示位置とカーソルの表示位置との距離は、動画像情報の中心位置とカーソルの中心位置との間の距離とすることができる。また、カーソルが動画像情報のウィンドウ内に位置する場合には、その距離を" 0 " に設定するように構成できる。

距離情報生成手段 1 0 5で生成された距離情報は動画像選択手段 1 0 6に入力される。動画像選択手段 1 0 6では、距離情報生成手段 1 0 5で生成された距離情報に基づいて、どの動画像情報に対応する音声データを出力するかを決定する。たとえば、各動画像情報の距離情報のうち最も距離の値が小さい動画像情報を選択するように構成できる。

動画像選択手段 1 0 6は、選択された動画像情報に基づいて音声出力選択情報を音声出力選択手段 1 0 7に出力する。音声出力選択手段 1 0 7は、動画像源 2 0 0からの複数の動画像情報のうち、音声出力選択情報で設定される動画像情報に対応する音声データを選択的に取得し、これを音声出力装置 1 3 0に出力する。

この構成における動作を図 5のフローチヤ一卜に基づいて説明する。

ステップ S 1 1では、変数 iの値を初期化する。

ステップ S 1 2では、カーソル位置情報の読み込みを行う。

ステップ S 1 3では、力一ソルの表示位置がチャネル番号 C H iの動画像情報の表示枠内に入っているか否かを判別する。動画像情報の位置情報テーブルとして、図 6に示すような、チャネル番号、中心の位置、表示幅、表示高さの各項目に加えて、近傍幅、近傍高さの項目を備えるものを用いることができる。力一ソルの表示位置が、チャネル番号 C H iの動画像情報の中央位置座標（C X i , C Y i ) および近傍幅 N W i、近傍高さ N H iで規定される範囲内にある場合には、この動画像情報の表示枠に入っていると判断する。この場合、動画像情報を表示しているウインドウの周囲に所定の距離範囲で表示枠を設定し、この表示枠内に力一ソルが入った場合にその動画像情報が選択されたと判断するように構成できる。カーソルの表示位置がチャネル番号 C H iの動画像情報の表示枠内に入つていると判断した場合にはステップ S 1 6に移行する。ステップ S 1 6では、チャネル番号 C H iの動画像情報に対応する音声データを音声出力装置 1 3 0に出力する。

ステップ S 1 3において、力一ソルの表示位置がチャネル番号 C H iの動画像情報の表示枠内に入っていないと判断した場合には、ステップ S 1 4に移行する

0

ステップ S 1 4では、変数 iの値が表示されている動画像情報数 nに到達したか否かを判別する。変数 i 二表示チャネル数 nである場合にはステップ S 1 1に移行し、そうでない場合にはステップ S 1 5に移行する。

ステップ S 1 5では変数 iの値をィンクリメン卜しステップ S 1 3に移行する ο

このように構成した場合、たとえばマウス力一ソルの表示位置が動画像情報のウィンドウ上にない場合であっても、ウィンドウの近傍にあることを認識して、その動画像情報に対応する音声データを出力するように構成できる。ユーザは、マウスやトラックボール、その他のポィンティングデバイスを用いてカーソルを移動させ、希望する動画像情報のウィンドウにカーソルを近づけることで、その音声データを聞くことができ、動画像情報の内容を容易に認識することが可能となる。

〈変形例 1〉

カーソルの表示位置に最も近い動画像情報を選択して音声データを出力するように構成することも可能である。この場合のフローチヤ一卜を図 7に示す。

ステップ S 2 1では、変数 iの値を初期化する。

ステップ S 2 2では、カーソル位置情報の読み込みを行う。

ステップ S 2 3では、カーソルの表示位置とチャネル番号 C H の動画像情報の表示位置との距離 d iを算出する。この距離 d は、動画像情報を表示しているウィンドウの中心座標と力一ソルの中心座標との間の距離とすることも可能であり、また動画像情報を表示しているウィンドウ枠とカーソルの中心座標との最短距離とすることも可能である。

ステップ S 2 4では、変数 iの値が表示されている動画像情報数 nに到達したか否かを判別する。変数 i =表示チャネル数 nである場合にはステップ S 26に移行し、そうでない場合にはステップ S 25に移行する。

ステップ S 25では、変数 iの値をインクリメン卜しステップ S 23に移行する o

ステップ S 26では、動画像情報の表示位置とカーソルの表示位置との間の距離 d iのうち最小値を判定し、これに対応するチャネル CH の動画像情報を選択画像に決定する。

ステップ S 27では、選択された動画像情報に対応する音声データの出力を行う o

このように構成した場合、動画像情報を表示するウインドウの近傍に表示枠を設けるためのテーブルを用意する必要がなく、カーソルの表示位置に最も近い動画像情報に^応する音声データを出力するように構成できる。

〈変形例 2〉

音声データの出力を行っている動画像情報について、その表示ウィンドウの枠の色を変更したり、選択されていなし、動画像情報の色調を変更するなどにより、選択されたチヤネルを認識できるように構成することも可能である。

〈変形例 3〉

動画像情報の表示位置とカーソルの表示位置との間の距離 d iに反比例するように、各動画像情報に対応する音声データを増幅し、各音声データを合成して ¥ 出力するように構成することも可能である。

力一ソルの表示位置の中心座標を（CuX, CuY)、チャネル CH iの動画像情報の中心座標（CX i , CY ) としこれらの座標間の距離 d iとすると、 d i = ((CuX-CX i)²+(CuY-CY i)²) ¹²

で計算することができる。この距離 d を用いてその動画像情報に対応する音声データの増幅率 C Hig [d B] を、

CHig [d B] -a■ d i (ただし、 a<0の定数）

で δ又 ^ 。このことにより、力一ソル表示位置に近い動画像情報の音声デ—タは大きな音量で出力され、カーソル表示位置から遠い動画像情報の音声データは小さい音量で出力されることとなる。したがって、マウスなどのポインティングデバイスを用いてカーソルを近づけた動画像情報の音声デ—夕の音量が大きくなり、その動画像情報の内容把握を容易にするとともに、他の動画像情報についても音量が小さいながらも音声デ一夕の出力を行っているため、内容把握の助けとすることが可能である。

〈変形例 4〉

カーソルの表示位置から見た動画像情報の表示位置の方向に関する方向情報を算出し、音声出力装置 1 3 0が生成する音像空間内に方向情報と距離情報に基づいて動画像情報に対応する音声データの音像を定位するように構成することも可

Bbし⁵ある。

前述したように、カーソルの表示位置および動画像情報の表示位置は、それぞれ表示装置上の座標で表すことが可能であり、この座標を用いてカーリルから見た動画像情報の表示位置の方向情報を算出することが可能である。このような方向情報と距離情報 d iを用いて、音声出力装置 1 3 0が生成する音像空間内に音声データの音像を定位することが可能となる。ただし、この場合、音声出力装置 1 3 0は 2以上のスピーカを備え、各スピーカから出力される音声による音像空間が生成されるように各スピーカからの出力が制御される必要がある。

たとえば、カーソルの中心座標（C u X , C u Y )_s チャネル C H iの中心座標 ( C X i , C Y i ) とし、 X軸方向の距離 C Xidを、

C Xid= C u X - C X i

として算出する。この X軸方向の距離 C Xidを用いて、左右のスピーカに出力する音量を決定して出力することにより、音像の定位を行うことが可能となる。このような構成とすることにより、表示装置 1 2 0の動画像情報の表示位置と音声出力装置 1 3 0から出力される音声データの位置との間に整合性を持たせることができ、動画像情報の内容把握を促すことが容易になる。〔第 2実施形態〕

本発明の第 2実施形態の制御プロック図を図 8に示す。

この情報処理装置 1 5 0は、動画像源 2 0 0から複数の動画像情報を取得する動画像表示制御手段 1 0 1を備えている。動画像情報表示制御手段 1 0 1は、第 1実施形態と同様に、予め設定された位置情報テーブルにしたがって各動画像情報の表示位置を決定し、この動画像位置'隋報と動画像情報とを出力する。

表示画像生成手段 1 0 4は、第 1実施形態と同様に、 V R A Mなどの画像出力用バッファを備え、複数の動画像情報をその位置情報に基づいて配置し画像出力を行う。

動画像表示制御手段 1 0 1からの動画像位置情報は動画像選択手段 1 0 8に入力される。動画像選択手段 1 0 8は、複数のチャネルの動画像情報を所定の周期で選択するようなアルゴリズムを有している。たとえば、ひとつのチャネル番号を選択してこの動画像情報に対応する音声データを選択するための音声選択情報を出力し、一定時間経過する毎にチャネル番号順に選択するチャネル番号を切り換えていくように構成できる。

動画像選択手段 1 0 8から出力される音声出力選択情報は音声出力選択手段 1 0 7に入力される。音声出力選択手段 1 0 7は、音声出力選択情報に基づいて選択されているチャネルの動画像情報に対応する音声データを音声出力装置 1 3 0 に出

表示されている動画像情報を順に選択し、選択された動画像情報に対応する音声データを一定時間出力するような構成のアルゴリズムを図 9のフローチャートに示す。

ステップ S 3 1では、変数 iの値を初期化する。

ステップ S 3 2では、タイマを初期化してこの夕イマによる経過時間のカウン卜を開始する。このタイマは、選択されたチャネルの動画像情報に対応する音声データを出力する時間を計時するものである。

ステップ S 3 3では、チャネル C H iの画像情報に対応する音声データを音声出力装置 1 3 0に出力する。

ステップ S 3 4では、タイマのカウン卜値が所定値に達したか否かを判別する o タィマの力ゥン卜値が予め設定されている所定値に到達したと判断した場合にはステップ S 3 5に移行する。

ステップ S 3 5では、変数 iの値をインクリメントし、次のチャネル番号の動画像情報を選択する。

ステップ S 3 6では、変数の値が表示を行っているチャネル数 nを超えたか否かを判別する。変数 iの値がチャネル数 nを超えていないと判断した場合にはステップ S 3 2に移行し、変数 iの値がチャネル数 nを超えたと判断した場合にはステップ S 3 1に移行する。

動画像選択手段 1 0 8がこのようなアルゴリズムにしたがって動画像情報を選択し、選択した動画像情報に対応する音声データを出力するように構成することで、周期的に選択する動画像情報を切り換えてそれに対応する音声データを一定時間出力することができる。ユーザは、各動画像情報をポインティングデバイスなどで指定する作業なしで、各動画像情報に対応する音声データを周期的に認識することが可能であり、各動画像情報の内容を把握することが容易となる。

〔第 3実施形態〕

本発明の第 3実施形態の制御プロック図を図 1 0に示す。

この情報処理装置 1 6 0は、動画像源 2 0 0から複数の動画像情報を取得する動画像表示制御手段 1 0 1を備えている。動画像情報表示制御手段 1 0 1は、第 1実施形態と同様にして各動画像情報の表示位置を決定し、この動画像位置情報と動画像情報とを出力する。

カーソル位置決定手段 1 0 2は、マウス、トラックボール、タヅチパッド、キ —ボード、その他のポインティングデバイスで構成される入力デバイス 1 4 0により入力されるカーソル指示情報を受け付け、このカーソル指示情報と現在の力 ―ソルの表示位置とに基づいて次の力一ソル位置情報を算出しこれを出力する。カーソル位置決定手段 1 0 2から出力されるカーソル位置情報は力一ソル画像生成手段 1 0 3に入力される。カーソル画像生成手段 1 0 3は、カーソル位置情報に基づいてカーソル画像情報を生成しこれを出力する。

動画像表示制御手段 1 0 1から出力される動画像位置情報とカーソル位置決定手段 1 0 2から出力されるカーソル位置情報は距離情報生成手段 1 0 5に入力される。距離情報生成手段 1 0 5は、動画像位置情報とカーソル位置情報に基づいて各動画像情報の表示位置と力一ソルの表示位置との距離を算出する。この各動画像情報の表示位置とカーソルの表示位置との距離は、動画像情報の中心位置とカーソルの中心位置との間の距離とすることができる。また、力一ソルが動画像情報のウィンドウ内に位置する場合には、その距離を" 0 " に設定するように構成できる。

距離情報生成手段 1 0 5で生成された距離情報は動画像選択手段 1 0 6に入力される。動画像選択手段 1 0 6では、距離情報生成手段 1 0 5で生成された距離情報に基づいて、どの動画像情報に対応する音声データを出力するかを決定する

。たとえば、各動画像情報の距離情報のうち最も距離の値が小さい動画像情報を選択するように構成できる。

動画像選択手段 1 0 6は、選択された動画像情報に基づいて音声出力選択情報を音声出力選択手段 1 0 7に出力する。音声出力選択手段 1 0 7は、動画像源 2 0 0からの複数の動画像情報のうち、音声出力選択情報で設定される動画像情報に対応する音声データを選択的に取得し、これを音声出力装置 1 3 0に出力する o

音声出力選択手段 1 0 7から出力される音声データは、音声認識手段 1 0 9に入力される。音声認識手段 1 0 9は、入力される音声データから意味のある言葉を認識してこれを抽出し文字情報に変換するものである。

音声認識手段 1 0 9で変換された文字情報は認識文字表示手段 1 1 0に入力される。認識文字表示手段 1 1 0は、音声認識手段 1 0 9から入力される文字情報に基づいて表示装置 1 2 0上に表示する文字データを生成し表示画像生成手段 1 0 4に出力する。

動画像表示制御手段 1 0 1から出力される動画像情報と動画像位置情報、カーソル画像生成手段 1 0 3から出力される力一ソル画像情報および認識文字表示手段 1 1 0から出力される文字データは、表示画像生成手段 1 0 4に入力される。表示画像生成手段 1 0 4は、 V R A Mなどの画像出力用バッファを備え、複数の動画像情報をその位置情報に基づいて配置し、カーソル画像および文字データを合成して表示装置 1 2 0に出力する。

ここで、認識文字表示手段 1 1 0から出力される文字データは、対応する動画像情報の近傍に表示するように構成することが可能であり、どの動画像情報から得た文字データであるかを示す情報を表示装置 1 2 0上に明示するような構成とすることも可能である。

また、選択されたチヤネルの動画像情報に対応する音声データから取得した文字データを表示し、音声出力装置 1 3 0から音声データの出力を行わない構成とすることも可能である。この場合の動作について図 1 1に示すフローチヤ一卜に基づいて説明する。ステップ S 4 1では、変数 iの値を初期化する。

ステップ S 1 2では、力一ソル位置 ft報の読み込みを行う。

ステップ S 1 3では、力一ソルの表示位置がチャネル番号 C H iの動画像情報の表示枠内に入っているか否かを判別する。この場合、第 1実施形態と同様に、動画像情報を表示しているウィンドウの周囲に所定の距離範囲で表示枠を設定し、この表示枠内にカーソルが入った場合にその動画像情報が選択されたと判断するように構成できる。力一ソルの表示位置がチャネル番号 C H iの動画像情報の表示枠内に入っていると判断した場合にはステップ S 4 4に移行する。

ステップ S 4 4では、チャネル番号 C H iの動画像情報に対応する音声データを音声出力装置 1 3 0に出力する。

ステップ S 4 5では、チャネル番号 C H iの動画像情報に対応する音声データから意味のある言葉を認識し文字データに変換する。

ステップ S 4 6では、認識した文字データを表示画像生成手段 1 0 4に送出し、表示装置 1 2 0上に表示する。

ステップ S 4 3において、カーソルの表示位置がチャネル番号 C H iの動画像情報の表示枠内に入っていないと判断した場合には、ステップ S 4 7に移行する o

ステップ S 4 7では、変数 iの値が表示されている動画像情報数 nに到達したか否かを判別する。変数 i 二表示チャネル数 nである場合にはステップ S 4 1に移行し、そうでない場合にはステップ S 4 8に移行する。

ステップ S 4 8では変数 iの値をインクリメン卜しステップ S 4 3に移行する ο

このように構成した場合には、選択されたチャネルの動画像情報に対応する音声データに含まれる意味のある言葉を視覚的に認識することが可能となり、動画像情報の内容把握を容易にすることができる。

〈変形例〉

第 3実施形態の変形例のプロック図を図 1 2に示す。

この情報処理装置 1 7 0では、音声認識手段 1 0 9および認識文字表示手段 1 1 0が表示するチャネル数だけ設けられており、それぞれ各チャネルの動画像情報に対応する音声データから意味のある言葉を抽出して文字データに変換しこれを表示画像生成手段 1 0 4に入力し、表示装置 1 2 0上に表示する構成となっている。

各文字データはそれぞれ対応する動画像情報の表示位置の近傍に表示されるように構成することが可能であり、文字デ一タのみをリスト表示するように構成することも可能である。

この場合には、各動画像情報に対応する音声データから抽出された言葉を表示装置 1 2 0上にそれぞれ表示することが可能となり、各動画像情報の内容把握を容易にすることができる。

〔第 4実施形態〕

本発明の第 4実施形態の制御プロック図を図 1 3に示す。

この情報処理装置 1 8 0は、動画像源 2 0 0から複数の動画像情報を取得する動画像表示制御手段 1 0 1を備えている。動画像情報表示制御手段 1 0 1は、第 1実施形態と同様にして各動画像情報の表示位置を決定し、この動画像位置情報と動画像情報とを出力する。

力一ソル位置決定手段 1 0 2は、マウス、卜ラックボール、タツチパヅド、キ —ボード、その他のポインティングデバイスで構成される入力デバイス 1 4 0により入力される力一ソル指示情報を受け付け、この力一ソル指示情報と現在の力 —ソルの表示位置とに基づいて次のカーソル位置情報を算出しこれを出力する。力一ソル位置決定手段 1 0 2から出力される力一ソル位置情報はカーソル画像生成手段 1 0 3に入力される。力一ソル画像生成手段 1 0 3は、カーソル位置情報に基づいて力一ソル画像情報を生成しこれを出力する。

動画像表示制御手段 1 0 1から出力される動画像位置情報とカーソル位置決定手段 1 0 2から出力される力一ソル位置情報は距離情報生成手段 1 0 5に入力される。距離情報生成手段 1 0 5は、動画像位置情報とカーソル位置情報に基づいて各動画像情報の表示位置とカーソルの表示位置との距離を算出する。この各動画像情報の表示位置と力—ソルの表示位置との距離は、動画像情報の中心位置と力一ソルの中心位置との間の距離とすることができる。また、力一ソルが動画像情報のウィンドウ内に位置する場合には、その距離を" 0 " に設定するように構成できる。

音声認識手段 1 0 9から出力される文字情報はホームページ検索手段 1 1 1に入力される。ホームページ検索手段 1 1 1はインターネット接続手段 1 1 3を介してインタ一ネッ卜にアクセスを行い、音声認識手段 1 0 9から取得した文字情報をキ一ヮ一ドとしてィンタ一ネヅ卜上で検索可能なホームページを検索する。ホームページの検索には、 YAHOO、 goo、 googleなどの検索サイ卜に接続して検索結果を受信するように構成することが可能である。検索結果はインタ一ネッ卜接続手段 1 1 3を介してホームページ検索手段 1 1 1で受信され、ホームページ表示手段 1 1 2に送出される。

ホームページ表示手段 1 1 2は、検索結果から得られたホームページの U R L にアクセスを行い、ホームページの情報を取得して表示画像生成手段 1 0 4に出力する。ホームぺ一ジ表示手段 1 1 2は、 Internet Explorerや Netscape Naviga torなどのウェブブラウザで構成することが可能である。また、ホームページ情報の取得はィンタ一ネッ卜接続手段 1 1 3を介してィンタ一ネッ卜にアクセスを行うことで可能となる。

動画像表示制御手段 1 0 1から出力される動画像情報と動画像位置情報、カーソル画像生成手段 1 0 3から出力されるカーソル画像情報、認識文字表示手段 1 1 0から出力される文字データおよびホームページ表示手段 1 1 2から出力されるホームページ情報は、表示画像生成手段 1 0 4に入力される。表示画像生成手段 1 0 4は、 V R A Mなどの画像出力用バッファを備え、複数の動画像情報をその位置情報に基づいて配置し、力—ソル画像、文字データおよびホームページ情報を合成して表示装置 1 2 0に出力する。この場合の動作について、図 1 4に示すフ口一チャートに基づいて説明する。ステップ S 5 1では、変数 iの値を初期化する。

ステップ S 5 2では、カーソル位置情報の読み込みを行う。

ステップ S 5 3では、カーソルの表示位置がチャネル番号 C H の動画像情報の表示枠内に入っているか否かを判別する。この場合、第 1実施形態と同様に、動画像情報を表示しているウィンドウの周囲に所定の距離範囲で表示枠を設定し、この表示枠内にカーソルが入った場合にその動画像情報が選択されたと判断するように構成できる。力一ソルの表示位置がチャネル番号 C H iの動画像情報の表示枠内に入っていると判断した場合にはステップ S 5 4に移行する。

ステップ S 5 4では、チャネル番号 C H iの動画像情報に対応する音声データを音声出力装置 1 3 0に出力する。

ステップ S 5 5では、チャネル番号 C H iの動画像情報に対応する音声データから意味のある言葉を認識し文字データに変換する。

ステップ S 5 6では、認識した文字データを表示画像生成手段 1 0 4に送出し、表示装置 1 2 0上に表示する。

ステップ S 5 7では、音声認識により得られた文字データからホームページ検索を行つ o

ステップ S 5 8では、ホームページ検索を行った検索結果に基づいて、ホ一厶ページ情報を取得し、これを表示装置 1 2 0上に表示する。

ステップ S 5 3において、力一ソルの表示位置がチャネル番号 C H iの動画像情報の表示枠内に入っていないと判断した場合には、ステップ S 5 9に移行する

O

ステップ S 5 9では、変数 iの値が表示されている動画像情報数 nに到達した否かを判別する。変数 i =表示チャネル数 nである場合にはステップ S 5 1に移行し、そうでない場合にはステップ S 6 0に移行する。

ステップ S 6 0では変数 iの値をィンクリメントしステップ S 5 3に移行する ο

このように構成した場合には、動画像情報に対応する音声データから得られる言葉から関連ホームページの情報を取得してこれを表示装置上に表示させることが可能となる。このことにより、各動画像情報の関連情報を容易に取得することができ、種々のデータを簡単に取得することができる。

(産業上の利用可能性）

本発明によれば、表示装置に表示される複数の動画像情報から特定の動画像情報に対応する音声データを容易に認識することができ、その動画像情報の内容の把握が容易になる。

Claims

請求の範囲

1 .

複数の動画像情報を同時に表示装置に表示するマルチチャネル情報処理装置であって、

前記複数の動画像情報を取得し、前記複数の動画像情報の表示装置上での表示位置に関する動画像位置情報を決定して前記複数の動画像情報を前記動画像位置情報に基づいて出力する動画像情報制御手段と、

入力デバイスを介して入力されるカーソル指示情報に基づいてカーソル位置情報を算出し前記カーソル位置情報に基づいてカーソル画像情報を生成してこれを出力するカーソル位置制御手段と、

前記動画像表示制御手段が出力する複数の動画像情報と、前記力一ソル位置制御手段が出力する力一ソル画像情報とを合成して前記表示装置上に表示する表示画像生成手段と、

前記複数の動画像情報に対応する動画像位置情報と、前記カーソル位置制御手段で算出されたカーソル位置情報とに基づいて、各動画像情報の表示位置と力一ソルの表示位置との距離を算出し距離情報を生成する距離情報生成手段と、前記距離情報生成手段で生成された距離情報に基づいて前記複数の動画像情報に対応する音声データの音量を決定して音声出力装置に出力する音声出力制御手段と、

を備えるマルチチャネル情報処理装置。

2 .

前記音声出力制御手段は、前記距離情報生成手段で生成された距離情報のうち距離の値が最も小さい動画像情報に対応する音声データの音量を予め定められた音量 V aに設定し、他の動画像情報に対応する音声データの音量を前記音量 V a よりも小さな音量 V bに設定することを特徴とする、請求項 1に記載のマルチチャネル情報処理装置。

3 .

前記音声出力制御手段は、前記複数の動画像情報に対応する音声データの音量を、前記距離情報生成手段で生成された距離情報中の距離の値に反比例するように設定することを特徴とする、請求項 1に記載のマルチチャネル情報処理装置。

4 .

前記距離情報生成手段で生成された距離情報は、力—ソルの表示位置から見た各動画像情報の表示位置の方向に関する方向情報を含み、前記音声出力制御手段は前記音声出力装置が形成する音像空間に前記複数の動画像情報に対応する音声データが定位するように前記距離情報に基づいて前記音声出力装置に出力を行うことを特徴とする、請求項 1に記載のマルチチャネル情報処理装置。

5 .

前記複数の動画像情報に対応する音声データに含まれる言葉を認識する音声デ一夕認識手段と、

前記音声データ認識手段で認識した言葉を文字情報に変換して前記表示装置に表示する文字 t*報表示手段と、

をさらに備える請求項 1に記載のマルチチャネル情報処理装置。

6 .

インターネヅ卜接続手段と、 ' 前記音声データ認識手段で認識した言葉をキーヮ一ドとしてィンタ一ネッ卜上に存在する関連ホームページを検索するホームページ検索手段と、

前記ホームページ検索手段で検索されたホームページを前記表示装置上に表示するホームページ表示手段と、

を備える、請求項 5に記載のマルチチャネル情報処理装置。

7 .

前記表示装置に表示される複数の動画像情報から所定のアルゴリズムに基づいて特定の動画像情報を選択する動画像選択手段をさらに備え、前記音声出力制御手段は前記動画像選択手段が選択した動画像情報に対応する音声データを音声出力装置に出力することを特徴とする、請求項 1に記載のマルチチャネル情報処理

8 .

前記動画像選択手段は、所定時間毎に選択する動画像情報を切り換えることを特徴とする、請求項 7に記載のマルチチャネル情報処理装置。 9 .

複数の動画像情報を同時に表示装置に表示する際のマルチチャネル情報処理方法であって、

前記表示装置上に表示を行う動画像情報の表示装置上での表示位置を決定する段階と、

決定した表示位置に基づいて前記複数の動画像情報を出力する段階と、前記入力デバイスから入力されるカーソル指示情報を受け付ける段階と、前記力ソル指示情報に基づいて力一ソルを表示する力一ソル位置情報を算出する段階と、

前記力一ソル位置情報に基づいてカーソル画像情報を生成する段階と、前記複数の動画像情報と前記力一ソル画像情報とを合成して表示画像を生成しこれを前記表示装置上に出力する段階と、

前記複数の動画像情報の表示位置と前記力—ソル位置情報との間の距離を算出し距離情報を生成する段階と、

前記距離情報に基づいて複数の動画像情報に対応する音声データの音量を決定し音声出力装置に出力する段階と、

を含むマルチチャネル情報処理方法。

1 0 .

複数の動画像情報について生成された距離情報のうち距離の値が最も小さい動画像情報に対応する音声データの音量を予め定められた音量 V aに設定し、他の動画像情報に対応する音声データの音量を前記音量 V aよりも小さな予め定められた音量 V bに設定することを特徴とする、請求項 9に記載のマルチチャネル情報処理方法。

1 1 .

前記複数の動画像情報に対応する音声データの音量を、各距離情報中の距離の値に反比例するように設定することを特徴とする、請求項 9に記載のマルチチヤネル情報処理方法。

1 2 .

カーソルの表示位置から見た各動画像情報の表示位置の方向に関する方向情報を生成する段階と、

前記複数の動画像情報に対応する音声データが、前記音声出力装置の音像空間における前記距離情報および方向情報に応じた音像位置に定位するように、前記音声出力装置に出力を行う段階と、

をさらに備える、請求項 9に記載のマルチチャネル情報処理方法。

1 3 .

前記複数の動画像情報に対応する音声データに含まれる言葉を音声認識する段階と、

音声認識した言葉を文字情報に変換して前記表示装置に表示する段階と、をさらに備える請求項 9に記載のマルチチャネル情報処理方法。 1 4 .

ィンタ一ネッ卜に接続する段階と、

音声認識した言葉をキ一ワードとしてインターネット上に存在する関連ホ一ムページを検索する段階と、

検索された関連ホームページを前記表示装置上に表示する段階と、を備える、請求項 1 3に記載のマルチチャネル情報処理方法。 1 5 .

前記表示装置に表示される複数の動画像情報から所定のアルゴリズムに基づいて特定の動画像情報を選択する段階と、

選択した動画像'膚報に対応する音声データを前記音声出力装置に出力する段階と、

をさらに備える、請求項 9に記載のマルチチャネル情報処理方法。 1 6 .

複数の動画像情報を同時に表示装置に表示する際のマルチチャネル情報処理方法のプログラムであって、

前記複数の動画像情報の表示装置上での表示位置を決定する段階と、決定した表示位置に基づいて前記複数の動画像情報を出力する段階と、前記入力デバイスから入力される力一ソル指示情報を受け付ける段階と、前記力ソル指示情報に基づいて力一ソルを表示する力一ソル位置情報を算出する段階と、

前記力一ソル位置情報に基づいて力一ソル画像情報を生成する段階と、前記複数の動画像情報と前記力一ソル画像情報とを合成して表示画像を生成しこれを前記表示装置上に出力する段階と、

前記複数の動画像情報の表示位置と前記カーソル位置情報との間の距離を算出し距離情報を生成する段階と、

を含むマルチチャネル情報処理方法をコンピュータに実行させるためのプログラ厶。

1 7 .

前記複数の動画像情報の表示装置上での表示位置を決定する段階と、

決定した表示位置に基づし、て前記複数の動画像情報を出力する段階と、前記入力デバイスから入力されるカーソル指示情報を受け付ける段階と、前記カーソル指示情報に基づいてカーソルを表示するカーソル位置情報を算出する段階と、

前記複数の動画像情報について生成された距離情報のうち距離の値が最も小さい動画像情報に対応する音声データの音量を予め定められた音量 V aに設定し、他の動画像情報に対応する音声データの音量を前記音量 V aよりも小さな予め定められた音量 V bに設定し音声出力装置に出力する段階と、

を含むマルチチャネル情報処理方法をコンピュータに実行させるためのプログラム。

1 8 .

決定した表示位置に基づし、て前記複数の動画像情報を出力する段階と、前記入力デバイスから入力される力一ソル指示情報を受け付ける段階と、前記力―ソル指示情報に基づいて力一リルを表示する力一ソル位置情報を算出する段階と、

前記力―ソル位置情報に基づいて力一ソル画像情報を生成する段階と、前記複数の動画像情報と前記力一ソル画像情報とを合成して表示画像を生成しこれを前記表示装置上に出力する段階と、前記複数の動画像情報の表示位置と前記力一ソル位置情報との間の距離を算出し距離情報を生成する段階と、

前記複数の動画像情報に対応する音声データの音量を、各距離情報中の距離の値に反比例するように設定し音声出力装置に出力する段階と、

1 9 .

力一ソルの表示位置から見た各動画像情報の表示位置の方向に関する方向情報を生成する段階と、

2 0 複数の動画像情報を同時に表示装置に表示する際のマルチチャネル情報処理方法のプログラムであって、

決定した表示位置に基づし、て前記複数の動画像情報を出力する段階と、前記入力デバイスから入力される力一ソル指示情報を受け付ける段階と、前記カーソル指示情報 ίこ基づいてカーソルを表示するカーソル位置情報を算出する段階と、

前記力一ソル位置情報に基づいて力一ソル画像情報を生成する段階と、前記複数の動画像情報に対応する音声データに含まれる言葉を音声認識する段階と、

音声認識した言葉を文字情報に変換してこれを出力する段階と、

前記複数の動画像情報、前記力一ソル画像情報および前記文字情報とを合成して表示画像を生成しこれを前記表示装置上に出力する段階と、

を備えるマルチチャネル情報処理方法をコンピュータに実行させるためのプログラム。

2 1 .

前記複数の動画像情報の表示装置上での表示位置を決定する段階と、決定した表示位置に基づいて前記複数の動画像情報を出力する段階と、前記入力デバイスから入力される力一ソル指示情報を受け付ける段階と、前記カーソル指示情報に基づいて力一ソルを表示するカーソル位置情報を算出する段階と、

前記力―ソル位置情報に基づいて力一ソル画像情報を生成する段階と、前記複数の動画像情報の表示位置と前記カーソル位置情報との間の距離を算出し距離情報を生成する段階と、

前記距離情報に基づいて複数の動画像情報のうちから特定の動画像情報を選択し、この動画像情報に対応する音声データを音声出力装置に出力する段階と、前記音声出力装置に出力する音声データに含まれる言葉を音声認識する段階と、音声認識した言葉を文字情報に変換してこれを出力する段階と、

前記複数の動画像情報、前記力―ソル画像情報および前記文字情報とを合成して表示画像を生成しこれを前記表示装置上に出力する段階と、

2 2 .

決定した表示位置に基づいて前記複数の動画像情報を出力する段階と、前記入力デノイスから入力される力一ソル指示情報を受け付ける段階と、前記力一ソル指示情報に基づいて力一ソルを表示する力一ソル位置情報を算出する段階と、

前記力ソル位置情報に基づいて力一ソル画像情報を生成する段階と、前記複数の動画像情報の表示位置と前記カーソル位置情報との間の距離を算出し距離情報を生成する段階と、

前記距離情報に基づいて複数の動画像情報のうちから特定の動画像情報を選択し、この動画像情報に対応する音声データを音声出力装置に出力する段階と、前記音声出力装置に出力する音声データに含まれる言葉を音声認識する段階と、インターネヅ卜に接続する段階と、

音声認識した言葉をキーヮ一ドとしてィンタ一ネッ卜上に存在する関連ホームページを検索する段階と、

前記複数の動画像情報、前記力一ソル画像情報および前記検索された関連ホ一ムページを合成して表示画像を生成しこれを前記表示装置上に出力する段階と、を備えるマルチチャネル情報処理方法をコンピュータに実行させるためのプログラム。

2 3 .

前記複数の動画像情報の表示装置上での表示位置を決定する段階と、決定した表示位置に基づし、て前記複数の動画像情報を出力する段階と、前記表示装置に表示される複数の動画像情報から所定のアルゴリズムに基づいて特定の動画像情報を選択する段階と、

選択した動画像情報に対応する音声データを前記音声出力装置に出力する段階と、

2 4 .

請求項 1 6〜2 3のプログラムを記憶したコンピュータが読み取り可能な記憶媒体。