WO2002078328A1 - Processeur d'informations multicanal - Google Patents

Processeur d'informations multicanal Download PDF

Info

Publication number
WO2002078328A1
WO2002078328A1 PCT/JP2001/002423 JP0102423W WO02078328A1 WO 2002078328 A1 WO2002078328 A1 WO 2002078328A1 JP 0102423 W JP0102423 W JP 0102423W WO 02078328 A1 WO02078328 A1 WO 02078328A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
moving image
image information
pieces
display
Prior art date
Application number
PCT/JP2001/002423
Other languages
English (en)
French (fr)
Inventor
Toshihiro Azami
Katsutoshi Yano
Tomoharu Matsushita
Tomonori Yasumoto
Original Assignee
Fujitsu Limited
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Limited filed Critical Fujitsu Limited
Priority to JP2002576422A priority Critical patent/JP3910537B2/ja
Priority to CN01823081.4A priority patent/CN1258285C/zh
Priority to PCT/JP2001/002423 priority patent/WO2002078328A1/ja
Publication of WO2002078328A1 publication Critical patent/WO2002078328A1/ja
Priority to US10/669,508 priority patent/US7633487B2/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/038Control and interface arrangements therefor, e.g. drivers or device-embedded control circuitry
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • H04N21/4316Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations for displaying supplemental content in a region of the screen, e.g. an advertisement in a separate window
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4341Demultiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4347Demultiplexing of several video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440236Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by media transcoding, e.g. video is transformed into a slideshow of still pictures, audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/443OS processes, e.g. booting an STB, implementing a Java virtual machine in an STB or power management in an STB
    • H04N21/4438Window management, e.g. event handling following interaction with the user interface
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/462Content or additional data management, e.g. creating a master electronic program guide from data received from the Internet and a Head-end, controlling the complexity of a video stream by scaling the resolution or bit-rate based on the client capabilities
    • H04N21/4622Retrieving content or additional data from different sources, e.g. from a broadcast channel and the Internet
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4782Web browsing, e.g. WebTV
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/445Receiver circuitry for the reception of television signals according to analogue transmission standards for displaying additional information
    • H04N5/45Picture in picture, e.g. displaying simultaneously another television channel in a region of the screen
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/445Receiver circuitry for the reception of television signals according to analogue transmission standards for displaying additional information

Definitions

  • the present invention relates to multi-channel information processing capable of simultaneously displaying a plurality of pieces of moving image information accompanied by audio data on a display device, and more particularly, to the content of a specific moving image from among a plurality of moving images displayed on a display device.
  • the present invention relates to a multi-channel information processing device, a multi-channel information processing method, a program of the multi-channel information processing method, and a computer-readable storage medium for storing the program.
  • the audio data attached to these moving images should not be output as all audio data, or should be output by synthesizing all audio data at the same volume. Has been done.
  • audio data Cannot use the audio data to grasp the contents of each moving image information, and it is necessary to judge the contents only from the images displayed on the display device.
  • all audio data are synthesized at the same volume and output, it is difficult to recognize the audio because the respective audio data interfere with each other, and which audio data corresponds to which moving image information. Includes the problem that it is difficult to recognize whether
  • the present invention facilitates recognition of audio data corresponding to specific moving image information when displaying a plurality of moving image information on a display device, and facilitates the content of the displayed moving image if information. Aims to be able to figure out ⁇
  • a multi-channel information processing device is a multi-channel information processing device that simultaneously displays a plurality of pieces of moving image information on a display device, acquires a plurality of pieces of moving image information, Moving image information control means for determining moving image position information related to a display position on the display device and outputting a plurality of moving image information based on the moving image position information; Cursor position control means for calculating force sol position information based on the sol instruction information, generating force sol image information based on the force sol position information and outputting the image information, and moving image display control means Display image generating means for combining the plurality of pieces of moving image information output by the camera with the force-sol image information output by the force-sol position control means and displaying the synthesized image on a display device; and a moving image corresponding to the plurality of pieces of moving image information.
  • Position Distance information generating means for calculating the distance between the display position of each moving image information and the display position of the cursor based on the cursor position information calculated by the force position control means and generating the distance information; Audio output control means for determining the volume of audio data corresponding to a plurality of pieces of moving image information based on the distance information generated by the generation means, and outputting the determined volume to an audio output device.
  • a multi-channel information processing device is the multi-channel information processing device according to claim 1, wherein the audio output control means includes a distance information of the distance information generated by the distance information generation means.
  • a multi-channel information processing device is the multi-channel information processing device according to claim 1, wherein the audio output control means controls a volume of audio data corresponding to a plurality of pieces of moving image information.
  • the distance information is set to be inversely proportional to the value of the distance in the distance information generated by the distance information generating means.
  • a multi-channel information processing apparatus is the multi-channel information processing apparatus according to claim 1, wherein the distance information generated by the distance information generating means is based on a display position of the force sol.
  • the audio output control means includes direction information on the direction of the display position of each piece of moving image information viewed, and the sound output control means is based on the distance information so that sound data corresponding to the plurality of pieces of moving image information is localized in the sound image space formed by the sound output device. And output to the audio output device.
  • a multi-channel information processing apparatus is the multi-channel information processing apparatus according to the first aspect, wherein the multi-channel information processing apparatus recognizes words included in audio data corresponding to a plurality of pieces of moving image information.
  • the apparatus further includes voice data recognition means, and text information display means for converting words recognized by the voice data recognition means into text information and displaying the text information on a display device.
  • a multi-channel information processing device is the multi-channel information processing device according to claim 5, wherein the words recognized by the Internet connection means and the voice data recognition means are used as keywords.
  • a homepage search means for searching for a related homepage existing on the Internet
  • a homepage display means for displaying the homepage searched by the homepage search means on the display device.
  • a multi-channel information processing apparatus is the multi-channel information processing apparatus according to claim 1, wherein the multi-channel information processing apparatus is based on a predetermined algorithm from a plurality of pieces of moving image information displayed on a display device.
  • the image processing apparatus further includes moving image selecting means for selecting specific moving image information, and the sound output control means outputs sound data corresponding to the moving image information selected by the moving image selecting means to the sound output device.
  • the multi-channel information processing apparatus according to claim 8 of the present invention is the multi-channel information processing apparatus according to claim 7, wherein the moving image selecting means switches the moving image information to be selected at predetermined time intervals.
  • a multi-channel information processing method is a multi-channel information processing method for simultaneously displaying a plurality of pieces of moving image information on a display device, wherein the moving image information display device performs display on the display device. Determining the display position on the above, outputting a plurality of pieces of moving image information based on the determined display position, accepting cursor instruction information input from an input device, and performing a cursor operation based on the cursor instruction information.
  • a multi-channel information processing method is the multi-channel information processing method according to claim 9, wherein the distance value among the distance information generated for a plurality of pieces of moving image information has the largest value.
  • the volume of audio data corresponding to small moving image information is set to a predetermined volume Va, and the volume of audio data corresponding to other moving image information is set to a predetermined volume Vb smaller than the volume Va. It is characterized by setting to A multi-channel information processing method according to claim 11 of the present invention is the multi-channel information processing method according to claim 9, wherein a volume of audio data corresponding to a plurality of pieces of moving image information is set in each distance information. It is characterized in that it is set to be inversely proportional to the distance value.
  • a multi-channel information processing method according to claim 12 of the present invention is the multi-channel information processing method according to claim 9, wherein the direction related to the direction of the display position of each moving image information viewed from the display position of the cursor.
  • a multi-channel information processing method is the multi-channel information processing method according to claim 9, wherein a word included in audio data corresponding to a plurality of pieces of moving image information is voice-recognized. And converting the speech-recognized word into character information and displaying the character information on a display device.
  • a multi-channel information processing method is the multi-channel information processing method according to claim 13 wherein the step of connecting to the Internet and the step of recognizing the voice-recognized words are performed.
  • the method includes a step of searching for a related home page existing on the Internet as a keyword, and a step of displaying the searched related home page on the display device.
  • a multi-channel information processing method is the multi-channel information processing method according to claim 9, wherein the multi-channel information processing method is based on a predetermined algorithm from a plurality of pieces of moving image information displayed on the display device.
  • the method further includes a step of selecting specific moving image information, and a step of outputting audio data corresponding to the selected moving image information to an audio output device.
  • a program according to claim 16 of the present invention is a program for a multi-channel information processing method for simultaneously displaying a plurality of pieces of moving image information on a display device, the display position of a plurality of pieces of moving image information on the display device. Determining, and outputting a plurality of pieces of moving image information based on the determined display position; accepting force instruction information input from the input device; and determining force information based on the cursor instruction information.
  • a program according to claim 17 of the present invention is a program for a multi-channel information processing method for simultaneously displaying a plurality of pieces of moving image information on a display device, wherein a display position of a plurality of pieces of moving image information on the display device is provided. Determining, and outputting a plurality of pieces of video information based on the determined display position; accepting cursor instruction information input from an input device; and displaying a cursor based on the cursor instruction information. Calculating the position information of the cursor, generating the force image information based on the cursor position information, generating a display image by combining a plurality of pieces of moving image information and the cursor image information, and generating the display image.
  • a multi-channel information processing method including a step of setting the volume to a predetermined volume Vb lower than the volume Va and outputting to the audio output device.
  • a program according to claim 18 of the present invention is a program for displaying a plurality of pieces of moving image information simultaneously.
  • a program for executing the multichannel processing method on a computer comprising the steps of outputting the audio output device.
  • a program according to claim 19 of the present invention is a program of a multi-channel information processing method for simultaneously displaying a plurality of pieces of moving image information on a display device, wherein a display position of a plurality of pieces of moving image information on the display device is provided. Determining, and outputting a plurality of pieces of moving image information based on the determined display position; accepting cursor instruction information input from an input device; and displaying a cursor based on force-sol instruction information.
  • a program according to claim 20 of the present invention is a program for a multi-channel information processing method for simultaneously displaying a plurality of pieces of moving image information on a display device. Determining a display position of the image information on the display device, outputting a plurality of pieces of moving image information based on the determined display position, and receiving force-sol instruction information input from the input device; A step of calculating force-sol position information for displaying force-sol based on cursor instruction information; a step of generating cursor image information based on force-sol position information; A step of recognizing words included in the voice data, a step of converting the recognized words into character information and outputting the same, and combining and displaying a plurality of moving image information, cursor image information and character information
  • a program for causing a computer to execute a multi-channel information processing method including a step of generating an image and outputting the image on a display device.
  • a program according to claim 21 of the present invention is a program of a multi-channel information processing method for simultaneously displaying a plurality of pieces of moving image information on a display device, the display position of a plurality of pieces of moving image information on the display device. Determining, and outputting a plurality of pieces of moving image information based on the determined display position; accepting cursor instruction information input from an input device; and displaying a cursor based on force-sol instruction information. Calculating the force-sol position information, generating force-sol image information based on the curl position information, and determining the distance between the display positions of the plurality of moving image information and the force-sol position information.
  • a program for causing a computer to execute a multi-channel information processing method including a step of generating a display image by combining image information and character information, and outputting the display image on a display device.
  • a program according to claim 22 of the present invention is a program of a multi-channel information processing method for simultaneously displaying a plurality of pieces of moving image information on a display device, the display position of a plurality of pieces of moving image information on the display device. Determining, and outputting a plurality of pieces of moving image information based on the determined display position; and a force sol finger input from an input device.
  • Receiving cursor information calculating force-sol position information for displaying a cursor based on force-sol instruction information, generating cursor image information based on the cursor position information, Calculating a distance between the information display position and the cursor position information to generate distance information; selecting specific moving image information from a plurality of pieces of moving image information based on the distance information; Outputting voice data corresponding to the voice data to the voice output device, voice recognition of words included in the voice data output to the voice output device, connecting to the Internet, and keying the voice-recognized word. Searching a related homepage existing on the Internet as a method, and searching for a plurality of moving image information, cursor image information and the searched related homepage.
  • a program according to claim 23 of the present invention is a program of a multi-channel information processing method for simultaneously displaying a plurality of pieces of moving image information on a display device, and a display position of a plurality of pieces of moving image information on the display device. Determining a plurality of pieces of moving image information based on the determined display position, and selecting specific moving image information from the plurality of pieces of moving image information displayed on the display device based on a predetermined algorithm. And outputting the audio data corresponding to the selected moving image information to the audio output device, which is a program for causing a computer to execute a multi-channel information processing method.
  • a storage medium according to claim 24 of the present invention is a computer-readable storage medium storing the program according to claims 16 to 23.
  • FIG. 1 is a block diagram showing a schematic configuration of the present invention.
  • FIG. 2 is an explanatory diagram showing an example of a moving image position information table.
  • FIG. 3 is an explanatory diagram showing an example of the screen configuration.
  • FIG. 4 is a control block diagram of the first embodiment.
  • FIG. 5 is a control flowchart of the first embodiment.
  • FIG. 6 is an explanatory diagram showing another example of the moving image-one information table.
  • FIG. 7 is a control flowchart of a modification of the first embodiment.
  • FIG. 8 is a control block diagram of the second embodiment.
  • FIG. 9 is a control flowchart of the second embodiment.
  • FIG. 10 is a control block diagram of the third embodiment.
  • FIG. 11 is a control flowchart of the third embodiment.
  • FIG. 12 is a control block diagram of a modified example of the third embodiment.
  • FIG. 13 is a control block diagram of the fourth embodiment.
  • FIG. 14 is a control flowchart of the fourth embodiment.
  • FIG. 1 shows a hardware configuration of an information processing apparatus to which an embodiment of the present invention is applied.
  • the information processing device 10 can be composed of a normal personal computer.0
  • the main unit 1 a display 2 composed of a CRT, a liquid crystal display, etc., speed 3, a mouse or trackball, a touch pad, and a keyboard It has an input device 4 and a modem 5 that can be connected to the Internet.
  • the modem 5 for example, an ADSL modem for making an Internet connection through a public line is employed.
  • the PC 1 connects to an ISP (Internet Services Provider) 20 via a modem 5 and a public line, and downloads multiple pieces of video information from streaming data provided in the ISP 20 It is a configuration that can be used.
  • the plurality of pieces of downloaded moving image information are displayed on the display 2 at display positions set in advance by a program. Of course, it is also possible to configure so that the user can set the display position using a tool prepared on the program.
  • FIG. 2 shows an example of a position information table relating to the display position of the moving image information.
  • This position information table includes items such as channel number, center position, left and right width, and vertical height.
  • the position information table is set for each number n of displayed channels, and is prepared up to the maximum number of channels that can be processed by the PC 1 or the maximum number of channels that can be displayed on the display 2.
  • FIG. 3 shows an example of a display screen when moving image information is displayed based on the display position set in such a position information table.
  • the display position of each moving image information is determined by the center coordinate position (CX i, CY i), left and right width W i, and vertical height H i. Can be determined.
  • FIG. 4 shows a control block diagram of the first embodiment of the present invention.
  • the information processing apparatus 100 includes a moving image display control unit 101 that acquires a plurality of pieces of moving image information from a moving image source 200.
  • the moving image information display control means 101 determines the display position of each moving image information, for example, according to a position information table as shown in FIG. And output image information.
  • the force-sol position determining means 102 receives force-sol instruction information input from an input device 140 composed of a mouse, a track pole, a touch pad, a keyboard, and other pointing devices, The next cursor position information is calculated based on the cursor instruction information and the current force display position and output.
  • the force-sol position information output from the cursor position determining means 102 is input to the cursor image generating means 103.
  • the cursor image generating means 103 generates force-sol image information based on the force-sol position information and outputs the information.
  • the moving image information and moving image position information output from the moving image display control means 101 and the force sol image information output from the cursor image generating means 103 are input to the display image generating means 104.
  • the display image generating means 104 includes an image output buffer such as a VRAM, arranges a plurality of pieces of moving image information based on the position information, combines a cursor image, and outputs the combined cursor image to the display device 120. .
  • the moving image position information output from the moving image display control means 101 and the cursor position information output from the cursor position determining means 102 are input to the distance information generating means 105.
  • the distance information generating means 105 is based on the moving image position information and the cursor position information. Then, the distance between the display position of each moving image information and the display position of the cursor is calculated.
  • the distance between the display position of each piece of moving image information and the display position of the cursor can be the distance between the center position of the moving image information and the center position of the cursor. When the cursor is located in the moving image information window, the distance can be set to “0”.
  • the distance information generated by the distance information generating means 105 is input to the moving image selecting means 106.
  • the moving image selecting means 106 determines which moving image information to output the audio data based on the distance information generated by the distance information generating means 105. For example, it is possible to configure so as to select the moving image information having the smallest distance value from the distance information of each moving image information.
  • the moving image selection means 106 outputs audio output selection information to the audio output selection means 107 based on the selected moving image information.
  • the audio output selection means 107 selectively obtains audio data corresponding to the moving image information set by the audio output selection information from among a plurality of pieces of moving image information from the moving image source 200, and Output to the audio output device 130.
  • step S11 the value of the variable i is initialized.
  • step S12 cursor position information is read.
  • step S13 it is determined whether or not the display position of the force cursor is within the display frame of the moving image information of the channel number CHi.
  • the position information table of the moving image information as shown in FIG. 6, in addition to the items of the channel number, the center position, the display width, and the display height, a table having the items of the vicinity width and the vicinity height is used. be able to.
  • the display position of the force is within the range defined by the center position coordinates (CX i, CY i)
  • the neighborhood width NW i and the neighborhood height NH i of the video information of the channel number CH i It is determined that the moving image information is in the display frame.
  • a display frame is set within a predetermined distance range around the window displaying the moving image information, and when a force cursor enters the display frame, it is determined that the moving image information is selected. Can be configured. If it is determined that the display position of the cursor is within the display frame of the moving image information of the channel number CHi, the process proceeds to step S16. In step S16, the audio data corresponding to the moving image information of the channel number CHi is output to the audio output device 130.
  • step S13 If it is determined in step S13 that the display position of the force cursor is not within the display frame of the moving image information of the channel number C Hi, the process proceeds to step S14.
  • step S14 it is determined whether or not the value of the variable i has reached the number n of the displayed moving image information. If the variable i is n and the number of display channels is n, the process proceeds to step S11. Otherwise, the process proceeds to step S15.
  • step S15 the value of the variable i is incremented and the process proceeds to step S13 ⁇
  • the display position of the mouse cursor is not on the window of the moving image information, it recognizes that it is near the window, and the audio data corresponding to the moving image information is recognized.
  • the user can use the mouse, trackball, or other pointing device to move the cursor and bring the cursor closer to the window of the desired moving image information, so that the audio data can be heard and the contents of the moving image information can be heard. It can be easily recognized.
  • FIG. 7 shows a flowchart in this case.
  • step S21 the value of the variable i is initialized.
  • step S22 cursor position information is read.
  • step S23 the distance d i between the display position of the cursor and the display position of the moving image information of the channel number C H is calculated.
  • This distance d can be the distance between the center coordinates of the window displaying the moving image information and the center coordinates of the force sol, and the window frame displaying the moving image information and the cursor It is also possible to set the shortest distance from the center coordinates of the object.
  • step S24 the value of the variable i has reached the number n of pieces of moving image information displayed. It is determined whether or not. If the variable i is equal to the number n of display channels, the process proceeds to step S26; otherwise, the process proceeds to step S25.
  • step S25 the value of the variable i is incremented and the process proceeds to step S23.
  • step S26 the minimum value of the distance d i between the display position of the moving image information and the display position of the cursor is determined, and the corresponding moving image information of channel CH is determined as the selected image.
  • step S27 audio data corresponding to the selected moving image information is output.
  • the selected channel can be recognized. It is also possible to configure.
  • the audio data corresponding to each moving image information is amplified so that it is inversely proportional to the distance di between the display position of the moving image information and the display position of the cursor, and each audio data is synthesized and output. It is also possible.
  • center coordinates of the display position of the force sol are (CuX, CuY)
  • the amplification factor C Hig [d B] of the audio data corresponding to the video information is calculated as
  • Calculates direction information on the direction of the display position of the moving image information as viewed from the display position of the cursor, and corresponds to the moving image information based on the direction information and the distance information in the sound image space generated by the audio output device 130 Can be configured to localize the sound image of audio data
  • the display position of the cursor and the display position of the moving image information can be represented by coordinates on the display device, respectively. It is possible to calculate direction information. By using such direction information and distance information di, it is possible to localize the sound image of the sound data in the sound image space generated by the sound output device 130.
  • the audio output device 130 needs to be provided with two or more speakers, and the output from each speaker needs to be controlled so that a sound image space is generated by the sound output from each speaker.
  • the center coordinates of the cursor are the center coordinates of the s channel CH i (CX i, CY i), and the distance C Xid in the X-axis direction is
  • FIG. 8 shows a control block diagram according to the second embodiment of the present invention.
  • the information processing device 150 includes a moving image display control unit 101 that acquires a plurality of pieces of moving image information from a moving image source 200.
  • the moving image information display control means 101 determines the display position of each moving image information according to a preset position information table, and determines the moving image position And output information.
  • the display image generating means 104 includes an image output buffer such as VRAM, and arranges a plurality of pieces of moving image information based on the position information to output an image.
  • an image output buffer such as VRAM
  • the moving image position information from the moving image display control means 101 is input to the moving image selection means 108.
  • the moving image selecting means 108 has an algorithm for selecting moving image information of a plurality of channels at a predetermined cycle. For example, select one channel number and output audio selection information for selecting audio data corresponding to this video information, and switch the channel number to be selected in order of channel number every time a certain time elapses Can be configured.
  • the audio output selection information output from the moving image selection means 108 is input to the audio output selection means 107.
  • the audio output selection means 107 outputs to the audio output device 130 audio data corresponding to the moving image information of the channel selected based on the audio output selection information.
  • FIG. 9 is a flowchart of an algorithm configured to sequentially select displayed moving image information and output audio data corresponding to the selected moving image information for a certain period of time.
  • step S31 the value of the variable i is initialized.
  • step S32 the timer is initialized and the counting of the elapsed time by the timer is started. This timer measures the time for outputting audio data corresponding to the moving image information of the selected channel.
  • step S33 audio data corresponding to the image information of channel C Hi is output to audio output device 130.
  • step S34 it is determined whether or not the count value of the timer has reached a predetermined value. o If it is determined that the timer force value has reached a predetermined value, the process proceeds to step S35.
  • step S35 the value of the variable i is incremented, and the moving picture information of the next channel number is selected.
  • step S36 it is determined whether or not the value of the variable has exceeded the number n of displayed channels.
  • the process proceeds to step S32, and when it is determined that the value of the variable i exceeds the number n of channels, the process proceeds to step S31.
  • the moving image selecting means 108 is configured to select moving image information according to such an algorithm and output audio data corresponding to the selected moving image information, so that the moving image information to be periodically selected is provided. And the corresponding audio data can be output for a certain period of time.
  • the user can periodically recognize the audio data corresponding to each piece of moving image information without having to specify each piece of moving image information with a pointing device, and can grasp the contents of each piece of moving image information. It will be easier.
  • FIG. 10 shows a control block diagram of the third embodiment of the present invention.
  • the information processing device 160 includes a moving image display control unit 101 that acquires a plurality of pieces of moving image information from a moving image source 200.
  • the moving image information display control means 101 determines the display position of each moving image information in the same manner as in the first embodiment, and outputs the moving image position information and the moving image information.
  • the cursor position determining means 102 receives the cursor instruction information input from the input device 140 composed of a mouse, a trackball, a touch pad, a keyboard, and other pointing devices. Based on the current force-sol display position, the next force-sol position information is calculated and output. The cursor position information output from the cursor position determination means 102 is input to the force sol image generation means 103. The cursor image generating means 103 generates and outputs cursor image information based on the cursor position information.
  • Moving picture position information output from moving picture display control means 101 and cursor position determination The cursor position information output from the means 102 is input to the distance information generating means 105.
  • the distance information generating means 105 calculates the distance between the display position of each moving image information and the display position of the force sol based on the moving image position information and the cursor position information.
  • the distance between the display position of each piece of moving image information and the display position of the cursor can be the distance between the center position of the moving image information and the center position of the cursor. When the force cursor is located in the video information window, the distance can be set to "0".
  • the distance information generated by the distance information generating means 105 is input to the moving image selecting means 106.
  • the moving image selecting means 106 determines which moving image information to output audio data based on the distance information generated by the distance information generating means 105.
  • the moving image selection means 106 outputs audio output selection information to the audio output selection means 107 based on the selected moving image information.
  • the audio output selection means 107 selectively obtains audio data corresponding to the moving image information set by the audio output selection information from among a plurality of pieces of moving image information from the moving image source 200, and Output to audio output device 1 3 o
  • the voice data output from the voice output selection means 107 is input to the voice recognition means 109.
  • the voice recognition means 109 is for recognizing a meaningful word from input voice data, extracting the word, and converting it into character information.
  • the character information converted by the voice recognition means 109 is input to the recognition character display means 110.
  • the recognition character display means 110 generates character data to be displayed on the display device 120 based on the character information input from the voice recognition means 109 and outputs the character data to the display image generation means 104.
  • the moving image information and moving image position information output from the moving image display control means 101, the force image information output from the cursor image generating means 103, and the recognition character output means 110 The input character data is input to the display image generating means 104.
  • the display image generation means 104 includes an image output buffer such as VRAM, arranges a plurality of pieces of moving image information based on the position information, and stores a cursor image and character data. The images are combined and output to the display device 120.
  • the character data output from the recognition character display means 110 can be configured to be displayed near the corresponding moving image information, and from which moving image information the character data is obtained. It is also possible to adopt a configuration in which the information indicating is clearly displayed on the display device 120.
  • step S41 the value of the variable i is initialized.
  • step S12 the force sol position ft report is read.
  • step S13 it is determined whether or not the display position of the force cursor is within the display frame of the moving image information of the channel number C Hi.
  • a display frame is set within a predetermined distance range around the window displaying the moving image information, and when the cursor enters the display frame, the moving image information is displayed. It can be configured to determine that it has been selected. If it is determined that the display position of the force cursor is within the display frame of the moving image information of the channel number C Hi, the process proceeds to step S44.
  • step S44 audio data corresponding to the moving image information of channel number C Hi is output to audio output device 130.
  • step S45 a meaningful word is recognized from the audio data corresponding to the moving image information of the channel number C Hi and converted to character data.
  • step S46 the recognized character data is sent to the display image generating means 104 and displayed on the display device 120.
  • step S43 If it is determined in step S43 that the display position of the cursor is not within the display frame of the moving image information of the channel number C Hi, the process proceeds to step S47.
  • step S47 it is determined whether or not the value of the variable i has reached the number n of the displayed moving image information. If the variable i is n, the number of display channels, go to step S 4 1 The process proceeds to step S48 otherwise.
  • step S48 the value of the variable i is incremented and the process proceeds to step S43.
  • FIG. 12 shows a block diagram of a modification of the third embodiment.
  • the number of channels displayed by the voice recognition means 1109 and the recognition character display means 110 is provided, and the meaning is determined from the voice data corresponding to the moving image information of each channel. It is configured to extract a certain word, convert it into character data, input this to the display image generating means 104, and display it on the display device 120.
  • Each character data can be configured to be displayed near the display position of the corresponding moving image information, and can be configured to list only character data.
  • words extracted from the audio data corresponding to each piece of moving image information can be displayed on the display device 120, and the content of each piece of moving image information can be easily grasped.
  • FIG. 13 shows a control block diagram of the fourth embodiment of the present invention.
  • the information processing device 180 includes a moving image display control unit 101 that acquires a plurality of pieces of moving image information from a moving image source 200.
  • the moving image information display control means 101 determines the display position of each moving image information in the same manner as in the first embodiment, and outputs the moving image position information and the moving image information.
  • the force position determination means 102 is an input device 140 composed of a mouse, a track ball, a touch pad, a keyboard, and other pointing devices. Based on the input force-sol instruction information, the next cursor position information is calculated and output based on the force-sol instruction information and the current force-sol display position.
  • the force-sol position information output from the force-sol position determining means 102 is input to the cursor image generating means 103.
  • the force-sol image generating means 103 generates force-sol image information based on the cursor position information and outputs it.
  • the moving image position information output from the moving image display control means 101 and the cursor position information output from the cursor position determining means 102 are input to the distance information generating means 105.
  • the distance information generating means 105 calculates the distance between the display position of each piece of moving image information and the cursor display position based on the moving image position information and the cursor position information.
  • the distance between the display position of each piece of moving image information and the display position of the force sol can be the distance between the center position of the moving image information and the center position of the force sol. When the force cursor is located in the video information window, the distance can be set to "0".
  • the distance information generated by the distance information generating means 105 is input to the moving image selecting means 106.
  • the moving image selecting means 106 determines which moving image information to output the audio data based on the distance information generated by the distance information generating means 105. For example, it is possible to configure so as to select the moving image information having the smallest distance value from the distance information of each moving image information.
  • the moving image selection means 106 outputs audio output selection information to the audio output selection means 107 based on the selected moving image information.
  • the audio output selection means 107 selectively obtains audio data corresponding to the moving image information set by the audio output selection information from among a plurality of pieces of moving image information from the moving image source 200, and Output to audio output device 1 3 o
  • the voice data output from the voice output selection means 107 is input to the voice recognition means 109.
  • the voice recognition means 109 is for recognizing a meaningful word from input voice data, extracting the word, and converting it into character information.
  • the character information converted by the voice recognition means 109 is input to the recognition character display means 110.
  • the recognition character display means 110 generates character data to be displayed on the display device 120 based on the character information input from the voice recognition means 109, and generates the display image generation means 1. 0 Output to 4.
  • the character information output from the voice recognition means 109 is input to the homepage search means 111.
  • the homepage search means 111 accesses the Internet via the Internet connection means 113, and the character information obtained from the speech recognition means 109 is used as a key to enter the Internet. Search the homepage searchable above. For homepage search, it can be configured to connect to search sites such as YAHOO, goo, and google to receive search results. The search result is received by the homepage search means 111 via the Internet connection means 113, and sent to the homepage display means 112.
  • the homepage display means 112 accesses the URL of the homepage obtained from the search result, acquires the homepage information, and outputs the information to the display image generating means 104.
  • the home page display means 1 1 2 can be constituted by a web browser such as Internet Explorer or Netscape Navigator. Also, it is possible to obtain homepage information by accessing the internet via the internet connection means 113.
  • the homepage information output from the homepage display means 112 is input to the display image generation means 104.
  • the display image generation means 104 is equipped with an image output buffer such as VRAM, and arranges multiple pieces of moving image information based on its position information, and synthesizes dynamic image, character data, and homepage information. Output to the display device 120.
  • VRAM image output buffer
  • step S52 cursor position information is read.
  • step S53 it is determined whether or not the display position of the cursor is within the display frame of the moving image information of channel number CH.
  • a display frame is set around a window displaying moving image information within a predetermined distance range.
  • the process proceeds to step S54.
  • step S54 the audio data corresponding to the moving image information of the channel number C Hi is output to the audio output device 130.
  • step S55 a meaningful word is recognized from the audio data corresponding to the moving image information of the channel number C Hi and converted to character data.
  • step S56 the recognized character data is sent to the display image generating means 104 and displayed on the display device 120.
  • step S57 a homepage search is performed from the character data obtained by speech recognition.
  • step S 58 home page information is obtained based on the search result of the home page search, and is displayed on the display device 120.
  • step S53 If it is determined in step S53 that the display position of the force cursor is not within the display frame of the moving image information of the channel number C Hi, the process proceeds to step S59.
  • step S59 it is determined whether or not the value of the variable i has reached the number n of pieces of moving image information displayed. If the variable i is equal to the number n of display channels, the flow shifts to step S51, otherwise to step S60.
  • step S60 the value of the variable i is incremented, and the process proceeds to step S53.
  • audio data corresponding to specific moving image information can be easily recognized from a plurality of moving image information displayed on the display device, and the content of the moving image information can be easily recognized. It becomes easy to grasp.

Description

明 細 書 マルチチャネル情報処理装置 (技術分野)
本発明は、 音声データを伴う複数の動画像情報を同時に表示装置上に表示可能 なマルチチャネル情報処理に関し、 特に、 表示装置上に表示された複数の動画像 の中から特定の動画像の内容を容易に把握することができるマルチチャネル情報 処理装置、 マルチチャネル情報処理方法、 マルチチャネル情報処理方法のプログ ラムおよびこのプログラムを記憶するコンピュータ読み取り可能な記憶媒体に関 する。
(背景技術)
近年、 A D ¾ L (Asymmetric Digital Subscriber Line) や C A T Vモデムな どのィンタ一ネッ 卜に高速にアクセスする手段が普及しており、 これに伴って T V番組などの動画像情報を家庭からインタ一ネッ 卜を通じてダウンロードする機 会が増えている。 また、 ディジタルビデオカメラとパーソナルコンピュータ (以 下、 P Cと称す) との間のインターフェイスが普及しており、 ユーザが自分で撮 影した動画像情報を P Cに取り込んで処理することも盛んに行われている。
また、 P Cの性能が向上していることやハードディスクの容量が拡大している ことから、 大量の動画像情報をハードディスクに格納して再生表示することも容 易になってきており、 複数の動画像情報を表示装置上に同時に表示できる環境に も容易に対応可能となっている。 このような複数の動画像情報の表示には、 C R Tや液晶デイスプレイなどの表示装置上に複数のウィンドウを任意の位置に配置 し、 これらの動画像情報を同時に表示させることが可能である。
このような複数の動画像を表示する場合に、 これら動画像に付随している音声 データは、 全ての音声データを出力しないか、 あるいは全ての音声データを同一 の音量で合成して出力することが行われている。 音声データを出力しない場合に は、 各動画像情報の内容を把握するために音声デ一タを利用することができず、 表示装置上に表示された画像のみでその内容を判断する必要がある。 また、 全て の音声データを同一の音量で合成して出力する場合には、 それぞれの音声データ が干渉しあつて音声を認識することが困難であり、 またどの音声デ一タがどの動 画像情報に対応しているかを認識することも困難であるという問題を包含してい る
本発明は、複数の動画像情報を表示装置上に表示する際に、特定の動画像情報 に対応する音声データを認識することを容易にし、 表示されている動画像 if報の 内容を容易に把握することを可能にすることを目的とする ^
(発明の開示)
本発明の請求項 1に係るマルチチャネル情報処理装置は、複数の動画像情報を 同時に表示装置に表示するマルチチャネル情報処理装置であって、複数の動画像 情報を取得し、 複数の動画像情報の表示装置上での表示位置に関する動画像位置 情報を決定して複数の動画像情報を前記動画像位置情報に基づいて出力する動画 像情報制御手段と、 入力デバイスを介して入力される力一ソル指示情報に基づしヽ て力一ソル位置情報を算出し力一ソル位置情報に基づいて力一ソル画像情報を生 成してこれを出力するカーソル位置制御手段と、 動画像表示制御手段が出力する 複数の動画像情報と力一ソル位置制御手段が出力する力一ソル画像情報とを合成 して表示装置上に表示する表示画像生成手段と、複数の動画像情報に対応する動 画像位置情報と力一ソル位置制御手段で算出されたカーソル位置情報とに基づい て、 各動画像情報の表示位置とカーソルの表示位置との距離を算出し距離情報を 生成する距離情報生成手段と、 距離情報生成手段で生成された距離情報に基づい て複数の動画像情報に対応する音声データの音量を決定して音声出力装置に出力 する音声出力制御手段とを備える。 本発明の請求項 2に係るマルチチャネル情報処理装置は、 請求項 1に記載のマ ルチチャネル情報処理装置であって、 音声出力制御手段が、 距離情報生成手段で 生成された距離情報のうち距離の値が最も小さい動画像情報に対応する音声デー 夕の音量を予め定められた音量 V aに設定し、他の動画像情報に対応する音声デ 一夕の音量を音量 V aよりも小さな予め定められた音量 V bに設定することを特 徴としている。 本発明の請求項 3に係るマルチチャネル情報処理装置は、 請求項 1に記載のマ ルチチャネル情報処理装置であって、 音声出力制御手段が、複数の動画像情報に 対応する音声データの音量を、 距離情報生成手段で生成された距離情報中の距離 の値に反比例するように設定することを特徴としている。 本発明の請求項 4に係るマルチチャネル情報処理装置は、 請求項 1に記載のマ ルチチャネル情報処置装置であつて、 距離情報生成手段で生成された距離情報は、 力一ソルの表示位置から見た各動画像情報の表示位置の方向に関する方向情報を 含み、 音声出力制御手段は音声出力装置が形成する音像空間に複数の動画像情報 に対応する音声データが定位するように距離情報に基づいて音声出力装置に出力 を行うことを特徴としている。 本発明の請求項 5に係るマルチチャネル情報処理装置は、請求項 1に記載のマ ルチチャネル情報処置装置であって、 複数の動画像情報に対応する音声デ一夕に 含まれる言葉を認識する音声データ認識手段と、 音声データ認識手段で認識した 言葉を文字情報に変換して表示装置に表示する文字情報表示手段とをさらに備え ている。 本発明の請求項 6に係るマルチチャネル情報処理装置は、請求項 5に記載のマ ルチチャネル情報処理装置であって、 インタ—ネッ卜接続手段と、 音声データ認 識手段で認識した言葉をキーワードとしてインタ一ネット上に存在する関連ホー ムページを検索するホームページ検索手段と、 ホームページ検索手段で検索され たホームページを前記表示装置上に表示するホームページ表示手段とを備えてい る。 本発明の請求項 7に係るマルチチャネル情報処理装置は、 請求項 1に記載のマ ルチチャネル情報処理装置であって、 表示装置に表示される複数の動画像情報か ら所定のァルゴリズムに基づいて特定の動画像情報を選択する動画像選択手段を さらに備え、 音声出力制御手段は動画像選択手段が選択した動画像情報に対応す る音声データを音声出力装置に出力することを特徴としている。 本発明の請求項 8に係るマルチチャネル情報処理装置は、 請求項 7に記載のマ ルチチャネル情報処理装置であって、 動画像選択手段は、 所定時間毎に選択する 動画像情報を切り換えることを特徴としている。 本発明の請求項 9に係るマルチチャネル情報処理方法は、 複数の動画像情報を 同時に表示装置に表示する際のマルチチャネル情報処理方法であって、 表示装置 上に表示を行う動画像情報表示装置上での表示位置を決定する段階と、 決定した 表示位置に基づいて複数の動画像情報を出力する段階と、 入力デバイスから入力 されるカーソル指示情報を受け付ける段階と、 カーソル指示情報に基づいてカー ソルを表示するカーソル位置情報を算出する段階と、 カーソル位置情報に基づい て力一ソル画像 'ft報を生成する段階と、複数の動画像情報とカーソル画像情報と を合成して表示画像を生成しこれを表示装置上に出力する段階と、 複数の動画像 情報の表示位置とカーソル位置情報との間の距離を算出し距離情報を生成する段 階と、 距離情報に基づいて複数の動画像情報に対応する音声データの音量を決定 し音声出力装置に出力する段階とを含んでいる。 本発明の請求項 1 0に係るマルチチャネル情報処理方法は、 請求項 9に記載の マルチチヤネル情報処理方法であつて、複数の動画像情報について生成された距 離情報のうち距離の値が最も小さい動画像情報に対応する音声データの音量を予 め定められた音量 V aに設定し、 他の動画像情報に対応する音声データの音量を 音量 V aよりも小さな予め定められた音量 V bに設定することを特徴としている 本発明の請求項 1 1に係るマルチチャネル情報処理方法は、 請求項 9に記載の マルチチャネル情報処理方法であって、 複数の動画像情報に対応する音声データ の音量を、 各距離情報中の距離の値に反比例するように設定することを特徴とし ている。 本発明の請求項 1 2に係るマルチチャネル情報処理方法は、 請求項 9に記載の マルチチヤネル情報処理方法であつて、 カーソルの表示位置から見た各動画像情 報の表示位置の方向に関する方向情報を生成する段階と、 複数の動画像情報に対 応する音声データが、 音声出力装置の音像空間における距離情報および方向情報 に応じた音像位置に定位するように、 音声出力装置に出力を行う段階とをさらに 1厢えている。 本発明の請求項 1 3に係るマルチチャネル情報処理方法は、 請求項 9に記載の マルチチャネル情報処理方法であって、複数の動画像情報に対応する音声データ に含まれる言葉を音声認識する段階と、 音声認識した言葉を文字情報に変換して 表示装置に表示する段階とをさらに備えている。 本発明の請求項 1 4に係るマルチチャネル情報処理方法は、 請求項 1 3に言 E のマルチチャネル情報処理方法であって、 インタ一ネヅ卜に接続する段階と、 音 声認識した言葉をキーワードとしてィンタ一ネッ卜上に存在する関連ホームべ一 ジを検索する段階と、 検索された関連ホームページを前記表示装置上に表示する 段階とを備えている。 本発明の請求項 1 5に係るマルチチャネル情報処理方法は、 請求項 9に記載の マルチチャネル情報処理方法であって、 表示装置に表示される複数の動画像情報 から所定のァルゴリズムに基づし、て特定の動画像情報を選択する段階と、 選択し た動画像情報に対応する音声データを音声出力装置に出力する段階とをさらに備 えている。 本発明の請求項 1 6に係るプログラムは、 複数の動画像情報を同時に表示装置 に表示する際のマルチチヤネル情報処理方法のプログラムであって、 複数の動画 像情報の表示装置上での表示位置を決定する段階と、 決定した表示位置に基づい て複数の動画像情報を出力する段階と、 入力デバイスから入力される力一ソル指 示情報を受け付ける段階と、 カーソル指示情報に基づいて力一ソルを表示する力 ―ソル位置情報を算出する段階と、 力一ソル位置情報に基づいてカーソル画像情 報を生成する段階と、 複数の動画像情報とカーソル画像情報とを合成して表示画 像を生成しこれを前記表示装置上に出力する段階と、 複数の動画像情報の表示位 置とカーソル位置情報との間の距離を算出し距離情報を生成する段階と、 距離情 報に基づいて複数の動画像情報に対応する音声データの音量を決定し音声出力装 置に出力する段階とを含むマルチチャネル情報処理方法をコンピュータに実行さ せるためのプログラムである。 本発明の請求項 1 7に係るプログラムは、 複数の動画像情報を同時に表示装置 に表示する際のマルチチャネル情報処理方法のプログラムであって、 複数の動画 像情報の表示装置上での表示位置を決定する段階と、 決定した表示位置に基づい て複数の動画像 報を出力する段階と、 入力デバイスから入力されるカーソル指 示情報を受け付ける段階と、 カーソル指示情報に基づいてカーソルを表示する力 一ソル位置情報を算出する段階と、 カーソル位置情報に基づいて力一ソル画像情 報を生成する段階と、 複数の動画像情報とカーソル画像情報とを合成して表示画 像を生成しこれを表示装置上に出力する段階と、 複数の動画像†ff報の表示位置と 力一ソル位置情報との間の距離を算出し距離情報を生成する段階と、 複数の動画 像情報について生成された距離情報のうち距離の値が最も小さい動画像情報に対 応する音声データの音量を予め定められた音量 V aに設定し、 他の動画像情報に 対応する音声データの音量を音量 V aよりも小さな予め定められた音量 V bに設 定し音声出力装置に出力する段階とを含むマルチチャネル情報処理方法をコンビ ユー夕に実行させるためのプログラムである。 本発明の請求項 1 8に係るプログラムは、 複数の動画像情報を同時に表示装置 に表示する際のマルチチャネル情報処理方法のプログラムであって、 複数の動画 像情報の表示装置上での表示位置を決定する段階と、 決定した表示位置に基づい て複数の動画像情報を出力する段階と、 入力デバイスから入力されるカーソル指 示情報を受け付ける段階と、 力一ソル指示情報に基づいてカーソルを表示する力 —ソル位置情報を算出する段階と、 カーソル位置情報に基づいて力一ソル画像情 報を生成する段階と、 複数の動画像情報とカーソル画像情報とを合成して表示画 像を生成しこれを表示装置上に出力する段階と、 複数の動画像情報の表示位置と カーソル位置情報との間の距離を算出し距離情報を生成する段階と、 複数の動画 像情報に対応する音声データの音量を、 各距離情報中の距離の値に反比例するよ うに設定し音声出力装置に出力する段階とを含むマルチチャネル情報処理方法を コンピュータに実行させるためのプログラムである。 本発明の請求項 1 9に係るプログラムは、 複数の動画像情報を同時に表示装置 に表示する際のマルチチャネル情報処理方法のプログラムであって、 複数の動画 像情報の表示装置上での表示位置を決定する段階と、 決定した表示位置に基づい て複数の動画像情報を出力する段階と、 入力デバイスから入力されるカーソル指 示情報を受け付ける段階と、 力一ソル指示情報に基づいてカーソルを表示する力 一ソル位置情報を算出する段階と、 カーソル位置情報に基づいて力—ソル画像情 報を生成する段階と、 複数の動画像情報と力一ソル画像情報とを合成して表示画 像を生成しこれを表示装置上に出力する段階と、 複数の動画像情報の表示位置と カーソル位置情報との間の距離を算出し距離情報を生成する段階と、 カーソルの 表示位置から見た各動画像情報の表示位置の方向に関する方向情報を生成する段 階と、 複数の動画像情報に対応する音声データが、 音声出力装置の音像空間にお ける距離情報および方向情報に応じた音像位置に定位するように、 音声出力装置 に出力を行う段階とを含むマルチチヤネル情報処理方法をコンピュータに実行さ せるためのプログラムである。 本発明の請求項 2 0に係るプログラムは、 複数の動画像情報を同時に表示装置 に表示する際のマルチチャネル情報処理方法のプログラムであって、複数の動画 像情報の表示装置上での表示位置を決定する段階と、 決定した表示位置に基づい て複数の動画像情報を出力する段階と、 入力デバイスから入力される力一ソル指 示情報を受け付ける段階と、 カーソル指示情報に基づいて力一ソルを表示する力 -ソル位置情報を算出する段階と、 力—ソル位置情報に基づいてカーソル画像情 報を生成する段階と、 複数の動画像情報に対応する音声データに含まれる言葉を 音声認識する段階と、 音声認識した言葉を文字情報に変換してこれを出力する段 階と、 複数の動画像情報、 カーソル画像情報および文字情報とを合成して表示画 像を生成しこれを表示装置上に出力する段階とを備えるマルチチャネル情報処理 方法をコンピュータに実行させるためのプログラムである。 本発明の請求項 2 1に係るプログラムは、複数の動画像情報を同時に表示装置 に表示する際のマルチチャネル情報処理方法のプログラムであって、 複数の動画 像情報の表示装置上での表示位置を決定する段階と、 決定した表示位置に基づい て複数の動画像情報を出力する段階と、 入力デバイスから入力されるカーソル指 示情報を受け付ける段階と、 力一ソル指示情報に基づいてカーソルを表示する力 -ソル位置情報を算出する段階と、 カーリル位置情報に基づいて力一ソル画像情 報を生成する段階と、 複数の動画像情報の表示位置と力一ソル位置情報との間の 距離を算出し距離情報を生成する段階と、 距離情報に基づいて複数の動画像情報 のうちから特定の動画像情報を選択し、 この動画像情報に対応する音声データを 音声出力装置に出力する段階と、 音声出力装置に出力する音声データに含まれる 言葉を音声認識する段階と、 音声認識した言葉を文字情報に変換してこれを出力 する段階と、複数の動画像情報、 カーソル画像情報および文字情報とを合成して 表示画像を生成しこれを表示装置上に出力する段階とを備えるマルチチャネル情 報処理方法をコンピュータに実行させるためのプログラムである。 本発明の請求項 2 2に係るプログラムは、複数の動画像情報を同時に表示装置 に表示する際のマルチチャネル情報処理方法のプログラムであって、 複数の動画 像情報の表示装置上での表示位置を決定する段階と、 決定した表示位置に基づい て複数の動画像情報を出力する段階と、 入力デバイスから入力される力一ソル指 示情報を受け付ける段階と、 力一ソル指示情報に基づいてカーソルを表示する力 一ソル位置情報を算出する段階と、 カーソル位置情報に基づいてカーソル画像情 報を生成する段階と、 複数の動画像情報の表示位置とカーソル位置情報との間の 距離を算出し距離情報を生成する段階と、 距離情報に基づいて複数の動画像情報 のうちから特定の動画像情報を選択し、 この動画像情報に対応する音声データを 音声出力装置に出力する段階と、 音声出力装置に出力する音声データに含まれる 言葉を音声認識する段階と、 インターネッ 卜に接続する段階と、 音声認識した言 葉をキ一ヮ一ドとしてィンターネヅ卜上に存在する関連ホームページを検索する 段階と、 複数の動画像情報、 カーソル画像情報および検索された関連ホームべ— ジを合成して表示画像を生成しこれを表示装置上に出力する段階とを備えるマル チチャネル情報処理方法をコンピュータに実行させるためのプログラムである。 本発明の請求項 2 3に係るプログラムは、 複数の動画像情報を同時に表示装置 に表示する際のマルチチャネル情報処理方法のプログラムであって、 複数の動画 像情報の表示装置上での表示位置を決定する段階と、 決定した表示位置に基づい て複数の動画像情報を出力する段階と、 表示装置に表示される複数の動画像情報 から所定のァルゴリズ厶に基づいて特定の動画像情報を選択する段階と、 選択し た動画像情報に対応する音声データを音声出力装置に出力する段階とを備えるマ ルチチャネル情報処理方法をコンピュ一タに実行させるためのプログラムである o
本発明の請求項 2 4に係る記憶媒体は、 請求項 1 6〜2 3のプログラムを記憶 したコンピュータが読み取り可能な記憶媒体である。
(図面の簡単な説明)
図 1は、 本発明の概略構成を示すブロック図である。
図 2は、 動画像位置情報テーブルの一例を示す説明図である。
図 3は、 画面構成の一例を示す説明図である。
図 4は、 第 1実施形態の制御ブロック図である。
図 5は、 第 1実施形態の制御フローチャートである。 図 6は、 動画像一情報テーブルの他の例を示す説明図である。
図 7は、 第 1実施形態の変形例の制御フローチャートである。
図 8は、第 2実施形態の制御ブロック図である。
図 9は、 第 2実施形態の制御フローチャートである。
図 1 0は、 第 3実施形態の制御ブロック図である。
図 1 1は、 第 3実施形態の制御フローチャートである。
図 1 2は、 第 3実施形態の変形例の制御ブロック図である。
図 1 3は、 第 4実施形態の制御ブロック図である。
図 1 4は、第 4実施形態の制御フローチャートである。
(発明を実施するための最良の形態)
〔基本構成〕
本発明の 1実施形態が採用される情報処理装置のハ—ド構成を図 1に示す。 情報処理装置 1 0は、通常のパーソナルコンピュータで構成することが可能で あり、 0本体1、 C R Tや液晶表示装置などで構成されるディスプレイ 2、 ス ピー力 3、 マウスやトラックボール、 タヅチパッド、 キーボードなどの入力デバ イス 4、 インタ一ネッ卜接続が可能なモデム 5などを備えている。モデム 5は、 たとえば公衆回線を通じてインターネヅ卜接続を行う A D S Lモデムなどが採用 される。
P C本体 1は、 モデム 5および公衆回線を介して I S P (Internet Services P rovider) 2 0に接続を行い、 I S P 2 0に用意されているス卜リ一ミングデータ から複数の動画像情報をダウンロードすることが可能な構成となっている。 ダウ ンロードされた複数の動画像情報は、 ディスプレイ 2上の予めプログラムで設定 されている表示位置に表示される。 もちろん、 プログラム上に用意されたツール を用いてユーザが表示位置を設定するように構成することも可能である。
動画像情報の表示位置に関する位置情報テーブルの一例を図 2に示す。
この位置情報テーブルは、 チャネル番号、 中心の位置、 左右の幅、 上下の高さ などの項目を備えており、 各チャネル番号 C H i ( i = 1〜n ) の動画像情報の 中心の座標位置 (C X "i , C Y i )、左右の幅 \AM、 上下の高さ H がそれぞれ格 納される。 この位置情報テーブルは、 表示されるチャネル数 n毎に設定されてお り、 P C本体 1で処理可能な最大チャネル数またはディスプレイ 2上に表示可能 な最大チャネル数まで用意されている。
このような位置情報テーブルで設定された表示位置に基づいて動画像情報の表 示を行う場合の表示画面の一例を図 3に示す。 ここでは、 表示チャネル数が 3の 場合を示しており、 それぞれ中心の座標位置 (C X i, C Y i )、 左右の幅 W i、 上下の高さ H iによって、 各動画像情報の表示位置を決定することができる。
〔第 1実施形態〕
本発明の第 1実施形態の制御プロック図を図 4に示す。
この情報処理装置 1 0 0は、 動画像源 2 0 0から複数の動画像情報を取得する 動画像表示制御手段 1 0 1を備えている。 動画像情報表示制御手段 1 0 1は、 た とえば、 図 2に示されるような位置情報テ一ブルにしたがつて各動画像情報の表 示位置を決定し、 この動画像位置情報と動画像情報とを出力する。
力一ソル位置決定手段 1 0 2は、 マウス、 卜ラックポール、 タツチパッド、 キ —ボード、 その他のボインティングデバイスで構成される入力デバイス 1 4 0に より入力される力一ソル指示情報を受け付け、 このカーソル指示情報と現在の力 一ソルの表示位置とに基づいて次のカーソル位置情報を算出しこれを出力する。 カーソル位置決定手段 1 0 2から出力される力一ソル位置情報はカーソル画像 生成手段 1 0 3に入力される。 カーソル画像生成手段 1 0 3は、 力—ソル位置情 報に基づいて力一ソル画像情報を生成しこれを出力する。
動画像表示制御手段 1 0 1から出力される動画像情報と動画像位置情報および カーソル画像生成手段 1 0 3から出力される力一ソル画像情報は、 表示画像生成 手段 1 0 4に入力される。 表示画像生成手段 1 0 4は、 V R A Mなどの画像出力 用バッファを備え、複数の動画像情報をその位置情報に基づいて配置するととも に、 カーソル画像を合成して表示装置 1 2 0に出力する。
動画像表示制御手段 1 0 1から出力される動画像位置情報とカーソル位置決定 手段 1 0 2から出力されるカーソル位置情報は距離情報生成手段 1 0 5に入力さ れる。 距離情報生成手段 1 0 5は、 動画像位置情報とカーソル位置情報に基づい て各動画像情報の表示位置とカーソルの表示位置との距離を算出する。 この各動 画像情報の表示位置とカーソルの表示位置との距離は、 動画像情報の中心位置と カーソルの中心位置との間の距離とすることができる。 また、 カーソルが動画像 情報のウィンドウ内に位置する場合には、 その距離を" 0 " に設定するように構 成できる。
距離情報生成手段 1 0 5で生成された距離情報は動画像選択手段 1 0 6に入力 される。動画像選択手段 1 0 6では、 距離情報生成手段 1 0 5で生成された距離 情報に基づいて、 どの動画像情報に対応する音声データを出力するかを決定する 。 たとえば、 各動画像情報の距離情報のうち最も距離の値が小さい動画像情報を 選択するように構成できる。
動画像選択手段 1 0 6は、選択された動画像情報に基づいて音声出力選択情報 を音声出力選択手段 1 0 7に出力する。音声出力選択手段 1 0 7は、 動画像源 2 0 0からの複数の動画像情報のうち、 音声出力選択情報で設定される動画像情報 に対応する音声データを選択的に取得し、 これを音声出力装置 1 3 0に出力する 。
この構成における動作を図 5のフローチヤ一卜に基づいて説明する。
ステップ S 1 1では、 変数 iの値を初期化する。
ステップ S 1 2では、 カーソル位置情報の読み込みを行う。
ステップ S 1 3では、 力一ソルの表示位置がチャネル番号 C H iの動画像情報 の表示枠内に入っているか否かを判別する。動画像情報の位置情報テーブルとし て、 図 6に示すような、 チャネル番号、 中心の位置、 表示幅、 表示高さの各項目 に加えて、 近傍幅、 近傍高さの項目を備えるものを用いることができる。 力一ソ ルの表示位置が、 チャネル番号 C H iの動画像情報の中央位置座標 (C X i , C Y i ) および近傍幅 N W i、 近傍高さ N H iで規定される範囲内にある場合には 、 この動画像情報の表示枠に入っていると判断する。 この場合、 動画像情報を表 示しているウインドウの周囲に所定の距離範囲で表示枠を設定し、 この表示枠内 に力一ソルが入った場合にその動画像情報が選択されたと判断するように構成で きる。 カーソルの表示位置がチャネル番号 C H iの動画像情報の表示枠内に入つ ていると判断した場合にはステップ S 1 6に移行する。 ステップ S 1 6では、 チャネル番号 C H iの動画像情報に対応する音声データ を音声出力装置 1 3 0に出力する。
ステップ S 1 3において、 力一ソルの表示位置がチャネル番号 C H iの動画像 情報の表示枠内に入っていないと判断した場合には、 ステップ S 1 4に移行する
0
ステップ S 1 4では、 変数 iの値が表示されている動画像情報数 nに到達した か否かを判別する。変数 i 二表示チャネル数 nである場合にはステップ S 1 1に 移行し、 そうでない場合にはステップ S 1 5に移行する。
ステップ S 1 5では変数 iの値をィンクリメン卜しステップ S 1 3に移行する ο
このように構成した場合、 たとえばマウス力一ソルの表示位置が動画像情報の ウィンドウ上にない場合であっても、 ウィンドウの近傍にあることを認識して、 その動画像情報に対応する音声データを出力するように構成できる。 ユーザは、 マウスやトラックボール、 その他のポィンティングデバイスを用いてカーソルを 移動させ、 希望する動画像情報のウィンドウにカーソルを近づけることで、 その 音声データを聞くことができ、 動画像情報の内容を容易に認識することが可能と なる。
〈変形例 1〉
カーソルの表示位置に最も近い動画像情報を選択して音声データを出力するよ うに構成することも可能である。 この場合のフローチヤ一卜を図 7に示す。
ステップ S 2 1では、 変数 iの値を初期化する。
ステップ S 2 2では、 カーソル位置情報の読み込みを行う。
ステップ S 2 3では、 カーソルの表示位置とチャネル番号 C H の動画像情報 の表示位置との距離 d iを算出する。 この距離 d は、 動画像情報を表示してい るウィンドウの中心座標と力一ソルの中心座標との間の距離とすることも可能で あり、 また動画像情報を表示しているウィンドウ枠とカーソルの中心座標との最 短距離とすることも可能である。
ステップ S 2 4では、 変数 iの値が表示されている動画像情報数 nに到達した か否かを判別する。変数 i =表示チャネル数 nである場合にはステップ S 26に 移行し、 そうでない場合にはステップ S 25に移行する。
ステップ S 25では、 変数 iの値をインクリメン卜しステップ S 23に移行す る o
ステップ S 26では、 動画像情報の表示位置とカーソルの表示位置との間の距 離 d iのうち最小値を判定し、 これに対応するチャネル CH の動画像情報を選 択画像に決定する。
ステップ S 27では、 選択された動画像情報に対応する音声データの出力を行 う o
このように構成した場合、 動画像情報を表示するウインドウの近傍に表示枠を 設けるためのテーブルを用意する必要がなく、 カーソルの表示位置に最も近い動 画像情報に^応する音声データを出力するように構成できる。
〈変形例 2〉
音声データの出力を行っている動画像情報について、 その表示ウィンドウの枠 の色を変更したり、選択されていなし、動画像情報の色調を変更するなどにより、 選択されたチヤネルを認識できるように構成することも可能である。
〈変形例 3〉
動画像情報の表示位置とカーソルの表示位置との間の距離 d iに反比例するよ うに、 各動画像情報に対応する音声データを増幅し、 各音声データを合成して ¥ 出力するように構成することも可能である。
力一ソルの表示位置の中心座標を (CuX, CuY)、 チャネル CH iの動画像 情報の中心座標 (CX i , CY ) としこれらの座標間の距離 d iとすると、 d i = ((CuX-CX i)2+(CuY-CY i)2) 12
で計算することができる。 この距離 d を用いてその動画像情報に対応する音声 データの増幅率 C Hig [d B] を、
CHig [d B] -a■ d i (ただし、 a<0の定数)
で δ又 ^ 。 このことにより、 力一ソル表示位置に近い動画像情報の音声デ—タは大きな音 量で出力され、 カーソル表示位置から遠い動画像情報の音声データは小さい音量 で出力されることとなる。 したがって、 マウスなどのポインティングデバイスを 用いてカーソルを近づけた動画像情報の音声デ—夕の音量が大きくなり、 その動 画像情報の内容把握を容易にするとともに、 他の動画像情報についても音量が小 さいながらも音声デ一夕の出力を行っているため、 内容把握の助けとすることが 可能である。
〈変形例 4〉
カーソルの表示位置から見た動画像情報の表示位置の方向に関する方向情報を 算出し、 音声出力装置 1 3 0が生成する音像空間内に方向情報と距離情報に基づ いて動画像情報に対応する音声データの音像を定位するように構成することも可
Bbし5ある。
前述したように、 カーソルの表示位置および動画像情報の表示位置は、 それぞ れ表示装置上の座標で表すことが可能であり、 この座標を用いてカーリルから見 た動画像情報の表示位置の方向情報を算出することが可能である。 このような方 向情報と距離情報 d iを用いて、 音声出力装置 1 3 0が生成する音像空間内に音 声データの音像を定位することが可能となる。 ただし、 この場合、音声出力装置 1 3 0は 2以上のスピーカを備え、 各スピーカから出力される音声による音像空 間が生成されるように各スピーカからの出力が制御される必要がある。
たとえば、 カーソルの中心座標 (C u X , C u Y )s チャネル C H iの中心座標 ( C X i , C Y i ) とし、 X軸方向の距離 C Xidを、
C Xid= C u X - C X i
として算出する。 この X軸方向の距離 C Xidを用いて、 左右のスピーカに出力す る音量を決定して出力することにより、 音像の定位を行うことが可能となる。 このような構成とすることにより、 表示装置 1 2 0の動画像情報の表示位置と 音声出力装置 1 3 0から出力される音声データの位置との間に整合性を持たせる ことができ、 動画像情報の内容把握を促すことが容易になる。 〔第 2実施形態〕
本発明の第 2実施形態の制御プロック図を図 8に示す。
この情報処理装置 1 5 0は、 動画像源 2 0 0から複数の動画像情報を取得する 動画像表示制御手段 1 0 1を備えている。 動画像情報表示制御手段 1 0 1は、 第 1実施形態と同様に、 予め設定された位置情報テーブルにしたがって各動画像情 報の表示位置を決定し、 この動画像位置'隋報と動画像情報とを出力する。
表示画像生成手段 1 0 4は、 第 1実施形態と同様に、 V R A Mなどの画像出力 用バッファを備え、 複数の動画像情報をその位置情報に基づいて配置し画像出力 を行う。
動画像表示制御手段 1 0 1からの動画像位置情報は動画像選択手段 1 0 8に入 力される。 動画像選択手段 1 0 8は、 複数のチャネルの動画像情報を所定の周期 で選択するようなアルゴリズムを有している。 たとえば、 ひとつのチャネル番号 を選択してこの動画像情報に対応する音声データを選択するための音声選択情報 を出力し、 一定時間経過する毎にチャネル番号順に選択するチャネル番号を切り 換えていくように構成できる。
動画像選択手段 1 0 8から出力される音声出力選択情報は音声出力選択手段 1 0 7に入力される。 音声出力選択手段 1 0 7は、 音声出力選択情報に基づいて選 択されているチャネルの動画像情報に対応する音声データを音声出力装置 1 3 0 に出
表示されている動画像情報を順に選択し、 選択された動画像情報に対応する音 声データを一定時間出力するような構成のアルゴリズムを図 9のフローチャート に示す。
ステップ S 3 1では、 変数 iの値を初期化する。
ステップ S 3 2では、 タイマを初期化してこの夕イマによる経過時間のカウン 卜を開始する。 このタイマは、 選択されたチャネルの動画像情報に対応する音声 データを出力する時間を計時するものである。
ステップ S 3 3では、 チャネル C H iの画像情報に対応する音声データを音声 出力装置 1 3 0に出力する。
ステップ S 3 4では、 タイマのカウン卜値が所定値に達したか否かを判別する o タィマの力ゥン卜値が予め設定されている所定値に到達したと判断した場合に はステップ S 3 5に移行する。
ステップ S 3 5では、 変数 iの値をインクリメントし、 次のチャネル番号の動 画像情報を選択する。
ステップ S 3 6では、 変数 の値が表示を行っているチャネル数 nを超えたか 否かを判別する。 変数 iの値がチャネル数 nを超えていないと判断した場合には ステップ S 3 2に移行し、 変数 iの値がチャネル数 nを超えたと判断した場合に はステップ S 3 1に移行する。
動画像選択手段 1 0 8がこのようなアルゴリズムにしたがって動画像情報を選 択し、 選択した動画像情報に対応する音声データを出力するように構成すること で、 周期的に選択する動画像情報を切り換えてそれに対応する音声データを一定 時間出力することができる。 ユーザは、 各動画像情報をポインティングデバイス などで指定する作業なしで、 各動画像情報に対応する音声データを周期的に認識 することが可能であり、 各動画像情報の内容を把握することが容易となる。
〔第 3実施形態〕
本発明の第 3実施形態の制御プロック図を図 1 0に示す。
この情報処理装置 1 6 0は、 動画像源 2 0 0から複数の動画像情報を取得する 動画像表示制御手段 1 0 1を備えている。 動画像情報表示制御手段 1 0 1は、 第 1実施形態と同様にして各動画像情報の表示位置を決定し、 この動画像位置情報 と動画像情報とを出力する。
カーソル位置決定手段 1 0 2は、 マウス、 トラックボール、 タヅチパッ ド、 キ —ボード、 その他のポインティングデバイスで構成される入力デバイス 1 4 0に より入力されるカーソル指示情報を受け付け、 このカーソル指示情報と現在の力 ―ソルの表示位置とに基づいて次の力一ソル位置情報を算出しこれを出力する。 カーソル位置決定手段 1 0 2から出力されるカーソル位置情報は力一ソル画像 生成手段 1 0 3に入力される。 カーソル画像生成手段 1 0 3は、 カーソル位置情 報に基づいてカーソル画像情報を生成しこれを出力する。
動画像表示制御手段 1 0 1から出力される動画像位置情報とカーソル位置決定 手段 1 0 2から出力されるカーソル位置情報は距離情報生成手段 1 0 5に入力さ れる。距離情報生成手段 1 0 5は、 動画像位置情報とカーソル位置情報に基づい て各動画像情報の表示位置と力一ソルの表示位置との距離を算出する。 この各動 画像情報の表示位置とカーソルの表示位置との距離は、 動画像情報の中心位置と カーソルの中心位置との間の距離とすることができる。 また、 力一ソルが動画像 情報のウィンドウ内に位置する場合には、 その距離を" 0 " に設定するように構 成できる。
距離情報生成手段 1 0 5で生成された距離情報は動画像選択手段 1 0 6に入力 される。 動画像選択手段 1 0 6では、 距離情報生成手段 1 0 5で生成された距離 情報に基づいて、 どの動画像情報に対応する音声データを出力するかを決定する
。 たとえば、 各動画像情報の距離情報のうち最も距離の値が小さい動画像情報を 選択するように構成できる。
動画像選択手段 1 0 6は、 選択された動画像情報に基づいて音声出力選択情報 を音声出力選択手段 1 0 7に出力する。音声出力選択手段 1 0 7は、 動画像源 2 0 0からの複数の動画像情報のうち、 音声出力選択情報で設定される動画像情報 に対応する音声データを選択的に取得し、 これを音声出力装置 1 3 0に出力する o
音声出力選択手段 1 0 7から出力される音声データは、 音声認識手段 1 0 9に 入力される。音声認識手段 1 0 9は、 入力される音声データから意味のある言葉 を認識してこれを抽出し文字情報に変換するものである。
音声認識手段 1 0 9で変換された文字情報は認識文字表示手段 1 1 0に入力さ れる。 認識文字表示手段 1 1 0は、 音声認識手段 1 0 9から入力される文字情報 に基づいて表示装置 1 2 0上に表示する文字データを生成し表示画像生成手段 1 0 4に出力する。
動画像表示制御手段 1 0 1から出力される動画像情報と動画像位置情報、 カー ソル画像生成手段 1 0 3から出力される力一ソル画像情報および認識文字表示手 段 1 1 0から出力される文字データは、 表示画像生成手段 1 0 4に入力される。 表示画像生成手段 1 0 4は、 V R A Mなどの画像出力用バッファを備え、 複数の 動画像情報をその位置情報に基づいて配置し、 カーソル画像および文字データを 合成して表示装置 1 2 0に出力する。
ここで、 認識文字表示手段 1 1 0から出力される文字データは、 対応する動画 像情報の近傍に表示するように構成することが可能であり、 どの動画像情報から 得た文字データであるかを示す情報を表示装置 1 2 0上に明示するような構成と することも可能である。
また、 選択されたチヤネルの動画像情報に対応する音声データから取得した文 字データを表示し、 音声出力装置 1 3 0から音声データの出力を行わない構成と することも可能である。 この場合の動作について図 1 1に示すフローチヤ一卜に基づいて説明する。 ステップ S 4 1では、 変数 iの値を初期化する。
ステップ S 1 2では、 力一ソル位置 ft報の読み込みを行う。
ステップ S 1 3では、 力一ソルの表示位置がチャネル番号 C H iの動画像情報 の表示枠内に入っているか否かを判別する。 この場合、 第 1実施形態と同様に、 動画像情報を表示しているウィンドウの周囲に所定の距離範囲で表示枠を設定し 、 この表示枠内にカーソルが入った場合にその動画像情報が選択されたと判断す るように構成できる。 力一ソルの表示位置がチャネル番号 C H iの動画像情報の 表示枠内に入っていると判断した場合にはステップ S 4 4に移行する。
ステップ S 4 4では、 チャネル番号 C H iの動画像情報に対応する音声データ を音声出力装置 1 3 0に出力する。
ステップ S 4 5では、 チャネル番号 C H iの動画像情報に対応する音声データ から意味のある言葉を認識し文字データに変換する。
ステップ S 4 6では、 認識した文字データを表示画像生成手段 1 0 4に送出し 、 表示装置 1 2 0上に表示する。
ステップ S 4 3において、 カーソルの表示位置がチャネル番号 C H iの動画像 情報の表示枠内に入っていないと判断した場合には、 ステップ S 4 7に移行する o
ステップ S 4 7では、 変数 iの値が表示されている動画像情報数 nに到達した か否かを判別する。 変数 i 二表示チャネル数 nである場合にはステップ S 4 1に 移行し、 そうでない場合にはステップ S 4 8に移行する。
ステップ S 4 8では変数 iの値をインクリメン卜しステップ S 4 3に移行する ο
このように構成した場合には、 選択されたチャネルの動画像情報に対応する音 声データに含まれる意味のある言葉を視覚的に認識することが可能となり、 動画 像情報の内容把握を容易にすることができる。
〈変形例〉
第 3実施形態の変形例のプロック図を図 1 2に示す。
この情報処理装置 1 7 0では、 音声認識手段 1 0 9および認識文字表示手段 1 1 0が表示するチャネル数だけ設けられており、 それぞれ各チャネルの動画像情 報に対応する音声データから意味のある言葉を抽出して文字データに変換しこれ を表示画像生成手段 1 0 4に入力し、 表示装置 1 2 0上に表示する構成となって いる。
各文字データはそれぞれ対応する動画像情報の表示位置の近傍に表示されるよ うに構成することが可能であり、 文字デ一タのみをリスト表示するように構成す ることも可能である。
この場合には、 各動画像情報に対応する音声データから抽出された言葉を表示 装置 1 2 0上にそれぞれ表示することが可能となり、 各動画像情報の内容把握を 容易にすることができる。
〔第 4実施形態〕
本発明の第 4実施形態の制御プロック図を図 1 3に示す。
この情報処理装置 1 8 0は、 動画像源 2 0 0から複数の動画像情報を取得する 動画像表示制御手段 1 0 1を備えている。 動画像情報表示制御手段 1 0 1は、 第 1実施形態と同様にして各動画像情報の表示位置を決定し、 この動画像位置情報 と動画像情報とを出力する。
力一ソル位置決定手段 1 0 2は、 マウス、 卜ラックボール、 タツチパヅド、 キ —ボード、 その他のポインティングデバイスで構成される入力デバイス 1 4 0に より入力される力一ソル指示情報を受け付け、 この力一ソル指示情報と現在の力 —ソルの表示位置とに基づいて次のカーソル位置情報を算出しこれを出力する。 力一ソル位置決定手段 1 0 2から出力される力一ソル位置情報はカーソル画像 生成手段 1 0 3に入力される。 力一ソル画像生成手段 1 0 3は、 カーソル位置情 報に基づいて力一ソル画像情報を生成しこれを出力する。
動画像表示制御手段 1 0 1から出力される動画像位置情報とカーソル位置決定 手段 1 0 2から出力される力一ソル位置情報は距離情報生成手段 1 0 5に入力さ れる。距離情報生成手段 1 0 5は、 動画像位置情報とカーソル位置情報に基づい て各動画像情報の表示位置とカーソルの表示位置との距離を算出する。 この各動 画像情報の表示位置と力—ソルの表示位置との距離は、 動画像情報の中心位置と 力一ソルの中心位置との間の距離とすることができる。 また、 力一ソルが動画像 情報のウィンドウ内に位置する場合には、 その距離を" 0 " に設定するように構 成できる。
距離情報生成手段 1 0 5で生成された距離情報は動画像選択手段 1 0 6に入力 される。 動画像選択手段 1 0 6では、 距離情報生成手段 1 0 5で生成された距離 情報に基づいて、 どの動画像情報に対応する音声データを出力するかを決定する 。 たとえば、 各動画像情報の距離情報のうち最も距離の値が小さい動画像情報を 選択するように構成できる。
動画像選択手段 1 0 6は、 選択された動画像情報に基づいて音声出力選択情報 を音声出力選択手段 1 0 7に出力する。音声出力選択手段 1 0 7は、 動画像源 2 0 0からの複数の動画像情報のうち、 音声出力選択情報で設定される動画像情報 に対応する音声データを選択的に取得し、 これを音声出力装置 1 3 0に出力する o
音声出力選択手段 1 0 7から出力される音声データは、 音声認識手段 1 0 9に 入力される。 音声認識手段 1 0 9は、 入力される音声データから意味のある言葉 を認識してこれを抽出し文字情報に変換するものである。
音声認識手段 1 0 9で変換された文字情報は認識文字表示手段 1 1 0に入力さ れる。認識文字表示手段 1 1 0は、 音声認識手段 1 0 9から入力される文字情報 に基づいて表示装置 1 2 0上に表示する文字データを生成し表示画像生成手段 1 0 4に出力する。
音声認識手段 1 0 9から出力される文字情報はホームページ検索手段 1 1 1に 入力される。 ホームページ検索手段 1 1 1はインターネット接続手段 1 1 3を介 してインタ一ネッ卜にアクセスを行い、 音声認識手段 1 0 9から取得した文字情 報をキ一ヮ一ドとしてィンタ一ネヅ卜上で検索可能なホームページを検索する。 ホームページの検索には、 YAHOO、 goo、 googleなどの検索サイ卜に接続して検 索結果を受信するように構成することが可能である。 検索結果はインタ一ネッ卜 接続手段 1 1 3を介してホームページ検索手段 1 1 1で受信され、 ホームページ 表示手段 1 1 2に送出される。
ホームページ表示手段 1 1 2は、 検索結果から得られたホームページの U R L にアクセスを行い、 ホームページの情報を取得して表示画像生成手段 1 0 4に出 力する。 ホームぺ一ジ表示手段 1 1 2は、 Internet Explorerや Netscape Naviga torなどのウェブブラウザで構成することが可能である。 また、 ホームページ情報 の取得はィンタ一ネッ卜接続手段 1 1 3を介してィンタ一ネッ卜にアクセスを行 うことで可能となる。
動画像表示制御手段 1 0 1から出力される動画像情報と動画像位置情報、 カー ソル画像生成手段 1 0 3から出力されるカーソル画像情報、認識文字表示手段 1 1 0から出力される文字データおよびホームページ表示手段 1 1 2から出力され るホームページ情報は、 表示画像生成手段 1 0 4に入力される。 表示画像生成手 段 1 0 4は、 V R A Mなどの画像出力用バッファを備え、 複数の動画像情報をそ の位置情報に基づいて配置し、 力—ソル画像、 文字データおよびホームページ情 報を合成して表示装置 1 2 0に出力する。 この場合の動作について、 図 1 4に示すフ口一チャートに基づいて説明する。 ステップ S 5 1では、 変数 iの値を初期化する。
ステップ S 5 2では、 カーソル位置情報の読み込みを行う。
ステップ S 5 3では、 カーソルの表示位置がチャネル番号 C H の動画像情報 の表示枠内に入っているか否かを判別する。 この場合、 第 1実施形態と同様に、 動画像情報を表示しているウィンドウの周囲に所定の距離範囲で表示枠を設定し 、 この表示枠内にカーソルが入った場合にその動画像情報が選択されたと判断す るように構成できる。 力一ソルの表示位置がチャネル番号 C H iの動画像情報の 表示枠内に入っていると判断した場合にはステップ S 5 4に移行する。
ステップ S 5 4では、 チャネル番号 C H iの動画像情報に対応する音声データ を音声出力装置 1 3 0に出力する。
ステップ S 5 5では、 チャネル番号 C H iの動画像情報に対応する音声データ から意味のある言葉を認識し文字データに変換する。
ステップ S 5 6では、 認識した文字データを表示画像生成手段 1 0 4に送出し 、 表示装置 1 2 0上に表示する。
ステップ S 5 7では、 音声認識により得られた文字データからホームページ検 索を行つ o
ステップ S 5 8では、 ホームページ検索を行った検索結果に基づいて、 ホ一厶 ページ情報を取得し、 これを表示装置 1 2 0上に表示する。
ステップ S 5 3において、 力一ソルの表示位置がチャネル番号 C H iの動画像 情報の表示枠内に入っていないと判断した場合には、 ステップ S 5 9に移行する
O
ステップ S 5 9では、 変数 iの値が表示されている動画像情報数 nに到達した 否かを判別する。変数 i =表示チャネル数 nである場合にはステップ S 5 1に 移行し、 そうでない場合にはステップ S 6 0に移行する。
ステップ S 6 0では変数 iの値をィンクリメントしステップ S 5 3に移行する ο
このように構成した場合には、 動画像情報に対応する音声データから得られる 言葉から関連ホームページの情報を取得してこれを表示装置上に表示させること が可能となる。 このことにより、 各動画像情報の関連情報を容易に取得すること ができ、種々のデータを簡単に取得することができる。
(産業上の利用可能性)
本発明によれば、 表示装置に表示される複数の動画像情報から特定の動画像情 報に対応する音声データを容易に認識することができ、 その動画像情報の内容の 把握が容易になる。

Claims

請 求 の 範 囲
1 .
複数の動画像情報を同時に表示装置に表示するマルチチャネル情報処理装置で あって、
前記複数の動画像情報を取得し、 前記複数の動画像情報の表示装置上での表示 位置に関する動画像位置情報を決定して前記複数の動画像情報を前記動画像位置 情報に基づいて出力する動画像情報制御手段と、
入力デバイスを介して入力されるカーソル指示情報に基づいてカーソル位置情 報を算出し前記カーソル位置情報に基づいてカーソル画像情報を生成してこれを 出力するカーソル位置制御手段と、
前記動画像表示制御手段が出力する複数の動画像情報と、 前記力一ソル位置制 御手段が出力する力一ソル画像情報とを合成して前記表示装置上に表示する表示 画像生成手段と、
前記複数の動画像情報に対応する動画像位置情報と、 前記カーソル位置制御手 段で算出されたカーソル位置情報とに基づいて、 各動画像情報の表示位置と力一 ソルの表示位置との距離を算出し距離情報を生成する距離情報生成手段と、 前記距離情報生成手段で生成された距離情報に基づいて前記複数の動画像情報 に対応する音声データの音量を決定して音声出力装置に出力する音声出力制御手 段と、
を備えるマルチチャネル情報処理装置。
2 .
前記音声出力制御手段は、 前記距離情報生成手段で生成された距離情報のうち 距離の値が最も小さい動画像情報に対応する音声データの音量を予め定められた 音量 V aに設定し、他の動画像情報に対応する音声データの音量を前記音量 V a よりも小さな音量 V bに設定することを特徴とする、 請求項 1に記載のマルチチ ャネル情報処理装置。
3 .
前記音声出力制御手段は、 前記複数の動画像情報に対応する音声データの音量 を、 前記距離情報生成手段で生成された距離情報中の距離の値に反比例するよう に設定することを特徴とする、請求項 1に記載のマルチチャネル情報処理装置。
4 .
前記距離情報生成手段で生成された距離情報は、 力—ソルの表示位置から見た 各動画像情報の表示位置の方向に関する方向情報を含み、 前記音声出力制御手段 は前記音声出力装置が形成する音像空間に前記複数の動画像情報に対応する音声 データが定位するように前記距離情報に基づいて前記音声出力装置に出力を行う ことを特徴とする、 請求項 1に記載のマルチチャネル情報処理装置。
5 .
前記複数の動画像情報に対応する音声データに含まれる言葉を認識する音声デ 一夕認識手段と、
前記音声データ認識手段で認識した言葉を文字情報に変換して前記表示装置に 表示する文字 t*報表示手段と、
をさらに備える請求項 1に記載のマルチチャネル情報処理装置。
6 .
インターネヅ卜接続手段と、 ' 前記音声データ認識手段で認識した言葉をキーヮ一ドとしてィンタ一ネッ卜上 に存在する関連ホームページを検索するホームページ検索手段と、
前記ホームページ検索手段で検索されたホームページを前記表示装置上に表示 するホームページ表示手段と、
を備える、請求項 5に記載のマルチチャネル情報処理装置。
7 .
前記表示装置に表示される複数の動画像情報から所定のアルゴリズムに基づい て特定の動画像情報を選択する動画像選択手段をさらに備え、 前記音声出力制御 手段は前記動画像選択手段が選択した動画像情報に対応する音声データを音声出 力装置に出力することを特徴とする、 請求項 1に記載のマルチチャネル情報処理
8 .
前記動画像選択手段は、 所定時間毎に選択する動画像情報を切り換えることを 特徴とする、請求項 7に記載のマルチチャネル情報処理装置。 9 .
複数の動画像情報を同時に表示装置に表示する際のマルチチャネル情報処理方 法であって、
前記表示装置上に表示を行う動画像情報の表示装置上での表示位置を決定する 段階と、
決定した表示位置に基づいて前記複数の動画像情報を出力する段階と、 前記入力デバイスから入力されるカーソル指示情報を受け付ける段階と、 前記力 ソル指示情報に基づいて力一ソルを表示する力一ソル位置情報を算出 する段階と、
前記力一ソル位置情報に基づいてカーソル画像情報を生成する段階と、 前記複数の動画像情報と前記力一ソル画像情報とを合成して表示画像を生成し これを前記表示装置上に出力する段階と、
前記複数の動画像情報の表示位置と前記力—ソル位置情報との間の距離を算出 し距離情報を生成する段階と、
前記距離情報に基づいて複数の動画像情報に対応する音声データの音量を決定 し音声出力装置に出力する段階と、
を含むマルチチャネル情報処理方法。
1 0 .
複数の動画像情報について生成された距離情報のうち距離の値が最も小さい動 画像情報に対応する音声データの音量を予め定められた音量 V aに設定し、他の 動画像情報に対応する音声データの音量を前記音量 V aよりも小さな予め定めら れた音量 V bに設定することを特徴とする、 請求項 9に記載のマルチチャネル情 報処理方法。
1 1 .
前記複数の動画像情報に対応する音声データの音量を、 各距離情報中の距離の 値に反比例するように設定することを特徴とする、 請求項 9に記載のマルチチヤ ネル情報処理方法。
1 2 .
カーソルの表示位置から見た各動画像情報の表示位置の方向に関する方向情報 を生成する段階と、
前記複数の動画像情報に対応する音声データが、 前記音声出力装置の音像空間 における前記距離情報および方向情報に応じた音像位置に定位するように、 前記 音声出力装置に出力を行う段階と、
をさらに備える、 請求項 9に記載のマルチチャネル情報処理方法。
1 3 .
前記複数の動画像情報に対応する音声データに含まれる言葉を音声認識する段 階と、
音声認識した言葉を文字情報に変換して前記表示装置に表示する段階と、 をさらに備える請求項 9に記載のマルチチャネル情報処理方法。 1 4 .
ィンタ一ネッ卜に接続する段階と、
音声認識した言葉をキ一ワードとしてインターネット上に存在する関連ホ一ム ページを検索する段階と、
検索された関連ホームページを前記表示装置上に表示する段階と、 を備える、請求項 1 3に記載のマルチチャネル情報処理方法。 1 5 .
前記表示装置に表示される複数の動画像情報から所定のアルゴリズムに基づい て特定の動画像情報を選択する段階と、
選択した動画像'膚報に対応する音声データを前記音声出力装置に出力する段階 と、
をさらに備える、 請求項 9に記載のマルチチャネル情報処理方法。 1 6 .
複数の動画像情報を同時に表示装置に表示する際のマルチチャネル情報処理方 法のプログラムであって、
前記複数の動画像情報の表示装置上での表示位置を決定する段階と、 決定した表示位置に基づいて前記複数の動画像情報を出力する段階と、 前記入力デバイスから入力される力一ソル指示情報を受け付ける段階と、 前記力 ソル指示情報に基づいて力一ソルを表示する力一ソル位置情報を算出 する段階と、
前記力一ソル位置情報に基づいて力一ソル画像情報を生成する段階と、 前記複数の動画像情報と前記力一ソル画像情報とを合成して表示画像を生成し これを前記表示装置上に出力する段階と、
前記複数の動画像情報の表示位置と前記カーソル位置情報との間の距離を算出 し距離情報を生成する段階と、
前記距離情報に基づいて複数の動画像情報に対応する音声データの音量を決定 し音声出力装置に出力する段階と、
を含むマルチチャネル情報処理方法をコンピュータに実行させるためのプログラ 厶。
1 7 .
複数の動画像情報を同時に表示装置に表示する際のマルチチャネル情報処理方 法のプログラムであって、
前記複数の動画像情報の表示装置上での表示位置を決定する段階と、
決定した表示位置に基づし、て前記複数の動画像情報を出力する段階と、 前記入力デバイスから入力されるカーソル指示情報を受け付ける段階と、 前記カーソル指示情報に基づいてカーソルを表示するカーソル位置情報を算出 する段階と、
前記力一ソル位置情報に基づいて力一ソル画像情報を生成する段階と、 前記複数の動画像情報と前記力一ソル画像情報とを合成して表示画像を生成し これを前記表示装置上に出力する段階と、
前記複数の動画像情報の表示位置と前記カーソル位置情報との間の距離を算出 し距離情報を生成する段階と、
前記複数の動画像情報について生成された距離情報のうち距離の値が最も小さ い動画像情報に対応する音声データの音量を予め定められた音量 V aに設定し、 他の動画像情報に対応する音声データの音量を前記音量 V aよりも小さな予め定 められた音量 V bに設定し音声出力装置に出力する段階と、
を含むマルチチャネル情報処理方法をコンピュータに実行させるためのプログラ ム。
1 8 .
複数の動画像情報を同時に表示装置に表示する際のマルチチャネル情報処理方 法のプログラムであって、
前記複数の動画像情報の表示装置上での表示位置を決定する段階と、
決定した表示位置に基づし、て前記複数の動画像情報を出力する段階と、 前記入力デバイスから入力される力一ソル指示情報を受け付ける段階と、 前記力―ソル指示情報に基づいて力一リルを表示する力一ソル位置情報を算出 する段階と、
前記力―ソル位置情報に基づいて力一ソル画像情報を生成する段階と、 前記複数の動画像情報と前記力一ソル画像情報とを合成して表示画像を生成し これを前記表示装置上に出力する段階と、 前記複数の動画像情報の表示位置と前記力一ソル位置情報との間の距離を算出 し距離情報を生成する段階と、
前記複数の動画像情報に対応する音声データの音量を、 各距離情報中の距離の 値に反比例するように設定し音声出力装置に出力する段階と、
を含むマルチチャネル情報処理方法をコンピュータに実行させるためのプログラ 厶。
1 9 .
複数の動画像情報を同時に表示装置に表示する際のマルチチャネル情報処理方 法のプログラムであって、
前記複数の動画像情報の表示装置上での表示位置を決定する段階と、
決定した表示位置に基づいて前記複数の動画像情報を出力する段階と、 前記入力デバイスから入力されるカーソル指示情報を受け付ける段階と、 前記力 ソル指示情報に基づいて力一ソルを表示する力一ソル位置情報を算出 する段階と、
前記力一ソル位置情報に基づいて力一ソル画像情報を生成する段階と、 前記複数の動画像情報と前記力一ソル画像情報とを合成して表示画像を生成し これを前記表示装置上に出力する段階と、
前記複数の動画像情報の表示位置と前記カーソル位置情報との間の距離を算出 し距離情報を生成する段階と、
力一ソルの表示位置から見た各動画像情報の表示位置の方向に関する方向情報 を生成する段階と、
前記複数の動画像情報に対応する音声データが、 前記音声出力装置の音像空間 における前記距離情報および方向情報に応じた音像位置に定位するように、 前記 音声出力装置に出力を行う段階と、
を含むマルチチャネル情報処理方法をコンピュータに実行させるためのプログラ 厶。
2 0 複数の動画像情報を同時に表示装置に表示する際のマルチチャネル情報処理方 法のプログラムであって、
前記複数の動画像情報の表示装置上での表示位置を決定する段階と、
決定した表示位置に基づし、て前記複数の動画像情報を出力する段階と、 前記入力デバイスから入力される力一ソル指示情報を受け付ける段階と、 前記カーソル指示情報 ίこ基づいてカーソルを表示するカーソル位置情報を算出 する段階と、
前記力一ソル位置情報に基づいて力一ソル画像情報を生成する段階と、 前記複数の動画像情報に対応する音声データに含まれる言葉を音声認識する段 階と、
音声認識した言葉を文字情報に変換してこれを出力する段階と、
前記複数の動画像情報、 前記力一ソル画像情報および前記文字情報とを合成し て表示画像を生成しこれを前記表示装置上に出力する段階と、
を備えるマルチチャネル情報処理方法をコンピュータに実行させるためのプログ ラム。
2 1 .
複数の動画像情報を同時に表示装置に表示する際のマルチチャネル情報処理方 法のプログラムであって、
前記複数の動画像情報の表示装置上での表示位置を決定する段階と、 決定した表示位置に基づいて前記複数の動画像情報を出力する段階と、 前記入力デバイスから入力される力一ソル指示情報を受け付ける段階と、 前記カーソル指示情報に基づいて力一ソルを表示するカーソル位置情報を算出 する段階と、
前記力―ソル位置情報に基づいて力一ソル画像情報を生成する段階と、 前記複数の動画像情報の表示位置と前記カーソル位置情報との間の距離を算出 し距離情報を生成する段階と、
前記距離情報に基づいて複数の動画像情報のうちから特定の動画像情報を選択 し、 この動画像情報に対応する音声データを音声出力装置に出力する段階と、 前記音声出力装置に出力する音声データに含まれる言葉を音声認識する段階と、 音声認識した言葉を文字情報に変換してこれを出力する段階と、
前記複数の動画像情報、 前記力―ソル画像情報および前記文字情報とを合成し て表示画像を生成しこれを前記表示装置上に出力する段階と、
を備えるマルチチャネル情報処理方法をコンピュータに実行させるためのプログ ラム。
2 2 .
複数の動画像情報を同時に表示装置に表示する際のマルチチャネル情報処理方 法のプログラムであって、
前記複数の動画像情報の表示装置上での表示位置を決定する段階と、
決定した表示位置に基づいて前記複数の動画像情報を出力する段階と、 前記入力デノ イスから入力される力一ソル指示情報を受け付ける段階と、 前記力一ソル指示情報に基づいて力一ソルを表示する力一ソル位置情報を算出 する段階と、
前記力 ソル位置情報に基づいて力一ソル画像情報を生成する段階と、 前記複数の動画像情報の表示位置と前記カーソル位置情報との間の距離を算出 し距離情報を生成する段階と、
前記距離情報に基づいて複数の動画像情報のうちから特定の動画像情報を選択 し、 この動画像情報に対応する音声データを音声出力装置に出力する段階と、 前記音声出力装置に出力する音声データに含まれる言葉を音声認識する段階と、 インターネヅ卜に接続する段階と、
音声認識した言葉をキーヮ一ドとしてィンタ一ネッ 卜上に存在する関連ホーム ページを検索する段階と、
前記複数の動画像情報、 前記力一ソル画像情報および前記検索された関連ホ一 ムページを合成して表示画像を生成しこれを前記表示装置上に出力する段階と、 を備えるマルチチャネル情報処理方法をコンピュータに実行させるためのプログ ラム。
2 3 .
複数の動画像情報を同時に表示装置に表示する際のマルチチャネル情報処理方 法のプログラムであって、
前記複数の動画像情報の表示装置上での表示位置を決定する段階と、 決定した表示位置に基づし、て前記複数の動画像情報を出力する段階と、 前記表示装置に表示される複数の動画像情報から所定のアルゴリズムに基づい て特定の動画像情報を選択する段階と、
選択した動画像情報に対応する音声データを前記音声出力装置に出力する段階 と、
を備えるマルチチャネル情報処理方法をコンピュータに実行させるためのプログ ラム。
2 4 .
請求項 1 6〜2 3のプログラムを記憶したコンピュータが読み取り可能な記憶 媒体。
PCT/JP2001/002423 2001-03-26 2001-03-26 Processeur d'informations multicanal WO2002078328A1 (fr)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2002576422A JP3910537B2 (ja) 2001-03-26 2001-03-26 マルチチャネル情報処理装置
CN01823081.4A CN1258285C (zh) 2001-03-26 2001-03-26 多信道信息处理装置和多信道信息处理方法
PCT/JP2001/002423 WO2002078328A1 (fr) 2001-03-26 2001-03-26 Processeur d'informations multicanal
US10/669,508 US7633487B2 (en) 2001-03-26 2003-09-25 Multichannel information processing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2001/002423 WO2002078328A1 (fr) 2001-03-26 2001-03-26 Processeur d'informations multicanal

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US10/669,508 Continuation US7633487B2 (en) 2001-03-26 2003-09-25 Multichannel information processing device

Publications (1)

Publication Number Publication Date
WO2002078328A1 true WO2002078328A1 (fr) 2002-10-03

Family

ID=11737161

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2001/002423 WO2002078328A1 (fr) 2001-03-26 2001-03-26 Processeur d'informations multicanal

Country Status (4)

Country Link
US (1) US7633487B2 (ja)
JP (1) JP3910537B2 (ja)
CN (1) CN1258285C (ja)
WO (1) WO2002078328A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005057549A1 (ja) * 2003-12-12 2005-06-23 Nec Corporation 情報処理システム、情報処理方法および情報処理用プログラム
JP2006197551A (ja) * 2004-12-14 2006-07-27 Fujitsu Ten Ltd 表示装置及び出力制御装置
WO2008093630A1 (ja) * 2007-01-29 2008-08-07 Access Co., Ltd. 動画生成方法、動画生成プログラム、および動画生成装置
JP2010165343A (ja) * 2009-01-19 2010-07-29 Samsung Electronics Co Ltd 表示情報制御装置および方法
JPWO2009081478A1 (ja) * 2007-12-21 2011-05-06 富士通株式会社 電子装置及びプログラム
JP2013157817A (ja) * 2012-01-30 2013-08-15 Casio Comput Co Ltd 情報処理装置、情報処理方法、及びプログラム

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7366712B2 (en) * 2001-05-31 2008-04-29 Intel Corporation Information retrieval center gateway
US20030122777A1 (en) * 2001-12-31 2003-07-03 Grover Andrew S. Method and apparatus for configuring a computer system based on user distance
US7062444B2 (en) * 2002-01-24 2006-06-13 Intel Corporation Architecture for DSR client and server development platform
JP4011949B2 (ja) * 2002-04-01 2007-11-21 キヤノン株式会社 マルチ画面合成装置及びデジタルテレビ受信装置
EP1705916A1 (en) * 2005-03-25 2006-09-27 Alcatel Interactive displaying system
US7509593B2 (en) * 2005-05-12 2009-03-24 Microsoft Corporation Mouse sound volume control
JP5230096B2 (ja) * 2006-12-27 2013-07-10 キヤノン株式会社 映像音声出力装置及び映像音声出力方法
CN101132516B (zh) * 2007-09-28 2010-07-28 华为终端有限公司 一种视频通讯的方法、系统及用于视频通讯的装置
JP5160457B2 (ja) 2009-01-19 2013-03-13 ルネサスエレクトロニクス株式会社 コントローラドライバ、表示装置及び制御方法
JP5789075B2 (ja) * 2009-01-22 2015-10-07 理想科学工業株式会社 インクジェットインク
CN101923554A (zh) * 2009-06-11 2010-12-22 鸿富锦精密工业(深圳)有限公司 网页查找方法
US9066048B2 (en) 2013-06-17 2015-06-23 Spotify Ab System and method for switching between audio content while navigating through video streams
US9516082B2 (en) 2013-08-01 2016-12-06 Spotify Ab System and method for advancing to a predefined portion of a decompressed media stream
US9529888B2 (en) 2013-09-23 2016-12-27 Spotify Ab System and method for efficiently providing media and associated metadata
US9654532B2 (en) 2013-09-23 2017-05-16 Spotify Ab System and method for sharing file portions between peers with different capabilities
US9063640B2 (en) 2013-10-17 2015-06-23 Spotify Ab System and method for switching between media items in a plurality of sequences of media items
US9235602B2 (en) * 2013-10-25 2016-01-12 Parham Aarabi Method, system and computer program for interactive spatial link-based image searching, sorting and/or displaying
US9483166B2 (en) 2014-03-28 2016-11-01 Spotify Ab System and method for playback of media content with support for audio touch caching
EP2925008A1 (en) * 2014-03-28 2015-09-30 Spotify AB System and method for multi-track playback of media content
KR102202576B1 (ko) * 2014-12-12 2021-01-13 삼성전자주식회사 음향 출력을 제어하는 디바이스 및 그 방법
US9606620B2 (en) 2015-05-19 2017-03-28 Spotify Ab Multi-track playback of media content during repetitive motion activities
TWI736542B (zh) * 2015-08-06 2021-08-21 日商新力股份有限公司 資訊處理裝置、資料配訊伺服器及資訊處理方法、以及非暫時性電腦可讀取之記錄媒體
US20170052926A1 (en) * 2015-08-17 2017-02-23 Ci&T System, method, and computer program product for recommending content to users
US9798514B2 (en) 2016-03-09 2017-10-24 Spotify Ab System and method for color beat display in a media content environment
EP3574652A1 (en) 2017-01-27 2019-12-04 Appario Global Solutions (AGS) AG Method and system for transmitting alternative image content of a physical display to different viewers

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05113864A (ja) * 1991-10-22 1993-05-07 Canon Inc マルチウインドウ動画表示方法及び装置
JPH06110642A (ja) * 1992-09-29 1994-04-22 Oki Electric Ind Co Ltd 音声出力制御方法
JPH07129356A (ja) * 1993-11-08 1995-05-19 Matsushita Electric Ind Co Ltd マルチウィンドウズシステム
JPH08292872A (ja) * 1995-04-21 1996-11-05 Hitachi Ltd 音声誘導装置及び方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04114576A (ja) * 1990-09-04 1992-04-15 Sony Corp 画面合成機能を備えた電子機器の音声出力回路
JP3337798B2 (ja) * 1993-12-24 2002-10-21 キヤノン株式会社 画像データ及び音声データを処理する装置、データ処理装置並びにデータ処理方法
US5736982A (en) * 1994-08-03 1998-04-07 Nippon Telegraph And Telephone Corporation Virtual space apparatus with avatars and speech
US5796945A (en) * 1995-06-07 1998-08-18 Tarabella; Robert M. Idle time multimedia viewer method and apparatus for collecting and displaying information according to user defined indicia
US6118493A (en) * 1997-04-01 2000-09-12 Ati Technologies, Inc. Method and apparatus for selecting a channel from a multiple channel display
US6081266A (en) * 1997-04-21 2000-06-27 Sony Corporation Interactive control of audio outputs on a display screen
KR100330012B1 (ko) * 1998-09-14 2002-08-08 삼성전자 주식회사 텔레비전의채널변경방법
US6469712B1 (en) * 1999-03-25 2002-10-22 International Business Machines Corporation Projected audio for computer displays

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05113864A (ja) * 1991-10-22 1993-05-07 Canon Inc マルチウインドウ動画表示方法及び装置
JPH06110642A (ja) * 1992-09-29 1994-04-22 Oki Electric Ind Co Ltd 音声出力制御方法
JPH07129356A (ja) * 1993-11-08 1995-05-19 Matsushita Electric Ind Co Ltd マルチウィンドウズシステム
JPH08292872A (ja) * 1995-04-21 1996-11-05 Hitachi Ltd 音声誘導装置及び方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005057549A1 (ja) * 2003-12-12 2005-06-23 Nec Corporation 情報処理システム、情報処理方法および情報処理用プログラム
KR100906136B1 (ko) * 2003-12-12 2009-07-07 닛본 덴끼 가부시끼가이샤 정보 처리용 로봇
US8433580B2 (en) 2003-12-12 2013-04-30 Nec Corporation Information processing system, which adds information to translation and converts it to voice signal, and method of processing information for the same
US8473099B2 (en) 2003-12-12 2013-06-25 Nec Corporation Information processing system, method of processing information, and program for processing information
JP2006197551A (ja) * 2004-12-14 2006-07-27 Fujitsu Ten Ltd 表示装置及び出力制御装置
WO2008093630A1 (ja) * 2007-01-29 2008-08-07 Access Co., Ltd. 動画生成方法、動画生成プログラム、および動画生成装置
JPWO2009081478A1 (ja) * 2007-12-21 2011-05-06 富士通株式会社 電子装置及びプログラム
JP2010165343A (ja) * 2009-01-19 2010-07-29 Samsung Electronics Co Ltd 表示情報制御装置および方法
US8843529B2 (en) 2009-01-19 2014-09-23 Samsung Electronics Co., Ltd. Display information controlling apparatus and method
US9588658B2 (en) 2009-01-19 2017-03-07 Samsung Electronics Co., Ltd. Display information controlling apparatus and method
JP2013157817A (ja) * 2012-01-30 2013-08-15 Casio Comput Co Ltd 情報処理装置、情報処理方法、及びプログラム

Also Published As

Publication number Publication date
JPWO2002078328A1 (ja) 2004-07-15
CN1494801A (zh) 2004-05-05
CN1258285C (zh) 2006-05-31
US20040056885A1 (en) 2004-03-25
JP3910537B2 (ja) 2007-04-25
US7633487B2 (en) 2009-12-15

Similar Documents

Publication Publication Date Title
WO2002078328A1 (fr) Processeur d&#39;informations multicanal
JP5667978B2 (ja) オーディオユーザインターフェイス
US9877129B2 (en) Device and method for playing sound
CN101325502A (zh) 基于文本-语音转换生成并处理数字内容的方法和系统
AU2014200042B2 (en) Method and apparatus for controlling contents in electronic device
JP2023538943A (ja) オーディオデータの処理方法、装置、機器及び記憶媒体
KR20120129015A (ko) 어학 컨텐츠 생성 방법 및 이를 위한 단말기
JP2015106203A (ja) 情報処理装置、情報処理方法、及びプログラム
US20070022379A1 (en) Terminal for displaying distributed picture content
JP7263957B2 (ja) 情報装置、自動設定方法及び自動設定プログラム
JPWO2019017027A1 (ja) 情報処理装置および情報処理方法
JP2016082355A (ja) 入力情報支援装置、入力情報支援方法および入力情報支援プログラム
CN105487788B (zh) 一种音乐信息实时获取方法及装置
JP2006189799A (ja) 選択可能な音声パターンの音声入力方法及び装置
JP2010287236A (ja) ウェブページのサーチング方法
CN111159550A (zh) 一种房屋相关信息显示、输入房屋相关信息的方法和装置
US20130174101A1 (en) Electronic apparatus and method of controlling the same
JP2002108601A (ja) 情報処理システム及び装置及び方法
JP6652370B2 (ja) 翻訳システム及び選択装置
JP6260217B2 (ja) 情報処理装置および情報処理システム
JP6007645B2 (ja) 音波形編集装置およびプログラム
JP2012173403A (ja) テキスト音声変換装置、テキスト音声変換プログラム及びテキスト音声変換方法
JP4246160B2 (ja) 楽曲検索装置および楽曲検索方法
KR101043213B1 (ko) 멀티미디어 파일 재생 장치 및 이를 이용한 자막 객체 제어방법
JP2012173770A (ja) テキスト音声変換装置、テキスト音声変換プログラム及びテキスト音声変換方法

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): CN JP US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): DE FR GB

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2002576422

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 10669508

Country of ref document: US

Ref document number: 018230814

Country of ref document: CN

122 Ep: pct application non-entry in european phase