WO1998006222A1 - Picture and sound decoding device, picture and sound encoding device, and information transmission system - Google Patents

Picture and sound decoding device, picture and sound encoding device, and information transmission system Download PDF

Info

Publication number
WO1998006222A1
WO1998006222A1 PCT/JP1997/002696 JP9702696W WO9806222A1 WO 1998006222 A1 WO1998006222 A1 WO 1998006222A1 JP 9702696 W JP9702696 W JP 9702696W WO 9806222 A1 WO9806222 A1 WO 9806222A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
information
decoding
audio
priority
Prior art date
Application number
PCT/JP1997/002696
Other languages
English (en)
French (fr)
Inventor
Takao Yamaguchi
Akira Kamogawa
Kunio Nobori
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to JP50780998A priority Critical patent/JP4153995B2/ja
Priority to KR10-2004-7003433A priority patent/KR100471176B1/ko
Priority to US09/051,547 priority patent/US7006575B2/en
Priority to EP19970933889 priority patent/EP0854652B1/en
Priority to DE69740053T priority patent/DE69740053D1/de
Priority to KR10-1998-0702566A priority patent/KR100465553B1/ko
Publication of WO1998006222A1 publication Critical patent/WO1998006222A1/ja

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/24Systems for the transmission of television signals using pulse code modulation
    • H04N7/52Systems for transmission of a pulse code modulated video signal with one or more other pulse code modulated signals, e.g. an audio signal or a synchronizing signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/152Data rate or code amount at the encoder output by measuring the fullness of the transmission buffer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/162User input
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/164Feedback from the receiver or from the transmission channel
    • H04N19/166Feedback from the receiver or from the transmission channel concerning the amount of transmission errors, e.g. bit error rate [BER]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/23614Multiplexing of additional data and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2368Multiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/24Monitoring of processes or resources, e.g. monitoring of server load, available bandwidth, upstream requests
    • H04N21/2401Monitoring of the client buffer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • H04N21/2662Controlling the complexity of the video stream, e.g. by scaling the resolution or bitrate of the video stream based on the client capabilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4341Demultiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4348Demultiplexing of additional data and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/4424Monitoring of the internal components or processes of the client device, e.g. CPU or memory load, processing speed, timer, counter or percentage of the hard disk space used
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/637Control signals issued by the client directed to the server or network components
    • H04N21/6377Control signals issued by the client directed to the server or network components directed to server
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2362Generation or processing of Service Information [SI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4345Extraction or processing of SI, e.g. extracting service information from an MPEG stream

Definitions

  • Video / audio decoding device video / audio coding device, and information transmission system
  • the present invention relates to a video / audio decoding device, a video / audio coding device, and an information transmission system that simultaneously decode, encode, and synthesize a plurality of images and voices.
  • a person image is extracted from an image of a landscape in one's own space, and the image, a person image sent from the other party, and a pre-stored common image with the other party are displayed.
  • an image of a virtual space By superimposing and displaying an image of a virtual space, there is an image that satisfies the realism that the opponent is in front of himself and aims for video communication with a sense of reality.
  • an image synthesis system that synthesizes two-dimensional still images and three-dimensional CG data has been proposed. It does not describe how to implement a system that simultaneously decodes (decompresses), combines, and displays. In particular, it describes how to reproduce video and audio in a terminal device capable of decoding, synthesizing, and displaying multiple video and audio simultaneously without insufficiency of terminal capability or fluctuation in processing capability. Did not. In addition, it did not describe how to decode, combine, and display multiple videos depending on the billing situation.
  • a method of managing information of a plurality of images and sounds, information describing the relationship between a plurality of images and sounds, and information of processing results is a method of managing information of a plurality of images and sounds, information describing the relationship between a plurality of images and sounds, and information of processing results.
  • the image compression method is changed according to the state of the receiving terminal and the priority of decoding, synthesizing, and displaying at the receiving terminal. No consideration is given to the method of controlling the coding amount. Disclosure of the invention
  • the present invention takes into account such conventional problems, and when decoding and synthesizing a plurality of videos and audios simultaneously, can control the coding amount according to the processing status of the terminal, and can also control the coding amount according to the charging status. It is an object of the present invention to provide a video / audio decoding device, a video / audio coding device, and an information transmission system capable of controlling decoding, synthesis, and display of a plurality of videos and voices.
  • the present invention is not limited to only two-dimensional image synthesis.
  • An expression form combining a two-dimensional image and a three-dimensional image may be used, or an image combining method in which a plurality of images are combined adjacent to each other, such as a wide-field image (panoramic image), may be included.
  • the communication modes targeted by the present invention are not limited to wired two-way CATV and B-ISDN.
  • the transmission of video and audio from the center side terminal to the home side terminal is by radio waves (for example, VHF band, UHF band) and satellite broadcasting, and the information transmission from the home side terminal to the center side terminal is by analog telephone. It may be a line or N-ISDN (video, audio and data need not necessarily be multiplexed).
  • wireless communication such as IrDA, PHS (Personal Handy Phone) and wireless LAN
  • the target terminal is a portable terminal such as a portable information terminal
  • it may be a desktop terminal such as a set-top BOX or personal computer.
  • an image encoding apparatus having image encoding means for encoding image information, and transmission management means for transmitting or recording various encoded information.
  • Reception management means for receiving various information
  • image decoding means for decoding the received various information
  • image synthesizing means for synthesizing one or more of the decoded images
  • An image decoding / encoding device including an image decoding device having an output unit for outputting.
  • an audio encoding device having audio encoding means for encoding audio information, and transmission management means for transmitting or recording various encoded information.
  • Reception management means for receiving various information; voice decoding means for decoding the received various information; voice synthesis means for synthesizing one or more of the decoded voices;
  • a speech decoding device having an output means for outputting.
  • the present invention according to claim 16 is characterized in that one or more image input means for inputting an image, an image input management means for managing a control state of the image input means, and a receiving terminal Other terminal control request management means for managing the reception status of the image processing device; code processing determination means for determining an image encoding method according to at least the reception status of the managed reception terminal or the control status of the image input device;
  • a real-time image encoding device includes an image encoding unit that encodes an input image in accordance with a determination result of the encoding process determination unit, and an output unit that outputs the encoded image.
  • At least one of the image decoding / encoding device of claim 1 and the speech decoding / encoding device of claim 2 is a receiving terminal.
  • At least one of the encoding and coding apparatus and the audio decoding and coding apparatus according to claim 2 and the real-time image coding apparatus according to claim 16 are used as transmission terminals, and the terminals are connected by a communication path.
  • FIG. 1 is a schematic configuration diagram of an image decoding / encoding device according to an embodiment of the present invention.
  • FIG. 2 is a schematic configuration diagram of a video / audio decoding / encoding device showing another example of the embodiment.
  • FIG. 3 is a diagram for explaining an example of a case where information relating to the priority is added in the communication and recording formats.
  • FIG. 4 is a diagram illustrating an example of a case where the configuration of the present invention is implemented by software.
  • FIG. 5 is a diagram illustrating the structure of information.
  • FIG. 6 is a diagram for explaining the operation of the DEMUX thread.
  • FIG. 7 is a diagram for explaining the operation of the monitoring thread.
  • FIG. 8 is a diagram for explaining the operation of the decoding process.
  • FIG. 9 is a diagram for explaining the operation of the image synthesis thread.
  • FIG. 10 is a diagram for explaining the operation of the display monitoring thread.
  • FIG. 11 is a diagram for explaining the user interface use of the image synthesizing apparatus.
  • FIG. 12 is a diagram illustrating a method of performing image transmission according to a change in the capability of the receiving terminal.
  • FIG. 13 is a diagram illustrating an image compression device according to an embodiment of the present invention.
  • FIG. 14 is a diagram illustrating information managed by the operation management unit.
  • FIG. 15 is a diagram illustrating an image compression device when a wide-field image is created.
  • FIG. 16 is a diagram illustrating a response situation between the transmitting terminal and the receiving terminal. [Explanation of symbols]
  • image used in the present invention includes both still images and moving images.
  • the target image may be a mixture of a two-dimensional image such as computer graphics (CG) and three-dimensional image data such as a wireframe model. In this case, the relationship between the images corresponds to a one-frame model.
  • CG computer graphics
  • Script languages for description include JAVA and VRML.
  • FIG. 1 and 2 are schematic configuration diagrams of an image decoding / encoding device according to an embodiment of the present invention.
  • Fig. 1 shows the configuration when there is no audio playback function
  • Fig. 2 shows the configuration when it has an image and audio playback function.
  • the same configuration can be applied to the case of only voice.
  • Priority addition unit 101 that associates the encoded image with the priority, image encoding unit 102 that encodes the image, and transmits the encoded information with the priority added.
  • it comprises a transmission management unit 103 for recording, and a reception management unit 104 for receiving encoded information.
  • the encoding device in the case of FIG. 2 further includes a speech encoding unit 105 that encodes speech.
  • a reception management unit 11 for receiving information and a transmission management unit 13 for transmitting information are means for transmitting information such as a coaxial cable, a CATV, a LAN, and a modem.
  • the demultiplexing unit 12 is a means for analyzing and separating the coded (compressed) received information (in the case of a compression device, it becomes a multiplexing unit by the inverse operation).
  • MP EG 1, MP EG 2, and H.320 terminals N—the rules for videophone conference equipment using ISDN) are H.221 1 ⁇ 324 terminals (analog telephone lines).
  • H.223 is a protocol for multiplexing and demultiplexing video audio data.
  • the present invention may be realized in a configuration conforming to the convention, good c also be implemented in a configuration does not conform to the convention, as is done in H. 3 23 or Internet, video and audio Each may be transmitted independently in a separate stream.
  • the priority determining section 14 outputs information (for example, video, sound, etc.) obtained from the separating section 12. Voice and management information) in the following manner to determine the priority of decoding (hereinafter “decompression”) when the terminal is overloaded, and perform image decompression and audio decompression.
  • decompression the priority of decoding
  • the method of determining the priority may be determined in advance by the receiving terminal device, or information on the priority determined by the following method in the recording medium or the transmission bucket at the transmitting terminal (encoding device). ⁇ ⁇
  • non-numerical expressions such as priority “large”, “medium j,” “small”, and 1, etc. Numeric expressions such as 2, 3 may be used).
  • the data is transmitted and received between the transmitting and receiving sides, and the buffer on the receiving side is processed. Management and scheduling of data transmission on the transmitting side.
  • the sender notifies the receiver of the stream identifier sent by the sender to check the reception status of the receiver, notifies the receiver of the identifier of an unnecessary stream to the receiving terminal, and notifies the receiver of the required stream. Or request a stream.
  • a priority adding means for determining the priority of the process at the time of overload of the coded information based on the above-described criteria and associating the coded information with the determined priority is provided by an image coding device or a voice coding device.
  • Priority determining means that determines the processing method in accordance with the priority of various types of received information at the time of overload, and determines the image frame and audio of the priority to be processed, and decodes and synthesizes the information. I do. For image frames, it is necessary to periodically insert intra-frame encoded (I-frame) frames so that frame skipping can be performed.
  • the unit to which the priority is added may be a frame unit of video or audio (comparison of priorities between frames) or a stream unit composed of a plurality of frames (a stream). Comparison of priorities between programs). Focusing on the features of the image, the compression method of the image (for example, run length is preferred for H.263 and run length), the size of the image (for example, QCIF is preferred for CIF and QCIF) , Contrast (for example, brighter contrasts are given priority), image composition ratio (for example, those with higher composition ratios are given priority), quantization step
  • the difference between inter-frame coding and frame-to-frame coding for example, giving priority to intra-frame coding
  • the display position for example, the display position Gives priority to the one in the center. Also, in the case of a 3D image, if the image is located at the back, the priority is low.
  • the frame number (first frame and last frame have higher priority, scene change frame has higher priority, etc.) and number of frames (for example, images with a small number of
  • the frame number is H.263, it corresponds to the Temporary Reference (TR) and can be determined based on the change in the value of TR), sound section and non-blue section, display time (PTS), decoding time D T S) based methods and the like.
  • the same priority is assigned to P-frames and B-frames that are inter-frame coded.
  • the frequency of skipping can be controlled by assigning a plurality of levels of priority to an intra-frame coded image.
  • Another example that focuses on the difference in media is a method in which audio expansion is performed prior to image expansion. As a result, the sound can be reproduced without interrupting the sound.
  • the information (image, sound) to be decompressed may be determined based on the reproduction permission information managed by the receiving terminal, and the reproduction permission information transmitted as control information from the transmitting side may be determined. At this time, information to be decompressed may be selected.
  • the information of the reproduction permission is, specifically, information relating to charging (for example, If no money has been paid, no decompression, composition, or display processing is performed.
  • the receiving terminal may manage billing information, or the transmitting side may manage billing information.) Information indicating the contents of the service If permission is not given, decompression, composition, and display processing are not performed.Reproduction permission may be managed by the receiving terminal or may be managed by the transmitting terminal.
  • the password may be managed at the receiving terminal or at the transmitting terminal.
  • Code for example, if the user is not authorized, do not expand, combine, or display.
  • the user code may be managed by the receiving terminal or may be managed by the transmitting terminal.
  • Country code eg, Change the image, sound, and playback method to be displayed, composited, displayed, etc.
  • the country code may be managed on the sending side or on the receiving side. Scramble can be realized).
  • Information on billing, information on service content, passwords, user codes, and other playback methods with restrictions on the playback of images and audio are limited to positions and pixels when images are synthesized and displayed. Shift, zoom in and out of the image, change the sampling of the image (e.g. force with a single pass), invert the pixel, change the contrast, change the color palette, skip frames And the like.
  • the method of reproducing these images may be restricted on a frame-by-frame basis. Alternatively, it is a unit of GOB (Group Of Lock), which is a unit that can be processed independently and is smaller than one frame as defined in H.263, which is one of image compression.
  • GOB Group Of Lock
  • Restrictions may be imposed on the method of decompressing, synthesizing, and displaying images, which allows more flexible control than conventional methods that disturb the entire screen.
  • by processing in GOB units Since scrambling can be applied to only a part of the surface, it is possible to evaluate interactive software such as software using image composition.
  • sound playback methods include changing the volume of the sound, changing the direction of the sound, changing the frequency of the sound, changing the sampling of the sound, and inserting different images and sounds.
  • Each method includes a method of processing on the transmitting side and a method of processing on the receiving side in advance.
  • Information indicating the order of compositing and display (The display order is determined in advance by the terminal on the receiving side, such as giving priority to CIF and still images. Information indicating the order of decompression (Determining the decompression order in advance on the receiving terminal, such as giving priority to QCIF or intra-frame encoded image data, etc.) For example, there is a method of expanding the conversation sound prior to BGM. Similarly, there is a method of adding a display order to transmission information on the transmission side, and a user's instruction (for example, a user's instruction).
  • the user selects the image or audio information to be decompressed, synthesized, or displayed, or determines the image or audio information to be decompressed, synthesized, or displayed based on the selected information upon request.
  • Terminal processing Ability for example, by measuring the occupation time of the same PU process for a certain period of time, in the past or in the past, to suppress the decompression, synthesis, and display of images and sounds that may take a long time.
  • Method of estimating the processing time For example, when performing compression, the time required for local decoding and the time required for compression are managed in association with the compressed image information to determine the presence / absence and priority of decompression, synthesis, and display.
  • Playback time for example, images past playback time, audio information decompression, synthesis, ⁇ The priority of the image or audio to be decompressed and whether or not it should be used may be determined based on the decoding time.
  • expansion is performed based on information on the execution rate of image, audio expansion, synthesis, and display processing. It is possible to determine the order and presence / absence of images to be combined and displayed. For example, if the CIF size image is decompressed once out of 10 times, the force set on the receiving terminal and the rate of image and audio decompression, synthesis, and display on the transmitting side There is a method of prescribing and transmitting image information and audio information based on it. Specifically, the implementation rate can be defined by the insertion interval of I-frames (intra-frame coded frames). As a result, only a specific image or audio object is not decompressed, synthesized, or displayed.
  • the addition of the information on the priority for controlling the decompression, combination, and display may be added and controlled not only by the transmitting device but also by a relay device. Also, by transmitting the information on the priority determined by the priority determining unit 14 of the decoding device of the receiving terminal to the transmission destination through the transmission managing unit 13, the image according to the determination status of the priority determining unit 14 can be obtained. This makes it possible to perform audio transmission (by sending the ID of an image object that is difficult to select to the transmission side, transmission is prevented from being wasted).
  • the information indicating the priority of processing when the receiving terminal is overloaded may be determined by the receiving terminal device, may be transmitted as a transmission format, or may be transmitted in a CD-ROM format.
  • the transport stream of MPEG 2 may be extended as a format for recording on a recording medium such as a hard disk, or a transmission and recording format that does not consider standardization may be used. In addition, separate streams may be transmitted and recorded for each media (video and audio. Information describing the relationship between video and audio) without multiplexing.
  • the image decompression unit 18 as image decoding means is a means for performing image decompression processing (hereinafter referred to as an encoding means in the case of an encoding device), and the image format handled by the image decompression unit 18 is MPEG. 1, MP EG 2, H.261, H.263, and the like. Image decompression may be performed in units of one frame, or may be performed in GOB units specified in H.263.
  • the audio decompression unit 20 as audio decoding means in FIG. 2 is a means for decompressing audio, and the audio formats handled by the audio decompression unit 20 include G.721 and G.723.
  • Can be Examples of the processing method include software processing by a DSP or a general-purpose CPU and processing by dedicated hardware.
  • image and audio decompression processing is managed in a single process or thread unit, and if there are multiple images and audio to be decompressed simultaneously, the number of processes that can be processed is Alternatively, processing is performed in a time-division manner with a thread.
  • the image decompression management unit 15 is a means for managing the decompression state of an image.
  • the audio decompression management unit 16 is a means for managing the state of audio decompression. For example, when these management units are realized by software, the compressed information obtained from the separation unit 12 is subjected to a determined procedure (for example, first, the compressed information is executed from the audio decompression unit 20, and then the image decompression unit is executed). In step 18), the image data is passed to the image decompression unit 18 and the audio decompression unit 20, and the decompression state is monitored. When all elongation is completed For example, the decompressed information is passed to the image synthesizing unit 19 or the voice synthesizing unit 21.
  • the software uses shared memory and semaphores to limit the information passed and to know that the decompression process has been completed (details will be described later).
  • the time information management unit 17 is a means for managing information relating to time questions. For example, when the system is implemented by a personal computer, the time information may be implemented by using the timer of the personal computer.
  • the image synthesizing unit 19 performs image synthesis based on the decompressed image data.
  • the images are combined based on the combination ratio (direct) of each image. For example, when two images are combined, and the combination ratio of the foreground image is ⁇ , the R G ⁇ value of the background image is mixed by [1] ⁇ , and the foreground image is mixed by the ratio of ct.
  • the image synthesizing unit 19 or the voice synthesizing unit 21 retains, manages, and uses the decompression result until the transmission side instructs to discard the decompression result. Information need not be sent repeatedly.
  • the audio decompression management unit 16 manages the decompression state of the audio decompression unit 20 that decompresses at least one or more voices.
  • the voice synthesis unit 21 is a means for performing voice synthesis based on the expanded information.
  • the synthesis result storage unit 22 stores the image synthesized by the image synthesis unit 19 and the voice synthesis unit 21. This is a means for storing the synthesized speech.
  • the reproduction time management unit 23 is means for reproducing a synthesized image or sound at a time when reproduction is to be started.
  • the output section 24 is a means for outputting a synthesis result (for example, a display or a printer), and the input section 25 is a means for inputting information (for example, a keyboard, a mouse, a camera, a video, etc.). is there.
  • the terminal control unit 26 is a means for managing these units.
  • FIG. 3 is a diagram for explaining an example of a case where information relating to the priority is added in the communication and recording formats.
  • the example in Fig. 3 (a) is an example in which all media (video, audio, control information) are completely multiplexed.
  • a priority priority referred to in the present invention
  • the control information may include information about images (sounds), sounds (sounds), and the relationship between images and sounds (temporal and positional).
  • the example of FIG. 3 (a) is suitable for, for example, multiplexing of MPEG1Z2 and application of packet multiplexing in which control information and data (video and audio) are mixed, such as H.223. Note that the priority of the processing at the time of overload is added in units of frames or streams.
  • FIG. 3 (b) is an example in which information is multiplexed for each medium.
  • control information, image information, and audio information are transmitted from different communication ports.
  • the lo information may be transmitted from a different communication port from the image and audio. It is suitable for applications where multiple communication ports can be established simultaneously, such as H.323 or the Internet.Since the multiplexing process can be simplified compared to Fig. 3 (a), the load on the terminal is reduced. Can be reduced.
  • the priority of the process at the time of overload is added together with information describing the correspondence between the image and the sound (control information).
  • the MP EG 2 can be managed by a program map table that associates the MP EG 2—TS (Transport Stream) video stream and audio stream. By defining and managing the structural information and the stream for associating the image with the audio, the MPEG 2 can transmit the data independently of the data.
  • FIG. 4 is a diagram illustrating an example of a case where the present invention is configured by software.
  • the processes described in FIGS. 1 and 2 are divided into software execution modules such as processes and threads. Information is exchanged between the process and the thread using the shared memory, and the semaphore (in the example of Fig. 4, the part shown by the solid line corresponds to the semaphore). Exclusive control of shared information.
  • the functions of each process and thread are described below.
  • the DEMUX thread 31 reads multiplexed information (video, audio, control information) from a network or disk, and describes audio, video, and the relationship between audio and video and information on playback time. Monitoring table
  • the DEMUX thread 31 corresponds to the separation section 12 described above.
  • the information separated by the DEMUX thread 31 is sent to a ring buffer 32 for audio, a ring buffer 33 for video, and a ring buffer 34 for monitoring.
  • the information sent to the ring buffer 32 is expanded by an audio decoding thread 35 (corresponding to the above-described audio expansion unit 20).
  • the information sent to the ring buffer 33 is expanded in the decoding process 36.
  • the monitoring thread 37 (corresponding to the terminal control unit 26, image decompression management unit 15, and audio decompression management unit 16 described above).
  • the same monitoring table is used in the image composition thread 39 for image composition.
  • the surveillance table used in the surveillance thread 37 reads the next table from the ring buffer 34 when all voice and image decompression is completed.
  • the image information expanded in the decoding process 36 (corresponding to the image expansion section 18 described above) is sent to the video single buffer 38.
  • the image synthesis thread 39 (corresponding to the above-described image synthesis unit 19) synthesizes the image using the image synthesis ratio managed in the monitoring table. I do.
  • the synthesis result is stored in the synthesis buffer 41 (corresponding to the synthesis result storage unit 22 described above), and waits in the display monitoring thread 42 for display until the display time is reached.
  • FIG. 5 is a diagram for explaining the structure of information used in the configuration of FIG.
  • the information received from the disk or network has a fixed length of 188 bytes (B).
  • the structure of audio information separated by the DEMUX thread 31 consists of a packet synchronization code, a playback time, a frame length indicating the length of audio to be played, and audio data (C).
  • the structure of the video information consists of a code for packet synchronization, a frame number for identifying the image, a frame length indicating the size of the image information, and image data (D).
  • the present invention does not need to be performed in units of one frame, and may be performed in units of small blocks such as macroblock units.
  • the structure of the monitoring table consists of the display time of the image, the number of images to be displayed (combined) in one frame, the ID of each image, the frame number, the priority for decompression and display, and the identifier (I) indicating the frame type.
  • the image synthesis ratio and the audio synthesis ratio may be changed in association with each other. For example, when two types of images correspond to two types of audio, respectively, if the image synthesis ratio is ⁇ : 1 ⁇ , the corresponding audio synthesis ratio may be associated with ⁇ : 1 ⁇ . Not only the relationship between image information but also the relationship between voices may be described (eg, direction, type (BGM, conversation sound)).
  • FIG. 6 is a diagram for explaining the operation of the DEMU X thread.
  • the fixed-length data of 188 bytes is read from the finole or the network (5-1). Analyze the read data and set it to the type of audio, video, and monitoring table structure described above (5-2). If writing to the ring buffer is possible, write the audio, video, and monitoring tables to each ring buffer. The correspondence between the image object ID and a plurality of image expansion means is established. In the example, the lowest numbered object ID The younger ring buffer numbers are sequentially written to the shared memory (5-3). Update the write pointer of the written buffer (5-4). After writing the video and audio information for one monitoring table, advance the counter of the monitoring thread control semaphore (5-5). In this way, the monitoring thread is controlled by DEMUX.
  • FIG. 7 is a diagram for explaining the operation of the monitoring thread.
  • the monitoring table is read and the read pointer is advanced (6-1).
  • FIG. 8 is a diagram for explaining the operation of the decoding process. Wait until the monitoring thread gives permission to execute (7-1). The status of the input image is checked, and the serial number of the image and whether the input frame is an image to be skipped are checked (7-2). Wait until the image data to be decoded accumulates in the ring buffer (7-3). If there is no image data corresponding to the serial number of the image specified by the monitoring thread, the decoding is skipped and the read pointer is advanced (7-4). If the input image is not skipped, the decoding process is executed and the read pointer is advanced (7-5). The decoding result is output (7-6), and the monitoring thread is notified that the processing has been completed (7-7).
  • FIG. 9 is a diagram for explaining the operation of the image synthesis thread. Wait for the monitoring table from the monitoring thread (8-1). Check the priority of the image to be processed (8-2). Wait for decoded result images in order of priority (8-3).
  • the image is synthesized according to the display position (8-4). Write the synthesis result to the synthesis buffer (8-5).
  • the selection of image information to be displayed can be made by the image decompression means or the image synthesis means. When skipping an image object ID that should not be displayed, it is necessary to notify the image composition means that the decompression result is not output.
  • the voice information to be reproduced can be selected by the voice expanding means or the voice synthesizing means.
  • FIG. 10 is a diagram for explaining the operation of the display monitoring thread. Wait for the composite image to be written (9-11). If it is the first display, the time at which the display was started is acquired (9-12), and the correspondence with the time when the display should be performed is managed. If the display time has not been reached, wait for the time that has not been reached and delay the display of the composite image (9-13).
  • a foreground image is combined with a background image, and a distant building is combined with a translucent image at a combination ratio of 0.5.
  • the images used need not be 2D images.
  • a helicopter and a balloon are combined as a three-dimensional image with the background, which is a two-dimensional image.
  • the foreground helicopter and balloon do not always need to be 3D images. If it is located far away (It is sufficient to define it as the size displayed on the screen as two dimensions. For example, if it is smaller than 20 dots X 20 dots, the object is defined as being far away. Can be expressed in two dimensions, and if it is located nearby, it can be expressed in three dimensions.
  • the image mapped to the wire-frame model of the three-dimensional image may be not only a still image but also a moving image.
  • image quality the image quality in the central part is high, and the more it goes to the peripheral part, the more necessary information desired by the user can be preferentially selected and transmitted. Responsibility can be improved by changing the image quality according to the position).
  • the priority of an image displayed far away may be set low, and the priority of an image displayed close may be set high.
  • the control of the image quality can be realized by changing the quantization step.
  • FIG. 12 is a diagram illustrating a method of performing image transmission according to a change in the capability of the receiving terminal.
  • a method of managing and controlling including the compression device, in order to prevent the processing of the receiving terminal from becoming overloaded due to the increase in the number of transmitted images.
  • the transmitting terminal determines the performance of the receiving terminal (eg, image compression method and size, communication protocol), and video information. transmission, since this c to confirm each other prior to receiving, at the transmission side terminal, since the processing capability of the receiving-side terminal is nearly established, sequential status reception and reproduction of the reception side terminal, needs to be monitored There is no.
  • the number of images that can be compressed and decompressed at the terminal is fixed.
  • the number of images that can be compressed and decompressed by the terminal can be dynamically varied.
  • the image size, the quantization parameter for image compression, and the target image intra-frame encoding or inter-frame encoding, The size of the image that can be processed (compressed and decompressed) by the terminal and the number of images that can be processed simultaneously change over time.
  • the transmitting terminal sequentially compresses the image according to the receiving status of the receiving terminal (for example, the capacity of the receiving buffer, the priority of video playback, and the response time of reception confirmation). Compression method, presence / absence of image compression, quantization step, compression priority, image size to be compressed, etc.), ability of the receiving side if the receiving terminal does not consider determining the priority when overloaded And the bankruptcy occurs.
  • Fig. 12 (b) when the capacity of the receiving buffer of the receiving terminal exceeds 80%, the sending side is notified that the receiving buffer is about to overflow, and image compression is performed.
  • image compression For example, change from MPEG 1 to run-render to reduce the amount of compressed images sent), enable / disable image compression (compress images and suspend transmission), change compression priority ( If there are multiple processes to be compressed, reduce the priority for compression and reduce the amount of compressed image data sent.) Change the image size (change the size to be compressed from CIF to QCIF smaller) To reduce the amount of compressed images sent), to change the quantization step (to reduce the amount of compressed images sent by changing the image quality), to limit the amount of sending, and to adjust the number of frames (perform processing Reduce number of frames Be), appropriate methods of receiving terminal to determine the priority at the time of overload, selection, performed in combination. This allows the receiving end Avoid overflow of the last receive buffer.
  • the transmitting terminal selects and combines the image compression method, presence or absence of image compression, image compression priority, image size, quantization step, and number of frames as appropriate.
  • the user In addition to monitoring the status of the receive buffer, if the playback capability at the receiving terminal is limited and there are multiple images to be played, the user specifies the image to be played back preferentially at the receiving terminal. It is necessary for the terminal to automatically determine the image to be played first (the user receives in advance rules as to which image should be played first by the user) For example, if the image size is small, it is important to give priority to it, and if the background image is displayed, the playback interval may be slow. For example, it can be easily realized by notifying the transmitting terminal of the load on the receiving terminal (for example, the CPU occupation time required for reproduction).
  • the playback load of the terminal on the receiving side exceeds 80% of the processing capacity of the terminal, it notifies the transmitting side that the receiving terminal is overloaded, and the transmitting side receives that fact and
  • the image compression method for example, changing from MPEG 1 to run-render to reduce the processing amount
  • the presence / absence of image compression image compression Change the priority of compression (for images with low importance, lower the priority for compression and compress images with higher importance first) And send)
  • change the image size from CIF to QCIF
  • To reduce the load on the playback side by changing the size to be compressed to change the quantization step (to reduce the amount of compressed images sent by changing the image quality), to adjust the number of frames
  • the amount of processing at the terminal on the receiving side is reduced by appropriately selecting or combining methods that perform processing based on the degree of priority of processing at the time of overload.
  • the transmitting terminal performs High-quality images with short frame intervals can be received by appropriately selecting and combining image compression methods, image compression status, image compression priority, image size, quantization step, and number of frames. Send to side terminal. This makes it possible to transmit images utilizing the capabilities of the receiving terminal.
  • the response time of the reception confirmation from the image synthesizing device on the receiving side. For example, when image data is sent from the transmitting terminal to the receiving terminal, the receiving terminal has received the image data, and the response to the transmitting terminal is that decoding, combining, and displaying have been completed. If the response time is, for example, less than 1 second as a normal value, the response time becomes longer, such as 5 seconds, due to an increase in the load on the receiving terminal. The response time may be measured once, measured periodically during communication, or instructed by the user.
  • the measurement interval may be changed in relation to the load or the result of the previous response time.
  • C The image compression method, image compression availability, image compression priority, image Select size and quantization step as appropriate By performing the combination, the load on the receiving terminal can be reduced, and the response time can be reduced (see case 1 in Fig. 16).
  • the same processing as described above may be performed by receiving the reproduction time or the decoding time at the receiving terminal.
  • the above-described methods of measuring the receiving buffer capacity of the receiving terminal, the load of the receiving terminal, and the response time of the receiving terminal are used independently. Instead, they may be selected and used in combination as appropriate (similar methods can be applied to audio).
  • Information about images and audio processed on the receiving terminal based on priority information multiple When there is an image stream or audio stream, the image and audio stream actually processed by the receiving terminal is which stream and the reproduced image stream is By transmitting the information about the number of frames per second to the destination via the communication channel, the amount of image data transmission from the transmitting side to the terminal on the receiving side exceeds that of the receiving terminal.
  • FIG. 13 is a diagram illustrating an image compression device according to an embodiment of the present invention. Although the present embodiment has been described with respect to an example of an image, it is also applicable to audio compression. In the example of FIG.
  • the image compression apparatus shown in FIG. 13 includes a quantization step management unit 1221, which manages information on a quantization step, and an image input unit.
  • Image input management unit 1202 that manages the control status of 127, other terminal control request management unit that monitors the status of the reception buffer of the receiving terminal device, and control time transition.
  • An operation management unit 1204 that records and manages the data, an image compression unit 1205 that is a means for performing image compression, an output unit 1206 that outputs the compression result to the communication path and storage device, and an image input It is composed of an image input means 1207 to be performed, and an image processing decision control means 128 to control these parts and to perform control for managing the respective parts.
  • the image compression method may be a standardized method such as JPEG, MPEG l / 2, H.261, H.263, or a standardized method such as a wireless fractal. It doesn't matter if you don't use it.
  • the image input means 122 7 may be a camera or a recording device such as a video or optical disk.
  • This image compression device can be used when the image input means 1207 is a camera, when the camera of the transmitting terminal is operated by the receiving terminal, or when the camera is operated on the transmitting side. Since the image quality greatly changes, the transmitted coding amount fluctuates. For example, when the contrast of the camera is increased, the image becomes easier to see, but the amount of encoding to be transmitted increases. Therefore, in order to improve the contrast and reduce the amount of coding as described above, the image compression method, the presence or absence of image compression, the priority of image compression, the size of the image, the quantization step, and the number of frames are appropriately set. The amount of coding can be reduced by selecting and combining them.
  • the camera operation described here means the direction to move the camera (pan, tilt, zoom), contrast, focus, and camera position (for example. When shooting a drawing, turn the camera downward and shoot a person. When doing so, keep it horizontal).
  • As a method of changing the image compression method if the camera is pointed downward, it is determined that a document image is being shot. If an image is transmitted in run-length and the camera faces in the horizontal direction, it is assumed that a person's face is being photographed, and a method of transmitting an image by photographing with H.261 is mentioned. Can be As a result, transmission of unnecessary information can be reduced.
  • the image quality and frame of the camera of interest to the user easy viewing by increasing the number by a child manipulating the number of quality Ya frame image obtained from a camera image quality Ya number of frames of the camera is not focused is focused c conceivable method'll reduced amount of information Therefore, it is necessary to adjust the amount of generated information by limiting the video obtained from the camera that is not focused on accordingly.
  • a method of adjusting the amount of generated information there is a method of adjusting an image size, a value of a quantization step, a number of frames, and the like.
  • FIG. 14 the image size, camera control, control request of another terminal, quantization step, and the number of frames (not shown) are managed. Based on these management information, the relationship between the quantization step and camera operation is recorded and managed as history information so that the reception buffer of the receiving terminal does not overflow, so that restrictions on camera operation can be restricted by the user. Can be added to Also, by automatically changing the quantization step, the image size, the number of frames, and the like, it is possible to prevent the overflow buffer underflow of the receiving buffer of the receiving terminal due to the operation of the camera.
  • FIG. 15 shows an example in which the above-described image compression apparatus is applied to a purpose of creating a wide-field image.
  • images input from a plurality of cameras are acquired by the input unit 1407.
  • the obtained multiple images are received by the receiving terminal 14 08
  • the receiving terminal 1408 When joining (synthesizing) seamlessly, if the receiving terminal 1408 becomes overloaded, the terminal will break down.
  • the assigned priority is added to the image. This can prevent the receiving terminal 1448 from being overloaded.
  • the image compression device shown in FIG. 15 includes an input unit 1407 having a plurality of cameras (N units), and a priority added to each image obtained by the input unit 1407.
  • Operation history management unit 1442 which manages the operation history of the user instructing and operating the camera (especially wanting to pay attention), An image quality control unit 1443 for controlling the image quality of the image, and an image synthesis unit 1444 for synthesizing the images obtained from the camera based on the priorities (low-priority images need not be synthesized) And an output unit 1405 for outputting the synthesis result, and a compression control unit 1406 for controlling each unit.
  • the output unit 1405 is connected to the receiving terminal 144 via a communication path.
  • the output destination of the output unit 1405 may be a recording device or a communication path. Also, it is not always necessary to combine images at the transmitting terminal.
  • the image to which the priority has been added may be transmitted to the receiving terminal via the communication channel, and may be combined at the receiving terminal.
  • the obtained images are combined at the transmitting terminal and played back at the receiving terminal, the obtained images are required at the receiving terminal at the transmitting device and are combined in descending order of (display) priority. Then, the composite image is transmitted to the receiving terminal device using the transmission path.
  • images obtained by the camera specified by the user images obtained by the camera with the highest number of instructions in the past are assigned higher priority, higher image quality (for example, by increasing the number of frames, (Higher priority images do not necessarily have to be of higher quality).
  • images with a high degree of user attention are displayed with high quality and priority.
  • the priority and image quality are gradually reduced for adjacent joined images in order of priority, images with high image quality, and images with a large number of frames. Or may be managed by the receiving terminal.)
  • the method of determining the priority need not always be based on the operation history of the camera. As described above, the priority may be determined based on the local decoding time taken for compression, or the priority, the image with the highest image quality, and the image with the largest number of frames may be used in that order. Alternatively, an execution rate that defines the number of times the processing is executed may be defined for peripheral images. Furthermore, by providing microphones for each of a plurality of cameras and controlling whether or not audio is compressed, it is possible to synthesize only the audio corresponding to the image in the direction of the user's attention. .
  • the quantization step and the number of frames may be determined with reference to the response time between the transmitting terminal and the receiving terminal. Also, by transmitting information about the image processed based on the priority information at the time of overload at the receiving terminal to the destination via the communication path, the image data transmission from the transmitting side to the receiving terminal can be performed by the receiving terminal. It is possible to prevent the amount from exceeding the processing amount. Also, by transmitting the state of frame skipping at the receiving terminal to the transmitting side, the data amount can be adjusted according to the state.
  • the image is transmitted by a transmission method that performs retransmission
  • the audio is transmitted by a transmission method that does not perform retransmission
  • the receiving terminal transmits information on the number of image retransmissions, the error rate of the received audio, and the discard rate. Any information is transmitted to the transmitting terminal.
  • the image compression method and quantization step By determining any of the values, the number of frames, the size of the image to be compressed, and the presence or absence of image compression, it is possible to perform control to reduce the delay in audio transmission without disturbing the image.
  • image transmission can be realized by TCP and audio transmission can be realized by UDP
  • Video and audio may or may not be on the same physical transmission path.
  • the communication method is not limited to TCP // IP.
  • the discard rate and error rate may be defined for each audio, and the compression and transmission methods for multiple video may be controlled.
  • low bit rate image transmission over analog telephone lines, or large fluctuations in image content usually result in large block noises in the image. In such a case, it is difficult to maintain image quality only by compression processing. Therefore, if a filter that transmits only low-frequency signals to the monitor on the output side of the image (for example, a low-pass filter by image processing or a physical polarization filter) is used, the image will appear blurry. You can obtain an image that does not bother you with noise or noise.
  • the present invention has an advantage that, when decoding and synthesizing a plurality of video and audio simultaneously, the processing amount can be controlled based on the priority according to the load status of the terminal. .
  • the present invention has an advantage that a plurality of videos and voices can be synthesized according to a charging situation.

Description

明 細 書 画像音声復号化装置と画像音声符号化装置及び情報伝送システム 技 術 分 野
本発明は、 同時に複数の画像や音声の復号化、 符号化、 合成を行う画 像音声複号化装置と画像音声符号化装置及び情報伝送システムに関する ものである。 背 景 技 術
従来より、 自分側空間の風景の画像中から、 例えば人物画像を抽出し、 その画像と、 相手側から送られてきた人物画像と、 予め記憶されている 相手側と共通的に表示するための仮想的な空間の画像とを重畳して表示 することにより、 相手が自分の前にいるという実在感を充足し、 臨場感 のある映像通信を目指したものがある (特公平 4 - 2 4 9 1 4号公報、 「ハイパーメディアシステム パーソナル コ ミ ュニケ一シヨ ン システム」
(Fukuda, K. , Tahara, T. , kiyoshi, Τ. : Hypermedia Personal し omput er Communication System: Fujitsu Habitat , FUJITSU Sci. Tech. J. , 26, 3, pp.197-206 (October 1990).)、 中村: 「ネッ トワーク対応仮想 現実感による分散協同作業支援」 、 情報処理学会オーディオビジュアル 複合情報処理研究会 ( 1 9 9 3 ) ) 。 特に、 従来の技術では画像合成を 行うための高速化、 メモリ一を低減する方法に関する発明が行われてい る (例えば、 特公 5— 4 6 5 9 2 : 画像合成装置、 特開 6— 1 0 5 2 2 6 : 画像合成装置) 。
しかしながら、 従来の技術では、 2次元の静止画や 3次元の C Gデー タを合成する画像合成システムが提案されていたが、 複数の動画や音声 を同時に復号化 (伸長) して、 合成し表示させるシステムの実現方法に ついては述べられていなかった。 特に、 複数の映像、 音声を同時に復号、 合成、 表示できる端末装置において、 端末の能力の不足や処理能力の変 動に対して破綻を来さない映像や音声の再生方法については述べられて いなかった。 加えて、 課金状況に応じて複数の映像を復号、 合成、 表示 する方法については述べられていなかった。
具体的には、
( 1 ) 複数の画像、 音声の情報、 複数の画像と音声との関係を記述した 情報、 及び処理結果の情報を管理する方法。
( 2 ) 端末の処理状態が過負荷である場合の複数の画像や音声の復号、 合成、 表示の優先度の決定方法、 再生および課金に関する方法。
更に、 複数の映像、 音声を同時に復号、 合成、 表示できる環境下で、 受信端末側の状態や受信端末での復号、 合成、 表示の優先度に応じて画 像の圧縮方法を変更して、 符号化量を制御する方法に関しては考慮され ていない。 発 明 の 開 示
本発明は、 従来のこのような課題を考慮し、 同時に複数の映像や音声 の復号、 合成を行う場合に、 端末の処理状況に応じて符号化量を制御で き、 また、 課金状況に応じて複数の映像や音声の復号、 合成、 表示の制 御ができる画像音声復号化装置と画像音声符号化装置及び情報伝送シス テムを提供することを目的とするものである。
本発明は、 2次元の画像合成だけに限定されない。 2次元の画像と 3 次元の画像を組み合わせた表現形式でもよいし、 広視野画像 (パノラマ 画像) のように複数の画像を隣接させて画像合成するような画像合成方 法も含めてもよい。 本発明で対象としている通信形態は、 有線の双方向 C A T Vや B— I S D Nだけではない。 例えば、 センタ一側端末から家庭側端末への映像 や音声の伝送は電波 (例えば、 V H F帯、 U H F帯) 、 衛星放送で、 家 庭側端末からセンタ一側端末への情報発信はアナログの電話回線や N— I S D Nであってもよい (映像、 音声、 データも必ずしも多重化されて いる必要はない) 。 また、 I r D A、 P H S (パーソナル 'ハンディー • ホン) や無線 L A Nのような無線を利用した通信形態であってもよい ( また、 対象とする端末は、 携帯情報端末のように携帯型の端末であつ ても、 セッ ト トップ B O X、 パーソナルコンピュータのよ うに卓上型の 端末であってもよレ、。
請求項 1の本発明は、 画像情報の符号化を行う画像符号化手段及び、 その符号化された種々の情報を送信もしくは記録する送信管理手段を有 する画像符号化装置と、 符号化された種々の情報を受信する受信管理手 段、 その受信された種々の情報の復号を行う画像復号手段、 その復号さ れた 1つ以上の画像を合成する画像合成手段及び、 その合成された画像 を出力する出力手段を有する画像複号化装置とを備えた画像復号化符号 化装置である。
請求項 2の本発明は、 音声情報の符号化を行う音声符号化手段及び、 その符号化された種々の情報を送信もしくは記録する送信管理手段を有 する音声符号化装置と、 符号化された種々の情報を受信する受信管理手 段、 その受信された種々の情報の復号を行う音声復号手段、 その復号さ れた 1つ以上の音声を合成する音声合成手段及び、 その合成された音声 を出力する出力手段を有する音声復号化装置とを備えた音声複号化符号 化装置である。
請求項 1 6の本発明は、 画像を入力する 1つ以上の画像入力手段と、 その画像入力手段の制御状態を管理する画像入力管理手段と、 受信端末 の受信状況を管理する他端末制御要求管理手段と、 少なく ともその管理 された受信端末の受信状況もしくは画像入力手段の制御状態に応じて、 画像の符号化方法を決定する符号処理決定手段と、 その符号処理決定手 段の決定結果に従って、 入力画像を符号化する画像符号化手段と、 その 符号化された画像を出力する出力手段とを備えたリアルタイム画像符号 化装置である。
請求項 1 8 の本発明は、 請求項 1 の画像複号化符号化装置及び請求項 2記載の音声復号化符号化装置のうち少なく ともいずれかを受信端末と し、 請求項 1の画像複号化符号化装置及び請求項 2記載の音声複号化符 号化装置及び請求項 1 6のリアルタイム画像符号化装置のうち少なく と もいずれかを送信端末として、 それら端末間を通信路で接続した情報伝 送システムであって、 少なく とも受信端末の負荷、 受信端末の優先度決 定手段で決定された処理対象とすべき符号化された情報の優先度に関す る情報、 受信端末でのフレームスキップの状況のいずれかを送信端末に 送信することにより、 送信端末において、 画像もしくは音声の符号化の 有無、 符号化の優先度、 符号化方式、 符号化すべき画像サイズ、 量子化 ステップの値、 フ レーム数、 受信端末の過負荷時の処理の優先度のいず れかを決定する情報伝送システムである。 図 面 の 簡 単 な 説 明
図 1は、 本発明の一実施の形態における画像復号化符号化装置の概 略構成図でる。
図 2は、 同実施の形態における別の例を示す画像音声復号化符号化 装置の概略構成図である。
図 3は、 通信、 記録フォーマッ トで優先度に関する情報を付加する 場合の例を説明する図である。 図 4は、 ソフ トウェアで本発明の構成をした場合の例を説明する図 である。
図 5は、 情報の構造について説明する図である。
図 6は、 D E M U Xスレツ ドの動作について説明する図である。 図 7は、 監視スレツ ドの動作について説明する図である。
図 8は、 デコード ' プロセスの動作について説明する図である。 図 9は、 画像合成スレツ ドの動作について説明する図である。
図 1 0は、 表示監視スレツ ドの動作について説明する図である。 図 1 1は、 画像合成装置のユーザイ ンターフユースについて説明す る図である。
図 1 2は、 受信側端末の能力の変動に応じた画像伝送を行う方法に ついて説明した図である。
図 1 3は、 本発明の一実施の形態の画像圧縮装置について説明する 図である。
図 1 4は、 操作管理部が管理する情報について説明する図である。 図 1 5は、 広視野画像を作成する場合の画像圧縮装置を説明する図 である。
図 1 6は、 送信端末と受信端末との応答状況を説明する図である。 【符号の説明】
1 1 受信管理部
1 2 分離部
1 3 送信管理部
1 4 優先度決定部
1 7 時間情報管理部
1 8 画像伸長部
1 9 画像合成部 20 音声伸長部
2 1 音声合成部
3 1 DEMUXス レッ ド
3 6 デコード . プロセス
3 7 監視ス レツ ド
3 9 画像合成ス レッ ド
4 2 表示監視ス レツ ド
1 2 04 操作管理部
1 20 5 画像圧縮部
1 20 8 画像処理決定制御手段
1 4 0 1 優先度決定制御部
1 4 0 2 操作履歴管理部
1 4 04 画像合成部
1 4 0 7 入力都 発 明 の 実 施 の 形 態
以下に、 本発明をその実施の形態を示す図面に基づいて説明する。 本 発明で使用する 「画像」 の意味は静止画と動画の両方を含む。 また、 対 象とする画像は、 コンピュータ ' グラフィ ックス (C G) のような 2次 元画像とワイヤーフ レーム ·モデルから構成されるような 3次元の画像 データが混合したものであってもよい。 この場合、 画像問の関係はワイ ャ一フレームモデルに相当する。 記述するためのスク リプト言語と して は J A V Aや V R M Lなどが挙げられる。
図 1及び図 2は、 本発明の一実施の形態における画像複号化符号化装 置の概略構成図である。 図 1は、 音声の再生機能をもたない場合の構成 であり、 図 2は、 画像と音声の再生機能をもつ場合の構成である。 当然 のことながら音声だけの場合も、 同様に構成できる。
図 1あるいは図 2の本装置は、 符号化装置及び復号化装置から構成さ れ、 図 1の場合の符号化装置は、 符号化された画像の過負荷時の処理の 優先度を予め決められた基準で決定し、 その符号化画像と優先度とを対 応づける優先度付加部 1 0 1、 画像を符号化する画像符号化部 1 0 2、 優先度が付加された符号化情報を送信あるいは記録する送信管理部 1 0 3、 及び符号化された情報を受信する受信管理部 1 04から構成されて いる。 また、 図 2の場合の符号化装置は、 更に、 音声を符号化する音声 符号化部 1 0 5が設けられている。
一方、 復号化装置において、 情報を受信する受信管理部 1 1 と情報を 送信する送信管理部 1 3は、 同軸ケーブル、 CATV、 LAN, モデム 等の情報を伝送する手段である。 端末の接続形態と しては、 TV電話や TV会議システムのように端末問で双方向で映像情報を送受信する形態 や、 衛星放送や CATV、 インターネッ ト上での放送型 (片方向) の映 像放送の形態が挙げられる。 本発明では、 このような端末の接続形態に ついて考慮している。
分離部 1 2は、 符号化 (圧縮) された受信情報を解析し、 分離する手 段である (圧縮装置の場合は、 逆操作で多重化部になる) 。 たとえば、 MP EG 1や MP EG 2、 H. 3 2 0端末 (N— I S DNを利用した T V電話ノ会議装置の規約) では H. 2 2 1カ 1^ 3 24端末 (アナ口 グ電話回線を利用した TV電話ノ会議装置の規約) では H. 2 2 3がビ デォノ音声ノデータを多重化、 分離する規約である。 本発明は、 規約に 準じた構成で実現してもよいし、 規約に準じない構成で実現してもよい c また、 H. 3 23やインターネッ トで行われているように、 映像と音声 はそれぞれ別ス トリームで独立して伝送してもよい。
優先度決定部 1 4は、 分離部 1 2から得られた情報 (例えば映像、 音 声、 管理情報) を、 以下の方法で、 端末が過負荷である場合の復号 (以 後、 「伸長」 を用いる) の優先度を決定して画像の伸長や音声の伸長を 行う (処理の優先度の決定方法は、 予め受信端末装置で取り決めしてお いてもよいし、 送信側端末 (符号化装置) で記録メディアや送信バケツ トなどに、 下記の方法で決定された優先度に関する情報を付加して伝送、 記録フォーマッ トとして付加しておいてもよい。 傻先度に関する表現方 法としては、 優先度 「大」 、 「中 j 、 「小」 といった数値化していない 表現や 1、 2、 3といった数値化した表現でもよい) 。
複数の画像もしくは音声フレームから構成されるス トリ一ム単位での データの扱いをするための識別子を用いて、 送信側と受信側とでデータ の送受信の処理を行うことで、 受信側のバッファの管理や送信側のデー タの送信のスケジューリングが可能となる。 つまり、 必要に応じて送信 側から送付するス ト リームの識別子を通知して受信側の受け入れ状況を 調べたり、 必要としないス ト リームの識別子の受信端末への通知、 受信 側から必要なス ト リームを要求したりすることが可能となる。
符号化された情報の過負荷時の処理の優先度を前述した基準で決定し、 符号化された情報と決定された優先度とを対応づける優先度付加手段を 画像符号化装置や音声符号化装置に備え、 受信された種々の情報の過負 荷時の優先度に従って、 処理の方法を決定する優先度決定手段で、 処理 すべき優先度の画像フレームや音声を決定し、 復号、 合成処理を行う。 尚、 画像フ レームに関しては、 フ レームスキップが行えるようにフ レー ム内符号化 ( I フ レーム) を行ったフレームを定期的に挿入する必要が ある。
優先度を付加する単位としては、 映像や音声の各フレーム単位 (フ レ ーム間同士の優先度の比較) 、 複数のフレームから構成されるス トリー ム単位であってよい (ス ト リ ーム間同士の優先度の比較) 。 画像の特徴に着目 した方法としては、 画像の圧縮形式 (例えば、 H . 2 6 3 とランレングスならランレングスを傻先させる) 、 画像のサイズ (例えば、 C I Fと Q C I Fならば Q C I Fを優先させる) 、 コン トラ ス ト (例えば、 コン トラス トの明るいものを優先させる) 、 画像の合成 比率 (例えば、 合成比率の高いものを優先させる) 、 量子化ステップ
(例えば、 量子化ステップの小さな値のものを優先させる) 、 フ レーム 間符号化とフ レーム內符号化の違い (例えば、 フ レーム内符号化を傻先 させる) 、 表示位置 (例えば、 表示位置が中央のものを優先させる。 ま た、 3次元画像であれば、 画像が奥に配置される場合は、 優先度を低く . 手前に表示される場合には傻先度を高く設定する) 、 フレーム番号 (第 1 フ レームと最終フレームは優先度を高くする、 シーンチェンジのフレ ームの優先度を高める等) やフ レーム数 (例えば、 再生すべきフ レーム 数が少ない画像は優先度を高くする。 フ レーム番号は H . 2 6 3の場合. テンポラリー ' リファレンス (T R ) に該当し、 T Rの値の変化に基づ いて判断すればよい) 、 有音区間と無青区間、 表示時刻 (P T S ) 、 復 号時刻 (D T S ) に基づく方法が挙げられる。
加えて、 フ レーム間符号化された Pフ レームや Bフ レームは同一の優 先度を割り当てる。 また、 フ レーム内符号化された画像に複数段階の優 先度を割り当てることにより、 スキップする頻度を制御できる。
また、 メディアの違いに着目 した例と しては、 音声の伸長を画像の伸 長よりも優先的に行う方法が挙げられる。 これにより、 音声を途切らす ことなく音声の再生を行うことができる。
さらに、 受信側端末で管理している再生の許可情報をもとに、 伸長す べき情報 (画像、 音声) の決定を行ってもよいし、 送信側より制御情報 として送る再生許可の情報をもとに、 伸長すべき情報の選択を行っても よい。 再生許可の情報は、 具体的には、 課金に関する情報 (例えば、 課 金が行われていなければ、 伸長、 合成、 表示の処理を行わない。 受信端 末側で、 課金に関する情報を管理してもよいし、 送信側で課金情報を管 理してもよい) 、 サービスの内容を示す情報 (例えば、 成人向きの放送 で端末側で再生の許可が出ていなければ、 伸長、 合成、 表示の処理を行 わない。 再生の許可は受信側端末で管理してもよいし、 送信側端末で管 理してもよい) 、 パスワー ド (例えば、 特定の番組にはパスワー ドを入 力しなければ、 伸長、 合成、 表示を行わない。 パスワードは受信側端末 で管理してもよいし、 送信側端末で管理してもよい) 、 利用者コード (例えば、 許可が与えられている利用者でなければ、 伸長、 合成、 表示 は行わない。 利用者コードは受信側端末で管理してもよいし、 送信側端 末で管理してもよい) 、 国別コード (例えば、 国によって、 伸長、 合成、 表示すべき画像や音声、 再生方法を変更する。 国別コードは、 送信側で 管理してもよいし、 受信側で管理してもよい。 国別コードで再生方法を 変えることによってスクランブルが実現できる) 。
課金に関する情報、 サービスの内容を示す情報、 パスワー ド、 利用者 コードといった画像や音声の再生許可の制限をかけた再生方法と しては、 画像の合成、 表示を行う際に故意に位置や画素をずらしたり、 画像の拡 大 '縮小、 画像のサンプリ ング (たとえば口一パスをかけると力、) を変 更、 画素反転、 コン トラス トの変更、 カラ一パレッ トの変更、 フ レーム のスキップを行う方法などが挙げられる。 これら画像の再生方法 (画像 の伸張、 合成、 表示) は、 1 フ レーム毎に制約をかけてもよい。 あるい は、 画像圧縮の 1つである H . 2 6 3で定義されるような 1 フ レームよ りも小さく、 独立して処理できる単位である G O B ( G r o u p O f B l o c k ) 単位で、 画像の伸張、 合成、 表示方法に制約をかけても よく、 これにより、 従来から行われている画面全体を乱す手法よりも柔 軟な制御が可能になる。 つまり、 G O B単位で処理することにより、 画 面の一部分だけにスクランブルをかけることができるため、 画像合成を 使ったソフ 卜のようにインタラクティブなソフ 卜に対する評価が可能と なる。
同様に、 音の再生方法としては、 音の大きさを変更させる、 音の方向 を変更させる、 音の周波数を変更させる、 音のサンプリングを変更させ る、 異なる画像や音声を挿入する方法が挙げられる (いずれの方法も、 あらかじめ送信側で処理する方法と、 受信側で処理する方法が挙げられ る) 。
画像と音声の再生方法としては、 画像と音の同期をはずす方法が挙げ られる。 合成、 表示の順位を示す情報 (予め表示する順序を受信側の端 末で決めておく、 例えば C I Fや静止画を優先するなど、 また、 送信側 で、 送信情報に表示する順序を優先度に関する情報として付加しておく 方法も挙げられる) 、 伸長の順位を示す情報 (予め伸長する順序を受信 側の端末で決めておく、 たとえば Q C I Fや、 フ レーム内符号化の画像 データを優先させるなど、 B G Mよりも会話音を優先して伸長するなど が挙げられる。 同様に、 送信側で、 送信情報に表示する順序を付加して おく方法も挙げられる) 、 利用者の指示 (たとえば、 利用者の指示によ り、 伸長、 合成、 表示すべき画像や音声情報を選択させるか、 要望に応 じて選択した情報をもとに、 伸長、 合成、 表示すべき画像や音声情報を 決定する) 、 端末の処理能力 (たとえば、 現在もしくは過去の一定期間 のじ P Uの処理の占有時間を計測することにより、 処理時間がかかりそ うな画像や音声の伸長、 合成、 表示を抑制する。 処理時間の推定方法と しては、 圧縮を行う際にローカル 'デコードにかかった時間や、 圧縮に かかった時間を圧縮した画像情報とともに対応づけて管理することによ り、 伸長、 合成、 表示の有無、 優先度の決定を行うことができる) 、 再 生時刻 (たとえば、 再生時刻を過ぎた画像、 音声情報の伸長、 合成、 表 示は中止する) ゃ復号時刻により、 伸長すべき画像や音声の優先度、 有 無を決定してもよい。
加えて、 特定の画像や音声だけが優先的に伸長、 表示されるのを防ぐ ための方法と して、 画像や音声の伸長、 合成、 表示の処理を行う実施率 に関する情報に基づいて、 伸長、 合成、 表示すべき画像の順番や有無を 決定することができる。 例えば、 伸長を行う 1 0回のうち 1回は C I F サイズの画像の伸長を行うと受信端末側で設定しておく力、、 送信側で画 像や音声の伸長、 合成、 表示の実施率を規定してそれに基づいて画像情 報や音声情報を送信する方法が考えられる。 実施率は具体的には、 I フ レーム (フ レーム内符号化したフ レーム) の挿入間隔で定義できる。 こ れにより、 特定の画像や音声オブジェク トのみが伸長、 合成、 表示され ることはなく なる。
これら伸長、 合成、 表示を制御する優先度に関する情報の付加は送信 側の装置だけではなく、 中継を行う装置で付加、 制御してもよい。 また、 受信端末の復号装置の優先度決定部 1 4で決定した優先度に関する情報 を、 送信管理部 1 3を通じて送信先に送信することで、 優先度決定部 1 4の決定状況に応じた画像、 音声伝送を行うことが可能となる (選択さ れにくい画像オブジェク トの I Dを送信側へ送ることにより、 無駄に送 信されることがなくなる) 。 尚、 受信端末が過負荷である場合の処理の 優先度を示す情報は、 受信端末装置で取り決めてもよいし、 伝送フォー マッ トと して伝送してもよいし、 C D— R O Mゃハ一ドディスクのよう な記録メディアに記録するためのフォーマツ トと して M P E G 2のトラ ンスポートス トリームを拡張してもよいし、 標準化を考慮しない伝送、 記録フォーマッ ト形式であってもよい。 また、 メディア毎 (映像、 音声. 映像と音声の関係を記述した情報) に別々のス ト リームとして、 多重化 を行わずに伝送、 記録してもよい。 画像復号手段と しての画像伸長部 1 8は画像の伸長処理を行う手段で あり (以降、 符号化装置の場合は符号化手段) 、 画像伸長部 1 8で扱う 画像フォーマッ トとしては MP E G 1や MP E G 2、 H. 2 6 1、 H. 2 6 3等が挙げられる。 画像の伸長は 1フ レーム単位で行っても、 H. 26 3で規定されている GOB単位の処理であってもよい。 1フ レーム 単位で処理する場合、 フレーム間符号化を行う場合、 前フレームの伸長 状態を画像伸長部 1 8に記憶しておく必要がある。 GOB単位での画像 伸長を行った場合、 画像の伸長の順序関係は問題ではなくなる。 従って. GOB単位で伸長処理を行う場合、 複数の画像伸長部 1 8を受信装置に 持つ必要はなく、 1つの画像伸長部 1 8で複数の映像の伸長を行うこと が可能となる。 反面、 伸長結果を蓄えておく必要がある。
図 2の音声復号手段としての音声伸長部 2 0は音声の伸長を行う手段 であり、 音声伸長部 20で扱う音声フォーマッ トと しては G. 7 2 1や G. 7 2 3等が挙げられる。 処理のための方法と しては、 D S Pや汎用 C PUによるンフ トウェア処理や専用のハードウエアによる処理が挙げ られる。
ソフ トウェアで実現する場合は、 画像および音声の伸長処理をそれぞ れ 1つのプロセスあるいはス レツ ドの単位で管理し、 伸長すべき画像や 音声が同時に複数ある場合、 処理できる範囲の数のプロセスあるいはス レツ ドで時分割して処理する。
画像伸長管理部 1 5は画像の伸長の状態を管理する手段である。 また 音声伸長管理部 1 6は音声の伸長の状態を管理する手段である。 例えば, これら管理部を、 ソフ トウェアで実現する場合は、 分離部 1 2から得た 圧縮された情報を決められた手順 (例えば、 最初に音声伸長部 2 0から 実行し、 次に画像伸長部 1 8で実行する) で、 画像伸長部 1 8、 音声伸 長部 20に引き渡し、 伸長の状態を監視する。 すべての伸長が完了すれ ば、 画像合成部 1 9もしくは音声合成部 2 1に、 伸長された情報を引き 渡す。 ソフ トウェアでは共有メモリーとセマフォを用いることで、 引き 渡す情報を制限したり、 伸長処理が終了したことを知る (詳細について は後述する) 。
時間情報管理部 1 7は時問に関する情報を管理する手段である。 例え ば、 システムをパーソナルコンピュータで実現する場合には、 時間情報 はパーソナルコンピュ一タのタイマーを利用して実現すればよい。
画像合成部 1 9は、 伸長された画像データをもとに画像合成を行う。 複数の画像の合成を行う場合、 それぞれの画像の合成比率 ( 直) をも とに画像合成を行う。 例えば、 2つの画像を合成する場合で、 前景画像 の合成比率が αの場合、 背景画像の R G Β値を ] 一 α、 前景画像を ctの 割合で混合する。 尚、 伸長すべき画像は 1 フ レーム単位で処理の管理を 行うことにより、 表示時刻を用いて複数の画像を合成する場合にシステ ムの構成と実装が簡単化できる。 また、 画像合成部 1 9もく しくは音声 合成部 2 1で、 送信側から伸長結果を破棄する指示が来るまで、 伸長結 果を保持して管理、 利用することで、 送信側から同一パターンの情報を 繰り返し送信する必要をなくすことができる。
画像同士や音声同士の関係を記述した情報に基づき、 画像や音声を合 成する際に、 必要とする復号された画像や音声が用意されていなくて、 合成できない画像や音声が存在することを提示することで、 利用者は合 成の状態を知ることができる。 そこで、 利用者が必要な画質を選択した り、 合成したい画像を予め選択するなどの指示を行うことで、 必要な情 報を取りこぼさずに合成することが可能となる。 尚、 復号化された画像 や音声のデータをバッファに蓄積、 管理する方法と しては、 到着順に古 いものから順に消去してゆく力 、 画像同士、 音声同士の関係を記述した スク リプトをみて、 全体としての復号化された画像や音声のデータの使 用状況をみて消去する方法が考えられる。
音声伸長管理部 1 6は、 少なく とも 1つ以上の音声の伸長を行う音声 伸長部 2 0の伸長状態を管理する。
音声合成部 2 1は、 伸長された情報をもとに音声合成を行う手段であ り、 合成結果蓄積部 2 2は、 画像合成部 1 9が合成した画像と、 音声合 成部 2 1が合成した音声を蓄賴する手段である。
再生時刻管理部 2 3は、 再生を開始すべき時刻に、 合成した画像や音 声を再生する手段である。
出力部 2 4は合成結果を出力する手段 (例えば、 ディスプレイ、 プリ ンタなどである) 、 入力部 2 5は情報を入力する手段 (例えば、 キーボ ード、 マウス、 カメラ、 ビデオなどである) である。 端末制御部 2 6は、 これら各部を管理する手段である。
図 3は、 通信、 記録フォーマッ トで優先度に関する情報を付加する場 合の例を説明する図である。
図 3 ( a ) の例は、 完全にすべてのメディア (映像、 音声、 制御情報) を多重化している例である。 制御情報と して、 過負荷時の処理を決定す るための優先度 (本発明で指している優先度) や表示の順序を示す優先 度が示されている。 また、 制御情報と しては、 画像同士、 音声同士、 画 像と音声との関係 (時間的、 位置的なもの) に関する情報を記述してお いてもよレ、。 図 3 ( a ) の例では、 たとえば、 M P E G 1 Z 2の多重化、 H . 2 2 3のような制御情報とデータ (映像、 音声) を混在させるパケ ッ ト多重の適用に向いている。 尚、 過負荷時の処理の傻先度はフ レーム 単位もしくはス トリーム単位で付加する。
図 3 ( b ) の例は、 メディア毎に情報を多重化している例である。 こ の例では、 制御情報、 画像情報、 音声情報は別々の通信ポー トから送信 される。 画像同士、 音声同士、 画像と音声との関係に関する情報は制御 lo 情報として、 画像や音声とは別の通信ポートから送信すればよい。 H. 3 2 3やインターネッ トのように複数の通信ポートを同時に確立できる 場合の適用に向いており、 図 3 (a ) と比べて多重化の処理が簡略化で きるので、 端末の負荷が軽減できる。
画像同士と音声同士の記述方法として、 J AVA、 VRMLといった 記述言語などで対応が可能であると思われるが、 スク リブトの記述言語 の仕様が一意に定まらない状況も考えられる。 そこで画像同士、 音声同 士の関係 (例えば、 位置的な情報、 時間的な情報 (表示期間など) ) を 記述した情報の記述方法を識別するための識別子を設けることで、 複数 種類の記述方法に対応することができる。 情報の記述方法を識別するた めの識別子の付加方法としては、 例えば、 MP EG 2においては、 MP E G 2— T Sのス ト リームを管理するプログラム . マップテーブルに設 ける力、、 スク リブトを記述したス トリームに設けることで対応できる。 過負荷時の処理の優先度は画像と音声との対応関係を記述した情報とと もに付加する (制御情報) 。 尚、 MP EG 2においては、 MP EG 2— T S ( トランスポート . ス ト リ ーム) のビデオ . ス ト リ ーム、 オーディ ォ ' ス トリームを関係づけるプログラム · マップテ一ブルで管理できる ように、 画像と音声との対応関係づけを行う構造情報 · ス ト リ ームを定 義して管理すれば、 MP E G 2でもデータと独立して伝送することがで さる。
図 4は、 ソフ トウェアで本発明を構成した場合の例を説明する図であ る。 マルチタスク ' オペレーショ ンが可能なオペレーティング ' システ ム上で本発明を実現した場合、 図 1や図 2で説明した各処理は、 プロセ ス、 スレツ ドといったソフ トウェアの実行モジュール単位に分けられ、 各プロセス、 ス レッ ド間は共有メモリーにより情報の交換を行い、 セマ フォ (図 4の例では、 実線で示された部分がセマフォに対応する) によ つて共有する情報の排他制御を行う。 以下に、 各プロセス、 スレッ ドの 機能について述べる。
D E M U Xスレツ ド 3 1はネッ 卜ワークやディスクから多重化された 情報 (映像、 音声、 制御情報) を読み取り、 音声、 映像及び、 音声と映 像との対応関係と再生時間に関する情報とを記述した監視用テーブル
(詳細は後述する) に分離する。 D E M U Xスレッ ド 3 1は前述の分離 部 1 2に対応する。 D E M U Xスレツ ド 3 1で分離された情報は、 音声 用のリ ングバッファ 3 2、 映像用のリ ングバッファ 3 3、 監視用のリ ン グバッファ 3 4にそれぞれ送出される。 音声情報である場合、 リングバ ッファ 3 2に送出された情報は、 音声デコードス レッ ド 3 5 (前述の音 声伸長部 2 0に対応する) で伸長される。 映像情報である場合、 リング バッファ 3 3に送出された情報は、 デコードプロセス 3 6で伸長される 監視用テーブルに関しては、 リ ングバッファ 3 4に送出され、 映像を 伸長するための順序を決定するために監視スレッ ド 3 7 (前述の端末制 御部 2 6、 画像伸長管理部 1 5、 音声伸長管理部 1 6に対応する) で利 用される。 また、 同じ監視用テーブルが画像合成のために画像合成スレ ッ ド 3 9で利用される。 監視ス レッ ド 3 7で利用された監視用テーブル は、 すべての音声、 画像の伸長が終わった時点で、 次のテーブルをリン グバッファ 3 4から読み出す。 デコード . プロセス 3 6 (前述の画像伸 長部 1 8に対応する) で伸長された画像情報は映像用シングルバッファ 3 8に送出される。 送出された画像情報が揃った時点で、 画像合成ス レ ッ ド 3 9 (前述の画像合成部 1 9に対応する) にて、 監視用テーブルで 管理される画像合成の比率を用いて画像合成を行う。 合成結果は、 合成 用バッファ 4 1 (前述の合成結果蓄積部 2 2に対応する) に蓄積され、 表示監視ス レッ ド 4 2で表示時間になるまで表示待ちの状態で待機する
(前述の再生時刻管理部 2 3に対応する) 。 図 5は、 図 4の構成で用いられる情報の構造について説明する図であ る。 図 5の例では、 ディスクもしくはネッ トワークから受信した情報は 1 8 8 b y t eの固定長である (B) 。 DEMUXス レッ ド 3 1で分離 された音声情報の構造は、 パケッ ト同期用のコード、 再生時刻、 再生す べき音声の長さを示すフレーム長、 音声データからなる (C) 。 映像情 報の構造は、 パケッ ト同期用のコード、 画像を識別するためのフ レーム 番号、 画像情報の大きさを示すフレーム長、 画像データからなる (D) 。 本発明は 1フレーム単位での処理である必要はなく、 マク ロブロック単 位のような小さなプロック単位での処理を行っても構わない。
監視用テーブルの構造は、 画像の表示時間、 1フ レームで表示 (合成) すべき画像の数、 各画像の I D、 フレーム番号、 伸長や表示を行う優先 度、 フレームのタイプを示す識別子 ( I ピクチャ、 Pピクチャ、 Bピク チヤ) 、 表示の水平位置、 表示の垂直位置、 合成の比率を示す階層の各 情報から構成される (E) 。 なお、 画像の合成比率と音声の合成比率を 対応づけて変化させてもよい。 例えば、 画像、 2種類が、 それぞれ音声 2種類に対応する場合、 画像の合成比率が α : 1 — αである場合、 対応 する音声の合成比率も α : 1— αで対応づけてもよい。 画像情報同士の 関係だけではなく、 音声同士の関係も記述してもよい (例えば、 方向、 種類 (B GM、 会話音) ) 。
図 6は、 D EMU Xスレッ ドの動作について説明する図である。 ファ ィノレもしくは、 ネッ トワークから 1 8 8バイ トの固定長のデータを読み 込む (5— 1 ) 。 読み込んだデータを分析し、 前述の音声、 映像、 監視 用テーブルの構造の型にセッ トする (5— 2) 。 リングバッファへの書 き込みが可能であれば、 音声、 映像、 監視用テーブルをそれぞれのリン グバッファに書き込みを行う。 画像ォブジェク ト I Dと複数ある画像伸 長手段との対応関係をとる。 例では、 若い番号のオブジェク ト I Dから 若いリングバッファ番号の共有メモリーへ順に書き出す ( 5— 3 ) 。 書 き込んだバッファのライ トポインタを更新する ( 5— 4) 。 監視用テー ブル 1つ分の映像、 音声の情報を書き込んだら監視ス レツ ド制御用セマ フォのカウンターを進める (5— 5) 。 このように DEMUXにより監 視スレツ ドの制御を行う。
図 7は、 監視ス レッ ドの動作について説明する図である。 監視用のテ 一ブルを読み込みリードポインタを進める (6— 1 ) 。 過負荷時のォブ ジェク トの優先度をチェックして、 優先度の高い画像フレームを調べる (6— 2) 。 監視用テーブルの内容を合成側のスレッ ドへ渡す (6— 3) < DEMUXからの監視用テーブル 1個分のデータの作成を待つ (6— 4) < 処理の優先度の高い順に、 表示を行う画像のフレーム番号をデコードプ 口セスに書き (6— 5) 、 現在の時間と表示すべき時間を比べて、 間に 合っていなかったら I フ レームをスキップせずに、 P Bのフ レームだけ をスキップする (6— 6) 。 対応するデコード · プロセスの実行を許可 し (6— 7) 、 処理が完了するまで待つ (6— 8) 。
図 8は、 デコード · プロセスの動作について説明する図である。 監視 ス レツ ドから実行の許可が出るまで待機する ( 7— 1 ) 。 入力画像の状 態をチェック し、 画像のシリ アル番号、 入力されるフ レームはスキップ すべき画像かどうかを調べる ( 7— 2) 。 デコードすべき画像データが リ ングバッファに溜まるまで待つ ( 7— 3) 。 監視ス レツ ドから指示さ れた画像のシリアル番号に対応する画像データがなければ、 デコードを スキップし、 リードポインタを進める ( 7— 4) 。 入力画像のスキップ でなければ、 デコードの処理を実行し、 リードポインタを進める ( 7— 5) 。 デコードの結果を出力し ( 7— 6 ) 、 監視ス レツ ドに処理が終了 したことを通知する ( 7— 7) 。
同じプロセス (スレッ ドであってもよい。 ハードウェアである場合は プロセッサ) を利用して異なる種類の画像オブジェク トを伸長する場合、 デコード ' プロセス内で過去に伸長した画像のフレーム番号と伸長され る前の画像とを対応づけて管理することにより、 同時にたく さんのプロ セスを生成して利用する必要がなくなる (最低、 直前のフレームに関す る情報だけでもよい。 また、 I 、 P、 Bというように異なるタイプのフ レーム画像が存在する場合は、 管理される順序と出力すべき順序とが異 なるのでデコード · プロセスにおけるこのような管理は必要となる) 。 図 9は、 画像合成スレッ ドの動作について説明する図である。 監視ス レッ ドから監視用テーブルを待つ (8— 1 ) 。 処理する画像の優先度を チェックする (8— 2 ) 。 優先度の高い順にデコード結果の画像を待つ ( 8— 3 ) 。 表示位置にあわせた画像の合成を行う (8— 4 ) 。 合成結 果を合成用バッファに書き込む (8— 5 ) 。 表示を行うべき画像情報の 選択は画像伸長手段もしくは画像合成手段で行うことができる。 表示す べきではない画像オブジェク ト I Dをスキップする場合、 画像合成手段 へは伸長結果が出力されないことを通知する必要がある。 音声に関して も再生すべき音声情報の選択を音声伸長手段もしくは音声合成手段で行 うことができる。
図 1 0は、 表示監視ス レッ ドの動作について説明する図である。 合成 画像が書き込まれるのを待つ ( 9一 1 ) 。 初めての表示である場合、 表 示を開始した時刻を取得し (9一 2 ) 、 表示を行うべき時問との対応関 係を管理する。 表示時間に達しでいなければ、 達していない時間だけ待 機し、 合成画像の表示を遅らせる ( 9一 3 ) 。
図 1 1を用いて本発明の画像合成装置のユーザィンターフェースにつ いて説明する。
図 1 1の例では、 背景画像に、 前景画像が合成され、 遠くに位置する 建物が合成比率 0 . 5で半透明に画像合成されている。 図 1 1に示した ように、 使用する画像は 2次元画像でなくてもよい。 前景に 3次元画像 としてヘリ コプターと気球が、 2次元の画像である背景と合成されてい る。 なお、 前景のヘリコプターと気球は必ずしも常に 3次元の画像であ る必要はない。 遠くに位置する場合 (画面上に 2次元として表示される 大きさで定義しておけばよい。 たとえば 2 0 ドッ ト X 2 0 ドッ トの大き さよりも小さければ対象物は遠くに存在すると定義しておけばよい) に は、 2次元で表現しておき、 近くに位置する場合には 3次元で表現して もよレ、。 また、 3次元画像のワイヤ一フ レーム .モデルにマッピングす る画像も静止画だけではなく、 動画像であってもよい。 画質に関しては 中心部分の画質は高く、 周辺部分へいくほど荒くすることで、 ユーザの 望む必要な情報を優先的に、 選択して伝送することができる (このよ う に、 画像が合成される位置に応じて、 画質を変更することで応答性の向 上が期待できる) 。 また、 3次元画像である場合、 遠方に表示される画 像の優先度は低く、 近くに表示される画像の優先度は高く設定すればよ い。 なお、 画質の制御に関しては量子化ステップを変更することにより 実現できる。
図 1 2は、 受信側端末の能力の変動に応じた画像伝送を行う方法につ いて説明した図である。 次に、 伝送される画像が多くなることにより、 受信端末の処理が過負荷になるのを防ぐために、 圧縮装置を含めて、 管 理、 制御する方法について述べる。 例えば、 ハードウェアで実現されて いる M P E G 2ベースのビデオ ' オン 'デマンドシステムでは、 送信側 の端末は受信側の端末の性能 (たとえば、 画像圧縮できる方式やサイズ, 通信プロ トコル) を、 映像情報を送信、 受信する前にお互いに確認する c このため、 送信側端末では、 受信側端末の処理能力がほぼ確定している ため、 受信側端末の受信状況や再生の状況を逐次、 モニターする必要は ない。 一方、 ハードウユアで画像の圧縮と伸長を実現する場合は、 端末で画 像の圧縮と伸長を行える個数は固定である。 しかし、 ソフ ト ウェアで画 像の圧縮と伸長を実現する場合は、 端末で画像の圧縮と伸長が行える個 数を動的に可変にできる。 又、 ソフ ト ウェアでマルチタスク環境下で画 像の圧縮と伸長を行う場合、 画像サイズや、 画像圧縮を行うための量子 化パラメータ、 対象とする画像 (フレーム内符号化かフレーム間符号化、 撮影された画像の内容) 等によって大きく影響し、 端末で処理 (圧縮、 伸長) できる画像サイズ、 同時に処理できる画像の数は時間的に変化す る。 また、 これに伴って送信側端末では、 逐次、 受信側端末の受信状況 (たとえば、 受信バッファの容量や映像の再生の優先度、 受信確認の応 答時間) に応じた画像の圧縮方法 (画像圧縮の方式、 画像圧縮の有無、 量子化ステップ、 圧縮の傻先度、 圧縮すべき画像サイズなど) 、 受信端 末が過負荷時の優先度の決定を検討していかなければ受信側の能力を上 回ってしまい破綻を来す。
例えば、 図 1 2 ( b ) に示すように、 受信側端末の受信バッファの容 量が 8 0 %を超えた場合、 送信側へ受信バッファがあふれそうになつて いることを通知し、 画像圧縮の方式 (たとえば M P E G 1からランレン ダスへ変化させて、 圧縮画像の送出量を減らす) 、 画像圧縮の有無 (画 像圧縮して、 送信するのを一時中断させる) 、 圧縮の優先度の変更 (圧 縮すべきプロセスが複数ある場合、 圧縮するための優先度を下げて、 圧 縮される圧縮画像の送出量を減らす) 、 画像サイズの変更 (C I Fから Q C I Fへと圧縮すべきサイズを小さく変更して圧縮画像の送出量を減 らす) 、 量子化ステップの変更 (画質の変更によって圧縮画像の送出量 を減らす) による送出量を制限させる方法、 フ レーム数を調整する方法 (処理を行うフレーム数を減らす) 、 受信端末が過負荷時の優先度を決 定する方法を適宜、 選択、 組み合わせて実施する。 これにより受信側端 末の受信バッファのオーバ一フローを回避させる。
同様に、 受信側の受信バッファーの容量が 2 0 %を下回った場合、 送 信側の端末へ受信側端末の受信バッファがアンダーフローになりかけて いる旨を通知して、 前述とは逆の方法で、 送信側の端末で、 画像圧縮の 方式、 画像圧縮の有無、 画像圧縮の優先度、 画像のサイズ、 量子化ステ ップ、 フレーム数を適宜、 選択、 組み合わせて実施する。 このように送 出量を増大させる方法を実施することにより、 受信側端末の受信バッフ ァのアンダーフロ一を回避させることができる。
受信バッファの状態の監視以外にも、 受信側端末での再生能力が限ら れていて、 再生すべき画像が複数ある場合、 受信側端末で、 優先して再 生すべき画像を利用者が明示的に決定するか、 端末側で、 傻先して再生 すべき画像を自動的に決定する必要がある (予め、 利用者により優先し て再生すべき画像はどれであるかを、 ルールとして受信端末に登録して おく必要がある。 例えば、 画像サイズの小さいものは優先であると力、、 背景の画像と して表示させているものは再生の間隔はゆつく りであって もよいと力 。 例えば、 受信側端末の負荷 (たとえば、 再生に必要な C P Uの占有時間) を送信側の端末へ通知してやることにより、 簡単に実 現可能である。
受信側の端末の再生の負荷が端末の処理能力の 8 0 %を超えれば、 そ の受信側端末が過負荷になっていることを送信側へ通知し、 送信側では そのことをうけて、 上述と同様の方法で、 受信側端末の処理すべき負荷 が下がるように、 画像圧縮の方式 (たとえば、 M P E G 1からランレン ダスへ変更させて処理量を減らす) 、 画像圧縮の有無 (画像圧縮して、 送信するのを一時中断させる) 、 圧縮の優先度の変更 (重要度の低い画 像に対しては、 圧縮するための優先度を下げて、 重要度の高い画像を優 先して圧縮して送出する) 、 画像サイズの変更 (C I Fから Q C I Fへ と圧縮すべきサイズを変更して、 再生側の負荷を减らす) 、 量子化ステ ップの変更 (画質の変更によって圧縮画像の送出量を減らす) の方法、 フレーム数を調整する方法、 過負荷時の処理の傻先度に基づいて処理す る方法を適宜、 選択もしくは組み合わせて実施することによって受信側 の端末での処理量を軽減させる。
逆に、 負荷が受信側端末の処理能力の 2 0 %を下回った場合は、 受信 側の端末の処理能力に余裕があるものとして、 前述とは逆の方法で、 送 信側の端末で、 画像圧縮の方式、 画像圧縮の有無、 画像圧縮の優先度、 画像のサイズ、 量子化ステップ、 フ レーム数を適宜、 選択、 組み合わせ て実施することにより、 高画質で、 フレーム間隔の短い画像を受信側端 末へ送出する。 これにより、 受信側端末の能力を活かした画像伝送が可 能になる。
最後に、 受信側端末の処理状況を知る方法としては、 受信側の画像合 成装置からの受信確認の応答時間によって知ることができる。 例えば、 送信側の端末から受信側端末へ画像データを送出した場合に、 受信側端 末が画像データを受信したことゃ復号処理、 合成や表示処理が完了した ことを送信側端末へ応答する場合、 その応答時間が、 例えば、 通常値と して 1秒以内である場合、 受信側端末の負荷の増大により、 その応答時 間は、 5秒といったように長くなる (通常値は、 端末接続時に一度、 測 定してもよいし、 通信時に定期的に測定してもよいし、 利用者が指示し てもよい。 また、 応答時間の測定は周期的に行ってもよいし、 端末の負 荷や前回の応答時間の結果に関連させて測定間隔を変化させてもよい) c この応答時問の変化により、 前述した画像圧縮の方式、 画像圧縮の有無. 画像圧縮の優先度、 画像のサイズ、 量子化ステップを適宜、 選択、 組み 合わせて実施することにより、 受信端末での負荷を低減させることがで きるので、 応答時間を短縮させることができる (図 1 6のケース 1参照) , 受信端末での再生時刻もしくは復号時刻を受信して上記と同様の処理を 行ってもよい。
尚、 受信側の端末の状態を考慮した方法として、 前述した受信側の端 末の受信バッファの容量、 受信側端末の負荷、 受信側の端末の応答時間 を測定する方法をそれぞれ単独に用いるのではなく、 適宜、 選択して、 組み合わせて用いてもよい (音声に関しても同様の方法が適用できる) また、 受信側の端末で優先度情報に基づいて処理した画像や音声に関す る情報 (複数の、 画像ス ト リ ーム、 音声ス ト リームが存在するとき、 受 信側端末で実際に処理された画像、 音声ス ト リームは、 どのス ト リーム であり、 再生された画像ス トリ一ムは毎秒何フレームであつたかという 情報) を、 通信路を通じて送信先に送信することで、 送信側から受信側 の端末への画像データ送信が、 受信端末の処理量をこえるような量にな ることを未然に防ぐことができる (図 1 6のケース 2参照、 実際に処理 された画像データについて知ることで、 送信側の i子化パラメータ、 画 像サイズなどの情報量を調整することが可能となる。 なお、 この例では. フレーム単位で処理のフィ一ドバックを返しているが、 前述したように. 例えば、 H . 2 6 3ならば G O Bのように独立して扱えるような画像単 位であってもよい) 。 以上の方法は、 同様に音声に対しても適用できる c 図 1 3は、 本発明の一実施の形態の画像圧縮装置について説明する図 である。 尚、 本実施の形態は、 画像に対しての例を説明しているが、 音 声の圧縮に対しても適用できる。 図 1 3の例では、 画像入力手段 1 2 0 7毎に量子化ステップを変化させたり、 画像入力手段 1 2 0 7に対する 制御によって受信側端末での受信状況が変化した場合に、 量子化ステツ プを追随させて変化させることにより、 圧縮画像の発生量の増大を低減 させようとするものである。 図 1 3の画像圧縮装置は、 量子化ステップ に関する情報を管理する量子化ステップ管理部 1 2 0 1、 画像入力手段 1 2 0 7の制御状態を管理する画像入力管理部 1 2 0 2、 受信側端末装 置の受信バッファの状況を監視する他端末制御要求管理部 1 2 0 3、 制 御の時間的な推移を記録、 管理する操作管理部 1 2 0 4、 画像圧縮を行 う手段である画像圧縮部 1 2 0 5、 圧縮結果を通信路ゃ記憶装置に出力 する出力部 1 2 0 6、 画像入力を行う画像入力手段 1 2 0 7及び、 これ ら各部を管理し、 また管理する制御を行う画像処理決定制御手段 1 2 0 8から構成される。
尚、 画像圧縮の方法としては、 J P E G、 M P E G l / 2、 H . 2 6 1 、 H . 2 6 3のような標準化されている方式でもよいし、 ウエーブレ ッ トゃフラク タルのような標準化されていない方式であってもよレ、。 画 像入力手段 1 2 0 7はカメラであっても、 ビデオ、 オプティカル 'ディ スクのよ うな記録装置であってもよい。
この画像圧縮装置の利用方法としては、 画像入力手段 1 2 0 7がカメ ラである場合、 受信側端末により送信側の端末のカメラが操作されたと きや送信側でカメラ操作が行われたとき、 画質が大きく変化するために、 送出される符号化量は変動する。 例えば、 カメラのコン トラス トを上げ た場合、 画像は見やすくなるが、 送出すべき符号化量は増える。 そこで、 コントラス トの向上とともに前述したように符号化量を低減させるため に、 画像圧縮の方式、 画像圧縮の有無、 画像圧縮の優先度、 画像のサイ ズ、 量子化ステップ、 フレーム数を適宜、 選択、 組み合わせて実施する ことにより、 符号化量を抑えることができる。
ここで述べているカメラ操作とは、 カメラを移動させる方向 (パン、 チル ト、 ズーム) 、 コン トラス ト、 フォーカス、 カメラ位置 (たとえば. 図面を撮影する場合はカメラを下向きに向け、 人物を撮影するときは水 平にする) が挙げられる。 画像圧縮の方式を変更する方法と しては、 力 メラを下向きに向けた場合は、 文書画像を撮影しているものと判断して ランレングスで画像を伝送し、 カメラが水平方向にむいている場合は、 人物の顔の様子を撮影しているものと して、 H . 2 6 1で撮影して画像 伝送を行う方法が挙げられる。 これにより、 不必要な情報の伝送を低減 させることが可能となる。
また、 複数のカメラが存在し、 複数のカメラから得られる映像を伝送 する必要がある場合に、 通信容量が限られている場合は、 利用者が着目 しているカメラの映像の画質やフ レーム数を多く して見やすく し、 着目 していないカメラの画質ゃフレーム数は低減してやる方法が考えられる c 着目 しているカメラから得られる映像の画質ゃフレーム数を操作するこ とにより、 情報量が増大するため、 それに応じて着目 していないカメラ から得られる映像を制限して発生情報量を調整する必要がある。 発生す る情報量を調整する方法と しては、 画像サイズ、 量子化ステップの値、 フ レーム数などを調整する方法が挙げられる。 尚、 複数のカメラを用い て広視野画像を作成する場合の例については、 図 1 5を用いて後述する c 図 1 4は、 操作管理部 1 2 0 4が管理する情報の例である。 図 1 4の 例では、 画像サイズ、 カメラ制御、 他端末の制御要求、 量子化ステップ. 図示しないフ レーム数について管理されている。 これらの管理情報に基 づいて、 受信側端末の受信バッファがオーバーフローしないように、 量 子化ステップとカメラ操作の関係を履歴情報と して記録、 管理すること で、 カメラ操作に対する制限を利用者に加えることができる。 また、 量 子化ステップや画像サイズ、 フレーム数などを自動的に変更させること で、 力メラ操作に伴う受信側端末の受信バッファのオーバ一フローゃァ ンダーフローを未然に防ぐことができる。
図 1 5に、 上記画像圧縮装置を広視野画像を作成する用途に応用した 例を示す。 図 1 5の例では、 複数のカメラから入力された画像を入力部 1 4 0 7で取得する。 その得られた複数の画像を受信端末 1 4 0 8側で つなぎ目なく接合 (合成) するとき、 受信端末 1 4 0 8が過負荷になる と端末が破綻を来すので、 それを防ぐために、 受信端末における過負荷 時の処理を行うべき画像の順序を定義した優先度を画像に付加する。 こ れにより、 受信端末 1 4 0 8側が過負荷になることを防ぐことができる。 図 1 5に示す画像圧縮装置は、 複数のカメラ (N台) を備えた入力部 1 4 0 7 と、 その入力部 1 4 0 7で得られたそれぞれの画像に対して傻 先度の付加を行う傻先度決定制御部 1 4 0 1 と、 利用者が (特に、 着目 して見たいと思って) カメラを指示、 操作した操作履歴を管理する操作 履歴管理部 1 4 0 2と、 画像の画質を制御する画質制御部 1 4 0 3と、 カメラから得られた画像を優先度に基づいて合成する画像合成部 1 4 0 4 (優先度の低い画像は合成しなくてもよい) と、 合成結果を出力する 出力部 1 4 0 5と、 それら各部を制御する圧縮制御部 1 4 0 6 とから構 成される。 出力部 1 4 0 5は通信路を介して受信端末 1 4 0 8に接続さ れている。
出力部 1 4 0 5の出力先は、 記録装置であっても通信路であってもよ い。 また、 画像の合成は必ずしも送信側の端末で行う必要はない。 優先 度が付加された画像を通信路を通して、 受信側端末へ送信し、 受信端末 側で合成してもよい。 なお、 得られた複数の画像を送信側端末で合成し て、 受信側端末で再生を行う場合、 得られた画像を送信側で受信端末で 必要となる (表示の) 優先度の高い順に合成して、 伝送路を使って合成 画像を受信端末装置に伝送する。
優先度の付加方法としては、 利用者が指示したカメラで得られた画像、 過去に指示の多かったカメラで得られた画像から順に高い優先度、 高い 画質 (たとえば、 フ レーム数を多く、 解像度を高く) なるようにすれば よい (必ずしも、 高い優先度の画像を高画質にする必要はない) 。 これ により利用者の着目度合いの大きい画像が高画質で、 優先的に表示され る。 画像に付加された優先度に応じて送信側端末からの画像伝送を制御 したり、 受信側端末での画像の伸張や表示を制御することにより、 利用 者における端末の応答性を確保することができる。
また、 優先度、 画質の高い画像、 フ レーム枚数の多い画像から順に、 隣接する接合された画像に対して段階的に、 優先度や画質を下げてゆく (優先度の管理は、 送信側端末で管理しておいてもよいし、 受信側端末 で管理しておいてもよい) 。 優先度の決定方法と しては、 必ずしもカメ ラの操作履歴に基づく ものでなくてもよい。 前述したように、 圧縮する 際にかかったローカル 'デコ一ドの時間に基づいて優先度の決定を行つ てもよいし、 優先度、 画質の高い画像、 フ レーム枚数の多い画像から順 に、 周辺の画像に対して、 処理の実施回数を規定する実施率を定義して もよい。 さらに、 音声に関しても、 複数あるカメラ毎にマイ クを設け、 音声の圧縮の有無を制御することで、 利用者の着目している方向の画像 に対応する音声のみを合成することが可能となる。
また、 前述したように、 送信側端末と受信側端末との問での応答時間 を参照して、 量子化ステップやフ レーム数を決定しもよい。 また、 受信 側端末で過負荷時に優先度情報に基づいて処理された画像に関する情報 を、 通信路を通じて送信先に送信するこ とで、 送信側から受信側端末へ の画像データ送信を受信端末の処理量をこえるような量になることを未 然に防ぐことができる。 また、 受信端末でのフ レームスキップの状態を 送信側へ伝送することにより、 その状態に応じてデータ量を調節するこ とができる。
更に、 画像は再送を行う伝送方法で伝送し、 音声は再送を行わない伝 送方法で伝送して、 受信側端末が、 画像の再送回数、 受信された音声の 誤り率、 廃棄率に関する情報のいずれかの情報を送信側端末に伝送する 構成とする。 そう して送信側端末で画像の圧縮方式、 量子化ステップの 値、 フレーム数、 圧縮すべき画像の大きさ、 画像圧縮の有無のいずれか を決定することで、 画像が乱れることなく、 音声の伝送の遅延を小さく するような制御が可能となる。 例えば、 T C P Z I Pを用いた通信では、 画像の伝送は T C Pで、 音声の伝送は U D Pで行うことで実現できる
(映像と音声は物理的に同じ伝送路にあってもよいし、 なくてもよい) 。 尚、 通信の方式は T C P // I Pだけに限定されない。 この方式は、 複数 の映像や音声を同時に伝送する場合、 それぞれの音声毎に廃棄率や誤り 率を定義して、 複数の映像の圧縮方法や伝送方法を制御してもよい。 最後に、 通常、 アナログ電話回線を用いた低ビッ トレー トの画像伝送 や、 画像の内容が大きく変動する場合、 画像に大きなブロ ックノイズ、 もあれが発生する。 このよ うな場合に圧縮処理だけで画像の品質を保つ のは難しい。 そこで、 画像の出力側のモニターに低域の信号のみを透過 させるフィルター (例えば、 画像処理によるローパス ' フィルター、 あ るいは物理的な偏光フィルター) を用いれば、 画像はぼやけた感じには なるものの、 ノイズや、 もあれが気にならない画像が得られる。
以上述べたところから明らかなように本発明は、 同時に複数の映像や 音声の復号、 合成を行う場合に、 端末の負荷状況に応じて優先度に基づ いて処理量を制御できるという長所を有する。
また、 本発明は、 課金状況に応じて複数の映像や音声を合成できると いう利点がある。

Claims

請 求 の 範 囲
1 . 画像情報の符号化を行う画像符号化手段及び、 その符号化さ れた種々の情報を送信もしくは記録する送信管理手段を有する画像符号 化装置と、 符号化された種々の情報を受信する受信管理手段、 その受信 された種々の情報の復号を行う画像復号手段、 その復号された 1つ以上 の画像を合成する画像合成手段及び、 その合成された画像を出力する出 力手段を有する画像復号化装置とを備えたことを特徴とする画像複号化 符号化装置。
2 . 音声情報の符号化を行う音声符号化手段及び、 その符号化さ れた種々の情報を送信もしくは記録する送信管理手段を有する音声符号 化装置と、 符号化された種々の情報を受信する受信管理手段、 その受信 された種々の情報の復号を行う音声復号手段、 その復号された 1つ以上 の音声を合成する音声合成手段及び、 その合成された音声を出力する出 力手段を有する音声複号化装置とを備えたことを特徴とする音声復号化 符号化装置。
3 . 請求項 1の前記画像復号化符号化装置と、 請求項 2記載の前 記音声復号化符号化装置とを備え、 前記画像符号化装置及び/又は前記 音声符号化装置は、 符号化された情報の過負荷時の処理の優先度を予め 決められた基準で決定し、 前記符号化された情報と前記決定された優先 度を対応づける優先度付加手段を有し、 前記画像複号化装置及び Z又は 前記音声複号化装置は、 受信された種々の情報の過負荷時の優先度に従 つて、 処理の方法を決定する優先度決定手段を有することを特徴とする 画像音声符号化復号化装置。
4 . 前記優先度付加手段および前記優先度決定手段は、 少なく と も画像の符号化方式、 画像のサイズ、 コン トラス ト、 画像の合成比率、 量子化ステップ、 フレーム番号、 フレーム数、 フレーム間符号化とフレ ーム内符号化の違い、 表示位置、 表示時刻、 有音区間と無音区間の違い のうち 1つ以上の情報に基づいて、 符号化された画像や音声の復号、 合 成、 表示の順序、 有無の処理方法を決定する優先度の付加方法を決定し たり、 処理対象とすべき傻先度を決定することを特徴とする請求項 3記 載の画像音声符号化復号化装置。
5 . 前記優先度付加手段および前記傻先度決定手段は、 画像の符 号化の際に復号にかかった時間や、 符号化にかかった時間に基づいて、 符号化された情報に付加する優先度を決定したり、 復号化の際に処理対 象とすべき優先度を決定することを特徴とする請求項 3記載の画像音声 符号化復号化装置。
6 . 前記優先度付加手段および前記優先度決定手段は、 画像の復 号、 合成、 表示の処理を行う実行回数を規定する実施率を定義し、 その 実施率に基づいて、 符号化された情報に付加する優先度を決定したり、 復号化の際に処理対象とすべき優先度を決定することを特徴とする請求 項 3記載の画像音声符号化複号化装置。
7 . 少なく ともフレーム内符号化のフ レームもしくは、 1 フ レ一 ム目もしくは最終フ レーム、 もしくはシーンチェンジのフ レームの過負 荷時の処理の優先度を高く設定することを特徴とする請求項 4記載の画 像音声符号化復号化装置。
8 . フレーム間符号化された画像は同一の優先度を割り当てるこ とを特徴とする請求項 4記載の画像音声符号化復号化装置。
9 . フレーム內符号化された画像に複数段階の優先度を割り当て ることを特徴とする請求項 4記載の画像音声符号化複号化装置。
1 0 . 前記画像復号手段は、 1 フレームよ り も小さい所定単位で 画像の復号処理を行うことを特徴とする請求項 1記載の画像符号化復号 化装置。
1 1 . 請求項 1の前記画像復号化符号化装置と、 請求項 2記載の 前記音声復号化符号化装 Sとを備え、 少なく とも、 課金に関する情報、 サ一ビスの内容を示す情報、 パスワード、 利用者コード、 国別コード、 合成、 表示の順位を示す情報、 復号の順位を示す情報、 利用者の指示、 端末の処理能力、 再生時刻のうち 1つ以上の情報に基づいて、 復号、 合 成、 表示すべき画像や音声の順番、 有無、 再生方法を決定するこ とを特 徴とする画像音声符号化複号化装置。
1 2 . 請求項 1の前記画像復号化符号化装置と、 請求項 2記載の 前記音声復号化符号化装置とを備え、 前記受信管理手段は、 前記種々の 情報のうち画像情報同士、 音声情報同士の関係を記述した情報を、 前記 画像情報や音声情報とは別の情報として独立して扱うことを特徴とする 画像音声符号化復号化装置。
1 3 . 前記画像情報同士、 前記音声情報同士の関係を記述するた めの記述方法を識別するための識別子により記述方法を識別することを 特徴とする請求項 1 2記載の画像音声符号化複号化装置。
1 4 . 請求項 1の前記画像複号化符号化装置と、 請求項 2記載の 前記音声複号化符号化装置とを備え、 前記画像合成手段もく しくは前記 音声合成手段は、 送信側から復号結果を破棄する指示が来るまで、 復号 結果を保持して管理、 利用することを特徴とする画像音声符号化複号化 装置。
1 5 . 請求項 1の前記画像復号化符号化装置と、 請求項 2記載の 前記音声複号化符号化装置とを備え、 画像情報同士や音声情報同士の関 係を記述した情報に基づき、 画像や音声を合成する際に、 必要とする復 号された画像や音声が用意されていなくて、 合成出来ない画像や音声が 存在することを利用者に提示することを特徴とする画像音声符号化復号 化装置。
1 6 . 画像を入力する 1つ以上の画像入力手段と、 その画像入力 手段の制御状態を管理する画像入力管理手段と、 受信端末の受信状況を 管理する他端末制御要求管理手段と、 少なく ともその管理された受信端 末の受信状況もしくは前記画像入力手段の制御状態に応じて、 画像の符 号化方法を決定する符号処理決定手段と、 その符号処理決定手段の決定 結果に従って、 前記入力画像を符号化する画像符号化手段と、 その符号 化された画像を出力する出力手段とを備えたことを特徴とするリアルタ ィム画像符号化装置。
1 7 . 前記符号処理決定手段は、 前記画像入力手段の制御状態に 応じて、 少なく とも符号化する優先度、 過負荷時の処理の優先度情報、 符号化方式、 量子化ステップの値、 フレーム数、 符号化すべき画像の大 きさ、 符号化の有無のいずれかを決定することを特徴とする請求項 1 6 記載のリアルタイム画像符号化装置。
1 8 . 請求項 1の前記画像復号化符号化装置及び請求項 2記載の 前記音声復号化符号化装置のうち少なく ともいずれかを受信端末とし、 請求項 1の前記画像復号化符号化装置及び請求項 2記載の前記音声復号 化符号化装置及び請求項 1 6の前記リアルタイム画像符号化装置のうち 少なく ともいずれかを送信端末と して、 それら端末間を通信路で接続し た情報伝送システムであって、 少なく とも前記受信端末の負荷、 前記受 信端末の前記優先度決定手段で決定された処理対象とすべき符号化され た情報の傻先度に関する情報、 前記受信端末でのフレームスキップの状 況のいずれかを前記送信端末に送信することにより、 前記送信端末にお いて、 画像もしくは音声の符号化の有無、 符号化の優先度、 符号化方式. 符号化すべき画像サイズ、 量子化ステップの値、 フ レーム数、 受信端末 の過負荷時の処理の優先度のいずれかを決定することを特徴とする情報 伝送システム。
1 9 . 請求項 1の前記画像復号化符号化装置及び請求項 2記載の 前記音声復号化符号化装置を受信端末とし、 請求項 1の前記画像復号化 符号化装置及び請求項 2記載の前記音声複号化符号化装置及び請求項 1 6の前記リ アルタイム画像符号化装置を送信端末として、 それら端末間 を通信路で接続した情報伝送システムであって、 画像の伝送は再送を行 う伝送方法で行い、 音声の伝送は再送を行わない伝送方法で行い、 少な く とも画像の再送回数、 受信された情報の誤り率、 及び廃棄率に関する いずれかの情報を前記送信端末に伝送することにより、 前記符号化処理 決定手段は、 符号化方式、 量子化ステップの値、 フ レーム数、 符号化す べき画像の大きさ、 符号化の有無、 及び受信端末の過負荷時の処理の優 先度の少なく ともいずれかを決定することを特徴とする情報伝送システ ム。
補正書の請求の範囲
[ 1 9 9 8年 1月 2 3日 (2 3 . 0 1 . 9 8 ) 国際事務局受理:新しい請求の範囲 2 0— 2 3が加えられた 他の請求の範囲は変更なし。 (2頁) ]
1 9 . 請求項 1 の前記画像復号化符号化装置及び請求項 2記載の 前記音声復号化符号化装置を受 ί言端末と し、 請求項 1 の前記画像復号化 符号化装置及び請求项 2記載の前記音声復号化符号化装置及び請求項 1
6の前記リ アルタイム画像符号化装置を送信端末と して、 それら端末間 を通信路で接続した情報伝送システムであって、 画像の伝送は再送を行 う伝送方法で行い、 音声の伝送は再送を行わない伝送方法で行い、 少な く と 画像の再送回数、 受信された情報の誤り - 、 及び廃棄率に関する いずれかの情報を前記送信端末に伝送することによ り 、 前記符号化処理 決定手段は、 符号化方^、 ffi子化ステ ップの値、 フ レーム数、 符号化す べき画像の大きさ、 符号化の冇 、 及び ¾信端末の過負荷時の処理の優 先度の少なく と もいずれかを決定するこ と を特徴とする情報伝送システ ム。
2 0 . (追加) 画像情報の符号化を行う画像符号化手段と、 その符号化された種々の情報を送信もしくは記録する送信管理手段と を備え、
符号化された種々の情報を受信する受信管理手段と、 その受信された 稱々の情報の復号を行う画像復号手段と、 その復号化された画像を出力 する出力手段とを有する画像復号化装置に前記符号化された嵇々 の情報 を出力する二とを特徴とする画像符号化装匿。
2 1 . (追加) 画像情報の符号化を行う画像符号化手段と、 その 符号化された種々の情報を送信も しくは記録する送信管理手段とを有す る画像符号化装置から送られてく る符号化された種々の情報を受信する 受信管理手段と、
その受信された種々の情報の復号を行う画像復号手段と、
その復号化された画像を出力する出力手段と、
を有することを特徴とする画像復号化装置。 補正された用紙 (条約第 19条)
2 2 . (追加) 音声情報の符号化を行う音声符号化手段と、 その符号化された種々の情報を送信もしく は記録する送信管理手段と を備え、
符号化された種々の情報を受信する受信管理手段と、 その受信された 種々の情報の復号を行う音声復号手段と、 その復号された音声を出力す る出力手段とを有する音声復号化装置に前記符号化された種々の情報を 出力することを特徴とする音声符号化装置。
2 3 . (追加) 音声情報の符号化を行う音声符号化手段と、 その 符号化された種々の情報を送信もしくは記録する送信管理手段とを有す る音声符号化装置から送られてく る符号化された種々の情報を受信する 受信管理手段と、
その受信された種々の情報の復号を行う音声復号手段と、
その復号化された音声を出力する出力手段と、
を有することを特徴とする音声復号化装置。
補正された用柢 (条約第 19条)
PCT/JP1997/002696 1996-08-07 1997-08-01 Picture and sound decoding device, picture and sound encoding device, and information transmission system WO1998006222A1 (en)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP50780998A JP4153995B2 (ja) 1996-08-07 1997-08-01 画像復号化符号化装置、画像符号化装置及び画像復号化装置
KR10-2004-7003433A KR100471176B1 (ko) 1996-08-07 1997-08-01 화상 복호화 장치와 음성 복호화 장치
US09/051,547 US7006575B2 (en) 1996-08-07 1997-08-01 Picture and sound decoding apparatus picture and sound encoding apparatus and information transmission system
EP19970933889 EP0854652B1 (en) 1996-08-07 1997-08-01 Picture and sound decoding device, picture and sound encoding device, and information transmission system
DE69740053T DE69740053D1 (de) 1996-08-07 1997-08-01 Vorrichtung zur decodierung und codierung von bild und ton, und informationsübertragungssystem
KR10-1998-0702566A KR100465553B1 (ko) 1996-08-07 1997-08-01 화상음성복호화장치와화상음성부호화장치및정보전송시스템

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
JP8/208147 1996-08-07
JP20814796 1996-08-07
JP20994296 1996-08-08
JP8/209942 1996-08-08
JP30155996 1996-11-13
JP8/301559 1996-11-13

Publications (1)

Publication Number Publication Date
WO1998006222A1 true WO1998006222A1 (en) 1998-02-12

Family

ID=27328846

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP1997/002696 WO1998006222A1 (en) 1996-08-07 1997-08-01 Picture and sound decoding device, picture and sound encoding device, and information transmission system

Country Status (8)

Country Link
US (1) US7006575B2 (ja)
EP (1) EP0854652B1 (ja)
JP (1) JP4153995B2 (ja)
KR (2) KR100465553B1 (ja)
CN (1) CN1151683C (ja)
DE (1) DE69740053D1 (ja)
TW (1) TW357299B (ja)
WO (1) WO1998006222A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008007758A1 (en) * 2006-07-14 2008-01-17 Sony Corporation Reproduction device, reproduction method, and program
WO2010024102A1 (ja) * 2008-08-28 2010-03-04 住友電気工業株式会社 動画像データの配信方法
WO2023276279A1 (ja) 2021-07-02 2023-01-05 ソニーグループ株式会社 画像処理装置、画像処理方法、プログラム

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002142165A (ja) * 2000-11-01 2002-05-17 Asobous:Kk デジタルtv送受信システムにおける映像のプレイバック方式
EP1213912A3 (en) * 2000-12-07 2005-02-02 Sony United Kingdom Limited Methods and apparatus for embedding data and for detecting and recovering embedded data
DE10291291D2 (de) * 2001-03-27 2004-04-15 Voxar Ag Verfahren und Vorrichtung zur Übertragung von Video- und/oder Audiodaten
JP2003032639A (ja) * 2001-05-09 2003-01-31 Monolith Co Ltd 画像処理方法と装置およびそれらに利用可能なコンテンツ記録方法
JP2002359842A (ja) * 2001-05-31 2002-12-13 Monolith Co Ltd 画像符号化方法と装置および画像復号方法と装置
US20020194606A1 (en) * 2001-06-14 2002-12-19 Michael Tucker System and method of communication between videoconferencing systems and computer systems
ITMI20011309A1 (it) * 2001-06-21 2002-12-21 St Microelectronics Srl Metodo di memorizzazione di un file dati in particolare in formato cosiddetto mpeg
CN1605200A (zh) * 2001-11-05 2005-04-06 松下电器产业株式会社 在视频传输系统中使用的终端
FR2832887B1 (fr) * 2001-11-28 2005-09-16 Medialive Methode pour acceder aux courriers electroniques video et multimedia
US7436885B2 (en) * 2002-10-09 2008-10-14 Hewlett-Packard Development Company, L.P. Method for presenting streaming media
FI116113B (fi) * 2002-11-29 2005-09-15 Jutel Oy Menetelmä ja järjestelmä radio-ohjelman lähettämiseksi
KR100503452B1 (ko) * 2002-12-27 2005-07-25 삼성전자주식회사 멀티미디어 데이터 기록장치
JP2004215021A (ja) * 2003-01-06 2004-07-29 Ricoh Co Ltd 画像処理装置、画像処理方法、プログラム及び記録媒体
NO319069B1 (no) * 2004-03-05 2005-06-13 Tandberg Telecom As Fremgangsmate for avbruddsfri konferansesamtale
WO2005096162A1 (ja) * 2004-03-18 2005-10-13 Matsushita Electric Industrial Co., Ltd. アービトレーション方法及び装置
WO2007052350A1 (ja) * 2005-11-02 2007-05-10 Mitsubishi Denki Kabushiki Kaisha デジタル放送受信機
JP2007133489A (ja) * 2005-11-08 2007-05-31 Sony Corp 仮想空間画像表示方法、装置、仮想空間画像表示プログラム及び記録媒体
JP2008040347A (ja) * 2006-08-09 2008-02-21 Toshiba Corp 画像表示装置、画像表示方法および画像表示プログラム
US7456760B2 (en) 2006-09-11 2008-11-25 Apple Inc. Complexity-aware encoding
KR100827802B1 (ko) 2006-10-24 2008-05-07 삼성전자주식회사 휴대 단말기의 화상 통화 장치 및 화상 통화 송수신방법
JP2009044328A (ja) 2007-08-07 2009-02-26 Seiko Epson Corp 会議システム、サーバ、画像表示方法、コンピュータプログラム及び記録媒体
US8117546B2 (en) * 2007-08-26 2012-02-14 Cyberlink Corp. Method and related display device for displaying pictures in digital picture slide show
US20090304086A1 (en) * 2008-06-06 2009-12-10 Apple Inc. Method and system for video coder and decoder joint optimization
US8976856B2 (en) 2010-09-30 2015-03-10 Apple Inc. Optimized deblocking filters
JP5784353B2 (ja) * 2011-04-25 2015-09-24 オリンパス株式会社 画像表示装置
CN104681033A (zh) * 2013-12-02 2015-06-03 联想(北京)有限公司 一种信息编码、解码方法及电子设备
WO2020095728A1 (ja) * 2018-11-06 2020-05-14 ソニー株式会社 情報処理装置及び情報処理方法
JP7381285B2 (ja) 2019-10-15 2023-11-15 ファナック株式会社 補助電源装置及び産業機械

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS621384A (ja) * 1985-06-27 1987-01-07 Toshiba Corp 画像情報処理方式
JPH043684A (ja) * 1990-04-20 1992-01-08 Matsushita Electric Ind Co Ltd 可変レート動画像符号化装置
JPH04145786A (ja) * 1990-10-08 1992-05-19 Nec Corp 映像音声伝送装置
JPH0546592A (ja) 1991-08-15 1993-02-26 Nippon Steel Corp 帯状体の蛇行挙動解析方法
JPH06105226A (ja) 1992-09-17 1994-04-15 Nec Corp 画像合成装置
JPH06153198A (ja) * 1992-11-12 1994-05-31 Matsushita Electric Ind Co Ltd 映像配信方法および映像配信装置
JPH07261776A (ja) * 1994-03-24 1995-10-13 Brother Ind Ltd 映像再生装置
JPH07298258A (ja) * 1994-04-28 1995-11-10 Nippon Telegr & Teleph Corp <Ntt> 画像符号化復号化方法
JPH08149420A (ja) * 1994-11-18 1996-06-07 At & T Corp ビデオビットストリームの伝送方法および装置
JPH08154219A (ja) * 1994-11-29 1996-06-11 Matsushita Electric Ind Co Ltd テレビジョン装置

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE22767T1 (de) * 1982-07-23 1986-10-15 British Telecomm Uebertragung von daten.
JPS62231379A (ja) 1986-03-31 1987-10-09 Namuko:Kk 画像合成装置
JPH02195787A (ja) 1989-01-24 1990-08-02 A T R Tsushin Syst Kenkyusho:Kk 映像通信装置
US5212742A (en) * 1991-05-24 1993-05-18 Apple Computer, Inc. Method and apparatus for encoding/decoding image data
JP3133113B2 (ja) 1991-10-28 2001-02-05 株式会社日立製作所 圧縮動画データ伸長再生システム
FR2684829A1 (fr) * 1991-12-04 1993-06-11 Philips Electronique Lab Methodes de synthese de signaux de texture et de transmission et/ou stockage de tels signaux, ainsi que dispositifs et systemes pour leur mise en óoeuvre.
DE69228983T2 (de) * 1991-12-18 1999-10-28 Koninkl Philips Electronics Nv System zum Übertragen und/oder Speichern von Signalen von texturierten Bildern
US5325126A (en) * 1992-04-01 1994-06-28 Intel Corporation Method and apparatus for real time compression and decompression of a digital motion video signal
JP3261844B2 (ja) * 1993-01-13 2002-03-04 株式会社日立製作所 デジタルビデオ記録装置及び記録方法
US5377051A (en) * 1993-01-13 1994-12-27 Hitachi America, Ltd. Digital video recorder compatible receiver with trick play image enhancement
JP2606074B2 (ja) 1993-06-15 1997-04-30 日本電気株式会社 画像暗号化伝送方式
DE69422678T2 (de) * 1993-10-12 2001-02-22 Matsushita Electric Ind Co Ltd Verschlüsselungssystem, Verschlüsselungsgerät und Entschlüsselungsgerät
JPH07336666A (ja) 1994-06-08 1995-12-22 Matsushita Electric Ind Co Ltd 信号処理装置
JPH07111647A (ja) 1993-10-14 1995-04-25 Matsushita Electric Ind Co Ltd 信号処理装置
US5416520A (en) * 1993-11-30 1995-05-16 Intel Corporation Multiple encoder output buffer apparatus for differential coding of video information
JPH08172616A (ja) 1994-12-19 1996-07-02 Matsushita Electric Ind Co Ltd スクランブル伝送方法およびスクランブル装置およびスクランブル信号再生方法およびデスクランブル装置およびスクランブル信号再生装置
JP2865016B2 (ja) 1995-04-14 1999-03-08 日本電気株式会社 画像再生装置
JP3283159B2 (ja) 1995-07-07 2002-05-20 日本電信電話株式会社 ソフトウェアによる画像符号化方法
US6002667A (en) * 1995-07-19 1999-12-14 Fujitsu Network Communications, Inc. Minimum guaranteed cell rate method and apparatus
US6266327B1 (en) * 1998-03-20 2001-07-24 Lucent Technologies Inc. Non-conformance indicator for the guaranteed frame rate service

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS621384A (ja) * 1985-06-27 1987-01-07 Toshiba Corp 画像情報処理方式
JPH043684A (ja) * 1990-04-20 1992-01-08 Matsushita Electric Ind Co Ltd 可変レート動画像符号化装置
JPH04145786A (ja) * 1990-10-08 1992-05-19 Nec Corp 映像音声伝送装置
JPH0546592A (ja) 1991-08-15 1993-02-26 Nippon Steel Corp 帯状体の蛇行挙動解析方法
JPH06105226A (ja) 1992-09-17 1994-04-15 Nec Corp 画像合成装置
JPH06153198A (ja) * 1992-11-12 1994-05-31 Matsushita Electric Ind Co Ltd 映像配信方法および映像配信装置
JPH07261776A (ja) * 1994-03-24 1995-10-13 Brother Ind Ltd 映像再生装置
JPH07298258A (ja) * 1994-04-28 1995-11-10 Nippon Telegr & Teleph Corp <Ntt> 画像符号化復号化方法
JPH08149420A (ja) * 1994-11-18 1996-06-07 At & T Corp ビデオビットストリームの伝送方法および装置
JPH08154219A (ja) * 1994-11-29 1996-06-11 Matsushita Electric Ind Co Ltd テレビジョン装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
AUDIO-VISUAL COMPOUND INFORMATION PROCESSING RESEARCH GROUP, INFORMATION PROCESSING, 1993
HIROSHI FUJIWARA, "Latest MPEG Textbook (in Japanese)", (TOKYO), K.K. ASUKI, (01.08.94), p. 104-105. *
IMPLEMENTATION COMPLEXITY CONSIDERATIONS VIDEO STANDARDS AND DRAFTS, 4 April 1996 (1996-04-04)
MSDL SPECIFICATION VERSION 1.1 VIDEO STANDARDS AND DRAFTS, 4 April 1996 (1996-04-04)
See also references of EP0854652A4 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008007758A1 (en) * 2006-07-14 2008-01-17 Sony Corporation Reproduction device, reproduction method, and program
JP2008022475A (ja) * 2006-07-14 2008-01-31 Sony Corp 再生装置および再生方法、並びにプログラム
WO2010024102A1 (ja) * 2008-08-28 2010-03-04 住友電気工業株式会社 動画像データの配信方法
US8839330B2 (en) 2008-08-28 2014-09-16 Sumitomo Electric Industries, Ltd. Moving-picture image data-distribution method
JP5664241B2 (ja) * 2008-08-28 2015-02-04 住友電気工業株式会社 動画像データの配信方法
KR101539812B1 (ko) * 2008-08-28 2015-07-27 스미토모덴키고교가부시키가이샤 동화상 데이터의 배신 방법
WO2023276279A1 (ja) 2021-07-02 2023-01-05 ソニーグループ株式会社 画像処理装置、画像処理方法、プログラム

Also Published As

Publication number Publication date
US7006575B2 (en) 2006-02-28
EP0854652B1 (en) 2010-11-17
CN1151683C (zh) 2004-05-26
KR100465553B1 (ko) 2005-06-21
US20020154699A1 (en) 2002-10-24
CN1205154A (zh) 1999-01-13
TW357299B (en) 1999-05-01
EP0854652A1 (en) 1998-07-22
KR19990064087A (ko) 1999-07-26
JP4153995B2 (ja) 2008-09-24
KR20040036936A (ko) 2004-05-03
EP0854652A4 (en) 2008-11-26
DE69740053D1 (de) 2010-12-30
KR100471176B1 (ko) 2005-03-14

Similar Documents

Publication Publication Date Title
WO1998006222A1 (en) Picture and sound decoding device, picture and sound encoding device, and information transmission system
US5550593A (en) Multiplex communication system using separated and multiplexed data
KR100557103B1 (ko) 데이터 처리방법 및 데이터 처리장치
KR101426097B1 (ko) 정보 처리 장치 및 방법과, 프로그램
JP3516585B2 (ja) データ処理装置及びデータ処理方法
US6058122A (en) Device for splitting a screen in MPEG image signals at a completely compressed domain and the method thereof
EP0805600A2 (en) Compressed video text overlay
JP2002077838A (ja) ビデオ伝送システムにおいて中断中に代替の視覚データを伝送する方法及びシステム
JPH10178639A (ja) 画像コーデック部および画像データ符号化方法
JP2003169329A (ja) 画像音声符号化復号化装置
JP2003235041A (ja) リアルタイム画像符号化装置
JP2004328204A (ja) 映像信号処理装置
JP2002290973A (ja) マルチメディア通信装置
JP2007201938A (ja) 通信端末、通信システムおよび通信方法
JP2004007066A (ja) 画像伝送装置
JP4102223B2 (ja) データ処理装置及びデータ処理方法
JP2003158729A (ja) テレビ電話装置
JP2001346207A (ja) 画像情報変換装置及び方法
KR100530919B1 (ko) 동화상 데이터의 처리 및 송수신 방법 및 장치
JP3519722B2 (ja) データ処理方法及びデータ処理装置
JP3448047B2 (ja) 送信装置及び受信装置
JPH08294102A (ja) 動画像通信会議システム及びその通信方法
JP2009296135A (ja) 映像監視システム
KR20020072478A (ko) Speg을 이용한 동영상 압축방법을 사용하여 스트리밍 하는방법
KR100530920B1 (ko) 화상 · 음성 송신장치 및 수신장치

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 97191347.1

Country of ref document: CN

AK Designated states

Kind code of ref document: A1

Designated state(s): CN JP KR US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH DE DK ES FI FR GB GR IE IT LU MC NL PT SE

WWE Wipo information: entry into national phase

Ref document number: 1997933889

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 09051547

Country of ref document: US

Ref document number: 1019980702566

Country of ref document: KR

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWP Wipo information: published in national office

Ref document number: 1997933889

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 1998 51547

Country of ref document: US

Date of ref document: 19980820

Kind code of ref document: A

WWP Wipo information: published in national office

Ref document number: 1019980702566

Country of ref document: KR

WWR Wipo information: refused in national office

Ref document number: 1019980702566

Country of ref document: KR