A RetroSearch Logo

Home - News ( United States | United Kingdom | Italy | Germany ) - Football scores

Search Query:

Showing content from https://patents.google.com/patent/JP2007158527A/en below:

JP2007158527A - Signal processing apparatus, signal processing method, reproducing apparatus, and recording apparatus

以下、発明を実施するための最良の形態(以下実施の形態とする)について説明していく。   Hereinafter, the best mode for carrying out the invention (hereinafter referred to as an embodiment) will be described.

<第1の実施の形態>

図1は、本発明における第1の実施の形態としての信号処理装置を含んで構成される、再生装置1の内部構成について示している。


先ず、この再生装置1は、図示するメディア再生部2を備え、例えばCD(Compact Disc)やDVD(Digital Versatile Disc)、或いはブルーレイディスク(Blu-Ray Disc)などの光ディスク記録媒体や、MD(Mini Disc:光磁気ディスク)、ハードディスクなどの磁気記録媒体、半導体メモリを内蔵した記録媒体など、所要の記録媒体についての再生が可能とされる。 <First Embodiment>

FIG. 1 shows an internal configuration of a playback apparatus 1 including a signal processing apparatus as a first embodiment of the present invention.


First, the playback apparatus 1 includes a media playback unit 2 shown in the figure, for example, an optical disc recording medium such as a CD (Compact Disc), a DVD (Digital Versatile Disc), or a Blu-ray Disc (Blu-Ray Disc), or an MD (Mini Disc: a magneto-optical disk), a magnetic recording medium such as a hard disk, and a recording medium having a built-in semiconductor memory can be played back.

ここで、先ず前提として、メディア再生部2が再生する記録媒体には、映像及び音声を含むコンテンツが記録される。
このようなコンテンツとしては、例えばコンサートライブなどを収録した所謂ライブビデオである場合を想定する。
但し、この場合、記録媒体に対しては、ボーカル、ギター、ドラム、ベース、キーボード(鍵盤楽器)などの歌唱・演奏者(以下Playerとも言う)ごとに、それぞれ個別に近接マイクなどを用いてその音声を収録し(いわゆるライン収録)、このようにPlayerごとにライン収録した音声信号を、例えばトラックごとに分けられるなどして別々に記録するようにされている。そして、このような音声信号と共に、これらPlayerがコンサートホールなどの会場で歌唱・演奏する様子を撮影した映像が収録されたものとなっている。
Here, as a premise, content including video and audio is recorded on a recording medium reproduced by the media reproducing unit 2.
As such content, for example, a case where a so-called live video recording a concert live is assumed.
However, in this case, the recording medium is individually used for each vocalist, guitar, drum, bass, keyboard (keyboard instrument), etc. Audio is recorded (so-called line recording), and the audio signals recorded in a line for each player in this way are recorded separately, for example, divided into tracks. Along with such audio signals, a video of the player singing and performing in a venue such as a concert hall is recorded.

例えばこのような構成によるコンテンツを想定した場合において、各Playerは、それぞれ独立した音源となるようにされる。つまり、映像に映し出される各Playerの位置が、それぞれの音源の位置となるものである。
再生装置1としては、ライン収録された各Player(各音源)ごとの音声信号が定位する位置と、映像内に映し出される各Playerの位置(各音源の位置)とが一致するように再現することを目的とする。すなわち、これを実現することで、より臨場感のある映像・音場空間が再現されるようにするものである。
For example, in the case of assuming content with such a configuration, each Player is configured to be an independent sound source. In other words, the position of each Player displayed in the video becomes the position of each sound source.
The playback device 1 reproduces so that the position where the audio signal for each player (each sound source) recorded in the line matches the position of each player (the position of each sound source) displayed in the video. With the goal. That is, by realizing this, a more realistic video / sound field space is reproduced.

また、この場合、映像内のPlayerの位置としては、左右方向と共に上下方向も定義して二次元的に表すものとし、これに応じPlayerごとの音声信号が定位する位置(仮想音像位置)としても、上下左右の二次元的に再現するものとしている。   In this case, the position of the player in the video is defined in two dimensions by defining the vertical direction as well as the horizontal direction, and as a position (virtual sound image position) where the audio signal for each player is localized accordingly. It is supposed to be reproduced two-dimensionally up and down and left and right.

このために、再生装置1で生成した音声信号を音声出力するスピーカSPとしては、次の図2に示されるように、ディスプレイ又はスクリーンの中心点を中心として左右対象に配置されるLchのスピーカSPLとRchのスピーカSPRとを備える。そして、これらLchのスピーカSPLとRchのスピーカSPRとしては、それぞれを縦方向にも積み重ねて配置するようにされる。つまりこの場合、LchのスピーカSPLとしては、下方に配置されるスピーカSPL-unと、その上方に配置されるスピーカSPL-upとが設けられる。同様にRchのスピーカSPRとしては、下方に配置されるスピーカSPR-unと、その上方に配置されるスピーカSPR-upとが設けられる。   For this reason, as a speaker SP that outputs the sound signal generated by the playback apparatus 1 as a sound, as shown in FIG. 2, the Lch speaker SPL arranged on the left and right objects with the center point of the display or screen as the center. And Rch speaker SPR. The Lch speaker SPL and the Rch speaker SPR are stacked in the vertical direction. That is, in this case, as the Lch speaker SPL, a speaker SPL-un disposed below and a speaker SPL-up disposed above are provided. Similarly, as the Rch speaker SPR, a speaker SPR-un disposed below and a speaker SPR-up disposed above the speaker SPR-un are provided.

なお、ここで注意点として、以下で説明する第1の実施の形態を含めた各実施の形態においては、説明の便宜上、音声信号には1つの音源(Player)についての音声のみが含まれているものとして説明を続ける。すなわち、この場合の音声信号Aとしては、1つの音源についてライン収録した音声信号のみが再生されるものとする。   It should be noted that in each embodiment including the first embodiment described below, for convenience of explanation, the sound signal includes only sound for one sound source (Player). The explanation will continue as if it were. That is, as the audio signal A in this case, only the audio signal recorded in a line for one sound source is reproduced.

図1において、メディア再生部2においては、上述のようにして記録媒体についての再生を行うことで、映像信号Vを含む映像ストリームデータV-strmと、音声信号Aを含む音声ストリームデータA-strmとが得られる。
これら映像ストリームデータV-strm、音声ストリームデータA-strmは、実データとしての映像信号V、音声信号Aと、所定の付加情報とが多重化されたストリームデータである。
In FIG. 1, the media playback unit 2 performs playback on the recording medium as described above, so that the video stream data V-strm including the video signal V and the audio stream data A-strm including the audio signal A are obtained. And is obtained.
These video stream data V-strm and audio stream data A-strm are stream data in which the video signal V and audio signal A as actual data and predetermined additional information are multiplexed.

ここで、確認のために、次の図3には、上記映像ストリームデータV-strmのデータ構造を示しておく。この図3にも示されるように、映像ストリームデータV-strmは、映像信号Vとその付加データとを含んで構成される。付加データとしては、例えばセクター単位などの所定データ単位ごとに埋め込まれるデータあり、映像信号Vについての付加的なデータ内容を有する。
なお、図示は省略するが音声ストリームデータA-strmとしても、同様に所定のデータ単位ごとに音声信号Aについての付加データが埋め込まれた構造を有するものとなる。
For confirmation, FIG. 3 shows the data structure of the video stream data V-strm. As shown in FIG. 3, the video stream data V-strm includes the video signal V and its additional data. The additional data is, for example, data embedded for each predetermined data unit such as a sector unit, and has additional data content for the video signal V.
Although not shown, the audio stream data A-strm has a structure in which additional data for the audio signal A is similarly embedded for each predetermined data unit.

図1において、映像ストリームデータV-strmはビデオデコーダ3に供給され、ここにおいてデコード処理が施されることで映像信号Vが得られる。
また、音声ストリームデータA-strmはオーディオデコーダ4に供給され、同様にデコード処理が施されることで音声信号Aが得られる。
映像信号Vは映像出力端子Tvに供給されると共に、図示する音源座標取得部6に対しても分岐して供給される。映像出力端子Tvからの映像信号Vは、先の図2に示したディスプレイまたはスクリーン(プロジェクタ装置)に供給される。
一方、音声信号Aは、音声信号処理部5に対して供給される。
In FIG. 1, video stream data V-strm is supplied to a video decoder 3, where a video signal V is obtained by performing a decoding process.
The audio stream data A-strm is supplied to the audio decoder 4, and the audio signal A is obtained by performing decoding processing in the same manner.
The video signal V is supplied to the video output terminal Tv and is also branched and supplied to the sound source coordinate acquisition unit 6 shown in the figure. The video signal V from the video output terminal Tv is supplied to the display or screen (projector device) shown in FIG.
On the other hand, the audio signal A is supplied to the audio signal processing unit 5.

なお、この図1では破線により、次に説明する音源座標取得部6、座標変換部7、定位位置制御部8、変換マトリクス算出部9、音声信号処理部5を囲って示しているが、これら破線で囲われる部分が第1の実施の形態としての信号処理装置を形成するものとなる。   In FIG. 1, the sound source coordinate acquisition unit 6, the coordinate conversion unit 7, the localization position control unit 8, the conversion matrix calculation unit 9, and the audio signal processing unit 5 described below are surrounded by broken lines. A portion surrounded by a broken line forms the signal processing apparatus according to the first embodiment.

音源座標取得部6は、上記映像信号Vに基づき、映像中の音源の位置を表す座標値(後述する映像座標系の座標値)を取得する。
このような映像信号Vからの音源座標値の取得は、例えば以下のような手法により実現できる。
つまり、予め映像撮影時において、Playerとしての人物に対し例えば赤外線によるID情報を発光する発光装置などの所定のマーカーを付して映像を撮影しておき、音源座標取得部6では、供給される映像信号Vからこのマーカーの位置を画像処理により検出し、これをトラッキングすることでPlayerの映像中における位置情報、すなわち音源の座標値を順次取得するように構成するものである。
これによって映像中の音源の位置情報を、映像信号Vに基づき取得することができる。
また、これと共に音源座標取得部6は、入力される映像信号Vの水平総画素数と垂直総画素数の情報を、後述する変換マトリクス算出部9に与える。
Based on the video signal V, the sound source coordinate acquisition unit 6 acquires coordinate values (coordinate values of a video coordinate system described later) representing the position of the sound source in the video.
Such acquisition of the sound source coordinate value from the video signal V can be realized by the following method, for example.
That is, at the time of video recording, a video is previously recorded by attaching a predetermined marker such as a light emitting device that emits ID information by infrared rays to a person as a player, and is supplied by the sound source coordinate acquisition unit 6. By detecting the position of the marker from the video signal V by image processing and tracking it, the position information in the video of the player, that is, the coordinate value of the sound source is sequentially obtained.
As a result, the position information of the sound source in the video can be acquired based on the video signal V.
At the same time, the sound source coordinate acquisition unit 6 gives information about the total number of horizontal pixels and the total number of vertical pixels of the input video signal V to the conversion matrix calculation unit 9 described later.

座標変換部7は、音源座標取得部6により取得された座標値を、図示する変換マトリクス算出部9により算出された変換マトリクスに基づき音声座標系の座標値に変換する。   The coordinate conversion unit 7 converts the coordinate value acquired by the sound source coordinate acquisition unit 6 into the coordinate value of the audio coordinate system based on the conversion matrix calculated by the conversion matrix calculation unit 9 shown in the figure.

ここで、映像内におけるPlayer(音源)の移動量は、あくまで映像内での移動量であって実世界の移動量ではなく、仮想音像の位置を映像内での移動量だけ移動させても映像内のPlayerの位置と仮想音像の位置とは一致しないことも考えられる。すなわち、映像内の音源の位置は映像座標系で定義されるのに対し、その仮想音像位置は音声座標系(実世界座標系)で定義されるべきものとなる。   Here, the amount of movement of the player (sound source) in the video is only the amount of movement in the video, not the amount of movement in the real world, and even if the position of the virtual sound image is moved by the amount of movement in the video The position of the player and the position of the virtual sound image may not match. That is, the position of the sound source in the video is defined in the video coordinate system, while the virtual sound image position is to be defined in the audio coordinate system (real world coordinate system).

このことを、次の図4、図5を参照して説明する。図4は、映像信号Vに基づく映像が映し出される表示画面(ディスプレイ又はスクリーン)と映像座標系との関係について示し、図5では上記表示画面と各スピーカSPの配置位置と音声座標系との関係について示している。
なお、図5では図示の都合上、スピーカSPが縦方向に重ねて配置されるようには示していないが、実際には先の図2に示したようにしてスピーカSPL-unとスピーカSPL-up、スピーカSPR-unとスピーカSPR-upとがそれぞれ積み重ねられて配置されるものとする。
This will be described with reference to FIGS. 4 and 5 below. FIG. 4 shows the relationship between a display screen (display or screen) on which video based on the video signal V is projected and the video coordinate system, and FIG. 5 shows the relationship between the display screen, the position of each speaker SP, and the audio coordinate system. Shows about.
In FIG. 5, for the sake of illustration, the speaker SP is not shown to be stacked in the vertical direction, but actually, the speaker SPL-un and the speaker SPL- are shown in FIG. It is assumed that the up, speaker SPR-un and speaker SPR-up are stacked and arranged.

先ず図4に示すように、映像座標系としては、例えば表示画面の横(水平)方向をx軸とし、縦(垂直)方向をy軸とし、表示画面の左上隅の座標値(x,y)を(0,0)、つまり原点とすることができる。この場合において、原点から水平方向への画素数が「100」、垂直方向への画素数が「50」である点は、図示するように座標値(100,50)と表すことができる。ここでは、映像中の音源の位置の座標値が、この座標値(100,50)の位置であったとする。   First, as shown in FIG. 4, as the video coordinate system, for example, the horizontal (horizontal) direction of the display screen is set as the x axis, the vertical (vertical) direction is set as the y axis, and the coordinate value (x, y of the upper left corner of the display screen). ) Can be (0, 0), that is, the origin. In this case, the point where the number of pixels in the horizontal direction from the origin is “100” and the number of pixels in the vertical direction is “50” can be expressed as coordinate values (100, 50) as illustrated. Here, it is assumed that the coordinate value of the position of the sound source in the video is the position of this coordinate value (100, 50).

一方、図5における音声座標系においては、スピーカSPL-un、スピーカSPL-up、スピーカSPR-un、スピーカSPR-upからの音声出力により可能な仮想音像の定位範囲(以下、定位可能範囲と称する)の中心の座標値(x,y)を(0,0)と表現するようにされる。
例えば、先の図2において各スピーカSPをディスプレイ又はスクリーンの中心点を中心として左右及び上下対称に配置した場合には、図示するようにして表示画面の中心が(0,0)となるようにされる。
この場合も水平方向はx軸、垂直方向はy軸で表す。またy軸方向において中心から上方向を正の値、下方向を負の値により示す。またx軸方向においては右方向を正の値、左方向を負の値により示す。これにより中心から右方向に100cm、上方向に50cmとなる位置は、図中に黒丸で示す座標値(100,50)と表すことができる。
On the other hand, in the audio coordinate system in FIG. 5, the localization range of a virtual sound image (hereinafter referred to as a localization possible range) that can be generated by audio output from the speaker SPL-un, the speaker SPL-up, the speaker SPR-un, and the speaker SPR-up. ) Center coordinate value (x, y) is expressed as (0, 0).
For example, when the speakers SP in FIG. 2 are arranged left-right and vertically symmetrically about the center point of the display or screen, the center of the display screen is (0, 0) as shown in the figure. Is done.
Again, the horizontal direction is represented by the x-axis and the vertical direction is represented by the y-axis. In the y-axis direction, the upward direction from the center is indicated by a positive value, and the downward direction is indicated by a negative value. In the x-axis direction, the right direction is indicated by a positive value and the left direction is indicated by a negative value. As a result, the position that is 100 cm in the right direction and 50 cm in the upward direction from the center can be expressed as a coordinate value (100, 50) indicated by a black circle in the drawing.

ここで、図4に示される映像座標系での音源位置の座標値(100,50)をこのような音声座標系にそのまま適用したとしても、上記のように音声座標系における座標値(100,50)は画面中心から右方向に100cm、上方向に50cmの位置となることからもわかるように、両者は一致するものとはならない。つまり、図4に示す音源の位置に応じて仮想音像を定位させるべき正しい位置は、実際には図中の破線丸印で示す位置であるのに対し、この場合は誤った位置が仮想音像の位置として認識されてしまうことになる。   Here, even if the coordinate value (100, 50) of the sound source position in the video coordinate system shown in FIG. 4 is directly applied to such a voice coordinate system, the coordinate value (100, 50) in the voice coordinate system as described above is used. 50) is 100 cm in the right direction and 50 cm in the upward direction from the center of the screen, so that they do not match. That is, the correct position where the virtual sound image should be localized in accordance with the position of the sound source shown in FIG. 4 is actually the position indicated by the dotted circle in the figure, but in this case, the incorrect position is the position of the virtual sound image. It will be recognized as a position.

そこで、図1に示す再生装置1では、上述のようにして座標変換部7を設け、音源座標取得部6により取得された映像座標系の座標値を、変換マトリクス算出部9により算出される変換マトリクスに基づいて音声座標系の座標値に変換するものとしている。
この場合、変換マトリクスは、映像座標系による3点の座標値と、これら3点の各々と対応する音声座標系(実世界座標系)による3点の座標値とが与えられることで算出することができる。
具体的に、この場合において映像座標系と音声座標系とで対応関係が明らかなのは、表示画面の四隅の端点と、定位可能範囲の四隅の端点となる。従って、変換マトリクスは、表示画面側の四隅端点のうちの3点と、定位可能範囲側の四隅の端点のうちの対応する3点とについての座標値がそれぞれ与えられることで、算出することができる。
Therefore, in the playback apparatus 1 shown in FIG. 1, the coordinate conversion unit 7 is provided as described above, and the coordinate value of the video coordinate system acquired by the sound source coordinate acquisition unit 6 is converted by the conversion matrix calculation unit 9. It is assumed that the coordinate values of the voice coordinate system are converted based on the matrix.
In this case, the conversion matrix is calculated by giving three coordinate values by the video coordinate system and three coordinate values by the audio coordinate system (real world coordinate system) corresponding to each of these three points. Can do.
Specifically, in this case, the correspondence between the video coordinate system and the audio coordinate system is obvious at the four corners of the display screen and the four corners of the localization range. Therefore, the transformation matrix can be calculated by giving the coordinate values for three of the four corner end points on the display screen side and the corresponding three points of the four corner end points on the localization possible range side. it can.

変換マトリクス算出部9には、音源座標取得部6から水平総画素数と垂直総画素数の情報が入力され、これら画素数情報に基づき、上記表示画面の四隅の端点のうちの所定の3点についての座標値を取得するようにされる。また、変換マトリクス算出部9には、図示する操作部10を介したユーザ操作に基づき、上記所定の3点と同じ位置関係となる定位可能範囲側の3つの端点についての座標値が与えられる。
変換マトリクス算出部9は、これら映像座標系による3点の端点の座標値と音声座標系による3点の端点の座標値とに基づき、変換マトリクスを算出する。
Information on the total number of horizontal pixels and the total number of vertical pixels is input to the conversion matrix calculation unit 9 from the sound source coordinate acquisition unit 6, and based on these pixel number information, predetermined three points among the end points of the four corners of the display screen To get the coordinate value for. In addition, based on a user operation via the illustrated operation unit 10, the conversion matrix calculation unit 9 is given coordinate values for the three end points on the localization possible range side having the same positional relationship as the predetermined three points.
The conversion matrix calculation unit 9 calculates a conversion matrix based on the coordinate values of the three end points in the video coordinate system and the coordinate values of the three end points in the audio coordinate system.

なお、この場合のユーザに対しては、実際に定位可能範囲の上記3つの端点の座標値(例えばcm単位)について計測させ、これら3点の座標値を直接的に入力させるようにしてもよいが、例えばスピーカシステムとしては推奨の配置位置寸法が規定されたものもあり、その場合はスピーカシステムとしてどのシステムが用いられているかがわかれば、定位可能範囲の寸法がわかり、よって上記音声座標系による3つの端点の座標値も判明する。このことから、ユーザにはスピーカシステムについての製品型番や製品名称等の製品特定情報を選択又は指示入力させる操作のみを行わせ、その製品特定情報に基づき上記3点の音声座標系による座標値を得るように構成することもできる。   Note that the user in this case may actually measure the coordinate values (for example, in cm) of the above three end points in the localization range and directly input the coordinate values of these three points. However, for example, some speaker systems have recommended layout position dimensions. In this case, if it is known which system is used as the speaker system, the dimensions of the localization range can be known. The coordinate values of the three end points by are also found. From this, the user is only allowed to select or instruct to input product specifying information such as the product model number and product name for the speaker system, and based on the product specifying information, the coordinate values by the above three-point audio coordinate system are obtained. It can also be configured to obtain.

また、確認のために述べておくと、変換マトリクスの算出は、映像座標系と音声座標系との対応関係が維持される限りにおいては、再計算の必要はない。すなわち、例えばディスプレイ又はスクリーンとして画素数の異なる製品が用いられたなど映像座標系が変化した場合や、異なるスピーカシステムを使用して音声座標系が変化した等の場合にのみ、再計算が行われるようにされればよい。   For confirmation, the calculation of the conversion matrix does not require recalculation as long as the correspondence between the video coordinate system and the audio coordinate system is maintained. That is, recalculation is performed only when the video coordinate system changes, such as when a product with a different number of pixels is used as a display or screen, or when the audio coordinate system changes using a different speaker system. What should be done.

座標変換部7は、上記のようにして算出された変換マトリクスを用いて、音声座標取得部6により取得される映像座標系による音源位置の座標値を、音声座標系の座標値に順次変換するようにされる。そして、このようにして得られた音源位置の音声座標系による座標値を、定位位置制御部8に対して供給するようにされる。   The coordinate conversion unit 7 sequentially converts the coordinate value of the sound source position in the video coordinate system acquired by the audio coordinate acquisition unit 6 into the coordinate value of the audio coordinate system, using the conversion matrix calculated as described above. To be done. Then, the coordinate value of the sound source position obtained in this way in the audio coordinate system is supplied to the localization position control unit 8.

定位位置制御部8は、供給された音声座標系による音像位置に仮想音源を定位させるために、図2に示した各スピーカSPから出力されるべき音声に対しそれぞれ与えられるべきゲイン値を決定する。
すなわち、供給された音声座標系の座標値としてxの値とyの値とが共に正の値であれば、その値に応じてスピーカSPR-upから出力されるべき音声のゲインが他のスピーカSPからの音声のゲインに対して相対的に大きくなるように、各ゲイン値を決定する。或いは、供給された座標値としてxの値とyの値とが共に負の値であれば、その値に応じてスピーカSPL-unから出力されるべき音声のゲインが他のスピーカSPからの音声のゲインに対して相対的に大きくなるように、各ゲイン値を決定するといったものである。
The localization position control unit 8 determines gain values to be given to the sounds to be output from the speakers SP shown in FIG. 2 in order to localize the virtual sound source to the sound image position in the supplied voice coordinate system. .
In other words, if both the x value and the y value are positive values as the coordinate values of the supplied voice coordinate system, the gain of the voice to be output from the speaker SPR-up according to the value is set to other speakers. Each gain value is determined so as to be relatively large with respect to the gain of the sound from the SP. Alternatively, if the supplied coordinate values x and y are both negative, the gain of the sound to be output from the speaker SPL-un according to the value is the sound from the other speaker SP. Each gain value is determined so as to be relatively large with respect to the gain.

音声信号処理部5は、オーディオデコーダ4から供給される音声信号Aに対するゲイン調整や残響付加などの音声信号処理を実行するように構成される。
特に本実施の形態の場合は、上記定位位置制御部8から供給される各スピーカSP対応のゲイン値に基づき、音声信号Aについてのゲイン調整を行うようにされる。
具体的には、入力される音声信号Aに対し、ゲイン値GL-unを乗算した音声信号AL-UNと、ゲイン値GL-upを乗算した音声信号AL-upと、ゲイン値GR-unを乗算した音声信号AR-unと、ゲイン値GR-upを乗算した音声信号AR-upとを生成する。
音声信号処理部5により生成された音声信号AL-unは、図示するようにして音声出力端子TAUL-unに供給される。同様に、音声信号AL-upは音声出力端子TAUL-up、音声信号AR-unは音声出力端子TAUR-un、音声信号AR-upは音声出力端子TAUR-upに対しそれぞれ供給される。
The audio signal processing unit 5 is configured to execute audio signal processing such as gain adjustment and reverberation addition for the audio signal A supplied from the audio decoder 4.
Particularly in the case of the present embodiment, the gain adjustment for the audio signal A is performed based on the gain value corresponding to each speaker SP supplied from the localization position control section 8.
Specifically, the audio signal AL-UN obtained by multiplying the input audio signal A by the gain value GL-un, the audio signal AL-up obtained by multiplying the gain value GL-up, and the gain value GR-un are obtained. The multiplied audio signal AR-un and the audio signal AR-up multiplied by the gain value GR-up are generated.
The audio signal AL-un generated by the audio signal processing unit 5 is supplied to the audio output terminal TAUL-un as shown. Similarly, the audio signal AL-up is supplied to the audio output terminal TAUL-up, the audio signal AR-un is supplied to the audio output terminal TAUR-un, and the audio signal AR-up is supplied to the audio output terminal TAUR-up.

そして、音声出力端子TAUL-unは、図2に示したスピーカSPL-unと接続される。また音声出力端子TAUL-upはスピーカSPL-up、音声出力端子TAUR-unはスピーカSPR-un、音声出力端子TAUR-upはスピーカSPR-upとそれぞれ接続される。
これによってスピーカSPL-unからは音声信号AL-unを出力でき、スピーカSPL-upからは音声信号AL-upを出力できる。また、スピーカSPR-unからは音声信号AR-unを出力でき、スピーカSPR-upからは音声信号AR-upを出力することができる。
つまり、これによって映像内に映し出されるPlayerの位置(音源の位置)と、ライン収録された当該Playerの音声が定位する位置(仮想音像位置)とが一致するように再現することができ、より臨場感のある映像・音場空間を再現することができる。
The audio output terminal TAUL-un is connected to the speaker SPL-un shown in FIG. The audio output terminal TAUL-up is connected to the speaker SPL-up, the audio output terminal TAUR-un is connected to the speaker SPR-un, and the audio output terminal TAUR-up is connected to the speaker SPR-up.
As a result, the audio signal AL-un can be output from the speaker SPL-un, and the audio signal AL-up can be output from the speaker SPL-up. Further, the audio signal AR-un can be output from the speaker SPR-un, and the audio signal AR-up can be output from the speaker SPR-up.
In other words, it is possible to reproduce the position of the player (sound source position) displayed in the video and the position (virtual sound image position) where the sound of the player recorded in the line matches. It is possible to reproduce a pleasing video / sound space.

これまでで説明した再生装置1によれば、映像信号Vに基づき音源の座標値が取得され、この座標値に基づき自動的に仮想音源の定位位置制御が行われる。つまり、これによってこの場合コンテンツの制作側としては、上記のようにして映像内に映し出される音源の位置とその音源の仮想音像位置とが一致するようにしてより臨場感のある映像・音場空間を再現させるにあたり、時間軸に沿って音源の位置情報を指定してゲイン調整を行う手間が省けるので、これに伴ってコンテンツの編集に要する手間と時間を有効に削減することができる。   According to the reproducing apparatus 1 described so far, the coordinate value of the sound source is acquired based on the video signal V, and the localization position control of the virtual sound source is automatically performed based on the coordinate value. In other words, in this case, the content production side has a more realistic video / sound field space so that the position of the sound source displayed in the video and the virtual sound image position of the sound source match as described above. Can be saved, it is possible to save the effort and time required to edit the content.

なお、ここでは各スピーカSPから出力される音声信号のそれぞれのゲイン値の調整により定位位置の制御を行うものとしているが、各スピーカSPから出力される音声信号の位相差の調整によって定位位置制御を行うこともできる。または、これらの双方により定位位置制御を行うこともできる。   Here, the localization position is controlled by adjusting the gain value of each audio signal output from each speaker SP. However, the localization position control is performed by adjusting the phase difference of the audio signal output from each speaker SP. Can also be done. Alternatively, the localization position control can be performed by both of them.

図6は、上記により説明した第1の実施の形態としての信号処理装置の動作についての動作手順をフローチャートにより示している。
図6において、先ずステップS101では、映像信号に基づき音源位置の映像座標系による座標値を取得する。この動作は、音源座標取得部6が、ビデオデコーダ3によるデコード処理により映像ストリームデータV-strmから得られた映像信号Vに基づき、音源位置の座標値を取得する動作に相当する。
この場合、音源位置の座標値の取得手法としては、例えば先に説明したように、先ずは予め映像の撮影時においてPlayerとしての人物に対し例えば赤外線IDの発光装置などの所定のマーカーを付して映像を撮影しておく。そして、音源座標取得部6としては、供給される映像信号Vからこの所定のマーカーの位置を画像処理により検出し、これをトラッキングすることでPlayerの映像中における位置情報、すなわち音源位置の座標値を順次取得するようにする。
FIG. 6 is a flowchart showing an operation procedure for the operation of the signal processing apparatus according to the first embodiment described above.
In FIG. 6, first, in step S101, the coordinate value of the sound source position in the video coordinate system is acquired based on the video signal. This operation corresponds to an operation in which the sound source coordinate acquisition unit 6 acquires the coordinate value of the sound source position based on the video signal V obtained from the video stream data V-strm by the decoding process by the video decoder 3.
In this case, as a method for acquiring the coordinate value of the sound source position, for example, as described above, first, a predetermined marker such as an infrared ID light emitting device is attached to a person as a player in advance when shooting a video. And record a video. Then, the sound source coordinate acquisition unit 6 detects the position of the predetermined marker from the supplied video signal V by image processing, and tracks this to position information in the player video, that is, the coordinate value of the sound source position. Are acquired sequentially.

ステップS102では、取得した座標値を音声座標系の座標値に変換する。
つまり、座標変換部7が、変換マトリクス算出部9により算出された変換マトリクスに基づき、音源座標取得部6により取得された座標値を音声座標系の座標値に変換する。
In step S102, the acquired coordinate values are converted into coordinate values in the audio coordinate system.
That is, the coordinate conversion unit 7 converts the coordinate value acquired by the sound source coordinate acquisition unit 6 into the coordinate value of the audio coordinate system based on the conversion matrix calculated by the conversion matrix calculation unit 9.

ステップS103では、音声座標系の座標値に基づく定位位置制御を行う。
このステップS103としては、先ず定位位置制御部8が、供給された音声座標系による音像位置に仮想音源を定位させるために、図2に示した各スピーカSPから出力されるべき音声信号に対しそれぞれ与えられるべきゲイン値(GL-un、GL-up、GR-un、GR-up)を決定する。そして、音声信号処理部5が、入力される音声信号Aに対しゲイン値GL-unを乗算した音声信号AL-unと、ゲイン値GL-upを乗算した音声信号AL-upと、ゲイン値GR-unを乗算した音声信号AR-unと、ゲイン値GR-upを乗算した音声信号AR-upとを生成する。
これにより、映像内に映し出されるPlayerの位置(音源の位置)と、ライン収録された当該Playerの音声が定位する位置とが一致するように再現することのできる音声信号が生成される。
In step S103, localization position control based on the coordinate values of the voice coordinate system is performed.
As this step S103, first, the localization position control unit 8 respectively applies to the audio signal to be output from each speaker SP shown in FIG. 2 in order to localize the virtual sound source to the sound image position by the supplied audio coordinate system. Determine the gain values (GL-un, GL-up, GR-un, GR-up) to be given. Then, the audio signal processing unit 5 performs an audio signal AL-un obtained by multiplying the input audio signal A by the gain value GL-un, an audio signal AL-up obtained by multiplying the gain value GL-up, and a gain value GR. The audio signal AR-un multiplied by -un and the audio signal AR-up multiplied by the gain value GR-up are generated.
Thus, an audio signal that can be reproduced so that the position of the player (sound source position) displayed in the video and the position where the audio of the player recorded in the line matches is generated.

なお、これまでの説明では、本実施の形態としての信号処理装置の各部をハードウエアにより構成する場合を例示したが、その一部又は全部をソフトウエア処理により実現することも可能である。その場合、信号処理装置としては、上記図6に示した処理のうち対応する処理を実行するためのプログラムに従って動作するマイクロコンピュータなどで構成すればよい。この場合、信号処理装置に対してはROM等の記録媒体が備えられ、そこに上記プログラムが記録される。
In the above description, the case where each part of the signal processing apparatus according to the present embodiment is configured by hardware is exemplified, but part or all of the part can be realized by software processing. In that case, the signal processing device may be configured by a microcomputer or the like that operates according to a program for executing a corresponding process among the processes shown in FIG. In this case, the signal processing apparatus is provided with a recording medium such as a ROM, and the program is recorded therein.

<第2の実施の形態>

図7は、第2の実施の形態としての信号処理装置を含んで構成される再生装置20の内部構成について示している。


第2の実施の形態は、映像内容に応じた音の響きを音声信号に与えるように構成したものである。具体的には、映像内に映し出される場所に応じた音の響きを音声信号に対して与えるようにされる。
なお、この図7において、既に先の図1において説明した部分については同一符号を付して説明を省略する。 <Second Embodiment>

FIG. 7 shows the internal configuration of the playback apparatus 20 configured to include the signal processing apparatus as the second embodiment.


The second embodiment is configured so as to give a sound reverberation according to video content to an audio signal. Specifically, a sound reverberation corresponding to a place projected in the video is given to the audio signal.
In FIG. 7, parts already described in FIG. 1 are given the same reference numerals and description thereof is omitted.

第2の実施の形態の再生装置20としては、図1に示した再生装置1の構成から操作部10を省略すると共に、図中破線により囲う部分を変更したものとなる。
この破線により囲う部分が、第2の実施の形態としての信号処理装置を構成する部分となる。つまり、第2の実施の形態の信号処理装置の構成要素は、少なくとも図示するメタデータ抽出部21、残響効果制御部22、残響データテーブル23、音声信号処理部5となる。
As the playback device 20 of the second embodiment, the operation unit 10 is omitted from the configuration of the playback device 1 shown in FIG. 1, and the portion surrounded by the broken line in the figure is changed.
A portion surrounded by the broken line is a portion constituting the signal processing apparatus as the second embodiment. That is, the constituent elements of the signal processing apparatus according to the second embodiment are at least the metadata extraction unit 21, the reverberation effect control unit 22, the reverberation data table 23, and the audio signal processing unit 5, which are illustrated.

先ず、メタデータ抽出部21は、この場合の映像ストリームデータV-strm内に含まれるメタデータを抽出するようにされる。   First, the metadata extraction unit 21 extracts metadata included in the video stream data V-strm in this case.

ここで、第2の実施の形態では、上述のようにして映像内容に応じた音の響きを音声信号に与えるにあたって、予めコンテンツの制作側において、映像信号Vに対して映像内に映し出される場所を特定するための場所情報を付加しておくようにされる。そして、このように場所情報を付加した映像信号を記録媒体に対して記録するようにされている。
確認のために述べておくと、このような映像内に映し出される場所を特定するための場所情報は、映像内に映し出される場所に応じた音の響きを再現する上で、その場所に応じた音の響きを特定するための情報となる。従ってこのような場所情報は、音声信号の音響的な属性に係る音声属性情報となるものである。
Here, in the second embodiment, when the sound signal according to the video content is given to the audio signal as described above, the location where the content is projected in the video signal V in advance on the content production side. The location information for specifying is added. The video signal with the location information added is recorded on the recording medium.
For confirmation, the location information for identifying the location that appears in the video is based on the location of the sound that is reproduced according to the location that is projected in the video. This is information for identifying the sound of the sound. Therefore, such location information is audio attribute information related to the acoustic attribute of the audio signal.

図8は、第2の実施の形態の場合の映像ストリームデータV-strmの構造を示しているが、この場合は図示するように付加データ内の情報として、上記場所情報をメタデータとして格納するようにされている。
例えば本実施の形態のようにコンテンツとしてライブ映像が収録される場合には、上記場所情報としては特定のコンサートホールを識別するための情報を格納するものとすればよい。或いは、映像内容として例えば「外→トンネル→外→コンサートホール」などのように時系列に沿って場所が遷移する場合には、時間軸に沿ってこれらの場所を特定するための場所情報を格納すればよい。
先にも述べたように映像ストリームデータV-strm内における付加データは、所定のデータ単位ごとに付加するようにされている。このことで、映像内容として時間軸に沿って場所が変化する場合にも対応して、それぞれの場所を表す場所情報を時間軸上で対応づけて埋め込むことができる。
FIG. 8 shows the structure of the video stream data V-strm in the case of the second embodiment. In this case, the location information is stored as metadata as information in the additional data as shown in the figure. Has been.
For example, when a live video is recorded as content as in the present embodiment, information for identifying a specific concert hall may be stored as the location information. Alternatively, if the location of the video content changes along the time series, such as “outside → tunnel → outside → concert hall”, the location information for specifying these locations along the time axis is stored. do it.
As described above, the additional data in the video stream data V-strm is added every predetermined data unit. This makes it possible to embed place information representing each place in association with each other on the time axis, corresponding to the case where the place changes along the time axis as video content.

ここで、この場合、音声信号Aと映像信号Vとは同期した信号である。そして、上記説明によれば、映像信号Vと付加データ内のメタデータとは同じ時間軸に沿った同期した情報となる。これらのことから、この場合は映像信号Vと共に上記メタデータが、本発明で言う音声同期情報信号となる。   Here, in this case, the audio signal A and the video signal V are synchronized signals. According to the above description, the video signal V and the metadata in the additional data are synchronized information along the same time axis. Therefore, in this case, the metadata together with the video signal V becomes an audio synchronization information signal referred to in the present invention.

図7において、メタデータ抽出部21は、このような映像ストリームデータV-strmからメタデータを抽出し、上記場所情報を取得するようにされる。そして、この場所情報を残響効果制御部22に供給する。   In FIG. 7, the metadata extraction unit 21 extracts metadata from such video stream data V-strm and acquires the location information. The location information is supplied to the reverberation effect control unit 22.

残響効果制御部22は、図示する残響データテーブル23に基づき、メタデータ抽出部21から入力される場所情報に応じた残響データを取得し、この残響データに基づき音声信号処理部5における音声信号Aに対する残響付加処理について制御する。
残響データテーブル23には、場所情報と、この場所情報により特定される場所での音の響きを再現するための残響データとが対応づけられて格納されており、残響効果制御部22は、このような残響データテーブル23から、入力された場所情報と対応づけられている残響データを取得することで、対応する残響データを得ることができる。
そして、このような残響データを音声信号処理部5に供給することで、当該音声信号処理部5における音声信号Aに対する残響付加処理について制御するようにされる。
つまり、この場合の音声信号処理部5は、オーディオデコーダ4から供給される音声信号Aに対し、残響効果制御部22から供給された残響データに基づく残響付加処理を施す。これによって音声信号Aに対しては、映像内容に応じた音の響きを再現するための残響が付加されることになる。
そして、このように残響を付加した音声信号Aを、この場合の音声出力端子TAUの数に応じた4系統に分岐して出力するようにされる。
The reverberation effect control unit 22 acquires reverberation data corresponding to the location information input from the metadata extraction unit 21 based on the reverberation data table 23 shown in the figure, and the audio signal A in the audio signal processing unit 5 based on the reverberation data. Controls reverberation addition processing for.
The reverberation data table 23 stores location information and reverberation data for reproducing the sound of the sound at the location specified by the location information, and the reverberation effect control unit 22 By acquiring reverberation data associated with the input location information from such a reverberation data table 23, the corresponding reverberation data can be obtained.
Then, by supplying such reverberation data to the audio signal processing unit 5, reverberation addition processing for the audio signal A in the audio signal processing unit 5 is controlled.
In other words, the audio signal processing unit 5 in this case performs reverberation adding processing based on the reverberation data supplied from the reverberation effect control unit 22 on the audio signal A supplied from the audio decoder 4. As a result, reverberation for reproducing the sound of the sound according to the video content is added to the audio signal A.
Then, the audio signal A to which reverberation is added in this way is branched into four systems according to the number of audio output terminals TAU in this case and output.

なお、第2の実施の形態としては、第1の実施の形態のような上下方向への仮想音像の定位制御は行わないことから、スピーカSPとしては必ずしも上下方向に積み重ねて配置する必要はない。すなわち、この場合の音声出力端子TAUとしては、LchとRchの各々1つずつのみを設けるようにすることもできる。
但し、例えば教会やコンサートホールなど天井の高さを強調する残響を付加するとした場合等には、上下方向にもスピーカSPを配置することでより臨場感を高めることができる。
In the second embodiment, the virtual sound image localization control in the vertical direction is not performed as in the first embodiment, and therefore the speaker SP does not necessarily have to be stacked in the vertical direction. . That is, only one each of Lch and Rch can be provided as the audio output terminal TAU in this case.
However, for example, when reverberation that emphasizes the height of the ceiling is added, such as in a church or a concert hall, the presence of the speaker SP in the vertical direction can further enhance the sense of reality.

上記構成により、第2の実施の形態の再生装置20によれば、実際の出力音声による音の響きを、映像内容に応じた音の響きと一致させることができ、これによってより臨場感のある映像・音場空間を再現することができる。
また、このような再生装置20では、音声同期情報信号としてのメタデータに基づき、映像内に映し出される場所に応じた残響データを取得することができ、この残響データに基づいて自動的に音声信号Aに対する残響付加が行われる。つまり、この場合コンテンツの制作側としては、予め映像信号Vに対しメタデータを付加することで、上記のように実際の出力音声による音の響きを映像内容に応じた音の響きと一致させてより臨場感のある映像・音場空間を再現させることができる。
With the configuration described above, according to the playback device 20 of the second embodiment, the sound reverberation of the actual output sound can be made to coincide with the sound reverberation according to the video content, thereby making it more realistic. The image / sound field space can be reproduced.
Further, in such a playback apparatus 20, reverberation data corresponding to the location shown in the video can be acquired based on the metadata as the audio synchronization information signal, and the audio signal is automatically generated based on the reverberation data. A reverberation is added to A. In other words, in this case, the content production side adds metadata to the video signal V in advance so that the sound reverberation of the actual output sound matches the sound resonation according to the video content as described above. This makes it possible to reproduce more realistic video and sound field spaces.

図9は、第2の実施の形態としての信号処理装置の動作についての動作手順をフローチャートにより示している。
先ずステップS201では、メタデータに基づき映像内容に応じた場所情報を取得する。
つまり、メタデータ抽出部21が映像ストリームデータV-strmからメタデータとして格納される場所情報を取得する。
FIG. 9 is a flowchart showing an operation procedure for the operation of the signal processing apparatus according to the second embodiment.
First, in step S201, location information corresponding to the video content is acquired based on the metadata.
That is, the metadata extraction unit 21 acquires location information stored as metadata from the video stream data V-strm.

そして、ステップS202では、残響データテーブルから、取得された場所情報に応じた残響データを取得する。すなわち、残響効果制御部22が、残響データテーブル23から、メタデータ抽出部21から供給された場所情報と対応づけられている残響データを取得する。   In step S202, reverberation data corresponding to the acquired location information is acquired from the reverberation data table. That is, the reverberation effect control unit 22 acquires reverberation data associated with the location information supplied from the metadata extraction unit 21 from the reverberation data table 23.

その上でステップS203では、音声信号に対し残響データに基づく残響付加処理を行う。つまり、音声信号処理部5が、残響効果制御部22から供給された残響データに基づき、音声信号Aに対し残響付加処理を施す。   In step S203, a reverberation adding process based on the reverberation data is performed on the audio signal. That is, the audio signal processing unit 5 performs reverberation addition processing on the audio signal A based on the reverberation data supplied from the reverberation effect control unit 22.

なお、第2の実施の形態としても、信号処理装置の各部をハードウエアにより構成する場合を例示したが、その一部又は全部をソフトウエア処理により実現することも可能である。その場合、信号処理装置としては、上記図9に示した処理のうち対応する処理を実行するためのプログラムに従って動作するマイクロコンピュータなどで構成すればよい。この場合、信号処理装置に対してはROM等の記録媒体が備えられ、そこに上記プログラムが記録される。   In addition, although the case where each part of the signal processing apparatus is configured by hardware is illustrated as the second embodiment, part or all thereof can be realized by software processing. In that case, the signal processing device may be configured by a microcomputer or the like that operates according to a program for executing a corresponding process among the processes shown in FIG. In this case, the signal processing apparatus is provided with a recording medium such as a ROM, and the program is recorded therein.

また、第2の実施の形態において、場所情報と残響データとの対応づけは、映像内において音源が配置される場所から予測される擬似的な音の響きを対応づける、或いはサンプリングリバーブ方式のように、実際にその場所において測定した音の響きの情報を対応づけるようにして行うことができる。   Further, in the second embodiment, the association between the location information and the reverberation data associates the pseudo sound reverberated from the place where the sound source is arranged in the video, or like the sampling reverb method. In addition, the sound resonance information actually measured at the place can be correlated.

また、第2の実施の形態では、映像内容に応じた残響付加にあたり、映像信号Vに対して場所情報をメタデータにより埋め込むものとしたが、映像内容に応じた響きを再現するための残響データを特定できる情報であれば、場所情報に限定されるべきものではない。また、このように残響データを特定するための情報を埋め込まずとも、残響データそのものを直接的にメタデータにより埋め込むようにすることもできる。
なお、このことは次に説明する第3の実施の形態についても同様である。
In the second embodiment, the location information is embedded in the video signal V by metadata when adding the reverberation according to the video content. However, the reverberation data for reproducing the reverberation according to the video content is used. The information should not be limited to the location information as long as the information can be specified. Further, without embedding information for specifying reverberation data in this way, the reverberation data itself can be directly embedded with metadata.
This also applies to the third embodiment described below.

<第3の実施の形態>

図10は、第3の実施の形態としての信号処理装置を含んで構成される再生装置30の内部構成について示している。


第3の実施の形態は、第1の実施の形態と第2の実施の形態とを組み合わせて、音像位置と仮想音像の位置との一致と、実際の出力音声の音の響きと映像内容に応じた音の響きとの一致の双方を実現することで、さらに臨場感のある映像・音場空間を再現しようとするものである。
なお、この図10において、既に図1、図7にて説明した部分については同一符号を付して説明を省略する。 <Third Embodiment>

FIG. 10 shows the internal configuration of the playback apparatus 30 that includes the signal processing apparatus as the third embodiment.


In the third embodiment, the first embodiment and the second embodiment are combined to match the sound image position with the position of the virtual sound image, the sound of the actual output sound, and the video content. By realizing both matching with the sound of the corresponding sound, we try to reproduce a more realistic video / sound space.
In FIG. 10, parts already described in FIGS. 1 and 7 are denoted by the same reference numerals and description thereof is omitted.

第3の実施の形態の再生装置30としては、この図10に示される破線により囲った信号処理装置として、先の図1に示した信号処理装置の構成要素(音源座標取得部6、座標変換部7、定位位置制御部8、変換マトリクス算出部9、音声信号処理部5)と、先の図7に示した信号処理装置の構成要素(メタデータ抽出部21、残響効果制御部22、残響データテーブル23、音声信号処理部5)とを組み合わせたものを含むようにして構成される。   As the playback device 30 of the third embodiment, as the signal processing device surrounded by the broken line shown in FIG. 10, the components of the signal processing device shown in FIG. 1 (sound source coordinate acquisition unit 6, coordinate transformation) 7, localization position control unit 8, transformation matrix calculation unit 9, audio signal processing unit 5, and components of the signal processing apparatus shown in FIG. 7 ( metadata extraction unit 21, reverberation effect control unit 22, reverberation) A combination of the data table 23 and the audio signal processing unit 5) is included.

この場合、音声信号処理部5としては、オーディオデコーダ4から供給される音声信号Aに対し、定位位置制御部8から供給されるゲイン値GL-unを乗算した音声信号AL-unと、ゲイン値GL-upを乗算した音声信号AL-upと、ゲイン値GR-unを乗算した音声信号AR-unと、ゲイン値GR-upを乗算した音声信号AR-upとを生成する。
その上で、これら音声信号AL-un、音声信号AL-up、音声信号AR-un、音声信号AR-upに対し、残響効果制御部22から供給される残響データに応じた残響付加処理を施す。そして、このように残響付加処理が施された音声信号AL-un、音声信号AL-up、音声信号AR-unと、音声信号AR-upをそれぞれ対応する音声出力端子TAUに対して出力するようにされる。
In this case, as the audio signal processing unit 5, the audio signal AL-un obtained by multiplying the audio signal A supplied from the audio decoder 4 by the gain value GL-un supplied from the localization position control unit 8, and the gain value An audio signal AL-up multiplied by GL-up, an audio signal AR-un multiplied by a gain value GR-un, and an audio signal AR-up multiplied by a gain value GR-up are generated.
Then, reverberation adding processing corresponding to the reverberation data supplied from the reverberation effect control unit 22 is performed on the audio signal AL-un, the audio signal AL-up, the audio signal AR-un, and the audio signal AR-up. . Then, the audio signal AL-un, the audio signal AL-up, the audio signal AR-un, and the audio signal AR-up that have been subjected to the reverberation adding process are output to the corresponding audio output terminals TAU. To be.

このような第3の実施の形態としての再生装置30によれば、映像内に映し出される音源の位置とその音源の仮想音像位置とを一致させることと、実際の出力音声による音の響きと映像内容に応じた音の響きとを一致させることの双方を実現することができ、これによってさらに臨場感のある映像・音場空間を再現することができる。
また、この場合としても、音像位置を示す座標値と、残響データを特定するための場所情報とは、それぞれ映像信号Vとメタデータとしての音声同期情報信号に基づいて自動的に取得されるので、従来のように音源の位置や映像内容に応じた響きの情報を、時間軸に沿って逐次手動で指示する必要はなくなる。つまり、これによってコンテンツの編集に要する手間と時間を大幅に削減することができる。
According to the reproducing apparatus 30 as the third embodiment, the position of the sound source displayed in the video is matched with the virtual sound image position of the sound source, the sound of the sound by the actual output sound and the video It is possible to realize both the matching of the sound reverberation according to the contents, and thereby to reproduce a more realistic video / sound field space.
Also in this case, the coordinate value indicating the sound image position and the location information for specifying the reverberation data are automatically acquired based on the video signal V and the audio synchronization information signal as metadata, respectively. Thus, it is not necessary to manually instruct the sound information according to the position of the sound source and the video content sequentially along the time axis as in the conventional case. In other words, this can greatly reduce the labor and time required for editing the content.

図11は、第3の実施の形態としての信号処理装置の動作についての動作手順をフローチャートにより示している。
この場合の信号処理装置の動作としては、先の図6に示した第1の実施の形態としての動作と、図9に示した第2の実施の形態としての動作とが並行して行われるものとなる。
つまり、ステップS301、ステップS302では、先の図9に示したステップS201、ステップS202と同様に、メタデータに基づく映像内容に応じた場所情報の取得と、残響データテーブルから取得された場所情報に応じた残響データを取得する動作が行われる。
一方で、これと並行したステップS303、ステップS304、ステップS305として、先の図6に示したステップS101、ステップS102、ステップS103と同様に映像信号に基づき音源位置の映像座標系による座標値を取得する動作と、取得した座標値を音声座標系の座標値に変換する動作と、音声座標系の座標値に基づく定位位置制御を行うようにされる。
FIG. 11 is a flowchart showing an operation procedure for the operation of the signal processing apparatus according to the third embodiment.
As the operation of the signal processing apparatus in this case, the operation as the first embodiment shown in FIG. 6 and the operation as the second embodiment shown in FIG. 9 are performed in parallel. It will be a thing.
That is, in step S301 and step S302, as in the case of step S201 and step S202 shown in FIG. 9, the acquisition of the location information according to the video content based on the metadata and the location information acquired from the reverberation data table are performed. The operation of acquiring the corresponding reverberation data is performed.
On the other hand, as step S303, step S304, and step S305 in parallel with this, the coordinate value by the video coordinate system of the sound source position is acquired based on the video signal in the same manner as in step S101, step S102, and step S103 shown in FIG. An operation of converting the acquired coordinate value into a coordinate value of the voice coordinate system, and a localization position control based on the coordinate value of the voice coordinate system.

その上で、ステップS306では、定位位置制御により生成した音声信号に対し、取得した残響データに基づく残響付加処理を施すようにされる。すなわち、定位位置制御に基づき音声信号処理部5にて生成される音声信号AL-un、音声信号AL-up、音声信号AR-unと、音声信号AR-upに対し、音声信号処理部5が残響効果制御部22から供給される残響データに応じた残響付加処理を施すものである。   In step S306, a reverberation adding process based on the acquired reverberation data is performed on the audio signal generated by the localization position control. That is, the audio signal processing unit 5 performs the audio signal AL-un, the audio signal AL-up, the audio signal AR-un, and the audio signal AR-up generated by the audio signal processing unit 5 based on the localization position control. The reverberation adding process is performed according to the reverberation data supplied from the reverberation effect control unit 22.

なお、第3の実施の形態としても、信号処理装置の各部をハードウエアにより構成する場合を例示したが、その一部又は全部をソフトウエア処理により実現することも可能である。その場合、信号処理装置としては、上記図11に示した処理のうち対応する処理を実行するためのプログラムに従って動作するマイクロコンピュータなどで構成すればよい。この場合、信号処理装置に対してはROM等の記録媒体が備えられ、そこに上記プログラムが記録される。
In addition, although the case where each part of the signal processing apparatus is configured by hardware is illustrated as the third embodiment, part or all thereof can be realized by software processing. In that case, the signal processing apparatus may be configured by a microcomputer or the like that operates according to a program for executing a corresponding process among the processes shown in FIG. In this case, the signal processing apparatus is provided with a recording medium such as a ROM, and the program is recorded therein.

<第4の実施の形態>

ところで、これまでの説明では、実施の形態としての信号処理装置を、記録媒体について再生を行う再生装置側に組み込んで、エンドユーザ側においてより臨場感のある映像・音場空間を再現するための編集が行われるものとしたが、先に述べた従来の編集手法のように、制作者側でこのような編集を行うとした場合に対応させるために、実施の形態としての信号処理装置を記録媒体についての記録を行う記録装置に対して組み込むようにすることもできる。

<Fourth embodiment>

By the way, in the description so far, the signal processing device as an embodiment is incorporated in the reproducing device side that reproduces the recording medium, and the video / sound field space that is more realistic on the end user side is reproduced. Although the editing is performed, the signal processing apparatus as an embodiment is recorded in order to cope with the case where the editing is performed by the producer as in the conventional editing method described above. It can also be incorporated in a recording apparatus that performs recording on a medium.

図12は、このようにして実施の形態としての信号処理装置を備えて構成される記録装置40の内部構成について示している。
なお、この図においても既に図1、図7にて説明した部分については同一符号を付して説明を省略する。また、この図でも破線で囲う部分(音源座標取得部6、比率情報生成部45、定位位置制御部46、場所情報取得部47、場所情報データベース48、残響効果制御部22、残響データテーブル23、音声信号処理部5)が信号処理装置を形成する部分となる。
FIG. 12 shows the internal configuration of the recording apparatus 40 configured to include the signal processing apparatus as the embodiment as described above.
In this figure as well, parts already described in FIGS. 1 and 7 are denoted by the same reference numerals and description thereof is omitted. Also in this figure, the parts enclosed by broken lines (sound source coordinate acquisition unit 6, ratio information generation unit 45, localization position control unit 46, location information acquisition unit 47, location information database 48, reverberation effect control unit 22, reverberation data table 23, The audio signal processing unit 5) forms a signal processing device.

先ずこの場合、図示するようにして音声信号Aを再生する音声信号再生部42と、映像信号Vを再生する映像信号再生部43とが備えられる。上記音声信号再生部42で再生された音声信号Aは音声信号処理部5に供給される。また、上記映像信号再生部43で再生された映像信号Vはビデオエンコーダ44に供給されると共に、図示するようにして音源座標取得部6と場所情報抽出部47とに対しても分岐して供給される。
なお、ここでは音声信号再生部42、映像信号再生部43が記録装置40内部に備えられるものとしているが、記録装置40外部に設けられた音声信号再生部42、映像信号再生部43からそれぞれ入力される音声信号A、映像信号Vを入力するように構成することもできる。
First, in this case, an audio signal reproducing unit 42 for reproducing the audio signal A and a video signal reproducing unit 43 for reproducing the video signal V are provided as shown in the figure. The audio signal A reproduced by the audio signal reproduction unit 42 is supplied to the audio signal processing unit 5. In addition, the video signal V reproduced by the video signal reproduction unit 43 is supplied to the video encoder 44 and branched and supplied to the sound source coordinate acquisition unit 6 and the location information extraction unit 47 as shown in the figure. Is done.
Here, the audio signal reproduction unit 42 and the video signal reproduction unit 43 are provided inside the recording device 40, but input from the audio signal reproduction unit 42 and the video signal reproduction unit 43 provided outside the recording device 40, respectively. The audio signal A and the video signal V can be input.

上記音源座標取得部6は、この場合も映像信号Vを入力して画像処理により音源の位置を表す映像座標系の座標値を取得する。
音源座標取得部6にて取得された映像座標系による座標値は、図示するようにして比率情報生成部45に対して供給される。
In this case, the sound source coordinate acquisition unit 6 also receives the video signal V and acquires the coordinate value of the video coordinate system representing the position of the sound source by image processing.
The coordinate values in the video coordinate system acquired by the sound source coordinate acquisition unit 6 are supplied to the ratio information generation unit 45 as illustrated.

ここで、これまでの各実施の形態のように、再生装置側に実施の形態としての信号処理装置を組み込んでユーザ側での編集が行われる場合には、個々のユーザが、実際に使用するスピーカシステムによる定位可能範囲についての情報を入力することができ、これによって適正な変換マトリクスを生成することができ、音源位置と仮想音像の位置とを適正に一致させることができた。これを踏まえると、記録装置40側においても、このようにスピーカシステムによる定位可能範囲に応じて変換マトリクスを生成して座標変換を行うことが考えられるが、これに伴っては、ユーザ側で使用される個々のスピーカシステムに対応させて、それぞれ別々のコンテンツを記録媒体に記録しなければならないことになり、現実的ではない。
そこで、記録装置40としては、音源座標取得部6にて取得された座標値(x,y)について、水平総画素数、垂直総画素数に対するそれぞれの値の比率に基づいて定位位置制御を行うことで、ユーザ側で使用される個々のスピーカシステムの別によらず適正に音源位置と仮想音像の位置とを一致させることができるようにする。
Here, as in each of the previous embodiments, when the signal processing device as the embodiment is incorporated in the playback device and editing is performed on the user side, each user actually uses it. Information about the localization range by the speaker system can be input, and an appropriate conversion matrix can be generated, and the sound source position and the position of the virtual sound image can be properly matched. Based on this, it is conceivable that the recording device 40 side also performs coordinate transformation by generating a transformation matrix in accordance with the localization range by the speaker system in this way, but it is used on the user side accordingly. Therefore, different contents must be recorded on a recording medium in correspondence with each speaker system, which is not realistic.
Therefore, as the recording device 40, the localization position control is performed on the coordinate value (x, y) acquired by the sound source coordinate acquisition unit 6 based on the ratio of the respective values to the total number of horizontal pixels and the total number of vertical pixels. Thus, the sound source position and the position of the virtual sound image can be appropriately matched regardless of the individual speaker system used on the user side.

先ず、この場合の前提として、先の図2において示した上下左右の二次元方向について、各スピーカSPにより実現される定位可能範囲の中心点と、表示画面の中心点とが一致するようにして各スピーカSPとディスプレイまたはスクリーンが配置される条件の下では、例えば画面左上端点に映される音源の音声は、定位可能範囲における左上端点に定位させれば(つまりスピーカSPL-upから出力されるべき音声のゲインを相対的に最も大きくすれば)、映像内の音源位置と音源の仮想音像とが一致するものとして再現することができることがわかる。
また、例えば画面の中心点に映される音源の音声は、定位可能範囲における中心点に定位させれば(各スピーカSPからの音声のゲインを等しくすれば)、映像内の音源位置と音源の仮想音像とが一致するものとして再現することができる。
First, as a premise in this case, the center point of the localization range realized by each speaker SP and the center point of the display screen coincide with each other in the two-dimensional directions shown in FIG. Under the condition that each speaker SP and display or screen are arranged, for example, the sound of the sound source projected at the upper left corner of the screen is localized at the upper left corner in the localization possible range (that is, output from the speaker SPL-up). It can be seen that the sound source position in the video and the virtual sound image of the sound source can be reproduced as being the same if the gain of the power to be sound is set to be the highest.
For example, if the sound of the sound source displayed at the center point of the screen is localized at the center point in the localization possible range (if the gain of the sound from each speaker SP is made equal), the sound source position in the video and the sound source It can be reproduced as the virtual sound image matches.

ここで、先の図4によれば、この場合の映像座標系の座標値の原点(0,0)は画面左上端点とされている。従って座標値のx、yの値について、それぞれ水平総画素数、垂直総画素数に対する比率が0%である場合に対応しては、左上端に配置されるスピーカSPL-upからの音声のゲインを最大とすればよいことがわかる。
同様にして、xの値の水平総画素数に対する比率が50%、yの値の垂直総画素数に対する比率が50%であれば、仮想音像は定位可能範囲の中心点に定位させればよいことがわかる。つまり、各スピーカSPからの音声のゲインを等しく設定すればよいことがわかる。
また、例えばxの値の水平総画素数に対する比率が25%、yの値の垂直総画素数に対する比率が50%であれば、Lchの2つのスピーカSPLからの音声のゲインを、Rchの2つのスピーカSPRからの音声のゲインよりも比率に応じた分大きくなるよう(例えば1.5倍など)に設定すればよいことがわかる。
Here, according to FIG. 4, the origin (0, 0) of the coordinate value of the video coordinate system in this case is the upper left end point of the screen. Accordingly, when the ratio of the coordinate values x and y to the total number of horizontal pixels and the total number of vertical pixels is 0%, the gain of the sound from the speaker SPL-up arranged at the upper left corner It can be seen that the maximum is sufficient.
Similarly, if the ratio of the x value to the total horizontal number of pixels is 50% and the ratio of the y value to the total vertical number of pixels is 50%, the virtual sound image may be localized at the center point of the localization range. I understand that. That is, it can be seen that the gain of the sound from each speaker SP may be set equal.
For example, if the ratio of the x value to the total horizontal number of pixels is 25% and the ratio of the y value to the total vertical number of pixels is 50%, the audio gain from the two Lch speakers SPL is set to 2 of the Rch. It can be seen that the sound gain from the two speakers SPR may be set to be larger (for example, 1.5 times) corresponding to the ratio.

このようにして、取得された座標値のxの値の水平総画素数に対する比率の情報と、yの値の垂直総画素数に対する比率の情報とにより、定位可能範囲におけるどの位置に仮想音源を定位させればよいかがわかるので、これら比率情報に基づくことで、4つのスピーカSPからそれぞれ出力される音声信号についての適正なゲイン値を決定することができる。   In this way, the virtual sound source can be placed at any position in the localization range by the information on the ratio of the x value of the acquired coordinate value to the total number of horizontal pixels and the information on the ratio of the y value to the total number of vertical pixels. Since it can be determined whether the localization should be performed, it is possible to determine appropriate gain values for the audio signals output from the four speakers SP based on the ratio information.

図12において、比率情報生成部45は、音源座標取得部6から供給される映像座標系による座標値と、同じく音源座標取得部6から供給される水平総画素数および垂直総画素数の情報に基づき、取得された座標値のxの値の水平総画素数に対する比率と、yの値の垂直総画素数に対する比率を算出する。そして、これらの比率情報を、定位位置制御部46に出力する。   In FIG. 12, the ratio information generation unit 45 uses the coordinate values in the video coordinate system supplied from the sound source coordinate acquisition unit 6 and the information on the total number of horizontal pixels and the total number of vertical pixels supplied from the sound source coordinate acquisition unit 6. Based on the obtained coordinate value, the ratio of the x value to the total horizontal number of pixels and the ratio of the y value to the total vertical number of pixels are calculated. Then, the ratio information is output to the localization position control unit 46.

定位位置制御部46は、各比率情報に基づき、各スピーカSPから出力されるべき音声に対しそれぞれ与えられるべきゲイン値を決定する。
つまり、先の説明から理解されるように、この場合はxの値の比率=0%が左方向のMAX値、xの値の比率=100%を右方向のMAX値とし、またyの値の比率=0%を上方向のMAX値、yの値の比率=100%を下方向のMAX値として、与えられたxの値の比率、yの値の比率の情報に応じて各スピーカSPごとの各ゲイン値(ゲイン値GL-un、GL-up、GR-un、GR-up)を決定する。
これら各ゲイン値は、音声信号処理部5に供給される。
The localization position control unit 46 determines a gain value to be given to each sound to be output from each speaker SP based on each ratio information.
That is, as understood from the above description, in this case, the ratio of x value = 0% is the leftward MAX value, the ratio of x value = 100% is the rightward MAX value, and the value of y Each speaker SP according to information on a given x value ratio and y value ratio, where 0% is a MAX value in the upward direction and y value ratio is 100% in a downward MAX value. Each gain value (gain value GL-un, GL-up, GR-un, GR-up) is determined.
These gain values are supplied to the audio signal processing unit 5.

一方、映像内容に応じた残響を付加するための構成として、この場合は上述した場所情報取得部47と、場所情報データベース48、残響効果制御部22が設けられる。
上記場所情報取得部47と場所情報データベース48は、メタデータではなく映像信号Vについての画像処理により場所情報を特定するために設けられる。
つまり、上記場所情報データベース48には、予め設定された複数の場所についての画像データ(画像サンプル)とその場所情報とが対応付けられて格納されている。そして、場所情報取得部47は、映像信号Vによるフレーム画像と、場所情報データベース48に格納される複数の場所画像とのマッチングを行い、最もマッチング度が高い場所画像に対応づけられている場所情報を取得するようにされる。
ここで、マッチング度がある閾値を超えない場合には、一致する場所情報がないと判定することもできる。或いは、このように一致する場所がないとした場合等には、映像信号Vによるフレーム画像と上記場所画像とを比較して環境が類似しているとされる場所画像を判定し、その場所画像に対応づけられる場所情報を取得するようにもできる。
On the other hand, as the configuration for adding reverberation according to the video content, in this case, the above-described location information acquisition unit 47, location information database 48, and reverberation effect control unit 22 are provided.
The location information acquisition unit 47 and the location information database 48 are provided for specifying location information by image processing on the video signal V, not metadata.
That is, the location information database 48 stores image data (image samples) for a plurality of preset locations and the location information in association with each other. Then, the location information acquisition unit 47 performs matching between the frame image based on the video signal V and a plurality of location images stored in the location information database 48, and the location information associated with the location image having the highest degree of matching. To get to.
Here, if the matching degree does not exceed a certain threshold, it can be determined that there is no matching location information. Alternatively, when there is no matching place in this manner, the frame image based on the video signal V and the place image are compared to determine a place image that is considered to have a similar environment, and the place image It is also possible to acquire location information associated with the.

場所情報取得部47により取得された場所情報は、残響効果制御部22に供給される。この場合も残響効果制御部22は、供給された場所情報に応じた残響データを残響データテーブル23から取得するようにされる。   The location information acquired by the location information acquisition unit 47 is supplied to the reverberation effect control unit 22. Also in this case, the reverberation effect control unit 22 acquires reverberation data corresponding to the supplied location information from the reverberation data table 23.

なお、ここでは説明の便宜上、場所情報データベース48においては場所画像に対し場所情報を対応づけ、この場所情報に応じ、残響効果制御部22が残響データテーブル23から対応する残響データを取得するように構成したが、場所画像に対し直接的に残響データを対応付けたデータベースとし、マッチングにより一致が判定された場所画像から直接的に対応する残響データを取得するように構成することもできる。   Here, for convenience of explanation, the location information database 48 associates location information with location images, and the reverberation effect control unit 22 acquires corresponding reverberation data from the reverberation data table 23 according to the location information. Although configured, a database in which reverberation data is directly associated with a place image may be used, and reverberation data directly corresponding to the place image determined to be matched by matching may be acquired.

音声信号処理部5は、定位位置制御部46から供給される各ゲイン値(GL-un,GL-up,GR-un,GR-up)に基づき、この場合もゲイン値GL-unを乗算した音声信号AL-UNと、ゲイン値GL-upを乗算した音声信号AL-upと、ゲイン値GR-unを乗算した音声信号AR-unと、ゲイン値GR-upを乗算した音声信号AR-upとを生成するようにされる。そして、このように生成した音声信号AL-un、音声信号AL-up、音声信号AR-un、音声信号AR-upに対し、残響効果制御部22から供給される残響データに基づく残響付加処理をそれぞれ施して出力する。   The audio signal processing unit 5 multiplies the gain value GL-un also in this case based on the gain values (GL-un, GL-up, GR-un, GR-up) supplied from the localization position control unit 46. The audio signal AL-up multiplied by the gain value GL-up, the audio signal AR-un multiplied by the gain value GR-un, and the audio signal AR-up multiplied by the gain value GR-up And to be generated. The reverberation adding process based on the reverberation data supplied from the reverberation effect control unit 22 is performed on the sound signal AL-un, the sound signal AL-up, the sound signal AR-un, and the sound signal AR-up generated in this way. Give each and output.

オーディオエンコーダ49は、このようにして残響が付加された音声信号AL-un、音声信号AL-up、音声信号AR-un、音声信号AR-upを入力し、これらを所定の音声圧縮方式により圧縮するなど所定のエンコード処理を施して多重化処理部50に供給する。   The audio encoder 49 inputs the audio signal AL-un, the audio signal AL-up, the audio signal AR-un, and the audio signal AR-up to which reverberation is added in this way, and compresses them by a predetermined audio compression method. Then, the data is supplied to the multiplexing processing unit 50 after being subjected to a predetermined encoding process.

多重化処理部50には、上述したビデオデコーダ44によりエンコード処理が施された映像信号Vも入力される。
ビデオエンコーダ44においても、所定の音声圧縮方式により圧縮するなどの所定のエンコード処理を映像信号Vに施すようにされる。
多重化処理部50は、オーディオエンコーダ49から供給される音声信号AL-un、音声信号AL-up、音声信号AR-un、音声信号AR-upと、ビデオエンコーダ44から供給される映像信号Vとを所定の多重化方式により多重化して記録部51に供給する。
The video signal V that has been encoded by the video decoder 44 described above is also input to the multiplexing processing unit 50.
Also in the video encoder 44, the video signal V is subjected to predetermined encoding processing such as compression by a predetermined audio compression method.
The multiplexing processing unit 50 includes an audio signal AL-un, an audio signal AL-up, an audio signal AR-un, an audio signal AR-up supplied from the audio encoder 49, and a video signal V supplied from the video encoder 44. Are multiplexed by a predetermined multiplexing method and supplied to the recording unit 51.

記録部51は、上記多重化処理部50から記録データとして供給される多重化データを図示する記録媒体100に対して記録する。
記録媒体100は、例えばCD、DVD、ブルーレイディスクなどの光ディスク記録媒体、或いはハードディスクなどの磁気記録媒体、MD(Mini Dsic)などの光磁気記録媒体とされる。或いは、それ以外の記録媒体とすることもできる。
The recording unit 51 records the multiplexed data supplied as recording data from the multiplexing processing unit 50 on the recording medium 100 shown in the drawing.
The recording medium 100 is, for example, an optical disk recording medium such as a CD, DVD, or Blu-ray disc, a magnetic recording medium such as a hard disk, or a magneto-optical recording medium such as MD (Mini Dsic). Alternatively, other recording media can be used.

なお、パッケージメディアとして販売する記録媒体としては、再生専用のROMディスクとされるのが一般的であるが、その場合制作側では、上記記録媒体100に一旦記録した多重化データを再生してマスタリング装置に供給してディスク原盤にピット/ランドによるデータ記録が行われるようにすればよい。或いは、多重化データを直接的にマスタリング装置に供給してディスク原盤に対する記録が行われるようにしても良い。   A recording medium sold as a package medium is generally a read-only ROM disk. In this case, the production side reproduces the multiplexed data once recorded on the recording medium 100 and performs mastering. It may be supplied to the apparatus so that data recording by pits / lands is performed on the disc master. Alternatively, the multiplexed data may be directly supplied to the mastering device to perform recording on the disc master.

上記のような構成による第4の実施の形態としての記録装置40によれば、映像内に映し出される音源の位置とその音源の仮想音像位置とを一致させることと、実際の出力音声による音の響きと映像内容に応じた音の響きとを一致させることの双方を実現することのできる音声信号、及び映像信号を記録媒体に対して記録することができる。
つまり、このような記録媒体が再生装置にて再生されて映像及び音声出力が行われることで、より臨場感のある映像・音場空間が再現される。
また、この記録装置40においては、映像信号Vから音源位置の情報と共に場所情報を取得することができ、これら音源位置の情報と場所情報とに基づき自動的に音声信号Aに対するゲイン調整及び残響付加が行われる。これにより、コンテンツの制作側としては、上述のようにしてより臨場感のある映像・音場空間を再現させるにあたって、従来のように音源位置や場所情報を逐次指定してゲイン調整や残響付加を行う手間が省け、この結果コンテンツの編集に要する手間と時間を大幅に削減することができる。
According to the recording apparatus 40 according to the fourth embodiment having the above-described configuration, the position of the sound source displayed in the video is matched with the virtual sound image position of the sound source, and the sound of the actual output sound is reproduced. It is possible to record an audio signal and a video signal that can realize both reverberation and sound reverberation according to video content on a recording medium.
That is, when such a recording medium is reproduced by a reproducing apparatus and video and audio are output, a more realistic video / sound field space is reproduced.
In the recording apparatus 40, location information can be acquired from the video signal V together with information on the sound source position, and gain adjustment and reverberation addition are automatically performed on the audio signal A based on the information on the sound source position and the location information. Is done. As a result, on the content production side, in order to reproduce a more realistic video / sound field space as described above, the sound source position and location information are sequentially specified as before, and gain adjustment and reverberation addition are performed. As a result, it is possible to save labor and time required for editing contents.

ここで、これまでで説明した各実施の形態では、説明の便宜上、音源が1つのみとされるものとして説明を行ったが、音源が複数とされる場合、すなわち映像内のPlayerごとに複数の音声信号Aをライン収録した場合は、それぞれの音声信号Aについて同様の音源座標値の取得、及び音源座標値に応じた各スピーカSPから出力されるべき音声信号についてのゲイン調整処理を行う。その上で、これらゲイン調整された音声信号を各スピーカ対応にそれぞれ合成して出力するもとすればよい。
Here, in each of the embodiments described so far, for the sake of convenience of explanation, it has been described that there is only one sound source. However, when there are a plurality of sound sources, that is, a plurality of sound sources for each player in the video. When the audio signal A is recorded in a line, acquisition of the same sound source coordinate value for each audio signal A and gain adjustment processing for the audio signal to be output from each speaker SP according to the sound source coordinate value are performed. Then, it is only necessary to synthesize and output these gain-adjusted audio signals for each speaker.

<変形例>

以上、本発明の実施の形態について説明したが、本発明としてはこれまでに説明した各実施の形態に限定されるべきものではない。


例えば各実施の形態では、音源(Player)ごとにライン収録した音声信号Aを各々入力する場合を挙げたが、例えば音声収録時には、ステレオマイクにより全ての音源(Player)の音声をまとめて収録することもあり得る。
その場合、各実施の形態の信号処理装置としては、入力されるステレオ音声信号から各音源の音声信号を抽出し、その音声信号ごとに、取得された座標値に応じたゲイン調整をそれぞれ行うものとすればよい。 <Modification>

As mentioned above, although embodiment of this invention was described, as this invention, it should not be limited to each embodiment described so far.


For example, in each embodiment, the case where the audio signal A recorded in a line for each sound source (Player) is input has been described. For example, when recording sound, the sound of all sound sources (Player) is recorded together by a stereo microphone. It can happen.
In that case, as the signal processing device of each embodiment, the sound signal of each sound source is extracted from the input stereo sound signal, and the gain adjustment corresponding to the acquired coordinate value is performed for each sound signal. And it is sufficient.

また、実施の形態では、上下左右の二次元範囲のみを定位可能範囲とする場合を例示したが、各音源ごとにその音量調整を行うことで奥行き方向にも定位可能範囲を拡大することができる。つまり、例えば映像信号に基づく画像処理によって、映像内における音源の画像サイズを検出した結果に基づき、その音源の奥行き方向における位置情報を取得する。そして、この奥行き方向における位置情報に応じて各音源の音量をそれぞれ調整すれば、上下左右と共に奥行き方向も加えた三次元範囲でそれぞれの仮想音像位置を再現することができるといったものである。   Further, in the embodiment, the case where only the two-dimensional range of up, down, left, and right is set as the localization range is exemplified, but the localization range can be expanded also in the depth direction by adjusting the volume for each sound source. . That is, for example, the position information of the sound source in the depth direction is acquired based on the result of detecting the image size of the sound source in the video by image processing based on the video signal. Then, by adjusting the volume of each sound source according to the position information in the depth direction, each virtual sound image position can be reproduced in a three-dimensional range including the depth direction as well as up, down, left, and right.

また、スピーカSPとしてはLchの上下、Rchの上下のみとし、定位可能範囲は上下左右方向の二次元の範囲としたが、例えば5.1chサラウンドシステムのように前後方向にもスピーカSPを配置する場合には、視聴者の後側にも定位可能範囲を拡大することができる。   In addition, the speaker SP is only above and below Lch and above and below Rch, and the localization range is a two-dimensional range in the up and down and left and right directions. In this case, the localization possible range can be expanded on the rear side of the viewer.

また、各実施の形態の再生装置(1、20、30)が備えるメディア再生部2としては、記録媒体についての再生を行うものとして説明したが、AM・FM、TV放送などを受信・復調して音声信号(及び映像信号)を出力するチューナ装置として構成することもできる。   Further, the media playback unit 2 included in the playback device (1, 20, 30) of each embodiment has been described as performing playback on a recording medium. However, AM / FM, TV broadcasting, etc. are received and demodulated. Thus, it can be configured as a tuner device that outputs an audio signal (and a video signal).

或いは、各実施の形態の再生装置としては、このようなメディア再生部2を備えて記録媒体についての再生機能、または放送信号の受信機能を有するように構成される以外にも、例えばアンプ装置などとして、外部で再生(受信)された音声信号及び映像信号を少なくとも入力し、これらの入力信号に基づき各実施の形態の信号処理装置としての動作を行うように構成することもできる。   Alternatively, the playback device according to each embodiment includes such a media playback unit 2 and is configured to have a playback function for a recording medium or a broadcast signal reception function. As an alternative, at least an audio signal and a video signal reproduced (received) externally can be input, and the operation as the signal processing device of each embodiment can be performed based on these input signals.

また、各実施の形態において、映像内容に応じた残響データを取得するための手法としては、メタデータに基づき取得する手法、或いは映像信号Vと場所画像とのマッチング結果に基づき取得する手法を例示したが、これ以外にも、予め映像信号Vに場所の名称などを示すテロップを挿入しておく手法も挙げることができる。すなわち、この場合制作側では、撮影により得た映像信号Vに場所の名称を表すテロップ(つまり画像信号である)を合成しておく。そして、再生装置側(または記録装置側)では、予め複数のテロップの画像とその場所情報(或いは対応する残響データ)とを対応づけたデータベースを備えておくようにし、これらテロップの画像と映像信号Vのフレーム画像の所定部分とのマッチングを行い、上記所定部分の画像と一致したと判定したテロップに対応づけられた場所情報を取得し、この場所情報に基づき残響データを取得する(或いは、一致したと判定したテロップに対応づけられた残響データを直接的に取得する)。
また、このように映像信号Vにテロップを挿入しておく手法の以外にも、例えばバーコードなどの所要の記号、またはイラスト等の画像信号を映像信号Vに合成しておくことによっても、同様に映像信号Vに基づく画像処理により場所情報、または直接的に残響データを取得することができる。
In each embodiment, examples of a method for acquiring reverberation data according to video content include a method based on metadata or a method based on a matching result between a video signal V and a location image. However, other than this, a technique of inserting a telop indicating the name of the place in the video signal V in advance can also be mentioned. That is, in this case, the production side synthesizes a telop (that is, an image signal) representing the name of the place with the video signal V obtained by photographing. On the playback device side (or recording device side), a database in which a plurality of telop images and their location information (or corresponding reverberation data) are associated in advance is provided, and these telop images and video signals are provided. V is matched with a predetermined portion of the frame image, location information associated with the telop determined to match the image of the predetermined portion is acquired, and reverberation data is acquired based on the location information (or match) The reverberation data associated with the telop that is determined to have been directly acquired).
In addition to the method of inserting a telop in the video signal V in this way, the same can be achieved by synthesizing a video signal V with a required symbol such as a barcode or an image signal such as an illustration. In addition, location information or reverberation data can be obtained directly by image processing based on the video signal V.

また、各実施の形態において、映像信号Vから音源位置の情報を取得するにあたっては、予め音源としての対象物にマーカを付しておきそのマーカをトラッキングする手法を例示したが、これ以外にも、例えば画像処理により映像中の特定の音源の画像データをトラッキングすることでその位置情報を取得することもできる。つまりこの場合、先ずは一度映像信号Vを再生して、そこに映し出される音源の画像データを操作により指定させる。そして、実際の再生時には、入力される映像信号Vのフレーム画像中からこのように指定された画像と一致する部分を検出し、その部分をトラッキングするといったものである。   Moreover, in each embodiment, when acquiring the information of the sound source position from the video signal V, the method of tracking the marker by attaching a marker to the object as the sound source in advance is exemplified. For example, the position information can be obtained by tracking image data of a specific sound source in the video by image processing. That is, in this case, first, the video signal V is once reproduced, and the image data of the sound source displayed there is designated by operation. In actual reproduction, a portion matching the image thus designated is detected from the frame image of the input video signal V, and the portion is tracked.

また、各実施の形態では、本発明の音声属性情報として、音源の位置や映像内容に応じた響きを特定するための情報を挙げたが、この音声属性情報としては、映像内容に応じて臨場感を高めるための音声調整(音声信号処理)を行うにあたり、その調整パラメータを決定するために特定されるべき情報であって、映像信号による映像内容に応じた音声信号の音響的な属性に係る情報あれば、他の情報も含むものである。   In each embodiment, the audio attribute information according to the present invention includes information for specifying the sound according to the position of the sound source and the video content. When performing audio adjustment (audio signal processing) to enhance the feeling, it is information that should be specified to determine the adjustment parameter, and relates to the acoustic attributes of the audio signal according to the video content of the video signal If it is information, it includes other information.

1,20,30 再生装置、2 メディア再生部、3 ビデオデコーダ、4 オーディオデコーダ、5 音声信号処理部、6 音源座標取得部、7 座標変換部、8,46 定位位置制御部、9 変換マトリクス算出部、10 操作部、21 メタデータ抽出部、22 残響効果制御部、23 残響データテーブル、40 記録装置、42 音声信号再生部、43 映像信号再生部、44 ビデオエンコーダ、45 比率情報生成部、47 場所情報取得部、48 場所情報データベース、49 オーディオエンコーダ、50 多重化処理部、51 記録部、100 記録媒体   1,20,30 playback device, 2 media playback unit, 3 video decoder, 4 audio decoder, 5 audio signal processing unit, 6 sound source coordinate acquisition unit, 7 coordinate conversion unit, 8,46 localization position control unit, 9 conversion matrix calculation Unit, 10 operation unit, 21 metadata extraction unit, 22 reverberation effect control unit, 23 reverberation data table, 40 recording device, 42 audio signal reproduction unit, 43 video signal reproduction unit, 44 video encoder, 45 ratio information generation unit, 47 Location information acquisition unit, 48 Location information database, 49 Audio encoder, 50 Multiplexing processing unit, 51 Recording unit, 100 Recording medium


RetroSearch is an open source project built by @garambo | Open a GitHub Issue

Search and Browse the WWW like it's 1997 | Search results from DuckDuckGo

HTML: 3.2 | Encoding: UTF-8 | Version: 0.7.4