更新日:
Page Property: Shift-JIS, JavaScript
[Home] | Email / 電子メール

Re: Classic Revival Gate -glänzend- - Re 「ふれふれっぽんぽん!」

初稿:2008年3月16日
改訂 16: 2008年7月27日

[Page.1] | [Page.2] | [Page.3] | [Page.4] | [Page.5] | [Page.6] | [Page.7] | [Page.8]

補足情報

Page.1からPage.6まで、思いついた順番で時系列に書き足してきた上、その作業の途中で気付いた事を過去のページに遡ってデータやコメントを追加した結果、非常に冗長、且つ読み辛いものになってしまいました。本来なら、改めてデータの取捨選択をして、ページも再構成したいところですが、時間的・精神的な余裕がないので、おそらく現状維持のままとなるでしょう…。

専門家からのアドバイス

音声学(というのか?)に疎い私がぐだぐだと書き連ねてきて、結果としてほぼお手上げとなってしまったのですが、専門家のアドバイスを受けてみたら何か新しい視点でも見つかるかもと思い立ち、Page.1の参考資料にも名前の挙がっている、甲南大学知能情報学部知能情報学科の北村達也准教授にメールにて質問しました(なんて無謀な…)。お忙しい中にもかかわらず、丁寧に回答して下さったので、その要旨を以下に記します。


■ 本題の「ふれふれっぽんぽん!」の歌い分け部分に関して

前者=パート3:「やだやだ」(沢城みゆき)、後者=パート4:「逃げちゃやだよ」(門脇舞以)です。


私がPage.6で書いた「決定打が得られなかったことの言い訳」はあながち間違っておらず、やはり短すぎるデータは解析が困難であるようです。また、楽器音の混入や、不可逆圧縮の影響も問題となっていることが言えます。実際、Page.2のWaveSurferの図(後日フルバージョンの結果を追加)を見れば分かるとおり、私が用意したデータは音声成分がかなりダメージを受けていて解析し辛いと言えます。なお、エフェクトと書かれているのは、おそらくエコーなどのことを指しているのだと思います(フルバージョンのパート(3)部を聞くと、明確なエコーの存在に気付きます)。

透明感や喉頭雑音に関する指摘に関しては、Page.1で私が書いた「(4)のほうが微妙にビブラートがかかった感じに聞こえます」と同じ事をおっしゃっているのだと思います。後者の「や」には、テープ録音などで生じる変調雑音のような音が混じっているように私には聞こえます(声に由来するのか楽器やエフェクトが原因なのかは不明ですが)。


■ 同一声優が別役を演じた場合の音声データや、音程の異なる音声データの同一性の判断に関して


■ 発声ごとに微妙に変化するバラつきや、音程を変える際に声帯が形状変化を起こす事(周波数の違い以外の要因の考慮)には、どう対処すべきか?という疑問に対して


■ 音声解析に有用なソフトウェアに関して尋ねました

※MATLAB:MATLAB (本家;MathWorks™) / MATLAB (日本での販売; サイバネットシステム株式会社)
Wikipediaによれば、類似フリーウェアとしてScilab以外にGNU OctaveFreeMatなどがあるようです。昔、会社でMATLABを購入したことがありますが、かなり高額で、個人では気軽に買えない価格だったと記憶しています。似たものの候補としてMapleなんていうのもありました。今は、互換のあるフリーウェアが幾つかあるのですね…。

※「解体新ショー」の「ものまねの声は本当に似ているの?」の回に関する、司会の久保田祐佳アナウンサーのブログを見ると分かるのですが、背景雑音を排除するために無響室を使っています。


以上を大雑把にまとめると、(1)音声データのスペクトル包絡やケプストラムを求めることで、人毎に異なる声道の形(その共鳴特性)が把握でき、話者の同一性の判断材料となる、(2)話者のデータをあらかじめデータベース化しておき、調査対象となる音声と照らし合わせることで、話者を(確率的に/統計的に)特定することができる。(3)声のバラつきなどがあるので統計的に判断することになるが、絶対的な保証とはならない、(4)短すぎるデータは判断が難しい、(5)背景雑音の多いデータやエフェクトの掛けられたデータは判断が難しい、ということになるでしょうか。

付け足すなら、今回のメールのやり取りでは議論に出なかった、フレーズの抑揚(基本周波数の時間推移)に表れる話者の癖も判断材料となるでしょう。通常これはある程度の長さのデータの抑揚を見るわけですが、突き詰めれば(解析はより困難であるけれど)単音や2音韻程度のデータでも口の動かし方には癖があって違いが出るハズだと、個人的には思うのです。今回の私の試行はそこから出発したわけです。

その他、雑多なこと 1.

北村先生のご助言にあった、データ同士の距離ということは相関係数を求めるということかな?などと考えながら、学生時代の教科書を漁っていたら、なんと音声信号処理について書かれた書籍、『ディジタル信号処理』(社団法人 電子通信学会)が出てきました。学生の頃はこの章は使わなかったので今の今まで全く気付きませんでした。

これによると、「母音がアであるかイであるかという音色は、主に第1、第2及び第3ホルマント周波数で決まる。これらの周波数を決定するものは口の形であるが、4次の共振である第4ホルマント周波数より高次のホルマント周波数は、発声する声の音質にかかわらず、ほぼ一定である。声帯は声道の形に関係ない音源波を作る」と書かれています。

その他に、ホルマント周波数を抽出するAbS(合成による分析)法が解説されています。「なまの音声波形からホルマント周波数を抽出するのは簡単なことではなく、第3章で述べたケプストラム法によって求めたスペクトル包絡のピークは、必ずしもホルマント周波数と一致するとは限らない。その外にも種々の方法が試みられているが、純粋に分析的な方法だけでは、正確なホルマント周波数を知ることは困難である。」 その代わり、音声の生成過程を説明するモデルは比較的簡単且つパラメータ数も割合少ないので、パラメータをまず適当に仮定して音声合成して、入力信号とよく一致するようにパラメータを変更して最適パラメータを求めるという、合成によって分析結果を得る方法(Analysis by Synthesis; AbS法)があるんだそうな。
「純粋に分析的な方法だけでは、正確なホルマント周波数を知ることは困難」だなんて…

その他、雑多なこと 2.

スペクトルなどを基にした評価においても、条件の悪い音声(短い/背景音やエフェクトありなど)では、同一性の判断を統計的に行うとしても、やや無理があって保証にはならないというのであれば、いわゆる「神の耳」を持つ方による同一/相違の判断が下されたとしても、解析的な手法と同じく保証にはならないと私は思うのです。ましてや、今回の様に0.5秒にも満たなくて、エフェクトや雑音まで含まれるデータから純粋な声の特徴だけを明確に聞き分けられたと主張されても(判断が主観的であるがゆえ)説得力に乏しいと思うのです。

※オーディオ業界(メーカー/評論家/マニア含む)では、測定には表れない違いでも人は聞き分けるのだという主張もあります。それら主張には、かなり眉唾な面も多いのですが、人の脳がデータを処理する仕組みと、現在主流の解析方法とが違うせい/確立されていないせいで測定には現れないという面もあながち否定できないので、五感での評価の全てを否定するつもりはありません
最近読んだ書籍の事例で言うと、本来水平・平行な線が傾いて見えるカフェウォール錯視も、そのまま眺めたりFFTする程度では説明がつかないけれど、ある種の非線形フィルタを通した上でウェーブレット解析すると、錯視と同じモノが顕在化する例(参考文献の『数学のたのしみ 2004 秋 ウェーブレット解析の展開 フォ−ラム:現代数学のひろがり』参照のこと)の研究などもありますから、新たな手法が出てくるまでは感覚が優先する領域も残るとは思います。


今回のデータに限った場合でも、パート(1)とパート(3)、パート(2)とパート(4)がそれぞれ同じ人物の声と主張できるか?また、パート(3)とパート(2)やパート(4)が明確に違うと主張できるか?という問題があり、それぞれの声が似ている、違っていると感じたとしても、それで同一人物か別人かと結論付けるのは乱暴だと思うのです。

また、ファンですら唸るほどの似た声を出せる声優(あるいは逆にファンですら同一性を疑う別人の声を出せる声優)の存在や、真似でなくても(体格などの影響で)生まれつき極めて似た声質の声優の存在があり、声優の声の違いに疎い私の場合、配役のクレジットを見ないまま視聴すると、全く別の声優だったなんてこともしばしばあり、酷い場合にはクレジットを見てもまだ信じられないことすらあるわけで、誰かがこう主張したというだけでは納得できないのです(「神の耳」を持つ方が100発100中でどの声も正確に聞き分けるというのであれば、別ですが)。


[Page.1] | [Page.2] | [Page.3] | [Page.4] | [Page.5] | [Page.6] | [Page.7] | [Page.8]

[Home] | Email / 電子メール