初稿:2008年3月16日
改訂 16: 2008年7月27日
調べ物の最中にたまたま、2008-01-24 06:42 Re: 「ふれふれっぽんぽん!」および、「ふれふれっぽんぽん!」 - シマシママニアック(偽) / 2008-01-19 23:11を訪問した際に、「ふれふれっぽんぽん!」のエンディングの疑問に関して興味を持ったので調べてみました。そういえばTV視聴の時点にも、今回調べた範囲以外でも歌声が入れ替わりになっているらしいと思いつつ、声質が似ていて「よくわからないなぁ…」と漠然と思っていたのです。
※「ふれふれっぽんぽん!」とは原作がライトノベルの「ご愁傷さま二ノ宮くん」のTVアニメ版(2007年10月〜)のエンディング曲のことです。主役の声優二人(門脇舞以・沢城みゆき)が部分的に交互に歌う箇所があり、しかも声質が似ているためにどちらが歌っているのか分かり難いというのが、そもそもの疑問なわけです。
※私の持っているソースは、TV映像をMPEG-2で録画した後にWMV(音声部:48kbps, 44kHz, stereo)に変換してしまったファイルから再度抜き出したWAV音声であるため、周波数の上限が12kHz程度まで、且つMPEGとWMAとしての不可逆圧縮を経ている点で、品質に問題があることをお断りしておきます。
また、解析時にはWAVを使用しましたが、本説明ページで掲載している音声ファイルは、容量の都合で再度mp3に変換してあります(※抜き出したWAVファイルと再変換したmp3ファイルの解析結果の比較では、取り立てて違いが見当たりませんでした)。
そのためオリジナルに比べて劣化しているハズですが、音声の特徴は10kHz程度辺りまでで見られるハズなので、傾向は同じであろうと思います。
※実際に、「やだやだ」部分を、訪問先のサンプルWAV音声と私の持つWMVの音声とで比較すると、波形に違いがあります。
それだけでなく、声も伴奏も私の検証データとずいぶん違って聞こえます。サンプル音声はフルバージョンのものらしいのですが、TVとはアレンジが異なっている様子。
ともかく、確かによく似た声なので、一聴する程度では、
| No. | フレーズ | 単音韻 | ||||
|---|---|---|---|---|---|---|
| (1) | 「何するつもり?」 | 音声 Part1 | (2.24秒, MP3) | |||
| (2) | 「本気?」 | 音声 Part2 | (1.25秒, MP3) | |||
| (3) | 「やだやだ」 | 音声 Part3 | (0.93秒, MP3) | やだ「や」だ | 抜粋「や」 | (0.40秒, MP3) |
| (4) | 「逃げちゃやだよ」 | 音声 Part4 | (1.46秒, MP3) | 逃げちゃ「や」だよ | 抜粋「や」 | (0.38秒, MP3) |
分かりやすいのが(3)と(4)に現れる似た音声&帯域の「やだ」の「や」で、(4)のほうが微妙にビブラートがかかった感じに聞こえます。また、数回聞いた結果、声質が明らかに同じとは聞こえなくなり、確かに交互に歌っていると感じます。
「感じる」だけでは客観性に乏しいので、人の声の識別に使われるフォルマント(または声紋;Voice print; Spectrogram)の観点で調べてみました(いわゆるモノマネでもフォルマントには違いが出る[*1]といわれるので)。
※声だけでなく伴奏も混在したデータなので、その基音や倍音が解析の邪魔になる懸念は多々あります。音声領域と重ならない伴奏成分は無視するだけで済みますが、領域が重なる成分は除去しようがありませんので(伴奏だけのファイルでもあれば差分を取ればいいのですがそういうデータがないなら無理)。
(3)「やだや〜だ」の後半の「や〜」と、(4)の「逃げちゃや〜だよ」の「や〜」に着目すると、ともに「や」の音の出始め(短時間)と、音程が上がる後半(主に母音の「あ」の継続部分)とに分けられます。
後日見つけた資料(記事/論文/書籍/Web/blog)や、音声解析に使えそうなソフトウェア
以降、フォルマントに着目してみます。
ちなみに、私は音響学を専攻したわけでもない、全くの素人です。過去に断片的に見聞き知った事柄と、ここ2日程度の資料漁りなどで得た付け焼刃的な知識を元にしていますので、かなり適当なことを書いているハズですので、鵜呑みにしないようにして下さい。
しかも、雑音のない見本となる基準音声なしに、雑音込み&品質劣化した音声での人物同一性を主張するのは、(それを専門とする商売が成り立っているくらいですし)専門家でも難しいように見受けられるので、私がここで書いていることは、かなりいいかげんだと思った方が良いでしょう。
但し、項目の大多数が一致しなくては同一と決定できないのに対して、少しでも違う点が見つかれば「同一でない可能性がある」といえる点において、敷居は多少低いように思えます。
後日、前提条件が崩れると、それすら難しくなることに気付きました(末尾の懸案事項を参照)。
解析に利用したのはRH1FFTのソノグラフ(=スペクトログラム)、およびAudacityの波形/スペクトル/ピッチ、および、WaveSurferの波形/スペクトログラム/(ピッチ) (Speech analysis; ピッチは情報が少なかったので割愛)、Spectrogram 4.12のスペクトログラムです。
RH1FFTの画面は今回の解析に使わないエリアをカットしてあります。Audacity、WaveSurfer、Spectrogram 4.12の図も同様です。
参考までに、日本語の母音「あ」のフォルマント周波数は、第1・2フォルマントが、それぞれ780kHz、1240kHz程度で、一般認識どおり男性より女性の方が概ね高めの周波数となります。但し、フォルマント周波数あるいは声紋だけで男性か女性かを区別するのは無理だという記述も見かけました。
今回の検証データには、単独では母音が含まれないので、代わりに子音の「や」に着目します。発声が長い場合の後半は「あ」に近い特性になるであろうという「仮定」に基づいています(が、口の開き方が当然ながら「あ」とは異なるので、同じにはならないであろう事も承知済みです)。
しかし、パート(3)(4)とも「や〜」が同程度の時間発声されている点と、続く音韻が「だ」であることで「口」の発声の移行変化が似るハズである点において、検証に用いる「や〜だ」は都合が良いといえます。
※RH1FFTで着目範囲が同じ時間幅になるようにパート(4)を拡大表示してみましたが、同じ比率にできなかったので、2番目の図は、左のパート(3)をフォトレタッチソフトで図形的に横方向に拡大してあります。
「や」の出始めから0.03秒程度で800〜2kHz前後のピーク成分(フォルマント)が現れます(「や」に含まれる母音が「あ」なので)。更に300〜400Hz付近のピーク成分が明確な違いとなっています。この成分が何に起因するのか分かりません。伴奏の成分でしょうか? それとも、「や」の発声時に「い」のような発声もするからでしょうか?「い」なら第1フォルマントが240〜300Hzあたりですが…。
※伴奏レベルの低いフルバージョンの結果を考え合わせると、300〜400Hz付近も声の成分だと思いますが、明確に声の成分と断言するのが困難なのも確かです。
※考察:「や」の発声方法として「あ」と「い」を同時発声するつもりで発声すると「や」のような声になる(場合によっては無意識に「ぃや」と発音する場合もあるかも)。この場合「い」の基音が出るハズ。
※暇があれば追検証してみます。[Page.4]にて考察。
パート(3)側は300〜400Hz付近が強く出ていますがパート(4)は弱いです。またパート(3)は約1kHzが強く出ているのに対して、パート(4)は1kHzだけでなくその高周波側に細かくピークが分散しています。
厳密には同じ「や〜」でも音程の違いがありますし、ここで用いた音声は同じ歌詞を歌った部分ではないため前後の影響を受けている可能性もありますし、同一人物でも常に全く同じになる訳ではないので、この1つの音声だけで論じるのは危険だとは思いますが、「あ」に起因する第1・第2フォルマント周波数の違いが出ているハズなので、声質の違いが相違をもたらしているのではないかと思います。
※100〜200Hz前後以下は伴奏のビート成分の影響が強いと思われることと、声の基音はもう少し高い範囲であると考えられるため、比較の対象から外しています。「い」に関しては第1フォルマントが200Hzに近いので無視したくありませんが、なにぶん雑音を伴う音声データなので、やむを得ません。
どうでしょうか?
そして改めて音声を聞いてみると違って聞こえるかもしれません。
フルバージョンは、冒頭に述べた通り音が違っていますが、パート(3)に相当するソノグラフ表示で私の検証した音声と同様に300〜400Hz付近が濃く出ています。当初、伴奏成分とみなしていましたが、伴奏が控えめな音量であるためか0〜200Hz付近の成分がほとんど出ていないこと、Page.5での考察3、Page.6での考察4の後の再調査で、伴奏レベルが低いにもかかわらず音声と同期して300〜400Hz成分が出ていることから、これは声の成分であると判断を修正しました。但し、TV版は伴奏成分が大きいので、若干の注意が必要です。1kHz〜2kHz〜付近が私の検証データと違って、濃く出ていますが。パート(4)に相当する部分でそのあたりがどうなっているか、また聴覚上で声の震え具合の差を、比較してみると何かわかるかもしれません。
※Page.2のWaveSurferの結果を見ると歴然とするのですが、フルバージョン(44.1kHz 16bit PCM且つ伴奏混入量が少ない)と、私が用意したデータ(WMVから取り出した音声)を比べると、私のデータはかなり劣化しており、音声の特徴が不明瞭になってしまっています。そのためフルバージョンでのパート(3)とパート(4)を比べると、違いがもう少しはっきりするかもしれません。
次ページ以降で、RH1FFT以外の解析ソフトウェアでの結果や疑問点の考察について記述しています。最終結論としては、0.5秒にも満たないデータでの判断は極めて困難ということになってしまいましたが、本編での声データとも比較を試みた、Page.2のWaveSurferでの解析では、もしかしたら特徴をとらえられたといえるのかもしれません。
※2008-04-30にフルバージョンの結果を追加したところ、「特徴をとらえられた」と言うのは無理があると判断を変更。
※懸案事項:
今回は、(1)1つの曲の中では(おそらく同じ声質として)歌うであろうという事と、(2)声を録音現場でいじくり回していない事を大前提で議論しています。
(1)に関して:
声優が意図的に別の役の声を演じた場合には、どうやら結構フォルマントが違ってみえます(Page.5を参照のこと)。「モノマネでもフォルマントには違いが出る」とか「声色を変えても声紋が同じだから分かる」というのが本当なのか、疑問を感じ始めています。
例えば音声パスワードを使うセキュリティシステムの実演で、「B氏がA氏の声を真似ても認証で弾かれる」「体調などによる揺らぎでも本人と見分ける」という例をしばしば見かけます。しかし、A氏が意図的に登録した声パスワードとは全く別の人の声を演じたら、認証されないのではないかという気がするのです…(多分これは認証されない)。
(2)に関して:
最近では(といっても、少なくとも5年以上前)、音程を外して歌った歌手でさえ正しく歌っているように直すことが出来て、(歌の下手なアイドル歌手などのCDでは)実際にそういう操作がされています。仮にそのような操作がされていたなら、特性が変わってしまいます。
※修正するツール例:Antares Auto-Tune Evo