初稿:2008年3月16日
改訂 16: 2008年7月27日
RH1FFTで示したスペクトル表示がもっと明確に見えるかと期待していたのに反して、却って分かりにくい結果となってしまっています。波形を大雑把に見ると時間変化での形状が割りと似ているのが見て取れます(同じ「や」の発声だから似るのは当然?)。その代わりピッチ情報で違いが出ています。これは音程の違いが出ているということなのか、あるいは声の特徴が出ているとみなせるのか良く分からないので、敢えて論じるのを避けて図だけ提示しておきます。ピッチ=基音のように説明している資料もあるので、ピッチの結果は、基音とみなした範囲が表示されているのかも…。
| ・(3)(4)それぞれのパート全体表示 (縮小表示;クリックで図だけ本来のサイズで表示) | |
|---|---|
パート(3) 「やだや〜だ」![]() |
パート(4) 「逃げちゃや〜だよ」![]() |
| ・着目した範囲の時間幅をなるべく揃えて並べたもの (縮小表示;クリックで図だけ本来のサイズで表示) |
|
![]() |
|
※2番目の図は、着目範囲が同じ時間幅になるように、右のパート(4)をフォトレタッチソフトで図形的に横方向に拡大してあります。
WaveSurferでのSpeech Analysisでのピッチに関しては音源がモノラルでないと警告メッセージが出るので、モノラル変換したファイルを用いています。とはいえ、ステレオのまま読み込ませた場合と表示波形は変化が見られなかったので、モノラル化の影響はほとんどないと思います(ちなみに、RH1FFTの場合も、解析は内部で(L+R)/2の平均を利用する設定です)。結果としてピッチは見るべき情報が得られなかったのでステレオのままでも良かったのですが…。
2008-04-30にフルバージョンの結果も追加。
波形とスペクトログラムが示されています。まず波形ですが、細かいことを言わず大まかに見ると(不可逆圧縮を数度経たデータとはいえ)波形の時間変化が似ている様に見えます(但し、フルバージョンのものと比べると、波形がかなり崩れていることが分かります。伴奏の影響(フルバージョンは伴奏混入度が低い)と圧縮の影響が考えられます)。次にスペクトログラムですが、RH1FFTと違って縦軸(周波数軸)がリニアなので、ピークの周波数的な距離が違って見えますが、「や〜」の後半でパート(3)は1kHz付近が濃いまま、パート(4)は1k〜2kHz範囲で分散した形で散らばっているという傾向は同じです(成分がはっきり見えるように解析窓長を初期値の64でなく170に設定しました)。重なっている赤・緑・青・黄のラインは順番に第1・第2・第3・第4フォルマントを示しています。
Page.4に追加した、「や」の概念図を元に、上記結果を眺め直してみました。
約1kHzのラインが「い」に由来するためか、パート(3)(4)とも、いったん500Hz付近まで分散&低減して1kHzへ戻ってくるような遷移として現れます。
Page.1の1. RH1FFTでの解析によれば、母音「あ」に起因する約800Hzのラインもあるハズなのですが(でもパート(4)側は強度が低いけれども)、上記WaveSurferの図でははっきりと分かりません。
パート(3)は「や」の出始めで低域から5〜7kHz辺りの成分が全般的に濃く現れ、急激に下降するはっきりしたラインと、そのまま4〜5kHz付近で継続する少し薄いけれど割とはっきりしたラインへと絞り込まれるのが見えます。対するパート(4)では「や」での出始めの密集の具合が少なく、また3〜5kHzから下降するはっきりしたラインと、3〜3.5〜4kHzにうっすらと遷移するラインが見えます。この3〜4kHz辺りのラインは後半で他の周波数に散らばるためか判然としなくなります。
※判然としなくなる件は、パート(3)のTV版(f特12kHz程度のWMV)とフルバージョン(f特20kHz程度のPCM)の比較結果を考え合わせると、伴奏成分の影響&不可逆圧縮の影響も考慮されるので、あまり強く主張できません。
3〜5kHzから約2kHzへと収束するラインに関して注目すると、パート(3)が200ms程度でゆっくり遷移しているのに対し、パート(4)は60ms程度ですばやく収束しているという違いとして見えます。
後日(2008-04-30)に追加したフルバージョンの結果を見る限り、ここの議論はあまり適切ではない様子。収束の具合は似ています。但し、パート(3)側は約1kHzと約2.4kHzのラインであるのに対して、パート(4)側が約1.4kHzと約2kHzのラインという具合に差があります。
※RH1FFTのソノグラフ(スペクトログラフ)表示も縦軸(周波数軸)をリニア軸に設定できるのですが、縦軸の範囲設定ができないようで0〜20kHz範囲表示となってしまい、肝心な1kHz付近がつぶれて見えなくなってしまうので、対数軸にしています。
※補足:上記制限は、試用版であるため。
※伴奏の影響がどの程度無視できるのかが不明なので、縞々の模様も4本のフォルマントのラインも、信憑性は分かりませんが、多分第1・第2フォルマント辺りは声の成分が見えているのだと思います(自信なし…)。但し、「や」の母音「あ」の成分が出ているなら、ここで表示されている第1フォルマントは高すぎるので、第2フォルマントを拾っているのかもしれません(つまり1つずつ基数がずれているのかも知れません;実際フルバージョンのラインと比べるとそのように思えます。; 2008-04-30 追加)。
本編から拾った「や」の音声を比べてみます。発声によっていろいろ違うのは確かですが、同じ「二ノ宮」と発音している部分の波形をそれぞれ2つずつ提示します。「にのみや」の「み」と「や」は音声の区切りが判断し難いので以下の特性の「や」の前方向は、若干区切りにミスがあるかもしれません。
以下の2点において、違いを見分けられるように感じられます(気のせいかもしれませんが…)。
※フルバージョンの結果と考え合わせると、この議論はあまり適切ではない様子。
敢えて言うなら、3〜5kHzから下降するラインの落ち着く先が、約2kHzか約2.4kHzかという点で区別ができるのかも?ということくらいです。 (2008-04-30 追加)
| No. | フレーズ | ||
|---|---|---|---|
| (1) | 「これでどうです、二ノ宮峻護」 | (2.00秒, MP3) | 北条麗華 (沢城みゆき) |
| (2) | 「二ノ宮峻護」 | (1.67秒, MP3) | |
| (3) | 「私、私、二ノ宮くんになら」 | (2.95秒, MP3) | 月村真由 (門脇舞以) |
| (4) | 「二ノ宮くんに」 | (1.59秒, MP3) | |
上記の波形と時間軸をあわせるために画像ソフトによって横幅を縮めてあります。
パート(3)、パート(4)から抜き出した「や〜」部分のファイルを使用して解析しました。これまでの解析図通り、パート(3)では800Hz付近と1kHz付近が強く現れているのも見えます。また、パート(4)側が1kHzから2.5kHz付近まではっきりとしたフォルマントが現れているのも分かります。
一方で、パート(4)とは分布が違うものの、パート(3)でも1kHzから2.5kHzのあいだに割とピーク成分が出ているのにも気付きます。
上段:パート(3)、下段:パート(4) 縮小表示;クリックで図だけ本来のサイズで表示)
周波数範囲は200Hz〜16kHz