歌声の音程とはどのような仕組みでなにをどのように表示しているのでしょうか

3月15日テレビでTHEカラオケ☆バトルという番組をちょっと見ました。
その番組中に、歌唱中の進行に合わせて、音程?のバーのようなものが表示され、モデル?のバーとの相違を評点?しているような画像が出ていました。横軸は時間軸で間違いはないと思います。縦位置は、音程?Pitch freuency?何かかもしれませんが、何を示しているのか、どのようなスケールかはわかりません。
これは何でしょうか。

回答の条件
  • 1人5回まで
  • 13歳以上
  • 登録:2017/03/16 23:32:32
  • 終了:2017/03/30 23:35:03
id:hathi

質問者から

hathi2017/03/17 10:59:34

仮に音声部の50ms区間毎の周波数を掲示しているようなものであるとすると、その表示周波数の元データは該当50ms区間内音声部データに限定したものから機械的に算出されるのでしょうか。その場合、1秒間は、20区間に分割して、各区間独立に算出されるのでしょうか。
話声でも歌声でも、伸ばした発声でなければ、相当にパワースペクトルは短時間に変化していることが多いと、私は勝手に思い込んでいます。
F0がどの周波数なのか、どの時間継続していたのかを、話声や歌声で自動判定するのはかなり難しいし、かりにそのようなことをすると、テレビで見たようなバーには表示できないのではないかと思って、質問しています。

webに精密採点DX-Gというのがあって、ここに「外した音程の歌唱軌跡が赤色になり、視覚的にわかりやすくなりました」というコメントがあり、この画面にでているのと似ているバーがテレビで見たものです。
http://www.clubdam.com/app/damStation/page.do?type=damstation&source=seimitsusaiten_dx_g&subType=dscontents
この画面の、「音程の歌唱軌跡」とは、なんのことなのでしょうか。
大事な補足ですが、私自身、音痴を自認していて、「zaraodeponkiijaaigakieruのような歌詞をある音程(ミ)で歌唱することがきる」ということは嘘だろうと思ってます。平板に抑揚なく発音できるとも思います。  民族によっても声の音の構造は違っていて、ヒトによっても、ホルマントだけでなく、時間軸でのブレの状況は、複雑で、単純にミの音程といえるものなのか、、、、

ベストアンサー

id:NAPORIN No.2

なぽりん回答回数4697ベストアンサー獲得回数8612017/03/17 11:03:55

ポイント100pt

まずこの質問文からわかることは、音感のない(音痴)人には音程が理解できない。まして絶対音感については存在を信じてさえいない。ということです。
音感について(https://ja.wikipedia.org/wiki/%E7%B5%B6%E5%AF%BE%E9%9F%B3%E6%84%9F 絶対音感がわりと有名なのですが)説明しますと、
声は音であり音にはすべて音程(周波数)があります。
絶対音感と演奏技術があればバイオリンに「ちょっとぉー、やめてよぉー」「ピーポーピーポー」「いらっしゃいませ○○ー○にようこそー」にそっくりな音程をださせることもできます(ちゃんと譜面になってるものが売っています。余談ですが、人声を真似るにはバイオリンのほうがやりやすくピアノでは難しいです。人声とバイオリンはアナログ的つまり連続的な音階移動をすることができますが、ピアノはデジタル的な不連続音階なので、歌詞のないものならうまく真似られることが多いです。 よく聞くメロディー - 身近によく聞く音やメロディをドレミで教えて... - Yahoo!知恵袋)。
ここで、「いらっしゃいませ」すべてをサンプリングせずとも一音ずつで音程も変化していることが人間でも訓練により音感をえていれば聞き取れています。「井伊直弼」の「い」と「い」ははっきりと別の音程をもっており、連続的に移動します。日本人の標準語の発音による「井伊直弼」=「ソミレミレシ」みたいな感じな音程でしゃべっています。
もっと細かく音程をとらえると、こぶしや歌い始めなどで、「1音」という幅のなかでも細かい上下があることを認識して、これを楽しむこともできるようになります。
なお日本語のなかで「っ」「ッ」にだけは音程がないです(短い無音ですので、楽譜でいえば休符にあたります)。パ行やサ行など子音部分だけでは音程が判定できない音も少ないながら存在していますが、多くは子音にも母音にも音程があります(マ行がわかりやすい)。
  
で、このような音程に関する細かい音感を持っているという前提でカラオケバトルをきくと、知らない曲でも皿を洗いながらでも「あ、冒頭部分が(伴奏からみて)音程ズレてしまったから高得点は無理そうだけど、コブシをまわしまくったら挽回できるかな」くらいのことは画面をみなくても判定できましたよ。あの女の人は前回高得点だったんですけどね、選曲とキーの下げがご自身にあってなかったようで残念でした。
 
カラオケの点数判定機械も、たぶん四分の一音やそれ以下の周波数ズレを判定できていますが、表示としては(学校でならう楽譜にそって)二分の一音(シャープやフラットで移動するもの、音感があまりない人にもズレたとわかるもの)の幅を超えてズレたものだけをズレとして赤く表示しているように思います。
また私がテレビでみた感じは完全なリアルタイム判定でもないようです。特に判定の難しい部分は、コンピューターが考えこんでしまっているようで、歌から1/2拍ほどおくれてメロディとのズレの判定をしています。「赤い」ズレ表示がでた時点には音程がちゃんと正確にもどっていたりすることもあります。そういった部分も含めて、音感のない人にはなんだかブラックボックス的に感じるのかもしれません。

他8件のコメントを見る
id:hathi

> F0のあなたの定義はなんですか?
音信号をパワースペクトルでみたときのピークがいくつか見えたときの、一番低周波に位置するピーク周波数。基本周波数とみなせるもの。
このような定義で考えていて、F0は声帯振動で発生しているという説を、一応、そうかもしれないと重要な仮説として考えています。
ただ、音声の場合、長い時間にわたって同じような音が続いていることそのものがあまりなく、発声の始発時と終了時は大きく変化するし、音色(きゃー、おとうさん、あいさんさん、どれみふぁそらし、ほんとう、ほんと、ほんt-などの発声時)の途中では様々な変化をするし、その変化区分点を明確にするのも難しいと思ってます。
単純に自己相関でとはいかないのだろうと思います。
それに、心理的(感覚的)な認識は、物理的なものと一対一の対応がとれないことも多いので、ラウドネス曲線で補正できるというようなものではないのではないかと思ってます。
http://www.asj.gr.jp/qanda/answer/101.html
心理的というか文化的に、言語の認知という面では、瞬時瞬時、刻々をバラバラにした認知はしないので、一連の塊をパタン認識するような方式が使われていて、音程とか高さ、大きさ、抑揚、速度もダイナミックに扱われているのだろうと思っています。
音痴を自認する私の自己弁護、自己正当化に思えてしまいますが、音声に関しては、周波数的高さ、音圧的大きさは、さほど重要な要素にはなってないのではないかと思います。 そういう私でも、歌の上手い下手、歌い方の間違いはわかるので、音階とかとは違うものが重要に思えています。

なお、この質問は、テレビでみた歌い手が歌っていると刻々表示されるバーはどうやって、何を表示しているのかということでしかないです。
この質問は、もうすぐ、時間切れで終了になります。

2017/03/30 22:52:17
id:NAPORIN

人の耳は1つの鼓膜しか使えなくてもオーケストラのような複数の音源の存在をやすやすと聞き分けます。(ナチュラルにフーリエ展開をしているというわけです)
逆にボーカロイド初音ミクのような合成音声は自然な発声をしているように「調教」を加えないと、感情どころかそもそも日本語の歌詞が載っているようにもきこえません(すくなくとも初期バージョンはそうでした、もう10年も前の製品ですね)。幅広く美しい音色を正確に出しているのですが歌詞はピーガーという雑音に近く感じ(る人もいるしそうでない人もいる。作品によってはわたしにもそうきこえました)、ブロゴスフィアではあれは新しい魅力的な音楽だ、とんでもない、と二派にわかれて討論していました。
 
おそらく音色表示グラフはデジタルでも、判定はアナログで、元歌手CDの自然な連続的発声から採譜しつつ歌手の個人癖を減らすなど手加減をして人の耳の判断基準に近づけて調整しているとおもいます。
さて、話は(自分にとっては)最初の部分にもどりました。重複になるので、もう来ません。

2017/03/30 23:36:13

その他の回答(1件)

id:adlib No.1

adlib回答回数1903ベストアンサー獲得回数1132017/03/17 01:02:30

ポイント100pt

 

id:hathi

ありがとうございます。"テレビ番組などで話題の「精密採点DX」がさらにパワーアップして「精密採点DX-G」として誕生!前作同様、歌唱中に「メロディーどおりに歌えているか」、「こぶしやビブラートが使えたか」などをわかりやすく表示し、、、"という説明もあったので、テレビで見たのは「精密採点DX」「精密採点DX-G」なのかもしれません。この説明を読んでも、《実は、私にはわかりませんでした》
他のサイトを見て、どうやら、音の周波数成分の表示に多少関係ありそうなものとして、クロマティックスケール、ダイアトニックスケール、メジャースケールなどがあり、このスケールでの12区分のどの区分に歌声が位置づけられるかをグラフの縦軸にし、時間推移をグラフの横軸に表示させているようだと、今は推定しています。 そうであれば、一見すると階段状にしか表示されないのもわかる気がします。
それで正しいのならグラフの表示がなんであるかを一部は知解できるのですが、連続する周波数を12分して、その区分のどれかに割り当てるのであれば、その区分でどのあたりに歌声が位置しているかは無視され、また0.3~0.6秒間の途中でⅢ区分下限から上限に変動した場合、Ⅲ区分上限からⅣ区分下限に移動した場合、変動幅・変動度合いを周波数比率で見た場合前者が大きく、後者が小さいのに、グラフ上では前者が変化なし、後者が度数で1度上昇したように表示されてしまい、グラフ表示させている目的に外れるのではないかと疑問を感じました。また音名Gの区分に帰属させてしまっても、その歌声は、0.3~0.6秒間において、ほぼ定常状態を保ったもの、周波数的にF0が上下変動したもの、下から上に遷移したもの、上から下に遷移したものなど、聞いていて大部異なるだろうものを、同じ歌声と表示するグラフが、実用実際場面で使われるものなの疑問に思いました。
また、声のように元来複雑な周波数遷移をするものを、どのようにすれば時々刻々の音階定位帰属させるための解析と判定が出来うるものなのか、
http://francais.la.coocan.jp/kokugakuin1206.htm
http://blog.media.teu.ac.jp/2016/07/post-ff87.html

> パソコンの譜面で指定した周波数を、測定するのは簡単です。
任意に指定した譜面で、そのタイミングにある周波数が出ていたかを測定するのは難しくはなさそうに思います。 
《あさいちばんにぱんをたべた》を五人に一人一人発音させて、それを譜面上に音符あるいは音階名、あるいは発音開始からの時間軸上で音楽理論でインターバル表示出来ますか。そもそも2音間という音の区切り位置や長さの決定が難しくないですか。「半音に声を帰属させる」ということそのものに無理があるように思うのですが。

2017/03/17 16:26:37
id:NAPORIN No.2

なぽりん回答回数4697ベストアンサー獲得回数8612017/03/17 11:03:55ここでベストアンサー

ポイント100pt

まずこの質問文からわかることは、音感のない(音痴)人には音程が理解できない。まして絶対音感については存在を信じてさえいない。ということです。
音感について(https://ja.wikipedia.org/wiki/%E7%B5%B6%E5%AF%BE%E9%9F%B3%E6%84%9F 絶対音感がわりと有名なのですが)説明しますと、
声は音であり音にはすべて音程(周波数)があります。
絶対音感と演奏技術があればバイオリンに「ちょっとぉー、やめてよぉー」「ピーポーピーポー」「いらっしゃいませ○○ー○にようこそー」にそっくりな音程をださせることもできます(ちゃんと譜面になってるものが売っています。余談ですが、人声を真似るにはバイオリンのほうがやりやすくピアノでは難しいです。人声とバイオリンはアナログ的つまり連続的な音階移動をすることができますが、ピアノはデジタル的な不連続音階なので、歌詞のないものならうまく真似られることが多いです。 よく聞くメロディー - 身近によく聞く音やメロディをドレミで教えて... - Yahoo!知恵袋)。
ここで、「いらっしゃいませ」すべてをサンプリングせずとも一音ずつで音程も変化していることが人間でも訓練により音感をえていれば聞き取れています。「井伊直弼」の「い」と「い」ははっきりと別の音程をもっており、連続的に移動します。日本人の標準語の発音による「井伊直弼」=「ソミレミレシ」みたいな感じな音程でしゃべっています。
もっと細かく音程をとらえると、こぶしや歌い始めなどで、「1音」という幅のなかでも細かい上下があることを認識して、これを楽しむこともできるようになります。
なお日本語のなかで「っ」「ッ」にだけは音程がないです(短い無音ですので、楽譜でいえば休符にあたります)。パ行やサ行など子音部分だけでは音程が判定できない音も少ないながら存在していますが、多くは子音にも母音にも音程があります(マ行がわかりやすい)。
  
で、このような音程に関する細かい音感を持っているという前提でカラオケバトルをきくと、知らない曲でも皿を洗いながらでも「あ、冒頭部分が(伴奏からみて)音程ズレてしまったから高得点は無理そうだけど、コブシをまわしまくったら挽回できるかな」くらいのことは画面をみなくても判定できましたよ。あの女の人は前回高得点だったんですけどね、選曲とキーの下げがご自身にあってなかったようで残念でした。
 
カラオケの点数判定機械も、たぶん四分の一音やそれ以下の周波数ズレを判定できていますが、表示としては(学校でならう楽譜にそって)二分の一音(シャープやフラットで移動するもの、音感があまりない人にもズレたとわかるもの)の幅を超えてズレたものだけをズレとして赤く表示しているように思います。
また私がテレビでみた感じは完全なリアルタイム判定でもないようです。特に判定の難しい部分は、コンピューターが考えこんでしまっているようで、歌から1/2拍ほどおくれてメロディとのズレの判定をしています。「赤い」ズレ表示がでた時点には音程がちゃんと正確にもどっていたりすることもあります。そういった部分も含めて、音感のない人にはなんだかブラックボックス的に感じるのかもしれません。

他8件のコメントを見る
id:hathi

> F0のあなたの定義はなんですか?
音信号をパワースペクトルでみたときのピークがいくつか見えたときの、一番低周波に位置するピーク周波数。基本周波数とみなせるもの。
このような定義で考えていて、F0は声帯振動で発生しているという説を、一応、そうかもしれないと重要な仮説として考えています。
ただ、音声の場合、長い時間にわたって同じような音が続いていることそのものがあまりなく、発声の始発時と終了時は大きく変化するし、音色(きゃー、おとうさん、あいさんさん、どれみふぁそらし、ほんとう、ほんと、ほんt-などの発声時)の途中では様々な変化をするし、その変化区分点を明確にするのも難しいと思ってます。
単純に自己相関でとはいかないのだろうと思います。
それに、心理的(感覚的)な認識は、物理的なものと一対一の対応がとれないことも多いので、ラウドネス曲線で補正できるというようなものではないのではないかと思ってます。
http://www.asj.gr.jp/qanda/answer/101.html
心理的というか文化的に、言語の認知という面では、瞬時瞬時、刻々をバラバラにした認知はしないので、一連の塊をパタン認識するような方式が使われていて、音程とか高さ、大きさ、抑揚、速度もダイナミックに扱われているのだろうと思っています。
音痴を自認する私の自己弁護、自己正当化に思えてしまいますが、音声に関しては、周波数的高さ、音圧的大きさは、さほど重要な要素にはなってないのではないかと思います。 そういう私でも、歌の上手い下手、歌い方の間違いはわかるので、音階とかとは違うものが重要に思えています。

なお、この質問は、テレビでみた歌い手が歌っていると刻々表示されるバーはどうやって、何を表示しているのかということでしかないです。
この質問は、もうすぐ、時間切れで終了になります。

2017/03/30 22:52:17
id:NAPORIN

人の耳は1つの鼓膜しか使えなくてもオーケストラのような複数の音源の存在をやすやすと聞き分けます。(ナチュラルにフーリエ展開をしているというわけです)
逆にボーカロイド初音ミクのような合成音声は自然な発声をしているように「調教」を加えないと、感情どころかそもそも日本語の歌詞が載っているようにもきこえません(すくなくとも初期バージョンはそうでした、もう10年も前の製品ですね)。幅広く美しい音色を正確に出しているのですが歌詞はピーガーという雑音に近く感じ(る人もいるしそうでない人もいる。作品によってはわたしにもそうきこえました)、ブロゴスフィアではあれは新しい魅力的な音楽だ、とんでもない、と二派にわかれて討論していました。
 
おそらく音色表示グラフはデジタルでも、判定はアナログで、元歌手CDの自然な連続的発声から採譜しつつ歌手の個人癖を減らすなど手加減をして人の耳の判断基準に近づけて調整しているとおもいます。
さて、話は(自分にとっては)最初の部分にもどりました。重複になるので、もう来ません。

2017/03/30 23:36:13
  • id:hathi
    adlibさん コメントありがとうございます。
    たまたま、39℃以上の発熱でダウンしていまして、少し回復し始めたところなので、コメントの意味が上手く読めません。
    1) 「振動数の周期」を知らない ⇒ 「振動数の周期」を知ってる なんでしょうか
    2)ハモれない ⇒ 聴き取りと発声とは別のことでしょう。構音障害や声帯・口蓋などに構造機能上の問題があれば、ハモれないでしょうが、聞き取れてないとは言えないでしょう。
    http://www.koinuno-heya.com/zukan/hearing.html
    3)ヒトは「ドレミ」の周波数Hzが「440, 520, 600」だと理解できます。⇒ 文字としては理解出来るヒトは多いでしょうが、正弦波や合成周期のある音の、周波数を聴覚⇒デジタル数値に変換理解するヒトがいるとは思えません。 《一種のパターンマッチで、色々な形と色合いの絵画や色々な形の線画を、家・木・イヌ・ネコ・ウサギと識別対応させる》のと同じで、色々な音色の音を音階でパターンマッティングさせているのは、周波数Hzが「440, 520, 600」だと理解しているのとは違うように思います。
    4)自然界には、無数の周波数音が存在しています。 しわがれ声の老人と、泣いてばかりの赤ん坊は、それでも対話します。「イナイいないバー」を繰返して、飽きることがないのです ⇒ この段落は、どのような意味をどこにつなぐために書かれているのでしょうか。対話は、目線同士でも、手旗でもできます。 私はやったこともみたこともないので、わかりませんが、ラインとかSNSとかで、対話したりするようです。 イヌと対話しようとしたり、たぶん単なる誤解と思い込みでしょうが飼い猫と対話しているつもりの飼い主は少なくないです。周波数帯域が同じバンドにあるか、少々、大分ずれたり、頻繁に使用周波数帯域を変更したところで、音色(声音)を変えたところで、意思疎通や感情の交流・同調に大きな問題は起きません。
    5)ABC、五十音の組合せに限り、共通のキーワードで意志伝達します。⇒ 音声の発声、聴き取りは文化です。日本語でも、50音ではないです。https://ja.wikipedia.org/wiki/%E6%97%A5%E6%9C%AC%E8%AA%9E%E3%81%AE%E9%9F%B3%E9%9F%BB 育った地域でも、音韻は違います。アクセント(強弱)だけでなく、文字に表記したときの表記記号が同じでも、音韻が違います。
    6)あなたも、いますぐ勇気をもって「ドレミの唄」に挑戦しましょう。⇒ adlibさんのお勧めとはたぶん動機が違うのですが、カラオケに行ってみたいと何度か思い、今も、そう思っています。 また、中高で、音楽の時間に、私は音痴だと深く思いました。 ただ、数人が合唱や斉唱などをしているときに、非常におかしな発声をしているヒトが混じっていると、タイミングや強弱とは別に、一人外れているというのはわかります。 重要に思っていることは、例えば、「上をむういてあるこー」と歌い、それを「お」や「う」だけで歌うことも、口笛で似たように吹き鳴らすこともできるのですが、ある音の次に出している音が「上がった/同じ/下がった」のかがわからないのです。ピアノの鍵盤でリズムを合わせて叩くと、「上がってない/同じでない/下がってない/上がる幅・下がる幅が違っている」とは感じるのですが、声などの連続した2音が周波数の動向としてどういう向きなのかがわからないのです。
    https://staff.aist.go.jp/m.goto/PAPER/IPSJAM67fujihara.pdf
    https://image.slidesharecdn.com/matlab-131127022646-phpapp01/95/matlab-48-638.jpg?cb=1385519324

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

絞り込み :
はてなココの「ともだち」を表示します。
回答リクエストを送信したユーザーはいません