人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

歌声の音程とはどのような仕組みでなにをどのように表示しているのでしょうか
3月15日テレビでTHEカラオケ☆バトルという番組をちょっと見ました。
その番組中に、歌唱中の進行に合わせて、音程?のバーのようなものが表示され、モデル?のバーとの相違を評点?しているような画像が出ていました。横軸は時間軸で間違いはないと思います。縦位置は、音程?Pitch freuency?何かかもしれませんが、何を示しているのか、どのようなスケールかはわかりません。
これは何でしょうか。

●質問者: hathi
●カテゴリ:コンピュータ 科学・統計資料
○ 状態 :回答受付中
└ 回答数 : 2/2件

▽最新の回答へ

質問者から

仮に音声部の50ms区間毎の周波数を掲示しているようなものであるとすると、その表示周波数の元データは該当50ms区間内音声部データに限定したものから機械的に算出されるのでしょうか。その場合、1秒間は、20区間に分割して、各区間独立に算出されるのでしょうか。
話声でも歌声でも、伸ばした発声でなければ、相当にパワースペクトルは短時間に変化していることが多いと、私は勝手に思い込んでいます。
F0がどの周波数なのか、どの時間継続していたのかを、話声や歌声で自動判定するのはかなり難しいし、かりにそのようなことをすると、テレビで見たようなバーには表示できないのではないかと思って、質問しています。

webに精密採点DX-Gというのがあって、ここに「外した音程の歌唱軌跡が赤色になり、視覚的にわかりやすくなりました」というコメントがあり、この画面にでているのと似ているバーがテレビで見たものです。
http://www.clubdam.com/app/damStation/page.do?type=damstation&source=seimitsusaiten_dx_g&subType=dscontents
この画面の、「音程の歌唱軌跡」とは、なんのことなのでしょうか。
大事な補足ですが、私自身、音痴を自認していて、「zaraodeponkiijaaigakieruのような歌詞をある音程(ミ)で歌唱することがきる」ということは嘘だろうと思ってます。平板に抑揚なく発音できるとも思います。 民族によっても声の音の構造は違っていて、ヒトによっても、ホルマントだけでなく、時間軸でのブレの状況は、複雑で、単純にミの音程といえるものなのか、、、、


1 ● adlib


…… 攻略用ウェブサービス精密集計DXの作者がLIVE DAMの「精密採点DX」
で高得点を取るコツ・攻略法を詳しく解説したものです。
https://clubdam.info/static/advice.html
精密採点DXのコツ ? カラオケで高得点を取るために ?

音楽は、リズム・旋律・和声の三要素から成りますが、均一な拍子・
正確な音程・譜面どおりの和音による、演奏・演唱は「チィチィパッパ」
みたいだと酷評されます。本来の即興性が失われるからでしょう。

三つの要素が、絶妙のバランスで絡みあうのが、名演・名唱なのです。
つまり、明らかなオンチは駄目ですが、緩急自在のテンポに、危うい
コブシ、意外な変化が、音楽そのものの生命なのです。

自他共に容認されるオンチの大歌手で、浪曲出身の村田 英雄、東北
なまりの千 昌夫などは、これらの測定器では散々の結果です。さらに、
美空 ひばりに至っては、誰もが引込まれる迷調子のセリフまわしです。

要約すると、ふだんNHKニュースのように話す人は、やがて友人が
離れていく可能性もあります。もちろん《王将》や《北国の春》みたい
に、いつもの調子っぱずれも困りものですが。

補足を読むと(かなり意図を取違えたらしく)一言追記しておきます。
音楽の才能が、たとえば絶対音感にある、というのは誤解です。
パソコンの譜面で指定した周波数を、測定するのは簡単です。

われわれは、すでに温度や湿度、重量に関する計測器を発明したので、
医師たちは聴診器や脈拍や血圧計から手を引いてしまいました。
そのかわり、どことなく元気がないという変化に鈍感になったのです。


hathiさんのコメント
ありがとうございます。"テレビ番組などで話題の「精密採点DX」がさらにパワーアップして「精密採点DX-G」として誕生!前作同様、歌唱中に「メロディーどおりに歌えているか」、「こぶしやビブラートが使えたか」などをわかりやすく表示し、、、"という説明もあったので、テレビで見たのは「精密採点DX」「精密採点DX-G」なのかもしれません。この説明を読んでも、《実は、私にはわかりませんでした》 他のサイトを見て、どうやら、音の周波数成分の表示に多少関係ありそうなものとして、クロマティックスケール、ダイアトニックスケール、メジャースケールなどがあり、このスケールでの12区分のどの区分に歌声が位置づけられるかをグラフの縦軸にし、時間推移をグラフの横軸に表示させているようだと、今は推定しています。 そうであれば、一見すると階段状にしか表示されないのもわかる気がします。 それで正しいのならグラフの表示がなんであるかを一部は知解できるのですが、連続する周波数を12分して、その区分のどれかに割り当てるのであれば、その区分でどのあたりに歌声が位置しているかは無視され、また0.3~0.6秒間の途中で?区分下限から上限に変動した場合、?区分上限から?区分下限に移動した場合、変動幅・変動度合いを周波数比率で見た場合前者が大きく、後者が小さいのに、グラフ上では前者が変化なし、後者が度数で1度上昇したように表示されてしまい、グラフ表示させている目的に外れるのではないかと疑問を感じました。また音名Gの区分に帰属させてしまっても、その歌声は、0.3~0.6秒間において、ほぼ定常状態を保ったもの、周波数的にF0が上下変動したもの、下から上に遷移したもの、上から下に遷移したものなど、聞いていて大部異なるだろうものを、同じ歌声と表示するグラフが、実用実際場面で使われるものなの疑問に思いました。 また、声のように元来複雑な周波数遷移をするものを、どのようにすれば時々刻々の音階定位帰属させるための解析と判定が出来うるものなのか、 http://francais.la.coocan.jp/kokugakuin1206.htm http://blog.media.teu.ac.jp/2016/07/post-ff87.html > パソコンの譜面で指定した周波数を、測定するのは簡単です。 任意に指定した譜面で、そのタイミングにある周波数が出ていたかを測定するのは難しくはなさそうに思います。 《あさいちばんにぱんをたべた》を五人に一人一人発音させて、それを譜面上に音符あるいは音階名、あるいは発音開始からの時間軸上で音楽理論でインターバル表示出来ますか。そもそも2音間という音の区切り位置や長さの決定が難しくないですか。「半音に声を帰属させる」ということそのものに無理があるように思うのですが。

2 ● なぽりん

まずこの質問文からわかることは、音感のない(音痴)人には音程が理解できない。まして絶対音感については存在を信じてさえいない。ということです。
音感について(https://ja.wikipedia.org/wiki/%E7%B5%B6%E5%AF%BE%E9%9F%B3%E6%84%9F 絶対音感がわりと有名なのですが)説明しますと、
声は音であり音にはすべて音程(周波数)があります。
絶対音感と演奏技術があればバイオリンに「ちょっとぉー、やめてよぉー」「ピーポーピーポー」「いらっしゃいませ○○ー○にようこそー」にそっくりな音程をださせることもできます(ちゃんと譜面になってるものが売っています。余談ですが、人声を真似るにはバイオリンのほうがやりやすくピアノでは難しいです。人声とバイオリンはアナログ的つまり連続的な音階移動をすることができますが、ピアノはデジタル的な不連続音階なので、歌詞のないものならうまく真似られることが多いです。 よく聞くメロディー - 身近によく聞く音やメロディをドレミで教えて... - Yahoo!知恵袋)。
ここで、「いらっしゃいませ」すべてをサンプリングせずとも一音ずつで音程も変化していることが人間でも訓練により音感をえていれば聞き取れています。「井伊直弼」の「い」と「い」ははっきりと別の音程をもっており、連続的に移動します。日本人の標準語の発音による「井伊直弼」=「ソミレミレシ」みたいな感じな音程でしゃべっています。
もっと細かく音程をとらえると、こぶしや歌い始めなどで、「1音」という幅のなかでも細かい上下があることを認識して、これを楽しむこともできるようになります。
なお日本語のなかで「っ」「ッ」にだけは音程がないです(短い無音ですので、楽譜でいえば休符にあたります)。パ行やサ行など子音部分だけでは音程が判定できない音も少ないながら存在していますが、多くは子音にも母音にも音程があります(マ行がわかりやすい)。

で、このような音程に関する細かい音感を持っているという前提でカラオケバトルをきくと、知らない曲でも皿を洗いながらでも「あ、冒頭部分が(伴奏からみて)音程ズレてしまったから高得点は無理そうだけど、コブシをまわしまくったら挽回できるかな」くらいのことは画面をみなくても判定できましたよ。あの女の人は前回高得点だったんですけどね、選曲とキーの下げがご自身にあってなかったようで残念でした。

カラオケの点数判定機械も、たぶん四分の一音やそれ以下の周波数ズレを判定できていますが、表示としては(学校でならう楽譜にそって)二分の一音(シャープやフラットで移動するもの、音感があまりない人にもズレたとわかるもの)の幅を超えてズレたものだけをズレとして赤く表示しているように思います。
また私がテレビでみた感じは完全なリアルタイム判定でもないようです。特に判定の難しい部分は、コンピューターが考えこんでしまっているようで、歌から1/2拍ほどおくれてメロディとのズレの判定をしています。「赤い」ズレ表示がでた時点には音程がちゃんと正確にもどっていたりすることもあります。そういった部分も含めて、音感のない人にはなんだかブラックボックス的に感じるのかもしれません。


hathiさんのコメント
ありがとうございます。 この下の部分が一番気になるところです。 > 私がテレビでみた感じは完全なリアルタイム判定でもないようです。特に判定の難しい部分は、コンピューターが考えこんでしまっているようで、歌から1/2拍ほどおくれてメロディとのズレの判定をしています。「赤い」ズレ表示がでた時点には音程がちゃんと正確にもどっていたりすることもあります。 ヒトが音声で話された言葉を聴き取る場合、「単純に時々刻々音を固定し語を固定し意味を固定して、次に進む」ようなことはしません。「hagai」では、「歯が痛い」「羽交い締め」「葉が良い」である場合も、後続で「破壊」と認知する その他もろもろ http://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q1076208940 文字や発音記号で一意的に決定出来るほど、発音は一定一様ではなく、語は連続させて前後から判断しないと、文字に変換できるような意味概念には固定出来ません。 【ひょっとして、歌声の音程と一般に言われているものは、音響的な解析だけで決まるものではない】のでは、と、今、思ってます。 この「精密採点DX-G」なるものは、【ひょっとして、「あ⇒へ」、「か⇒と」、「ば⇒ぽ」、「い⇒あ」、「ら⇒い」などのように音素を暗号表のようなものに基づいて変換した音で発音して歌った場合に、音程が狂っていると評定してしまう】【精密採点DX-Gで、音程表示がぴったりとなっているものを歌声を録音して、選曲した曲とは異なる歌曲の表示で、その録音歌声をライン入力させた場合には、前の録音時の音程表示バーにはならない】という音響的な解析とは言えないものではないのでしょうか。 だとすると、(妄想に重ねても、意味はないですが) 歌詞のある歌声の音程とは、なんのことことナノでしょう。 絶対音感を持っているヒト(A,B,C,D,E)が、声(あ、い、う、え、だ、な、ぱ、しゅ、ら、n)の同じ音源を聞いて、各音に関して、5人共が同じ音階を指定したとしても、それは、(あ、い、う、え、だ、な、ぱ、しゅ、ら、n)の音の周波数面で見た高さを示している証拠にはならないと思います。 《二分の一音(シャープやフラットで移動するもの、音感があまりない人にもズレたとわかるもの)の幅を超えてズレたものだけをズレとして赤く表示している》というのは、音階バーの表示状況(段階表示になっている)から容易に推定出来ることですが、そのズレの評価の対象にしているのは受信している周波数成分の状況ではないのだと思えます。

なぽりんさんのコメント
いいえ、あきらかに周波数ですよ。また、子音も波形で解析できるようになっています。 今ちょうど高校の物理の波(正弦波?干渉、回析、屈折といった部分)を勉強していますが、音は波であり周波数があります。これはもうどうしても動かせない事実です。 (引用) >>「絶対音感を持っているヒト(A,B,C,D,E)が、声(あ、い、う、え、だ、な、ぱ、しゅ、ら、n)の同じ音源を聞いて、各音に関して、5人共が同じ音階を指定したとしても、それは、(あ、い、う、え、だ、な、ぱ、しゅ、ら、n)の音の周波数面で見た高さを示している証拠にはならないと思います。」 (引用おわり) いいえ、ちがいますよ。 これは例題の「あいうえだなぱしゅらん」という音が意味を持たないため、定まった音階を決められていないからです。この情報だけを歌手でも作曲家でもない人に与えたら、おそらくお経のように一定の音、「ラ」「ラ」「ラ」「ラ」「ラ」「ラ」という連続として発音する人が多いとおもいます(あるいは、あいうえ、の部分だけ、小学校でならう読み上げのようにラシシソとやるかもしれません。小学校で読み上げるあいうえお、にはラシシソラ、のようなわずかに上下する音程が乗っています。)。しかし「あ」はミで1拍、「イ」はドで1拍、次は休符で・・というように指定していけばちゃんとオペラ歌手が感情を込めて歌えるレベルの「曲」「歌」にすることもできますよ。 洋楽やアフリカの音楽を楽しむ人も、歌詞のないクラシックを鼻歌で歌う人も居ますからね。

なぽりんさんのコメント
あと、私は百人一首競技かるたの有段者の話を聞いたことがあるのですが、「いまは(わ)ただ」と「いまこんと」の「ま」の音程や長さをわずかに違えて読む公認読が多いので、「ま」の次によまれる決まり字が「は(わ)」か「こ」かを高確率で予測できる人がいます。 人の耳ってすごいんですよ。

なぽりんさんのコメント
http://www.enjoy.ne.jp/~k-ichikawa/kachou_ryouiki.html 聞き取れないほど低い音でも、1秒に20回の波です。普通に話す人声のレベルだと一秒間におよそ500回の波を耳がうけとっています。あなたが3秒間「アー」というと、およそ1500回の波を発しています。それが鼓膜を震わす振動速度(=周波数)が音の高さです。 波を勉強すると、なぜ救急車のサイレン音が近づくとき高く、遠ざかるとき低くなるのか(これをドップラー効果というのですが)理由が理解できて面白いですよ。 http://xn--eckm6ioexbw403a97yg.com/10hajimeni/tunertuning.html バイオリンなど、弦が緩みやすい楽器は最初にチューニングマシンや音叉で調弦し、音の高さをあわせます。 もちろん人耳の絶対音感でやっても音楽にすることはできます。 http://wakariyasui.sakura.ne.jp/p/wave/hadou/hadou.html 質問者にとっては音はすべて、ここにあるパルス波のようなものだから、「次の山がこないかぎり振動数である周波数がみわけられないはず」とおもっているのかもしれません。しかしパルス波であっても人の耳で周波数(音程)をききわけることはでき・・ます! たとえばおまつりの大太鼓をおもいだしてください。またガラスのチンとぶつかる音。音叉をたたく音。どれも余韻をのぞけば基本は短いパルス波ですが耳は最初に耳に入った瞬間からその音色の違いをちゃんと聞き分けています。 ただしすごく大きな太鼓とか雷の前触れのゴロゴロ音、モスキート音などは可聴域ぎりぎりなので、人によっては音としてとらえるのではなく体感振動としてのみ伝わる場合もあります。でも機械なら1音でもリアルタイムで正確に聞き分けられますよ。(でも重なった波形のリアルタイムフーリエ展開まではまだできてないとおもいますが、カラオケ判定機が伴奏をどうやって除いているのかが説明しているうちにちょっと気になってきました)
関連質問

●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ