歌声の音程とはどのような仕組みでなにをどのように表示しているのでしょうか

Question

hathi

88

83もっと見る

200pt

コンピュータ科学・統計資料

歌声の音程とはどのような仕組みでなにをどのように表示しているのでしょうか

３月１５日テレビでTHEカラオケ☆バトルという番組をちょっと見ました。
その番組中に、歌唱中の進行に合わせて、音程？のバーのようなものが表示され、モデル？のバーとの相違を評点？しているような画像が出ていました。横軸は時間軸で間違いはないと思います。縦位置は、音程？Pitch freuency?何かかもしれませんが、何を示しているのか、どのようなスケールかはわかりません。
これは何でしょうか。

回答の条件

1人5回まで

登録：2017/03/16 23:32:32
終了：2017/03/30 23:35:03

※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

質問者から

hathi2017/03/17 10:59:34

仮に音声部の50ms区間毎の周波数を掲示しているようなものであるとすると、その表示周波数の元データは該当50ms区間内音声部データに限定したものから機械的に算出されるのでしょうか。その場合、1秒間は、20区間に分割して、各区間独立に算出されるのでしょうか。

話声でも歌声でも、伸ばした発声でなければ、相当にパワースペクトルは短時間に変化していることが多いと、私は勝手に思い込んでいます。

F0がどの周波数なのか、どの時間継続していたのかを、話声や歌声で自動判定するのはかなり難しいし、かりにそのようなことをすると、テレビで見たようなバーには表示できないのではないかと思って、質問しています。

webに精密採点DX-Gというのがあって、ここに｢外した音程の歌唱軌跡が赤色になり、視覚的にわかりやすくなりました｣というコメントがあり、この画面にでているのと似ているバーがテレビで見たものです。

http://www.clubdam.com/app/damStation/page.do?type=damstation&so...

この画面の、｢音程の歌唱軌跡｣とは、なんのことなのでしょうか。

大事な補足ですが、私自身、音痴を自認していて、｢zaraodeponkiijaaigakieruのような歌詞をある音程（ミ）で歌唱することがきる｣ということは嘘だろうと思ってます。平板に抑揚なく発音できるとも思います。　　民族によっても声の音の構造は違っていて、ヒトによっても、ホルマントだけでなく、時間軸でのブレの状況は、複雑で、単純にミの音程といえるものなのか、、、、

規約違反として通知

No.1

adlib31622432017/03/17 01:02:30

100pt

ありがとうございます。"テレビ番組などで話題の「精密採点DX」がさらにパワーアップして「精密採点DX-G」として誕生！前作同様、歌唱中に｢メロディーどおりに歌えているか｣、｢こぶしやビブラートが使えたか｣などをわかりやすく表示し、、、"という説明もあったので、テレビで見たのは｢精密採点DX｣｢精密採点DX-G｣なのかもしれません。この説明を読んでも、《実は、私にはわかりませんでした》
他のサイトを見て、どうやら、音の周波数成分の表示に多少関係ありそうなものとして、クロマティックスケール、ダイアトニックスケール、メジャースケールなどがあり、このスケールでの12区分のどの区分に歌声が位置づけられるかをグラフの縦軸にし、時間推移をグラフの横軸に表示させているようだと、今は推定しています。　そうであれば、一見すると階段状にしか表示されないのもわかる気がします。
それで正しいのならグラフの表示がなんであるかを一部は知解できるのですが、連続する周波数を12分して、その区分のどれかに割り当てるのであれば、その区分でどのあたりに歌声が位置しているかは無視され、また0.3~0.6秒間の途中でⅢ区分下限から上限に変動した場合、Ⅲ区分上限からⅣ区分下限に移動した場合、変動幅・変動度合いを周波数比率で見た場合前者が大きく、後者が小さいのに、グラフ上では前者が変化なし、後者が度数で１度上昇したように表示されてしまい、グラフ表示させている目的に外れるのではないかと疑問を感じました。また音名Ｇの区分に帰属させてしまっても、その歌声は、0.3~0.6秒間において、ほぼ定常状態を保ったもの、周波数的にF0が上下変動したもの、下から上に遷移したもの、上から下に遷移したものなど、聞いていて大部異なるだろうものを、同じ歌声と表示するグラフが、実用実際場面で使われるものなの疑問に思いました。
また、声のように元来複雑な周波数遷移をするものを、どのようにすれば時々刻々の音階定位帰属させるための解析と判定が出来うるものなのか、
http://francais.la.coocan.jp/kokugakuin1206.htm
http://blog.media.teu.ac.jp/2016/07/post-ff87.html

＞　パソコンの譜面で指定した周波数を、測定するのは簡単です。
任意に指定した譜面で、そのタイミングにある周波数が出ていたかを測定するのは難しくはなさそうに思います。　
《あさいちばんにぱんをたべた》を五人に一人一人発音させて、それを譜面上に音符あるいは音階名、あるいは発音開始からの時間軸上で音楽理論でインターバル表示出来ますか。そもそも2音間という音の区切り位置や長さの決定が難しくないですか。｢半音に声を帰属させる｣ということそのものに無理があるように思うのですが。

2017/03/17 16:26:37

hathi 2017/03/21 22:49:51

adlibさん　コメントありがとうございます。
たまたま、39℃以上の発熱でダウンしていまして、少し回復し始めたところなので、コメントの意味が上手く読めません。
１) 「振動数の周期」を知らない ⇒　「振動数の周期」を知ってる　なんでしょうか
２）ハモれない　⇒　聴き取りと発声とは別のことでしょう。構音障害や声帯・口蓋などに構造機能上の問題があれば、ハモれないでしょうが、聞き取れてないとは言えないでしょう。
http://www.koinuno-heya.com/zukan/hearing.html
３）ヒトは「ドレミ」の周波数Hzが「440, 520, 600」だと理解できます。⇒　文字としては理解出来るヒトは多いでしょうが、正弦波や合成周期のある音の、周波数を聴覚⇒デジタル数値に変換理解するヒトがいるとは思えません。　《一種のパターンマッチで、色々な形と色合いの絵画や色々な形の線画を、家・木・イヌ・ネコ・ウサギと識別対応させる》のと同じで、色々な音色の音を音階でパターンマッティングさせているのは、周波数Hzが「440, 520, 600」だと理解しているのとは違うように思います。
４）自然界には、無数の周波数音が存在しています。　しわがれ声の老人と、泣いてばかりの赤ん坊は、それでも対話します。「イナイいないバー」を繰返して、飽きることがないのです　⇒　この段落は、どのような意味をどこにつなぐために書かれているのでしょうか。対話は、目線同士でも、手旗でもできます。　私はやったこともみたこともないので、わかりませんが、ラインとかＳＮＳとかで、対話したりするようです。　イヌと対話しようとしたり、たぶん単なる誤解と思い込みでしょうが飼い猫と対話しているつもりの飼い主は少なくないです。周波数帯域が同じバンドにあるか、少々、大分ずれたり、頻繁に使用周波数帯域を変更したところで、音色(声音)を変えたところで、意思疎通や感情の交流・同調に大きな問題は起きません。
５）ＡＢＣ、五十音の組合せに限り、共通のキーワードで意志伝達します。⇒　音声の発声、聴き取りは文化です。日本語でも、50音ではないです。https://ja.wikipedia.org/wiki/%E6%97%A5%E6%9C%AC%E8%AA%9E%E3%81%AE%E9%9F%B3%E9%9F%BB　育った地域でも、音韻は違います。アクセント(強弱)だけでなく、文字に表記したときの表記記号が同じでも、音韻が違います。
６）あなたも、いますぐ勇気をもって「ドレミの唄」に挑戦しましょう。⇒　adlibさんのお勧めとはたぶん動機が違うのですが、カラオケに行ってみたいと何度か思い、今も、そう思っています。　また、中高で、音楽の時間に、私は音痴だと深く思いました。　ただ、数人が合唱や斉唱などをしているときに、非常におかしな発声をしているヒトが混じっていると、タイミングや強弱とは別に、一人外れているというのはわかります。　重要に思っていることは、例えば、｢上をむういてあるこー｣と歌い、それを｢お｣や｢う｣だけで歌うことも、口笛で似たように吹き鳴らすこともできるのですが、ある音の次に出している音が｢上がった/同じ/下がった｣のかがわからないのです。ピアノの鍵盤でリズムを合わせて叩くと、｢上がってない/同じでない/下がってない/上がる幅・下がる幅が違っている｣とは感じるのですが、声などの連続した2音が周波数の動向としてどういう向きなのかがわからないのです。
https://staff.aist.go.jp/m.goto/PAPER/IPSJAM67fujihara.pdf
https://image.slidesharecdn.com/matlab-131127022646-phpapp01/95/matlab-48-638.jpg?cb=1385519324

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

リクエスト送信済

回答リクエストを送信したユーザーはいません

なぽりん · Accepted Answer · 2017-03-17T11:03:55+09:00

No.2

なぽりん48949092017/03/17 11:03:55

100pt

まずこの質問文からわかることは、音感のない（音痴）人には音程が理解できない。まして絶対音感については存在を信じてさえいない。ということです。
音感について（https://ja.wikipedia.org/wiki/%E7%B5%B6%E5%AF%BE%E9%9F%B3%E6%84%9F　絶対音感がわりと有名なのですが）説明しますと、
声は音であり音にはすべて音程（周波数）があります。
絶対音感と演奏技術があればバイオリンに「ちょっとぉー、やめてよぉー」「ピーポーピーポー」「いらっしゃいませ○○ー○にようこそー」にそっくりな音程をださせることもできます（ちゃんと譜面になってるものが売っています。余談ですが、人声を真似るにはバイオリンのほうがやりやすくピアノでは難しいです。人声とバイオリンはアナログ的つまり連続的な音階移動をすることができますが、ピアノはデジタル的な不連続音階なので、歌詞のないものならうまく真似られることが多いです。　よく聞くメロディー - 身近によく聞く音やメロディをドレミで教えて... - Yahoo!知恵袋）。
ここで、「いらっしゃいませ」すべてをサンプリングせずとも一音ずつで音程も変化していることが人間でも訓練により音感をえていれば聞き取れています。「井伊直弼」の「い」と「い」ははっきりと別の音程をもっており、連続的に移動します。日本人の標準語の発音による「井伊直弼」＝「ソミレミレシ」みたいな感じな音程でしゃべっています。
もっと細かく音程をとらえると、こぶしや歌い始めなどで、「１音」という幅のなかでも細かい上下があることを認識して、これを楽しむこともできるようになります。
なお日本語のなかで「っ」「ッ」にだけは音程がないです（短い無音ですので、楽譜でいえば休符にあたります）。パ行やサ行など子音部分だけでは音程が判定できない音も少ないながら存在していますが、多くは子音にも母音にも音程があります（マ行がわかりやすい）。
　　
で、このような音程に関する細かい音感を持っているという前提でカラオケバトルをきくと、知らない曲でも皿を洗いながらでも「あ、冒頭部分が（伴奏からみて）音程ズレてしまったから高得点は無理そうだけど、コブシをまわしまくったら挽回できるかな」くらいのことは画面をみなくても判定できましたよ。あの女の人は前回高得点だったんですけどね、選曲とキーの下げがご自身にあってなかったようで残念でした。
　
カラオケの点数判定機械も、たぶん四分の一音やそれ以下の周波数ズレを判定できていますが、表示としては（学校でならう楽譜にそって）二分の一音（シャープやフラットで移動するもの、音感があまりない人にもズレたとわかるもの）の幅を超えてズレたものだけをズレとして赤く表示しているように思います。
また私がテレビでみた感じは完全なリアルタイム判定でもないようです。特に判定の難しい部分は、コンピューターが考えこんでしまっているようで、歌から１／２拍ほどおくれてメロディとのズレの判定をしています。「赤い」ズレ表示がでた時点には音程がちゃんと正確にもどっていたりすることもあります。そういった部分も含めて、音感のない人にはなんだかブラックボックス的に感じるのかもしれません。

他11件のコメントを見る

ありがとうございます。
この下の部分が一番気になるところです。
＞　私がテレビでみた感じは完全なリアルタイム判定でもないようです。特に判定の難しい部分は、コンピューターが考えこんでしまっているようで、歌から１／２拍ほどおくれてメロディとのズレの判定をしています。「赤い」ズレ表示がでた時点には音程がちゃんと正確にもどっていたりすることもあります。

ヒトが音声で話された言葉を聴き取る場合、｢単純に時々刻々音を固定し語を固定し意味を固定して、次に進む｣ようなことはしません。｢hagai｣では、｢歯が痛い｣｢羽交い締め｣｢葉が良い｣である場合も、後続で｢破壊｣と認知する
その他もろもろ
http://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q1076208940
文字や発音記号で一意的に決定出来るほど、発音は一定一様ではなく、語は連続させて前後から判断しないと、文字に変換できるような意味概念には固定出来ません。
【ひょっとして、歌声の音程と一般に言われているものは、音響的な解析だけで決まるものではない】のでは、と、今、思ってます。
この｢精密採点DX-G｣なるものは、【ひょっとして、｢あ⇒へ｣、｢か⇒と｣、｢ば⇒ぽ｣、｢い⇒あ｣、｢ら⇒い｣などのように音素を暗号表のようなものに基づいて変換した音で発音して歌った場合に、音程が狂っていると評定してしまう】【精密採点DX-Gで、音程表示がぴったりとなっているものを歌声を録音して、選曲した曲とは異なる歌曲の表示で、その録音歌声をライン入力させた場合には、前の録音時の音程表示バーにはならない】という音響的な解析とは言えないものではないのでしょうか。
だとすると、（妄想に重ねても、意味はないですが）　歌詞のある歌声の音程とは、なんのことことナノでしょう。
絶対音感を持っているヒト（A,B,C,D,E）が、声（あ、い、う、え、だ、な、ぱ、しゅ、ら、ｎ）の同じ音源を聞いて、各音に関して、5人共が同じ音階を指定したとしても、それは、（あ、い、う、え、だ、な、ぱ、しゅ、ら、ｎ）の音の周波数面で見た高さを示している証拠にはならないと思います。

《二分の一音（シャープやフラットで移動するもの、音感があまりない人にもズレたとわかるもの）の幅を超えてズレたものだけをズレとして赤く表示している》というのは、音階バーの表示状況(段階表示になっている)から容易に推定出来ることですが、そのズレの評価の対象にしているのは受信している周波数成分の状況ではないのだと思えます。

2017/03/21 23:48:44

いいえ、あきらかに周波数ですよ。また、子音も波形で解析できるようになっています。
今ちょうど高校の物理の波（正弦波～干渉、回析、屈折といった部分）を勉強していますが、音は波であり周波数があります。これはもうどうしても動かせない事実です。

（引用）
＞＞「絶対音感を持っているヒト（A,B,C,D,E）が、声（あ、い、う、え、だ、な、ぱ、しゅ、ら、ｎ）の同じ音源を聞いて、各音に関して、5人共が同じ音階を指定したとしても、それは、（あ、い、う、え、だ、な、ぱ、しゅ、ら、ｎ）の音の周波数面で見た高さを示している証拠にはならないと思います。」
（引用おわり）

いいえ、ちがいますよ。
これは例題の「あいうえだなぱしゅらん」という音が意味を持たないため、定まった音階を決められていないからです。この情報だけを歌手でも作曲家でもない人に与えたら、おそらくお経のように一定の音、「ラ」「ラ」「ラ」「ラ」「ラ」「ラ」という連続として発音する人が多いとおもいます（あるいは、あいうえ、の部分だけ、小学校でならう読み上げのようにラシシソとやるかもしれません。小学校で読み上げるあいうえお、にはラシシソラ、のようなわずかに上下する音程が乗っています。）。しかし「あ」はミで１拍、「イ」はドで１拍、次は休符で・・というように指定していけばちゃんとオペラ歌手が感情を込めて歌えるレベルの「曲」「歌」にすることもできますよ。
洋楽やアフリカの音楽を楽しむ人も、歌詞のないクラシックを鼻歌で歌う人も居ますからね。

2017/03/22 06:58:59

あと、私は百人一首競技かるたの有段者の話を聞いたことがあるのですが、「いまは（わ）ただ」と「いまこんと」の「ま」の音程や長さをわずかに違えて読む公認読が多いので、「ま」の次によまれる決まり字が「は（わ）」か「こ」かを高確率で予測できる人がいます。
人の耳ってすごいんですよ。

2017/03/22 07:01:50

http://www.enjoy.ne.jp/~k-ichikawa/kachou_ryouiki.html
聞き取れないほど低い音でも、１秒に２０回の波です。普通に話す人声のレベルだと一秒間におよそ５００回の波を耳がうけとっています。あなたが３秒間「アー」というと、およそ１５００回の波を発しています。それが鼓膜を震わす振動速度（＝周波数）が音の高さです。
波を勉強すると、なぜ救急車のサイレン音が近づくとき高く、遠ざかるとき低くなるのか（これをドップラー効果というのですが）理由が理解できて面白いですよ。

http://xn--eckm6ioexbw403a97yg.com/10hajimeni/tunertuning.html
バイオリンなど、弦が緩みやすい楽器は最初にチューニングマシンや音叉で調弦し、音の高さをあわせます。
もちろん人耳の絶対音感でやっても音楽にすることはできます。

http://wakariyasui.sakura.ne.jp/p/wave/hadou/hadou.html　質問者にとっては音はすべて、ここにあるパルス波のようなものだから、「次の山がこないかぎり振動数である周波数がみわけられないはず」とおもっているのかもしれません。しかしパルス波であっても人の耳で周波数（音程）をききわけることはでき・・ます！　たとえばおまつりの大太鼓をおもいだしてください。またガラスのチンとぶつかる音。音叉をたたく音。どれも余韻をのぞけば基本は短いパルス波ですが耳は最初に耳に入った瞬間からその音色の違いをちゃんと聞き分けています。
ただしすごく大きな太鼓とか雷の前触れのゴロゴロ音、モスキート音などは可聴域ぎりぎりなので、人によっては音としてとらえるのではなく体感振動としてのみ伝わる場合もあります。でも機械なら１音でもリアルタイムで正確に聞き分けられますよ。（でも重なった波形のリアルタイムフーリエ展開まではまだできてないとおもいますが、カラオケ判定機が伴奏をどうやって除いているのかが説明しているうちにちょっと気になってきました）

2017/03/24 11:58:37

質問に対する回答受付期間も終了目前ですし、この質問は、私には現時点ではわからないまま終了とさせていただきます。
ご協力ありがとうございました。
伴奏の除去については、たぶん、ボーカルマイク入力だけを受け付けるようにしているのだと思います。
https://clubdam.info/static/advice.html
｢演奏区間内でマイクの距離を変化させることで容易に高評価が得られます．例えば，演奏区間内で最も高い数音だけマイクを近づけ，それ以外の部分ではマイクを離します．マイクを急に離すと上手く音が拾われず，音程が下がることがあるため，ゆっくりと離します．｣　たぶん入力信号の自動調整機能があってその影響も音程判定にまで及ぶようです。
次の説明も興味深いです。｢音程バーは半音単位での表示ですが，実はさらに細かく見られています．正しい音程と比べて -1/8 半音～ +1/8 半音の範囲に収まっていれば「完璧に合っている」と判定されます．1ページのうち，一部だけ 4/8 = 1/2 半音以上音を外す（＝音程バーからはみ出す）のは，ほとんど減点されません．単なる「ミス」と判定されるためです．一方，多くの部分で 1/8 半音以上音を外すのは，それが 2/8 半音以下であっても，大きな減点に繋がります．1/8 半音単位の音程のズレは，音程バー上を流れる「小さな青い星」を見て判別することができます．自分が出している音程が青い星で表示されており，その中心が音程バーのちょうど上端にあるとき，音程が完璧に合っていると判定されています．1ページ歌い終える直前に流れる星は，そのページ（の途中までと前のページの途中から）の音程正確率｣　たぶんある単位時間ごとの音程判定をして、判定総数の中での正確率をクラス分けしているのだと思われます。
しかし、そのある単位時間の音程の認識をどうやっているのかが、わかりません。音声・歌声だけを入力にした場合、音色が問題です。母音、子音、摩擦音、鼻子音、破裂音があり、遷移も問題です。WaveSuferでいくつか歌手やうまいヒトの声をみたのですが、WaveSuferで示されるpitchと音階がどういう関係かがわかりませんでした。F0、F1、F2とかの変動やスペクトログラフをみても、音程とどう関係しているのかが私にはわかりません。ラウドネス、melを考え合わせるのかもしれませんが、見当がつきません。
歌声を聞いていて、私なりに上手い下手は感じるのですが、どうも、音程の高い低いがわかりません。
このソフトの音程認識では1kHz以上の信号は評価対象外にしているらしいです。　http://yasumin001.at.webry.info/201503/article_14.html
F0基本音が声帯振動だとしても、聞いている音声は無声音でも、子音でも、遙かに高い周波数の音を聞き分けて感じ認識しているので、1kHz以下の振動だけに注目して音階だというのがサッパリわからないです。
http://francais.la.coocan.jp/kokugakuin1206.htm
http://www.ns.kogakuin.ac.jp/~ct13050/johogaku/2-4.speech_analysis.pdf
「WaveSurferのPitch Contourは通常の会話音声として発声される母音の基本周波数を分析しており、歌唱のデータを分析しても音楽編集制作ソフト（DTM
ソフト）の機能にある｢ピッチ検出｣による旋律情報は得られないことに注意する」

一体、音楽の歌声のピッチとか、音階って、何を指しているのでしょうか。

2017/03/29 15:53:22

はるかに高いともうしますが、人間のぎりぎり聞こえる上限あたりがわりと幅広く（１／８音とかはききとれず）まとめて無声音になります。
電子音で正確な振動をだせているなら可聴域すべて音程として聞こえるかもしれませんが、人間の声帯でこのへんを出そうとすると、あまりにスピードが速すぎ、精密に周期的な波が出せないので雑音的な不純物まじりの波になってしまいます。
ですので、１khz以上の範囲は音程判定ではなく「ｓ音・擦過音があるかないか」だけでいいとおもいます。眼鏡店店頭の超音波の眼鏡洗浄機は雑音にきこえることが多いですが、若い人ならモスキート音のように音程が聞こえるかもしれません。
アイフォンにも最初から鍵盤のできるアプリがついているので、ぜひあそんでみてください。

2017/03/29 22:38:18

＞　１khz以上の範囲は音程判定ではなく「ｓ音・擦過音があるかないか」だけでいいとおもいます
何が音程なのかがわからないというのが、もともとの私の疑問の出発点です。
4kHzくらいまでは聞こえないと、日常会話も難しくなります。
https://hochouki.senior-anshin.com/cont/sensorineural-hearing-loss/
モスキート音の区分を13kHzにするのか17kHzにするのかわかりませんが、単純な正弦波のようなものの高さは、分解能（高低識別分解能）はともかく、私でも12kHzくらいまでは小さな大きさになって聞こえます。
＞　１/８音とかはききとれず
880hHzの場合、かなり細かい高さの差も聞き取ることができるヒトが多いようです。http://www.asahi-net.or.jp/~HB9T-KTD/music/Japan/Other/Trivia/hearling.htm　楽器をやっていないヒトでも、半音の1/10くらいまでは識別出来るらしいです。
https://www.youtube.com/watch?v=THTfRHGvIL8
歌声は、正弦波でもなく、同じ高さ(？)で、色々な種類の声を出さないとならないし、いくつかの声は複数の音が順序よく聴き取ることで声として聞こえるのですから、単純に「ラ」の音の周波数は440Hzだから、と、440Hzで発声しているのか、疑問です。　F0の認定の仕方にもよるのでしょうが、20ms程度の時間分解でF0を調べると、そうそう12音階の安定周波数でキレイに安定した音声は出てないし、1kHzを上回る、2kHz、4kHz、8kHzなどの周波数域で相当にパワーが出てないと、妙な音になってしまいます。
http://ameblo.jp/tadashiohta/entry-10921994568.html
http://tomari.org/main/java/oto.html
低域だけのケプストラム分析をすることに意味がないとは思いませんが、それって声の際立つ重要な要素ではないと思います。
一般的に20ms以下の短時間では、人間の耳は高低を識別出ないとかの話もあるので、、、、、
http://speechresearch.fiw-web.net/66.html
http://abcpedia.acoustics.jp/acoustic_feature_2.pdf

2017/03/30 00:55:36

２０ｍｓって。２０／１０００秒ですから、振動数でいうと、５０ヘルツの波が１周期入れないくらいですもんね。F0のあなたの定義はなんですか？

2017/03/30 08:46:57

＞　F0のあなたの定義はなんですか？
音信号をパワースペクトルでみたときのピークがいくつか見えたときの、一番低周波に位置するピーク周波数。基本周波数とみなせるもの。
このような定義で考えていて、F0は声帯振動で発生しているという説を、一応、そうかもしれないと重要な仮説として考えています。
ただ、音声の場合、長い時間にわたって同じような音が続いていることそのものがあまりなく、発声の始発時と終了時は大きく変化するし、音色（きゃー、おとうさん、あいさんさん、どれみふぁそらし、ほんとう、ほんと、ほんｔ－などの発声時）の途中では様々な変化をするし、その変化区分点を明確にするのも難しいと思ってます。
単純に自己相関でとはいかないのだろうと思います。
それに、心理的(感覚的)な認識は、物理的なものと一対一の対応がとれないことも多いので、ラウドネス曲線で補正できるというようなものではないのではないかと思ってます。
http://www.asj.gr.jp/qanda/answer/101.html
心理的というか文化的に、言語の認知という面では、瞬時瞬時、刻々をバラバラにした認知はしないので、一連の塊をパタン認識するような方式が使われていて、音程とか高さ、大きさ、抑揚、速度もダイナミックに扱われているのだろうと思っています。
音痴を自認する私の自己弁護、自己正当化に思えてしまいますが、音声に関しては、周波数的高さ、音圧的大きさは、さほど重要な要素にはなってないのではないかと思います。　そういう私でも、歌の上手い下手、歌い方の間違いはわかるので、音階とかとは違うものが重要に思えています。

なお、この質問は、テレビでみた歌い手が歌っていると刻々表示されるバーはどうやって、何を表示しているのかということでしかないです。
この質問は、もうすぐ、時間切れで終了になります。

2017/03/30 22:52:17

人の耳は１つの鼓膜しか使えなくてもオーケストラのような複数の音源の存在をやすやすと聞き分けます。（ナチュラルにフーリエ展開をしているというわけです）
逆にボーカロイド初音ミクのような合成音声は自然な発声をしているように「調教」を加えないと、感情どころかそもそも日本語の歌詞が載っているようにもきこえません（すくなくとも初期バージョンはそうでした、もう１０年も前の製品ですね）。幅広く美しい音色を正確に出しているのですが歌詞はピーガーという雑音に近く感じ（る人もいるしそうでない人もいる。作品によってはわたしにもそうきこえました）、ブロゴスフィアではあれは新しい魅力的な音楽だ、とんでもない、と二派にわかれて討論していました。
　
おそらく音色表示グラフはデジタルでも、判定はアナログで、元歌手ＣＤの自然な連続的発声から採譜しつつ歌手の個人癖を減らすなど手加減をして人の耳の判断基準に近づけて調整しているとおもいます。
さて、話は（自分にとっては）最初の部分にもどりました。重複になるので、もう来ません。

2017/03/30 23:36:13

https://twitter.com/AoiIb_1108/status/1036178631641288704
楽器（サクソフォン）で伴奏にあわせて演奏した結果、カラオケ全国一位をとっています。このカラオケマシンは子音は判定していないようです。

2018/09/19 03:48:33

てか母音もですね。つまり歌詞ではなくトーン（音程）だけでこれだけできるということです。サキソフォンはピアノなどに比べて呼吸がかなり反映されるせいでコブシシャクリなどもほぼ完璧・・

2018/09/19 03:51:44

ありがとうございます。
｢このカラオケマシンは子音は判定していないようです。｣
｢てか母音もですね。｣
｢つまり歌詞ではなくトーン（音程）だけでこれだけできるということです。｣
｢日本語のなかで｢っ｣｢ッ｣にだけは音程がないです（短い無音ですので、楽譜でいえば休符にあたります）。パ行やサ行など子音部分だけでは音程が判定できない音も少ないながら存在していますが、多くは子音にも母音にも音程があります（マ行がわかりやすい）。｣

A＝｢ちょっとぉー、やめてよぉー｣｢ピーポーピーポー｣｢いらっしゃいませ○○ー○にようこそー｣にそっくりな音程をださせることもできます。
このAはわかります。音程なのかどうかわかりませんが、物まねでも、鳥が人の声をまねるのもわかります。ただ、この｢いらっしゃいませ、ようこそ｣ともそっくりな音？がバイオリンで出せるということは、たぶん、初期値の｢い｣をいろいろな高さで出せてしまっても、後継継続する音を調整して｢いらっしゃいませ、ようこそ｣に聞こえるようなこともできてしまうのだと思いますが、どうなのでしょうか。

｢いらっしゃいませ、ようこそ｣を、歌唱にさせる場合、音程というのは、歌い出しの｢い｣をC4の音？にしてしまった場合、自動的に決まってしまうのでしょうか。
http://www.piano-c.com/about_piano_chord/leranInterval.html
https://jp.yamaha.com/services/music_pal/study/score/pitch/index.html
｢ドレミファソラシド｣と同じ音程で歌うことや、誰かの歌った｢ドレミファソラシド｣とは音程・度数が違った・狂った｢ドレミファソラシド｣で歌えるということはどういうことになるのでしょうか。

B=カラオケの点数判定機械も、たぶん四分の一音やそれ以下の周波数ズレを判定できていますが、表示としては（学校でならう楽譜にそって）二分の一音（シャープやフラットで移動するもの、音感があまりない人にもズレたとわかるもの）の幅を超えてズレたものだけをズレとして赤く表示しているように思います。また私がテレビでみた感じは完全なリアルタイム判定でもないようです。特に判定の難しい部分は、コンピューターが考えこんでしまっているようで、歌から1/2拍ほどおくれてメロディとのズレの判定をしています。
このBは興味深いです。短時間に多くのモーラを出す歌の場合は、評価できなくなるのでしょうか。
https://youtu.be/nYVyY1SFv08
VOCALOID5を購入して自分で実験したい気分になりました。
https://www.vocaloid.com/compare/
発音(なんと歌っているのかを言葉にできるもの)、ノート、ピッチ、ポルタメント、レガート、グリッサンド、ビブラートなどもどうなっているのか

2018/09/19 22:03:56

なぽりん · Accepted Answer · 2017-03-17T11:03:55+09:00

No.2

なぽりん48949092017/03/17 11:03:55ここでベストアンサー

100pt

まずこの質問文からわかることは、音感のない（音痴）人には音程が理解できない。まして絶対音感については存在を信じてさえいない。ということです。
音感について（https://ja.wikipedia.org/wiki/%E7%B5%B6%E5%AF%BE%E9%9F%B3%E6%84%9F　絶対音感がわりと有名なのですが）説明しますと、
声は音であり音にはすべて音程（周波数）があります。
絶対音感と演奏技術があればバイオリンに「ちょっとぉー、やめてよぉー」「ピーポーピーポー」「いらっしゃいませ○○ー○にようこそー」にそっくりな音程をださせることもできます（ちゃんと譜面になってるものが売っています。余談ですが、人声を真似るにはバイオリンのほうがやりやすくピアノでは難しいです。人声とバイオリンはアナログ的つまり連続的な音階移動をすることができますが、ピアノはデジタル的な不連続音階なので、歌詞のないものならうまく真似られることが多いです。　よく聞くメロディー - 身近によく聞く音やメロディをドレミで教えて... - Yahoo!知恵袋）。
ここで、「いらっしゃいませ」すべてをサンプリングせずとも一音ずつで音程も変化していることが人間でも訓練により音感をえていれば聞き取れています。「井伊直弼」の「い」と「い」ははっきりと別の音程をもっており、連続的に移動します。日本人の標準語の発音による「井伊直弼」＝「ソミレミレシ」みたいな感じな音程でしゃべっています。
もっと細かく音程をとらえると、こぶしや歌い始めなどで、「１音」という幅のなかでも細かい上下があることを認識して、これを楽しむこともできるようになります。
なお日本語のなかで「っ」「ッ」にだけは音程がないです（短い無音ですので、楽譜でいえば休符にあたります）。パ行やサ行など子音部分だけでは音程が判定できない音も少ないながら存在していますが、多くは子音にも母音にも音程があります（マ行がわかりやすい）。
　　
で、このような音程に関する細かい音感を持っているという前提でカラオケバトルをきくと、知らない曲でも皿を洗いながらでも「あ、冒頭部分が（伴奏からみて）音程ズレてしまったから高得点は無理そうだけど、コブシをまわしまくったら挽回できるかな」くらいのことは画面をみなくても判定できましたよ。あの女の人は前回高得点だったんですけどね、選曲とキーの下げがご自身にあってなかったようで残念でした。
　
カラオケの点数判定機械も、たぶん四分の一音やそれ以下の周波数ズレを判定できていますが、表示としては（学校でならう楽譜にそって）二分の一音（シャープやフラットで移動するもの、音感があまりない人にもズレたとわかるもの）の幅を超えてズレたものだけをズレとして赤く表示しているように思います。
また私がテレビでみた感じは完全なリアルタイム判定でもないようです。特に判定の難しい部分は、コンピューターが考えこんでしまっているようで、歌から１／２拍ほどおくれてメロディとのズレの判定をしています。「赤い」ズレ表示がでた時点には音程がちゃんと正確にもどっていたりすることもあります。そういった部分も含めて、音感のない人にはなんだかブラックボックス的に感じるのかもしれません。

他11件のコメントを見る

ありがとうございます。
この下の部分が一番気になるところです。
＞　私がテレビでみた感じは完全なリアルタイム判定でもないようです。特に判定の難しい部分は、コンピューターが考えこんでしまっているようで、歌から１／２拍ほどおくれてメロディとのズレの判定をしています。「赤い」ズレ表示がでた時点には音程がちゃんと正確にもどっていたりすることもあります。

ヒトが音声で話された言葉を聴き取る場合、｢単純に時々刻々音を固定し語を固定し意味を固定して、次に進む｣ようなことはしません。｢hagai｣では、｢歯が痛い｣｢羽交い締め｣｢葉が良い｣である場合も、後続で｢破壊｣と認知する
その他もろもろ
http://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q1076208940
文字や発音記号で一意的に決定出来るほど、発音は一定一様ではなく、語は連続させて前後から判断しないと、文字に変換できるような意味概念には固定出来ません。
【ひょっとして、歌声の音程と一般に言われているものは、音響的な解析だけで決まるものではない】のでは、と、今、思ってます。
この｢精密採点DX-G｣なるものは、【ひょっとして、｢あ⇒へ｣、｢か⇒と｣、｢ば⇒ぽ｣、｢い⇒あ｣、｢ら⇒い｣などのように音素を暗号表のようなものに基づいて変換した音で発音して歌った場合に、音程が狂っていると評定してしまう】【精密採点DX-Gで、音程表示がぴったりとなっているものを歌声を録音して、選曲した曲とは異なる歌曲の表示で、その録音歌声をライン入力させた場合には、前の録音時の音程表示バーにはならない】という音響的な解析とは言えないものではないのでしょうか。
だとすると、（妄想に重ねても、意味はないですが）　歌詞のある歌声の音程とは、なんのことことナノでしょう。
絶対音感を持っているヒト（A,B,C,D,E）が、声（あ、い、う、え、だ、な、ぱ、しゅ、ら、ｎ）の同じ音源を聞いて、各音に関して、5人共が同じ音階を指定したとしても、それは、（あ、い、う、え、だ、な、ぱ、しゅ、ら、ｎ）の音の周波数面で見た高さを示している証拠にはならないと思います。

《二分の一音（シャープやフラットで移動するもの、音感があまりない人にもズレたとわかるもの）の幅を超えてズレたものだけをズレとして赤く表示している》というのは、音階バーの表示状況(段階表示になっている)から容易に推定出来ることですが、そのズレの評価の対象にしているのは受信している周波数成分の状況ではないのだと思えます。

2017/03/21 23:48:44

いいえ、あきらかに周波数ですよ。また、子音も波形で解析できるようになっています。
今ちょうど高校の物理の波（正弦波～干渉、回析、屈折といった部分）を勉強していますが、音は波であり周波数があります。これはもうどうしても動かせない事実です。

（引用）
＞＞「絶対音感を持っているヒト（A,B,C,D,E）が、声（あ、い、う、え、だ、な、ぱ、しゅ、ら、ｎ）の同じ音源を聞いて、各音に関して、5人共が同じ音階を指定したとしても、それは、（あ、い、う、え、だ、な、ぱ、しゅ、ら、ｎ）の音の周波数面で見た高さを示している証拠にはならないと思います。」
（引用おわり）

いいえ、ちがいますよ。
これは例題の「あいうえだなぱしゅらん」という音が意味を持たないため、定まった音階を決められていないからです。この情報だけを歌手でも作曲家でもない人に与えたら、おそらくお経のように一定の音、「ラ」「ラ」「ラ」「ラ」「ラ」「ラ」という連続として発音する人が多いとおもいます（あるいは、あいうえ、の部分だけ、小学校でならう読み上げのようにラシシソとやるかもしれません。小学校で読み上げるあいうえお、にはラシシソラ、のようなわずかに上下する音程が乗っています。）。しかし「あ」はミで１拍、「イ」はドで１拍、次は休符で・・というように指定していけばちゃんとオペラ歌手が感情を込めて歌えるレベルの「曲」「歌」にすることもできますよ。
洋楽やアフリカの音楽を楽しむ人も、歌詞のないクラシックを鼻歌で歌う人も居ますからね。

2017/03/22 06:58:59

あと、私は百人一首競技かるたの有段者の話を聞いたことがあるのですが、「いまは（わ）ただ」と「いまこんと」の「ま」の音程や長さをわずかに違えて読む公認読が多いので、「ま」の次によまれる決まり字が「は（わ）」か「こ」かを高確率で予測できる人がいます。
人の耳ってすごいんですよ。

2017/03/22 07:01:50

http://www.enjoy.ne.jp/~k-ichikawa/kachou_ryouiki.html
聞き取れないほど低い音でも、１秒に２０回の波です。普通に話す人声のレベルだと一秒間におよそ５００回の波を耳がうけとっています。あなたが３秒間「アー」というと、およそ１５００回の波を発しています。それが鼓膜を震わす振動速度（＝周波数）が音の高さです。
波を勉強すると、なぜ救急車のサイレン音が近づくとき高く、遠ざかるとき低くなるのか（これをドップラー効果というのですが）理由が理解できて面白いですよ。

http://xn--eckm6ioexbw403a97yg.com/10hajimeni/tunertuning.html
バイオリンなど、弦が緩みやすい楽器は最初にチューニングマシンや音叉で調弦し、音の高さをあわせます。
もちろん人耳の絶対音感でやっても音楽にすることはできます。

http://wakariyasui.sakura.ne.jp/p/wave/hadou/hadou.html　質問者にとっては音はすべて、ここにあるパルス波のようなものだから、「次の山がこないかぎり振動数である周波数がみわけられないはず」とおもっているのかもしれません。しかしパルス波であっても人の耳で周波数（音程）をききわけることはでき・・ます！　たとえばおまつりの大太鼓をおもいだしてください。またガラスのチンとぶつかる音。音叉をたたく音。どれも余韻をのぞけば基本は短いパルス波ですが耳は最初に耳に入った瞬間からその音色の違いをちゃんと聞き分けています。
ただしすごく大きな太鼓とか雷の前触れのゴロゴロ音、モスキート音などは可聴域ぎりぎりなので、人によっては音としてとらえるのではなく体感振動としてのみ伝わる場合もあります。でも機械なら１音でもリアルタイムで正確に聞き分けられますよ。（でも重なった波形のリアルタイムフーリエ展開まではまだできてないとおもいますが、カラオケ判定機が伴奏をどうやって除いているのかが説明しているうちにちょっと気になってきました）

2017/03/24 11:58:37

質問に対する回答受付期間も終了目前ですし、この質問は、私には現時点ではわからないまま終了とさせていただきます。
ご協力ありがとうございました。
伴奏の除去については、たぶん、ボーカルマイク入力だけを受け付けるようにしているのだと思います。
https://clubdam.info/static/advice.html
｢演奏区間内でマイクの距離を変化させることで容易に高評価が得られます．例えば，演奏区間内で最も高い数音だけマイクを近づけ，それ以外の部分ではマイクを離します．マイクを急に離すと上手く音が拾われず，音程が下がることがあるため，ゆっくりと離します．｣　たぶん入力信号の自動調整機能があってその影響も音程判定にまで及ぶようです。
次の説明も興味深いです。｢音程バーは半音単位での表示ですが，実はさらに細かく見られています．正しい音程と比べて -1/8 半音～ +1/8 半音の範囲に収まっていれば「完璧に合っている」と判定されます．1ページのうち，一部だけ 4/8 = 1/2 半音以上音を外す（＝音程バーからはみ出す）のは，ほとんど減点されません．単なる「ミス」と判定されるためです．一方，多くの部分で 1/8 半音以上音を外すのは，それが 2/8 半音以下であっても，大きな減点に繋がります．1/8 半音単位の音程のズレは，音程バー上を流れる「小さな青い星」を見て判別することができます．自分が出している音程が青い星で表示されており，その中心が音程バーのちょうど上端にあるとき，音程が完璧に合っていると判定されています．1ページ歌い終える直前に流れる星は，そのページ（の途中までと前のページの途中から）の音程正確率｣　たぶんある単位時間ごとの音程判定をして、判定総数の中での正確率をクラス分けしているのだと思われます。
しかし、そのある単位時間の音程の認識をどうやっているのかが、わかりません。音声・歌声だけを入力にした場合、音色が問題です。母音、子音、摩擦音、鼻子音、破裂音があり、遷移も問題です。WaveSuferでいくつか歌手やうまいヒトの声をみたのですが、WaveSuferで示されるpitchと音階がどういう関係かがわかりませんでした。F0、F1、F2とかの変動やスペクトログラフをみても、音程とどう関係しているのかが私にはわかりません。ラウドネス、melを考え合わせるのかもしれませんが、見当がつきません。
歌声を聞いていて、私なりに上手い下手は感じるのですが、どうも、音程の高い低いがわかりません。
このソフトの音程認識では1kHz以上の信号は評価対象外にしているらしいです。　http://yasumin001.at.webry.info/201503/article_14.html
F0基本音が声帯振動だとしても、聞いている音声は無声音でも、子音でも、遙かに高い周波数の音を聞き分けて感じ認識しているので、1kHz以下の振動だけに注目して音階だというのがサッパリわからないです。
http://francais.la.coocan.jp/kokugakuin1206.htm
http://www.ns.kogakuin.ac.jp/~ct13050/johogaku/2-4.speech_analysis.pdf
「WaveSurferのPitch Contourは通常の会話音声として発声される母音の基本周波数を分析しており、歌唱のデータを分析しても音楽編集制作ソフト（DTM
ソフト）の機能にある｢ピッチ検出｣による旋律情報は得られないことに注意する」

一体、音楽の歌声のピッチとか、音階って、何を指しているのでしょうか。

2017/03/29 15:53:22

はるかに高いともうしますが、人間のぎりぎり聞こえる上限あたりがわりと幅広く（１／８音とかはききとれず）まとめて無声音になります。
電子音で正確な振動をだせているなら可聴域すべて音程として聞こえるかもしれませんが、人間の声帯でこのへんを出そうとすると、あまりにスピードが速すぎ、精密に周期的な波が出せないので雑音的な不純物まじりの波になってしまいます。
ですので、１khz以上の範囲は音程判定ではなく「ｓ音・擦過音があるかないか」だけでいいとおもいます。眼鏡店店頭の超音波の眼鏡洗浄機は雑音にきこえることが多いですが、若い人ならモスキート音のように音程が聞こえるかもしれません。
アイフォンにも最初から鍵盤のできるアプリがついているので、ぜひあそんでみてください。

2017/03/29 22:38:18

＞　１khz以上の範囲は音程判定ではなく「ｓ音・擦過音があるかないか」だけでいいとおもいます
何が音程なのかがわからないというのが、もともとの私の疑問の出発点です。
4kHzくらいまでは聞こえないと、日常会話も難しくなります。
https://hochouki.senior-anshin.com/cont/sensorineural-hearing-loss/
モスキート音の区分を13kHzにするのか17kHzにするのかわかりませんが、単純な正弦波のようなものの高さは、分解能（高低識別分解能）はともかく、私でも12kHzくらいまでは小さな大きさになって聞こえます。
＞　１/８音とかはききとれず
880hHzの場合、かなり細かい高さの差も聞き取ることができるヒトが多いようです。http://www.asahi-net.or.jp/~HB9T-KTD/music/Japan/Other/Trivia/hearling.htm　楽器をやっていないヒトでも、半音の1/10くらいまでは識別出来るらしいです。
https://www.youtube.com/watch?v=THTfRHGvIL8
歌声は、正弦波でもなく、同じ高さ(？)で、色々な種類の声を出さないとならないし、いくつかの声は複数の音が順序よく聴き取ることで声として聞こえるのですから、単純に「ラ」の音の周波数は440Hzだから、と、440Hzで発声しているのか、疑問です。　F0の認定の仕方にもよるのでしょうが、20ms程度の時間分解でF0を調べると、そうそう12音階の安定周波数でキレイに安定した音声は出てないし、1kHzを上回る、2kHz、4kHz、8kHzなどの周波数域で相当にパワーが出てないと、妙な音になってしまいます。
http://ameblo.jp/tadashiohta/entry-10921994568.html
http://tomari.org/main/java/oto.html
低域だけのケプストラム分析をすることに意味がないとは思いませんが、それって声の際立つ重要な要素ではないと思います。
一般的に20ms以下の短時間では、人間の耳は高低を識別出ないとかの話もあるので、、、、、
http://speechresearch.fiw-web.net/66.html
http://abcpedia.acoustics.jp/acoustic_feature_2.pdf

2017/03/30 00:55:36

２０ｍｓって。２０／１０００秒ですから、振動数でいうと、５０ヘルツの波が１周期入れないくらいですもんね。F0のあなたの定義はなんですか？

2017/03/30 08:46:57

＞　F0のあなたの定義はなんですか？
音信号をパワースペクトルでみたときのピークがいくつか見えたときの、一番低周波に位置するピーク周波数。基本周波数とみなせるもの。
このような定義で考えていて、F0は声帯振動で発生しているという説を、一応、そうかもしれないと重要な仮説として考えています。
ただ、音声の場合、長い時間にわたって同じような音が続いていることそのものがあまりなく、発声の始発時と終了時は大きく変化するし、音色（きゃー、おとうさん、あいさんさん、どれみふぁそらし、ほんとう、ほんと、ほんｔ－などの発声時）の途中では様々な変化をするし、その変化区分点を明確にするのも難しいと思ってます。
単純に自己相関でとはいかないのだろうと思います。
それに、心理的(感覚的)な認識は、物理的なものと一対一の対応がとれないことも多いので、ラウドネス曲線で補正できるというようなものではないのではないかと思ってます。
http://www.asj.gr.jp/qanda/answer/101.html
心理的というか文化的に、言語の認知という面では、瞬時瞬時、刻々をバラバラにした認知はしないので、一連の塊をパタン認識するような方式が使われていて、音程とか高さ、大きさ、抑揚、速度もダイナミックに扱われているのだろうと思っています。
音痴を自認する私の自己弁護、自己正当化に思えてしまいますが、音声に関しては、周波数的高さ、音圧的大きさは、さほど重要な要素にはなってないのではないかと思います。　そういう私でも、歌の上手い下手、歌い方の間違いはわかるので、音階とかとは違うものが重要に思えています。

なお、この質問は、テレビでみた歌い手が歌っていると刻々表示されるバーはどうやって、何を表示しているのかということでしかないです。
この質問は、もうすぐ、時間切れで終了になります。

2017/03/30 22:52:17

人の耳は１つの鼓膜しか使えなくてもオーケストラのような複数の音源の存在をやすやすと聞き分けます。（ナチュラルにフーリエ展開をしているというわけです）
逆にボーカロイド初音ミクのような合成音声は自然な発声をしているように「調教」を加えないと、感情どころかそもそも日本語の歌詞が載っているようにもきこえません（すくなくとも初期バージョンはそうでした、もう１０年も前の製品ですね）。幅広く美しい音色を正確に出しているのですが歌詞はピーガーという雑音に近く感じ（る人もいるしそうでない人もいる。作品によってはわたしにもそうきこえました）、ブロゴスフィアではあれは新しい魅力的な音楽だ、とんでもない、と二派にわかれて討論していました。
　
おそらく音色表示グラフはデジタルでも、判定はアナログで、元歌手ＣＤの自然な連続的発声から採譜しつつ歌手の個人癖を減らすなど手加減をして人の耳の判断基準に近づけて調整しているとおもいます。
さて、話は（自分にとっては）最初の部分にもどりました。重複になるので、もう来ません。

2017/03/30 23:36:13

https://twitter.com/AoiIb_1108/status/1036178631641288704
楽器（サクソフォン）で伴奏にあわせて演奏した結果、カラオケ全国一位をとっています。このカラオケマシンは子音は判定していないようです。

2018/09/19 03:48:33

てか母音もですね。つまり歌詞ではなくトーン（音程）だけでこれだけできるということです。サキソフォンはピアノなどに比べて呼吸がかなり反映されるせいでコブシシャクリなどもほぼ完璧・・

2018/09/19 03:51:44

ありがとうございます。
｢このカラオケマシンは子音は判定していないようです。｣
｢てか母音もですね。｣
｢つまり歌詞ではなくトーン（音程）だけでこれだけできるということです。｣
｢日本語のなかで｢っ｣｢ッ｣にだけは音程がないです（短い無音ですので、楽譜でいえば休符にあたります）。パ行やサ行など子音部分だけでは音程が判定できない音も少ないながら存在していますが、多くは子音にも母音にも音程があります（マ行がわかりやすい）。｣

A＝｢ちょっとぉー、やめてよぉー｣｢ピーポーピーポー｣｢いらっしゃいませ○○ー○にようこそー｣にそっくりな音程をださせることもできます。
このAはわかります。音程なのかどうかわかりませんが、物まねでも、鳥が人の声をまねるのもわかります。ただ、この｢いらっしゃいませ、ようこそ｣ともそっくりな音？がバイオリンで出せるということは、たぶん、初期値の｢い｣をいろいろな高さで出せてしまっても、後継継続する音を調整して｢いらっしゃいませ、ようこそ｣に聞こえるようなこともできてしまうのだと思いますが、どうなのでしょうか。

｢いらっしゃいませ、ようこそ｣を、歌唱にさせる場合、音程というのは、歌い出しの｢い｣をC4の音？にしてしまった場合、自動的に決まってしまうのでしょうか。
http://www.piano-c.com/about_piano_chord/leranInterval.html
https://jp.yamaha.com/services/music_pal/study/score/pitch/index.html
｢ドレミファソラシド｣と同じ音程で歌うことや、誰かの歌った｢ドレミファソラシド｣とは音程・度数が違った・狂った｢ドレミファソラシド｣で歌えるということはどういうことになるのでしょうか。

B=カラオケの点数判定機械も、たぶん四分の一音やそれ以下の周波数ズレを判定できていますが、表示としては（学校でならう楽譜にそって）二分の一音（シャープやフラットで移動するもの、音感があまりない人にもズレたとわかるもの）の幅を超えてズレたものだけをズレとして赤く表示しているように思います。また私がテレビでみた感じは完全なリアルタイム判定でもないようです。特に判定の難しい部分は、コンピューターが考えこんでしまっているようで、歌から1/2拍ほどおくれてメロディとのズレの判定をしています。
このBは興味深いです。短時間に多くのモーラを出す歌の場合は、評価できなくなるのでしょうか。
https://youtu.be/nYVyY1SFv08
VOCALOID5を購入して自分で実験したい気分になりました。
https://www.vocaloid.com/compare/
発音(なんと歌っているのかを言葉にできるもの)、ノート、ピッチ、ポルタメント、レガート、グリッサンド、ビブラートなどもどうなっているのか

2018/09/19 22:03:56

歌声の音程とはどのような仕組みでなにをどのように表示しているのでしょうか

質問者から

ベストアンサー

なぽりん48949092017/03/17 11:03:55

その他の回答（1件）

adlib31622432017/03/17 01:02:30

なぽりん48949092017/03/17 11:03:55ここでベストアンサー

コメント（1件)

この質問への反応（ブックマークコメント）