【聴覚の認識の限界】

人間の会話が認識できる音声は、ビットレートでは2.4kbpsだと言われていますが、
(1) サンプリング周波数
(2) 量子化ビット数
では、最低どのくらいが必要なのでしょうか？

※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

ログインして回答する

みんなの回答

australiagc2009/06/02 13:47:46
満足23pt

(1) サンプリング周波数

http://en.wikipedia.org/wiki/Sampling_(signal_processing)#Speech_sampling

For most phonemes, almost all of the energy is contained in the 5Hz-4 kHz range, allowing a sampling rate of 8 kHz.

（ほとんどの音素が 5Hz から 4kHz の周波数帯に収まるので、（エイリアシングを防ぐには）サンプルレートは 8kHz で間に合うことになる）

(2) 量子化ビット数

http://en.wikipedia.org/wiki/Quantization_(sound_processing)#Audio_quantization

Telephony applications frequently use 8-bit quantization. ...中略... but the result is still more than adequate to represent human speech.

（電話機では８ビットの量子化が頻繁に使われている。しかし、その結果は人間の会話を表すには十分以上だ。）

http://scitation.aip.org/getabs/servlet/GetabsServlet?prog=norma...

The above results imply that dithering is most advantageous for speech quantized in the 4–6 bits/sample range.

（上の結果が示すところによると、ディザリングは会話を 4-6bits/sample の範囲で量子化した場合、最も効果的だということになる）

サンプリングは8kHz以上、量子化は4bit以上が理想という事でしょうかね。

スター
- mktg1 2009/06/02 22:34:17
  
  貴重な原典と翻訳、ありがとうございます。2番のご回答への返信もご覧頂ければ幸いです。

matsuoki2009/06/02 16:04:35
満足23pt

はっきりとしたことは分からないので、それっぽいけど答えになってない答えですが・・・

普通のアナログ電話では8KHz、帯域としては300Hz～3.4kHz（らしい）、これに対して男性の声は90～100Hz前後（たぶん）です。でも実際に電話をかけてみると、本来聞こえないハズの90Hzの男声が聞こえてしまいます。これは「失われた基音」（Missing fundamental）という現象で、90Hzの発声時に出る180Hz、270Hz、360Hz、450Hz。。。の高次倍音を聞いた場合、人間は基音(90Hz)を知覚してしまう、というものです。

これが物理的なもの（高次倍音による基底膜の振動によって基底膜上の基音に相当する箇所が振動する、などなど）のか、心理的なもの（脳味噌による処理）なのかはわかりませんが、サンプリングに使う周波数帯を工夫すれば、サンプリング周波数は結構下げられるのではないでしょうか。

量子化ビット数についてはあまり分かりませんが、サンプリング周波数が低ければ低いほど、量子化ビット数を高くしてやらないと、音声として知覚出来ないと思いますので、切り離しては考えられないと思います。

スター

mktg1 2009/06/02 22:39:46

なるほど～。大学で音響学の授業を受けたのですが、「失われた基音」の話はありませんでした。いかにもありそうな話です。確かに、音波全般にこれを考え合わせると、サンプリング周波数×量子化b数＝2.4kbpsで最適な値を入れるのが適当ですね。

ただ、言語のみで考えると、どうなんでしょう。あらゆる言語を綜合しても、音高の変化を知覚することは、「句」以上の単位で話された場合、句や文を伝達する要因にはならないと思います。ただ単語や非常に短い句で話された場合、音程は高・低の2つが必要ですから、量子化b数は1でしょうか。しかし、1というのは余りにもあり得なそう。1番の方の回答に、（おそらく英語〔たぶん英語は標準文法を守ると音高の区別は不要〕）をディザリングして伝える場合4～6bが効果的とあります（原文読んでないです）から、英語である点と、ディザリングされる前提である点とでシーソーが釣り合い、さらに「効果的」であることを加味し、とりあえず低い方を採って4b、これで会話認識において必要とされる2.4kbpsを割るならば、サンプリング周波数は600Hzとなります（4bの音高の数＝無圧縮で4!〔?〕＝24〔人間が音高として聞こえる周波数は確か8Hz（ソース希望 > 皆様）と習った気がするので、11以上の素数に割り当てる〕とした場合）が、どうでしょう。どこか間違ってませんか？音波を存在ではなく知覚ベースで考えるのでデジタル的に考える場合、600Hzも必要とは思えないのですが。

ちなみに、2.4kbpsの出典は、「ウィキペディア日本版」、「ビット毎秒」の項、見出し「使用例」―「音声」―「2.4kbps」、2009年6月2日　「軍用などで、音声を認識するための必要最低限な品質（特別仕様の音声エンコーダを使用した場合）」です。ただ、「エンコーダ」とあるので、通信上の転送速度かもしれませんから、もっと必要かもしれません。

軍用無線通話機器の史上最低のスペックがわかれば……それが正解でしょうね。どこかに情報が無いでしょうか。

taro-r2009/06/02 23:13:51
満足22pt

「2.4kbps」というのは，認識できる音声ではなく，音声(会話)を伝達するのに最低限必要な情報量という意味だと思われます。

http://www.kyastem.co.jp/technical/ExplanationCodec01.html

に各種音声コーデックの比較が載ってますが，もっともビットレートが低いものが2.4kbpsですので，これが2.4kbpsの根拠でしょう。これ以上ビットレートを下げると音声が聞き取れなくなるだろうということでの下限だと思いますが，それが「認識できる音声」ということにはならないと思います。

というのは，2.4kbpsに圧縮された音声と，もっと大きなビットレートの方式で圧縮された音声は，後者の方が聞き取りやすいので，聞き取りやすさに差が出るということは，認識できているということになります。

なお，圧縮された音声のビットレートを単純にサンプリング周波数と量子化ビットで換算するのは，ちょっと無理があります。8kHz/8bitでサンプリングしても，圧縮の結果2.4kbpsまで落とすのは可能ではないか?と思われます(方式の詳細を知らないので，なんともいえませんが)。

スター

mktg1 2009/06/03 00:21:47

2.4kbpsは、やはり伝送情報が前もって圧縮されている場合の値でしたかね。圧縮を考えに入れてしまうと、サンプリング数も量子化数も全然決まりませんね。圧縮前のもの（伝送ロスが無い場合）が知りたいなぁ。解剖学＋神経医学＋認知心理学＋情報理論＋音韻論の知識が必要ですね。

帰納的に探すなら、思い当たるのは「世界で実用化された軍事用通話（コード化なし・一方向伝送）の史上最低スペック」ですかね。しかし、それだとアナログ信号になってしまいますよね。

上記以外で帰納的定義が思い当たるる方がいらっしゃればぜひ教えてください。または、会話音声のPCMに詳しい方、ご解説お願いします。>皆様

tera-p2009/06/03 02:48:15
満足22pt

何をお知りになりたいのか，質問の意味がわからないところもあるのですが，

ノイズがない通信路で，
「人間の会話が認識できる程度の」（←ここがあいまい）音声伝送品質が確保できる，
無圧縮の符号化方式（PCM?）の，
必要ビットレート．

がお知りになりたいというところでしょうか．一番手っ取り早いのは適当な音声データをいろいろなパラメータで

リサンプリングしてみて，ご自身の耳で確かめてみる（もう少しまじめにやるなら何人か集めてMOS値をとる）のが

良いとは思いますが．おそらく，音声データもいろいろ変えながらやってみると「人間の会話が認識できる程度の」

という条件がいかにあいまいか実感できると思います．

もしくは，そのあたりの技術や歴史に興味があるのでしょうか．「いかに小さいビットレートで会話を成立させるか」

というあたりは，音声伝送の品質評価という技術分野がありITU-T等で標準化もされています．たとえば，PSQM という

評価法が ITU-T勧告 P.861, PESQ が P.862 になっています．通信路にノイズがない前提であれば，PSQM でしょうか．

なお，PSQM については，ITU-T 勧告を…というのはあんまりなので，たとえば http://www.kowa.co.jp/interstream/pdf/voip2.pdf

に概要があるようです．

スター

その他の回答を読む

この質問へのコメント

matsuoki2009/07/16 10:06:25

> 量子化ビット数についてはあまり分かりませんが、サンプリング周波数が低ければ低いほど、量子化ビット数を高くしてやらないと、音声として知覚出来ないと思いますので、切り離しては考えられないと思います。

今更ですが、これは違う気がするな。
量子化ビット数については、フォルマントの区別が出来るだけの分解能が必要。
サンプリング周波数については、子音のフォルマントが区別出来るだけの分解能が必要。かな。

フォルマント依存なので言語（日本語、英語、etc）によっても若干変わってくると思います。

【聴覚の認識の限界】

みんなの回答