人間の会話が認識できる音声は、ビットレートでは2.4kbpsだと言われていますが、
(1) サンプリング周波数
(2) 量子化ビット数
では、最低どのくらいが必要なのでしょうか?
(1) サンプリング周波数
http://en.wikipedia.org/wiki/Sampling_(signal_processing)#Speech_sampling
For most phonemes, almost all of the energy is contained in the 5Hz-4 kHz range, allowing a sampling rate of 8 kHz.
(ほとんどの音素が 5Hz から 4kHz の周波数帯に収まるので、(エイリアシングを防ぐには)サンプルレートは 8kHz で間に合うことになる)
(2) 量子化ビット数
http://en.wikipedia.org/wiki/Quantization_(sound_processing)#Audio_quantization
Telephony applications frequently use 8-bit quantization. ...中略... but the result is still more than adequate to represent human speech.
(電話機では8ビットの量子化が頻繁に使われている。 しかし、その結果は人間の会話を表すには十分以上だ。)
http://scitation.aip.org/getabs/servlet/GetabsServlet?prog=norma...
The above results imply that dithering is most advantageous for speech quantized in the 4–6 bits/sample range.
(上の結果が示すところによると、ディザリングは会話を 4-6bits/sample の範囲で量子化した場合、最も効果的だということになる)
サンプリングは8kHz以上、量子化は4bit以上が理想という事でしょうかね。
今更ですが、これは違う気がするな。
量子化ビット数については、フォルマントの区別が出来るだけの分解能が必要。
サンプリング周波数については、子音のフォルマントが区別出来るだけの分解能が必要。かな。
フォルマント依存なので言語(日本語、英語、etc)によっても若干変わってくると思います。