▽1
●
LLマン ●50ポイント ベストアンサー |
音声データから発話者の年齢と性別の判定
自分の声を認識するには「フォルマント」の影響が大きい - 首都大 | マイナビニュース
男女で発声のフォルマント分布が異なるので、それを認識することで判定可能です。ただし、変声期前の子供は性差が小さくて判別が難しい、複数人の同時発音や環境からの雑音に弱いなど、限界もあるので過度に期待しないでください。スキャナで画像を文字認識するときに、誤字脱字がポロポロ出るのと同じようなことです。
そもそも、フォルマントっていうのが何かという話ですが、ここでは簡単に音声波形の特徴くらいに考えてください。フーリエ解析などの手法で抽出しますので、数学的な知識が必要です。このフーリエ解析は、三角関数や微積分の延長線上なので、そう簡単でもありませんが、極端に難解でもありません。
実装できるソースコードなど
具体的な実装方法は、音声認識の書籍を参考にしてください。Amazonなどで「音声認識」と検索すれば、すぐ見つけられると思います。
ここでは参考に、ライブラリやAPIを貼っておきます。今回、直接に求めている方向性とは少し違うかもしれませんが、なんせマイクロソフトやグーグルが出しているものなので、どこかで使い出はあると思います。
こんな例があったので参考にしてみたらどうでしょう。
http://www.petrsebek.cz/2014/05/age-and-gender-speech-recognition.html
https://github.com/Artimi/stws2014
こういったライブラリも前処理に使えそうな気がします。
http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0144610