人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

【動画の音声をテキスト化して検索できる技術】
こんな感じの技術を捜しているのですが、最近の情報(2012年以降の最新技術)がなかなか見つかりません。
http://itpro.nikkeibp.co.jp/article/NEWS/20091014/338833/
もじもじTVは残念な状態になっているようですが同様の技術を現在も開発・研究しているといった最新情報をさがしています。該当する書籍・情報などお願いします。
YouTubeのキャプション機能の記事(2011/7/15)は既読です。


●質問者: あるぴにっくす
●カテゴリ:コンピュータ
○ 状態 :終了
└ 回答数 : 1/1件

▽最新の回答へ

質問者から

欲しいのは、先端技術の情報であって、音声をテキスト化するアプリ(例、ドラゴンスピーチ)のurlなどは不要です。


1 ● Yoshiya
●128ポイント ベストアンサー

音声全文検索・書き起こしサービスPodCastle
(産業技術総合研究所・ 産総研 TODAY Vol.12(2012) No.05)

テキストで書き起こす必要性

インターネット上の動画共有サービスや音声配信サービスの普及に伴い、誰でも視聴できる音声を伴う動画データや音声データが日常的に生成・蓄積され増え続けています。しかし、動画音声データはテキスト(文字)データと異なり、それ自体を索引として使えないため、発言内容などの詳細な情報の検索(全文検索)ができませんでした。

(略)

動画共有サービスに対応したPodCastleを公開

産総研では、音声認識誤りをユーザーが訂正できる独自のインタフェースを開発し、2008年に日本語のポッドキャスト*を対象とした音声全文検索サービスを一般公開しました。16万件以上の音声データが登録され、実際に58万単語以上が訂正されました。それらを学習することで音声認識性能の向上が可能なことを実証しました。さらに動画や英語への対応が求められてきました。

今回私たちは、ユーザーに協力してもらうことで性能が日々向上する音声情報検索技術を開発し、インターネット上にある日本語と英語の動画音声データを対象とした音声全文検索・書き起こしサービス「ポッドキャッスル(PodCastle)」(日本語版 http://podcastle.jp 、英語版 http://en.podcastle.jp)を2011年に一般公開し、実証実験を開始しました(図1)。

http://www.aist.go.jp/aist_j/aistinfo/aist_today/vol12_05/p11_2.jpg
図1 実証実験中の音声全文検索・書き起こしサービス「ポッドキャッスル(PodCastle)」

このPodCastleでは、普及が進んでいる代表的な動画共有サービス(ニコニコ動画、YouTube、Ustream)に新たに対応しました。そして、複数のユーザーが協力し合って、話者名や改行を入力しながら読みやすい書き起こしを作成できる機能を実現しました(図2)。さらに、エジンバラ大学音声技術研究所の協力を得て、英語の動画音声データも音声認識と検索ができるように改良しました。誰でも無料で利用できる便利なサービスなので、多くの方々に使っていただければと願っています。

(以下略)


上記のPDF版

f:id:Yoshiya:20130918221535j:image


PodCastle(http://podcastle.jp)のサイトで、実際に動画の音声が日本語に変換されていますので、ご確認下さい。
(Google Chrome + IETabで再生確認)

f:id:Yoshiya:20130918222448j:image f:id:Yoshiya:20130918222449j:image
(Google Chrome+IETabで再生)


あるぴにっくすさんのコメント
Yoshiyaさんご無沙汰してます、回答ありがとうございました。 ただ、しょっぱなで高度な回答がついたせいか、後が続きませんねえ・・・。Yoshiyaさんが悪いわけじゃないんですが。 明日のこの時間に手動終了はできないので、ちょっと早いですが締めます。 もし有益な情報であればコメントに入れていただければポイント送信します。

Yoshiyaさんのコメント
申し訳ないです。 alpinixさんの質問だったので気合を入れて回答を投稿したのですが、自重すれば良かったですね。 ちなみに、動画の自動翻訳技術ではありませんが、類似の技術がありますのでご紹介します。 (本日偶然、ネットニュースで見つけたものです。) http://news.mynavi.jp/news/2013/08/28/181/ NAIST、文末を待たずに翻訳を開始する同時自動音声通訳技術を開発(マイナビニュース 2013.08.28) >> 奈良先端科学技術大学院大学(NAIST)は8月27日、同時通訳者のように発話途中から文末を待たずに翻訳を開始する同時自動音声通訳のコア技術を開発したと発表した。 (略) さらに、日英の比較的長い文章で同時自動通訳評価を行ったところ、提案法により音声翻訳の遅延が改善された。導入したパラメータによりスピードと精度のバランスを調整でき、精度を維持したまま20%のスピード向上を実現できることが確認されたという。また、同一の講演に対して、上級通訳者(15年以上経験者)、中級(4年以上経験者)、初級(1年以上経験者)が、同一の講演に対して同時通訳を行ない、速度と品質を比較したところ、初級と同等の同時通訳性能と速度が達成されることも明らかとなった。 なお今回の研究は、同時自動通訳の核となる翻訳方式となるものであり、さらに研究開発を行うことにより、日本語を含む多言語の講演、ニュースや会議の同時自動通訳システムの実現につながることが期待されることから、将来的には、外国語ニュースの同時自動通訳、会議の同時自動通訳、日本語ニュース、講演の外国語発信など、これまでの旅行会話の単なるコミュニケーションの補助のための技術でなく、より大規模な情報流通に寄与できるものになると期待されると研究グループではコメントしている。 << 質問に対する直接の回答ではありませんので、ポイントは不要の旨、予め申し添えておきます。

Yoshiyaさんのコメント
追記 日本語の音声を文章に直す技術は既に確立されていますので、上記の技術と組み合わせれば、動画に限らず様々な用途で利用が可能ですね。 http://www.oki.com/jp/rd/ss/tts.html テキスト音声変換技術(沖電気)

あるぴにっくすさんのコメント
ありがとうございます。 人力検索はほぼ引退した身なのですが、辞め際に大量のポイントを送りつけてきた[http://q.hatena.ne.jp/1364269126#a1196199:title=ユーザー]がいるので使い道の無いポイントを大量に保持したままです。(アマゾン還元できる以上くらいには) いずれ機会ができたら何か質問させていただくと思いますので、そのときに還元させていただくつもりでコメントいただいておきます。

Yoshiyaさんのコメント
>いずれ機会ができたら何か質問させていただくと思いますので、そのときに還元させていただくつもりでコメントいただいておきます。 気持ちだけいただいておきます。 私もそろそろ人力検索からフェードアウトを考えておりますので、次の機会には回答できないかもしれません。
関連質問

●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ