2019年8月23日(金)

プレスリリース

企業名|産業
NTT情報・通信

NTT、声の特徴に基づき"聞きたい人の声"を抽出する技術を実現

2018/5/31 10:00
保存
共有
印刷
その他

発表日:2018年5月31日

世界初、声の特徴に基づき"聞きたい人の声"を抽出する技術を実現

~深層学習の新技術により、騒がしい環境で特定の声のみを抽出可能に~

日本電信電話株式会社(本社:東京都千代田区、代表取締役社長:鵜浦博夫、以下NTT)は、複数の人の声が混ざった音声から、目的話者の声の特徴に基づき、その人の声だけを選択的に抽出する技術SpeakerBeam(※1)を実現しました。

本技術は、様々な声や雑音が聞こえている環境において、目的話者の声の特徴やその位置だけに注目して、その声を聞き取る人間の聴覚の能力「選択的聴取(※2)(図1参照)」と同等の機能を実現したことに相当します。選択的聴取のうち、話者の位置に注目して声を聞き取る能力(※3)は、すでにコンピュータでも実現されていましたが、目的話者の声の特徴に注目して聞き取る能力は、本技術が世界初です。今回、NTTが独自開発した深層学習(※4)の新技術を用いて、この実現に成功しました。

本技術を用いることで、目的話者がどこで話すかわからない状況などでも、その声の特徴に注目して音声を抽出することができます。今後、人の会話を理解する音声認識・ロボット技術などに、本技術を応用していく予定です。

【背景】

近年、コンピュータによる自動音声認識技術が急速に発展し、スマートホンやスマートスピーカなどの音声インタフェースで利用されるようになってきました。しかし、日常の様々な場面では、複数の人が会話をしていたり、テレビの音声が背景で流れていたりするなど、目的話者以外の声が混ざって収録されることが、しばしば起きます。現在の音声認識技術では、目的話者だけに注目してその声を聞き取ること(選択的聴取)ができないため、このような状況にうまく対応することができませんでした。

*以下は添付リリースを参照

リリース本文中の「関連資料」は、こちらのURLからご覧ください。

添付リリース

http://release.nikkei.co.jp/attach_file/0480863_01.pdf

保存
共有
印刷
その他

電子版トップ速報トップ



[PR]

日本経済新聞社の関連サイト

日経IDの関連サイト

日本経済新聞 関連情報

新しい日経電子版のお知らせ

より使いやすく、よりビジュアルに!日経電子版はデザインやページ構成を全面的に見直します。まず新たなトップページをご覧いただけます。

※もとの電子版にもすぐ戻れます。