/

10人以上の音声を5秒で、東芝が話者分類技術

日経エレクトロニクス

東芝は、議事録作成などに使える話者分類技術を開発した。会議などにおいて、10人程度の多人数でも高精度で音声を分類できるソフトウエア技術である。ノートパソコンやタブレット端末などのモバイル機器でも動作し、一般的なステレオマイクがあれば使用できる。2014年9月3~5日、札幌市内で開催される日本音響学会2014年秋季研究発表会で発表する。

今回の新技術は、「入力音声の特徴点」と「話者の方向情報」を組み合わせて音声を分類する。特徴点を用いて音声を分類する場合、話者の人数が増えると声の特徴点が増えて区別が困難になる。この課題を解決する方法として検討されているのが、話者がいる方向の情報を組み合せる手法だ。複数のマイクで録音した音の位相差を基に、話者がいる方向を推定。この情報を用いて分類を高精度化する。

ただし従来の手法は、特殊な指向性マイクが必要だったり、方向推定の処理量が膨大で計算コストがかかるなどの問題があった。また同じ方向にいる話者の区別が難しいため、分類性能に悪影響を及ぼすこともあった。

そこで同社は、一般的なステレオマイクを用いた高速・高精度な方向推定のアルゴリズムと、分類性能に悪影響を及ぼさない組み合わせのアルゴリズムを開発した。例えば、Core i7(最大動作周波数2.7GHz)のCPUと4Gバイトの主記憶を搭載したパソコンの場合、一般的な会議(参加者は10人程度)であれば録音終了後に5秒程度で分類処理が完了する。分類の成功率(正しく話者の音声を分類できているかどうか)も従来手法は50%前後だったが、新技術は70%以上になることを確認したという。

新技術は2014年度中に完成する計画だ。議事録作成支援ソフトなどに組み込んで製品化することを予定している。新技術は音声認識(内容を文字データとして書き起こす)機能が含まれていないため、同社の音声認識技術などとセットで提供する可能性があるという。

(日経エレクトロニクス 中島募)

[日経テクノロジーオンライン 2014年8月22日掲載]

初割ですべての記事が読み放題
今なら2カ月無料!

関連企業・業界

企業:

セレクション

トレンドウオッチ

新着

注目

ビジネス

ライフスタイル

新着

注目

ビジネス

ライフスタイル

新着

注目

ビジネス

ライフスタイル

フォローする
有料会員の方のみご利用になれます。気になる連載・コラム・キーワードをフォローすると、「Myニュース」でまとめよみができます。
新規会員登録ログイン
記事を保存する
有料会員の方のみご利用になれます。保存した記事はスマホやタブレットでもご覧いただけます。
新規会員登録ログイン
Think! の投稿を読む
記事と併せて、エキスパート(専門家)のひとこと解説や分析を読むことができます。会員の方のみご利用になれます。
新規会員登録 (無料)ログイン
図表を保存する
有料会員の方のみご利用になれます。保存した図表はスマホやタブレットでもご覧いただけます。
新規会員登録ログイン