1. 背景
マイクロホンアレーをユーザから離れた位置に設定して音声認識を行う技術は,ユーザが手でマイクを持たなくてよいため自然な発話が可能といった利点がある.これの応用としてカーナビや対話型ロボットなどが考えられる.しかし,実環境下では高精度な音声認識が難しいという問題がある.
・ブラインド音源分離(BSS)
BSSは観測信号のみの情報から目的の音源信号を分離して取り出す技術である.多くの独立成分分析(ICA) [1] に基づくBSSの手法が提案されているが,その大部分は点音源と点音源の分離を前提としたものである. ハンズフリー音声認識を想定した場合,このような問題設定は現実的でない場合が多い.
・Kinect
KinectはMicrosoft社製の4chマイクロホンアレー,RGBカメラ,深度センサを搭載したゲームデバイスで,比較的安価に入手可能で,開発環境も公開されている. 我々はKinectを用いて,雑音・残響に頑健なハンズフリー音声認識の実現を目指すとともに,音声の到来方向推定にKinectのカメラおよび深度センサを利用するマルチモーダルシステムの構築を目的とする.

BSSは観測信号のみの情報から目的の音源信号を分離して取り出す技術である.多くの独立成分分析(ICA) [1] に基づくBSSの手法が提案されているが,その大部分は点音源と点音源の分離を前提としたものである. ハンズフリー音声認識を想定した場合,このような問題設定は現実的でない場合が多い.
・Kinect
KinectはMicrosoft社製の4chマイクロホンアレー,RGBカメラ,深度センサを搭載したゲームデバイスで,比較的安価に入手可能で,開発環境も公開されている. 我々はKinectを用いて,雑音・残響に頑健なハンズフリー音声認識の実現を目指すとともに,音声の到来方向推定にKinectのカメラおよび深度センサを利用するマルチモーダルシステムの構築を目的とする.
2. 問題設定
目的音源と雑音源について以下の様な問題設定を行い,システムの実装を行った.
目的音源
・音声は点音源で近似可能
・マイクロホンアレーに近い ⇒ 残響成分が少ない
雑音源
・非点音源
・マイクロホンアレーから遠い ⇒ 残響成分が多い
このような環境において,ICA は目的音源を推定するよりも,雑音源を推定するほうが高い性能を示す.
目的音源
・音声は点音源で近似可能
・マイクロホンアレーに近い ⇒ 残響成分が少ない
雑音源
・非点音源
・マイクロホンアレーから遠い ⇒ 残響成分が多い
このような環境において,ICA は目的音源を推定するよりも,雑音源を推定するほうが高い性能を示す.
3. BSSA による雑音抑圧
ブラインド空間的サブトラクションアレー( BSSA )[2]
・主パス :Delay-and-Sum based speech enhancement
・参照パス:ICA-based noise estimator

利点
・非定常雑音を取り扱うことが可能
・素子誤差や残響に対して頑健
・ICAのパーミュテーション問題を緩和することが可能
・主パス :Delay-and-Sum based speech enhancement
・参照パス:ICA-based noise estimator

利点
・非定常雑音を取り扱うことが可能
・素子誤差や残響に対して頑健
・ICAのパーミュテーション問題を緩和することが可能
4. Kinect への実装
Kinect のマイクロホンアレーは,USBオーディオデバイスとして使用可能である. 現在の音声データには2ブロック前のデータで学習されたICAの分離フィルタが適用される.

5. まとめ
Kinect への BSSA による雑音抑圧処理の実装を行った. 今後は,Kinectの他センサと雑音抑圧処理を協調させるマルチモーダルシステムへの展開を行う.
参考文献
[1] Hiroshi Saruwatari, Toshiya Kawamura, Tsuyoki Nishikawa, Akinobu Lee, and Kiyohiro Shikano, ``Blind source separation based on a fast-convergence algorithm combining ICA and beamforming,'' IEEE Transactions on Speech and Audio Processing, Vol.14, No.2, pp.666-678, 2006.
[2] Yu Takahashi, Tomoya Takatani, Keiichi Osako, Hiroshi Saruwatari, and Kiyohiro Shikano, ``Blind spatial subtraction array for speech enhancement in noisy environment,'' IEEE Transactions on Audio, Speech and Language Processing, vol. 17, no. 4, pp.650--664, May. 2009.
[2] Yu Takahashi, Tomoya Takatani, Keiichi Osako, Hiroshi Saruwatari, and Kiyohiro Shikano, ``Blind spatial subtraction array for speech enhancement in noisy environment,'' IEEE Transactions on Audio, Speech and Language Processing, vol. 17, no. 4, pp.650--664, May. 2009.
Copyright (C) 2011 Speech and Acoustics Laboratory in NAIST. All Rights Reserved.
Last update: 2011.11.19 大沼 侑司 (yuji-o@is.naist.jp)