人間の知的活動の源泉ともいえる音声コミュニケーションをマルチモーダルな観点で分析・モデル化
した上で、セミナー・ポスター発表及び会議を対象として、リアルタイムに支援したり、効果的な
アーカイブ化を行うための情報環境を構築する。
主な話者の発話内容を音声認識して言語解析を試みるという従来のアプローチ(コンテンツに基づく
処理)だけでなく、視線やあいづち・うなずきなどの聴衆の反応に着目した新たなアプローチ(イン
タラクションに基づく処理)を導入する。知能化したセミナー室やポスターボードを構築し、定例の
セミナーやポスター発表会で実証実験を行う。さらに、音声認識システムについては、衆議院の次期
会議録作成システムで運用して得られる大規模なデータ・知見をフィードバックすることで、音響モ
デル・言語モデル(辞書)の高精度化を行い、幅広い話し言葉音声の書き起こしに供することができ
るようにする。
セミナーの聴衆や会議参加者各人に接話型マイクロフォンを装着してもらうのは現実的な設定でなく、
遠隔マイク群を用いて入力・処理する必要がある。奈良先端大の主な担務は、セミナー・会議のための
音響・音声処理であり、セミナー室・会議室において、遠隔マイク群を用いて、発言者を特定しその
音声を強調することの研究に重点を置く。また、聴衆の反応の音響・音声処理の一部を担う。
本研究では、独立な音情景を単位とする柔軟かつ高品質な音メディア・コミュニケーション・シス
テムを提案する。「音情景」とは、各音源信号波形のみを指すのではなく、それを取り巻く環境情報、
例えば室内における音の反響具合やその音源の持つ空間的な広がり感などの情報をも含む概念である
と定義する。具体的には、「複雑な音情景を統計的な独立成分に分解し、加工・拡張再現する」という
総合的音メディアコンテンツ入出力システムの構築を主目的とする。また、このシステムの実証的ア
プリケーションとして、「音情景分解に基づく両耳補聴器」を想定し、提案法のユニバーサル・コミュ
ニケーション技術としての有用性に関して検討する。
発声障害者として調音器官が十分に機能する喉頭摘出者を対象とし、従来の代替発声法で
ある食道発声及び電気式人工喉頭を用いた発声により得られる音声を、より自然な音声へと
変換する技術の研究開発を行う。統計的声質変換・制御技術を応用することで、発声障害者
音声の品質改善のみでなく、自由な変換音声の声質制御も実現する発声補助技術を構築する。
テストベッドシステムの構築及び評価により、今後の実用化に向けた可能性を示す。
本研究課題では、頚部を伝導してくる微弱な音声を検出するNAM† マイクの原理を用い、センサ
の実装法と、センサの音響設計とセンサに使用する高分子材料とを最適化することによって、体
内に発生源があり体内を伝播してきた音を体表で安定して検出する、小型で装着が容易な高感度
の体導音センサを平成21年度までに開発する。このセンサを実現させることにより、日常生活を
しながら心音、血流音、呼気音、筋音、蠕動音などを検出できるようになる。このセンサとホー
ムネットワーク技術やセンサネットワーク技術とを組み合わせることによって、音声の一形態で
あるNAMによる代用音声技術やサイレント音声入力技術に加えて、生活者の状態を常時モニタする
健康管理および高齢者や子供を家庭や病院内で見守る技術などに利用できる。
† NAM:非可聴つぶやき声と呼ばれる耳では聞き取れない弱い音声。Non-Audible Murmur の略。
周産期医療における最重要課題は早産を早期発見し、早期治療することにより
未熟児出産を防止することである。妊婦の健康状態を判断し胎児情報を得るた
めには、定期的な妊婦健診が必要である。早産を早期に予知発見するためには、
分娩監視装置による子宮収縮と胎児心拍をモニターする必要があるが、現状で
は病院内で妊婦を拘束し生体計測しなければならない。今回、無拘束・無侵襲
で在宅で生体計測可能な子宮収縮圧センサー・マイク内臓の体表貼り付け型セン
サーと、データ処理や通信手段内臓の電子母子手帳端末の開発を行う。本開発
のため我々が開発した「非可聴つぶやきとブラインド音源分離により音センシ
ング技術の研究開発」、すなわち、NAM (Non Audible Murmur)マイクとBSS
(Blind Source Separation)技術を活用する。
秘書ロボット、PDA/PC入出力、家電制御などを、自然な音声対話によって誰でも容易
に利用できることが望まれる。人と機械との自然な対話を実現するには、音声認識・
合成技術のさらなる研究開発が必要である。とくに、頑健な音声認識システムとして
利用環境およびユーザに対する負担をかけない適応技術、マイクを意識しない自然な
ハンズフリー音声認識技術、誰でもが利用できる高精度連続音声認識フリーソフト
ウェアおよび音声認識システム研究開発環境、人と機械の対話におけるヒューマン
ファクターの把握が重要である。音声合成では、高精度音声分析合成系STRAIGHTを用
いた多様な声質を実現できる音声合成システムが重要である。
このプロジェクトでは、上記の研究ターゲットの実現を目指して、大学と企業が一
体となって、 自然な人にやさしい音声インターフェースのための基盤ソフトウェア
の研究開発を行う。
プロジェクト概要
Last update 2009.03.27
鹿野 清宏 (shikano@is.naist.jp)