研究室活動概要

音情報処理学研究室では,マンマシンインタフェースにおける音声の役割,ネットワークや通信における音と音声の問題, マルチメディアにおける音の効果などを考えながら,メディアとしての音・音声の認識,合成,再現,通信の研究を行ってきた. 特に,音声を中心としたマルチモーダル情報による人と計算機のコミュニケーション,音のバーチャルリアリティ, 音声処理と音響信号処理の融合などを重点において研究を進めてきた. また,音声認識・合成技術の実用化に向けての技術開発の努力も行ってきた.

最近、新しい音声メディア非可聴つぶやき(NAM:Non-Audible Murmur)の発見、新しい歪みなしのブラインド音源分離原理SIMO-ICA、音声情報案内システムの実環境での運用、音声モーフィングなどの研究が大いに進展した。これらの新しい技術を利用して、誰でもがどのような環境でも音声で人ともネットワーク/ロボットとも音声でコミュニケーションできる音声のユニバーサルコミュニケーションの研究を行ってきた。

音情報処理学講座では,新たに、
(1) 音楽情報処理、
(2) ブレインインタフェース、フィジカルセンシング
の研究を本格的に開始した。

研究室の研究活動も17年になり、音声情報案内システムを生駒市コミュニティセンター「たけまるくん」や、近鉄学研北生駒駅「キタちゃん」と「キタロボ」を常設して運用できるところまで音声認識の技術レベルが向上した。「たけまるくん」は、奈良の遷都1300年祭で、多くの来訪者に4ヶ月間、遷都1300年祭の会場案内、奈良市の音声情報案内を行い、好評でした。大語彙連続音声認識プログラム「Julius」もフリーソフトフトウェアとして広く普及し、マイコンSH−4Aで実時間動作するレベルに到達した。さらに、これまでの話者適応、音声認識フリーソフトウェア、音声対話システムの開発、ハンズフリー、音声モーフィングなどの研究実績が認められて、文部科学省のリーディングプロジェクト(e-Society基盤ソフトウェアの総合開発)の一環として、「音声認識・合成」の研究開発を他大学、企業と共同で行い、大きな成果をあげた。昨年、騒音下でのロボットとのハンズフリー音声対話システムを世界に先駆けて構築した。さらに、音声による情報検索(Voice Search)の研究を本格的に開始した。

また、ブラインド音源分離(BSS)、音場制御では、新しい理論展開を行なっており、BSSでは新しい概念 SIMO−ICAモデルに基づくBSSの研究を進め、オンラインで良好に動作するレベルに到達し、DSPレベルの実装の研究も大いに進展した。このBSS技術を核にして、「音情景分解に基づく音メディア・ユニバーサルコミュニケーション・システムの研究開発」を総務省のSCOPEプロジェクトとして開始して、研究を推進した。京大の河原教授を代表とする文部科学省のCREST「セミナー・会議のための音響・音声処理」を開始した。

さらに、新しい音声メディアとして、非可聴つぶやき:NAM(Non-Audible Murmur)が見出され、無音声認識、無音声電話の研究も進展している。その他、21世紀COECRESTの中核メンバーとして、「ユビキタス統合メディアコンピューティング」の枠組で、音声・音響メディアの研究を活発に行なった。音声変換(音声モーフィング)の分野でも、世界を先導してきた。NAMおよび音声モーフィングの技術を融合した「発声障害者補助のための統計的声質変換の研究開発」を総務省のSCOPEプロジェクトとして開始して、研究を推進した。猿渡准教授の科学研究費基盤A「高次統計量追跡による自律カスタムメイド音コミュニケーション拡張」が採択され、研究を開始した。

BSSを利用した音場符号化、音場の可視化、非線形雑音抑圧処理の最適化、ハンズフリー音声認識、NAMを利用した発話障害者補助などの研究もすすみ、研究室の音・音声の研究は、ますます広がってきている。

ブラインド音源分離(BSS)と非可聴つぶやき(NAM)の技術を利用して、フィジカルセンシング、ブレインインタフェースを開始している。

 

音情報処理学講座 19年の研究&教育活動のまとめ

 

鹿野が平成64月に奈良先端科学技術大学院大学 情報科学研究科 教授に着任し、音声情報処理と音情報処理の融合を目指して、音情報処理学講座で中村哲助教授と伊勢史郎助手とともに研究と教育を開始した。

研究室の設備などを整えるとともに、平成711月、情報処理学会音声言語情報処理研究会(SLP)に大語彙連続音声認識研究データベース・ワーキンググループを立ち上げ、19大学、20企業の協力を得て、新聞記事読み上げ音声コーパスの大規模音声データベース(306人×503文)を作成した。この音声データベース(JNAS)は、現在でも最も使われている音声データベースである。このJNASでの大語彙連続音声認識の研究評価ができるように、テストセットや標準の音韻モデル、言語モデルの構築を行った。さらに、学生や若手研究者の教育として、平成88月に音声認識基本技術講習会を開催し、以後、現在まで毎年開催され、学生だけでなく企業の参加者も多く、音声認識技術の基礎の教育として大きな役割を果たしている。

平成94月、鹿野をリーダーとするIPA独創的先進的情報技術に係わる研究開発「日本語ディクテーション基本ソフトウェアの開発」が採択され、年間約5千万円の3年間のプロジェクトを開始し、大語彙連続音声認識ソフトウェアJULIUSをはじめ、多くの成果を上げ、若手研究者の育成にも大いに貢献した。11月には、音情報処理論Iの講義内容にもとにした教科書「音声・音情報のディジタル信号処理」を出版した。

中村助教授の活躍により、ハンズフリー音声認識やマルチモーダル音声認識の分野での研究も成果を上げた。さらに、伊勢助教の活躍により音場の再現の研究も進んだ。平成123月に中村哲助教授がATRへ室長として転出し、同4月に猿渡洋助教授が着任した。平成124月に、IPAのプロジェクトを発展させ、情報処理学会の連続音声認識コンソーシアム(3年間)を立ち上げた。NEDOの高齢者音声認識のプロジェクト(1)を高山サイエンスにラボを設置して研究を行った。この年から、修士課程の学生にも研究員として雇用して、研究の対価を支払うことにした。収集した高齢者音声データベース(S-JNAS)(402人×200)を公開した。平成135月に音声認識基本技術講習会をもとに、情報処理学会から「音声認識システム」を出版した。

平成124月に猿渡洋助教授が、10月に李晃伸助手が着任し、新しい枠組みの研究、ブラインド音源分離(BSS)、音声対話システムの研究を開始した。これらの技術が大いに発展して、BSSでは、分離におけるひずみが小さいSIMO-ICAのアルゴリズムが見出された。BSSは、NTT-CS研との共同研究も行い、音源分離の世界の中心として認められるようになった。学生の西村の献身的な努力により、ロボティクス講座とロボット対話システムASKAを構築してデモを行った。平成14年度、音声対話システムでは、生駒市北コミュニティセンターに音声情報案内システム「たけまるくん」を設置し、実環境実験と実音声データの収録が開始された。さらに、中島の発見による無音声(NAM)認識や声質変換の研究が大いに進展し、今後の研究の基盤が築けた年度であった。文部科学省のCOEのプログラムの中核メンバーとなり、5年間の研究が開始された。NEDOの高齢者ロボットコミュニケーションのプロジェクトが始まった。

平成15年度、文部科学省のリィーディングプロジェクトのe-Society基盤ソフトウェアの総合開発の一環として「ユーザ負担のない話者・環境適応性を実現する自然な音声対話処理技術」の研究がこれまでのATR、関西、東海の音声研究が評価されて採択された。奈良先端大に京都大学、名古屋大学、和歌山大学、名古屋工業大学と企業3社を加えた年間約1億円の5年間の音声認識と合成のプロジェクトが開始された。また、科研基盤(B)の二つの申請「人にやさしい音声認識」と「音響拡張現実感」 が採択され、それぞれ4年間の研究も開始された。音源分離(BSS)、音声対話システム、無音声認識の研究が大いに進展した。

平成16年度、SIMOモデルによる音源分離(BSS)のオンライン化、音声モーフィング技術による無音声電話の可能性、たけまるモデルによる音声対話システムの普及などで大いに 研究が進展した。文部科学省のe-Society基盤ソフトェアの総合開発の「音声認識・合成」の研究も順調に進展した。トヨタ自動車との音声対話システムの共同研究を開始した。 NAMの研究や音声対話システムの報道発表が、NHKニュースや奈良新聞など10数件に及んだ。李助手が名古屋工業大学へ助教授として転出した。

平成17年度、SIMO-ICADSP実装が進展し、NHKニュースなどマスコミで多く取り上げられた。戸田智基助手が着任し、音声モーフィングの研究が飛躍的に進展した。科研の萌芽研究としてNAMによる個人認証(2年間)の研究を開始した。リィーディングプロジェクトのe-Societyの中間評価が行われ、高く評価された。近鉄学研北生駒駅に音声情報案内システムとロボット案内システム「キタちゃん」を設置した。非可聴つぶやき声の認識で、電子情報通信学会の論文賞および最優秀論文賞「猪瀬賞」を授与された。

平成18年度、SIMO-ICAのDSP実装がさらに進展して、商品レベルに到達した。残響の復元で今年度も電子情報通信学会から論文賞を受賞した。実時間BSSは、ロボットの国際会議(IROS)でも高く評価され、論文賞を受賞した。

平成19年度、文部科学省のリーディングプロジェクトe-Societyが音声対話システム、ブラインド音源分離、非可聴つぶやき、音声モーフィングなど多くの成果を生み出して成功裏に終了した。このプロジェクトの成果をもとに、音声によるユニバーサルコミュニケーションの研究を発展させている。騒音下でのロボットとのハンズフリー音声対話システムの構築を世界に先駆けて構築した。研究室の音声認識技術、ブラインド音源分離のBSSAとを融合した成果である。SIMO-ICAがブラインド音源分離の世界コンテストの非線形部門のトップになり、表彰を受けた。文部科学省の基盤研究Aの「音声によるユニバーサルコミュニケーションの研究」が採択され、4年間の研究を開始した。

平成20年度、総務省の戦略的情報通信研究開発推進制度(SCOPE)に猿渡准教授の音情景分解に基づく音メディア・ユニバーサル・コミュニケーション・ システムの研究開発」と戸田助教の「発声障害者補助のための統計的声質変換技術の研究開発」が採択され、3年間の研究が開始された。文部科学省のリーディングプロジェクトe-Societyのプロジェクト(音声認識、音声合成)の事後評価が行われ、非常に高く評価された。NEDO高齢者対応コミュニケーションRTシステムの中間評価も行われ、ハンズフリーロボット対話は高く評価された。

平成21年度、今までの研究室の研究成果が、国際的にも高く評価された年度であり、ICASSPでロボット対話、残響下での音声対話システム、声質変換のspecial sessionでの3件の講演が招待された。また、InterSpeechでも、戸田助教授がSilent SpeechSpecial Sessionで、NAM (Non-Audible Murmurと声質変換)keynote speechを行った。

平成22年度、総務省の戦略的情報通信研究開発推進制度(SCOPE)に猿渡の音情景分解に基づく音メディア・ユニバーサル・コミュニケーション・ システムの研究開発」と戸田の「発声障害者補助のための統計的声質変換技術の研究開発」が成果を上げて終了した。元音情報処理学講座の助教授の中村哲博士(NICTけいはんな研究所所長)が教授として着任し、知能コミュニケーション講座を開設することが内定した。助教の戸田智基博士が准教授として知能コミュニケーション講座に着任することが内定した。京阪奈地域のコミュニケーション関連の研究の核として研究活動を行う基盤ができた。音声情報案内システム「たけまるくん」が平城遷都1300年祭に参加し、4ヶ月間にわたり、会場や奈良の情報案内に活躍した。

平成23年度、猿渡准教授のブラインド音源分離(BSS)の研究が高く評価され、ドコモ・モバイル・サイエンス賞の基礎科学部門優秀賞や東北大学電気通信研究所のRICE Awardが授与された。また、高次統計量によるミュージカルノイズの削減アルゴリズムの研究が進展し、IEEEの論文に発表し、電気通信普及財団テレコムシステム技術賞に選ばれた。

これらの業績が高く評価され、鹿野は、平成191月に「Contribution of speech recognition, dialog systems, voice conversion, and acoustic field realization」の業績でIEEE Fellow(米国電気電子学会フェロー)の称号が授与された。また、平成169月に「音声認識高度化と研究・教育」の業績で電子情報通信学会からフェローの称号が授与された。さらに、平成163月に「大語彙連続音声認識の研究開発とその普及活動」の業績で情報処理学会からフェローの称号が授与された。

上記のフェローの照合のほか、IEEEから平成31月にIEEE Signal Processing Society,1990 Senior Award(論文賞)を、電子情報通信学会から論文賞(平成17年、18)、猪瀬賞(最優秀論文賞)(平成17)、情報処理学会から山下記念研究賞(平成12)を授与された。その他、日本音響学会から技術開発賞(平成3)を、日本バーチャルリアリティ学会から論文賞(平成13)を、IEEE/RSJ(IROS2005)Best Application Paper Award(平成18)を、IEEE MLSP2007 Data Analysis Competition Winner(平成19)を、電気通信普及財団からテレコムシステム技術賞(平成21年、24)を授与された。

音情報処理学講座のスタッフ、学生の活躍も目覚しく、多くの賞を受賞している。主な受賞は、スタッフでは、猿渡准教授が電子情報通信学会論文賞(平成12年、17年)、ドコモ・モバイル・サイエンス賞(平成23年)、東北大学電気通信研究所RIEC Award(平成23年)、日本音響学会技術開発賞(平成21年)を、戸田助教授(現本学准教授)がIEEE Signal Processing Society 2009 Young Author Best Paper Award(平成22年)、電子情報通信学会情報システムソサィエティ論文賞(平成20年)、エリクソン・ヤングサイエンティスト・アワード(平成20年)、日本音響学会の独創研究奨励賞板倉記念(平成21年)と粟屋潔学術奨励賞(平成21年)を、伊勢史郎助手(現、京大准教授)が日本音響学会論文賞(平成10年)を、李助教(現、名工大准教授)が日本音響学会の粟屋潔学術奨励賞(平成14年)、を情報処理学会の山下記念研究賞(平成19)を受賞している。

学生のみの主な受賞は、40件あまりになり、主な受賞は、電気通信普及財団テレコムシステム技術学生賞(平成9年、12年、15年、16)、日本音響学会の粟屋潔学術奨励賞(平成12年、21年)、C&C若手優秀論文賞(平成17年)、船井情報科学奨励賞(平成17年)、日本音響学会の独創研究奨励賞板倉記念(平成18年、21年)、エリクソン・ベスト・スチューデント・アワード(平成24年)などである。本学のNAISTベストスチューデント賞は、音情報処理学講座で、2001年の創設以来、ほぼ毎年受賞しており、修士課程が8回、博士課程が6回である。平成12年度より、修士課程の学生にも積極的に研究に加わるように、研究員雇用を行い、授業料程度の賃金を支払い、さらに、国際会議への参加もプロモートしてきた。この19年間に、33名の博士課程の学位修得者、約200名の修士課程の学生を育成した。

鹿野は、学会活動で、IEEE Signal Processing SocietyMember of Speech Technical Committee1991.1 1995.12まで努めた。電子情報通信学会の音声研究会の幹事(1991.5 1992.5 )、副委員長(1992.5 1994.5 )を努め、その後は奈良に移ったため学会活動を減らした。

情報処理学会では、音声言語処理研究会で活動して、平成711月に大語彙連続音声認識研究データベース・ワーキンググループを立ち上げ、大規模新聞読み上げ音声データベース(JNAS)の作成し、さらに、学生や若手研究者の教育として、平成88月に音声認識基本技術講習会を開催し、以後、この講習会は現在まで毎年開催されている。平成94月、IPA独創的先進的情報技術に係わる研究開発「日本語ディクテーション基本ソフトウェアの開発」に採択され、年間約5千万円の3年間のプロジェクトを開始し、大語彙連続音声認識ソフトウェアJULIUSをはじめ、多くの成果を上げ、若手研究者の育成にも貢献した。平成124月に、このIPAのプロジェクトを発展させ、情報処理学会の連続音声認識コンソーシアム(3年間)を立ち上げ、情報処理学会音声言語情報処理研究会の特別幹事(2000.4  2002.3)を努めた。その他、日本音響学会関西支部副支部長(2006.42007.3)や日本音響学会関西支部支部長(2007.42008.3)を努めた。
音情報処理学講座では、19年間の活動において、多くのプロジェクトや企業との共同研究を行い、総計10億円に迫る外部資金を獲得するとともに、本学だけでなく、関西を中心とした音声情報処理、音情報処理の人材を育成してきた。19年間の延べ(年度)件数は、共同研究が約60件・約1.4億円、受託件数が約70件・約4.9億円、科学研究費が約40件・約1.5億円、奨学寄附金が約60件・約0.6億円である。
 
本学で行ってきた主なプロジェクトをまとめておく。
まず、研究室が主体となって行ったプロジェクトをあげておく。
 
(1) 文部科学省e-Society基盤ソフトウェアプロジェクト 鹿野「ユーザ負担のない話者・環境適応性を実現する自然な音声対話処理技術」2003年度から2007年度(約1億円×5年)
 
(2) IPAに係わるプロジェクト

(a) IPA独創的先進的情報技術に係わる研究開発 鹿野「日本語ディクテーション基本ソフトウェアの開発」1997年度から1999年度(約5千万円×3年)

(b) IPA 未踏ソフト 戸田「固有声変換ソフトウェア」(2006年度)

(c) IPA 未踏ユース 鎌土「オーディオオブジェクト操作」(2009年度)
 
(3) 文部省科学研究費
(a) 文部省科学研究費 基盤研究(C)「日本語音声ディクテーションシステム」 (1996年度〜1997年度) 鹿野

(b) 文部省科学科究費 基盤研究(C) 「日本語音声ディクテーションシステムの環境への適応」(1998年度〜2001年度) 鹿野

(c) 文部科学省科学研究費 基盤研究(B)「マイクロホンアレーを用いたハンズフリー音声認識アルゴリズム」 (1999年度〜2002年度)中村(猿渡)

(d) 文部省科学科究費 奨励研究(A) 「明瞭な自由発話を対象とした頑健な大語彙連続音声認識」(2001年度〜2002年度)

(e) 文部科学省科学研究費 基盤研究(B) 「環境、話者、タスクへの適応性をもつユーザにやさしい音声認識」(2003年度〜2006年度) 鹿野

(f) 文部科学省科学研究費 基盤研究(B)「音情景の分解・合成・拡張に基づく音響拡張現実感」(2003年度〜2006年度)猿渡

(g) 文部科学省科学研究費 萌芽研究 「つぶやき音声による個人認証」(2005年度〜2006年度) 鹿野

(h) 文部科学省科学研究費 若手研究(A)「任意のユーザを対象とする統計的声質変換・制御法」(2006年度〜2008年度)戸田

(i) 文部科学省科学研究費 基盤研究(A) 「新しい音声メディアによるユニバーサルコミュニケーション」(2007年度〜2010年度) 鹿野

 
(j) 文部科学省科学研究費 若手研究(A)「バリアフリー音声コミュニケーションのための次世代ボイスチェンジャー」(2010年度〜2014年度)戸田

(k) 文部科学省科学研究費 基盤研究(A)「高次統計量による自立カスタムメイド音コミュニケーション拡張システム」 (2011年度〜2014年度)猿渡

(l) 文部科学省科学研究費 基盤研究(C)「機械学習および統計モデルに基づく音声対話システムの応答生成」 (2012年度〜2015年度)川波
 
(4) 総務省SCOPEプロジェクト

(a) 総務省 SCOPE  障害者の声質変換(2008年度〜2010年度)戸田

(b) 総務省 SCOPE  補聴器(2008年度〜2010年度)猿渡
 
(4) 情報処理学会コンソーシアム 鹿野「大語彙連続音声認識フリーソフトウェア」(2000年度〜2003年度)
 
 次に、分担として行ってきたプロジェクトをあげておく。
 
(1)文部科学省科学研究費

(a) 文部省重点領域研究「音声・言語・概念の統合処理による対話の理解と生成に関する研究」(1994年度〜1995年度)

(b) 文部省総合研究(A)「音の知覚と情報統合に関する総合研究」(1995年度〜1996年度)

(c) 文部科学省科学研究費特定領域(A)「英語学習」(2000年度〜2002年度)

(d) 文部科学省科学研究費 学術創成「ソフトウェアロボット」(2001年度〜2003年度)

(e) 文部科学省科学研究費 基盤研究(A) 「音韻モデルの分散学習」(2003年度〜2005年度)

(f) 文部科学省科学研究費 基盤研究(B) 「ディジタルメディアコンテンツ作成のための多様な音声の合成技術」(2005年度〜2008年度) 

(g) 文部科学省科学研究費 基盤研究(C) 「多元観測信号を用いた音信号の予測及び復元」(2006年度〜2008年度)

(h) 文部科学省科学研究費 基盤研究(A) 「聴覚・音声機能の支援・拡張技術」(2007年度〜2010年度) 
 
(2) 科学技術振興事業団 CREST 

(a) 科学技術振興事業団「脳をつくる」「聴覚の情景分析に基づく音声・音響処理システム」(1997年度〜2002年度)

(b) 科学技術振興事業団「高度メディア社会の生活情報技術」「日常生活を拡張する着用型情報パートナーの開発」(2000年度〜2005年度)

(c) 科学技術振興事業団「高度メディア社会の生活情報技術」「The Processing of Expressive Speech(2000年度〜2004年度)

(d) 科学技術振興事業団「共生社会に向けた人間調和型情報技術の構築」「マルチモーダルな場の認識に基づく セミナー・会議の多層的支援環境」(2009年度〜2012年度)
 
(3) 文部科学省「21世紀COEプログラム」「ユビキタス統合メディアコンピューティング」(2002年度〜2006年度)
 
(4) 経済産業省 NEDOプロジェクト

(a) 「シニア支援システム」「音声インタフェース」(2000年度)

(b) 「NEDO戦略的先端ロボット要素技術開発プロジェクト」(2006年度〜2008年度)
 
(5) 総務省SCOPEプロジェクト

(a) 総務省 SCOPE  発話障害者(2005年度〜2007年度)

(b) 総務省 SCOPE  NAMマイク(2008年度〜2009年度)
 
(6) IPA独創的先進的情報技術に係わる研究開発「擬人化エージェント」(2000年度〜2002年度)
 
(7) 文部科学省 都市エリア 胎児心音の検出 (2008年度〜2009年度)
 
(8) RWC 音響データベース(1997年度〜2000年度)

 
 
 また、音情報処理学講座は、多くの企業から共同研究や受託研究などを通してお世話になりました。企業との共同研究などをまとめておく。
 
トヨタ自動車(2004-2012)、ヤマハ(2007-2012)、サクサシステムエンジニアリング(2012)、フォスター電機(2009-2012)、パナソニック(1995,2000-2004,2007-2011)
NEC(1995-2000,2006-2010)、ソニー(2007-2009)、ホシデン(2008-2009)、三洋半導体(2008)、生駒市(2002-2008)、日立(2002-2007)、旭化成(1994,2002-2007)
メガチップス(2006)、オムロン(1998-2005)KDDI(2005-2006)、神戸製鋼(1998,2003-2006)、デンソー(2004)NTT(1994-1995,1997,2001-2003)
日産自動車(2001-2004)、松下電工(2001-2004)、Pto(2002)、熊本ソフトウェア(2002)、ハーネス総合技術研究所(1999-2000)、アドバンスドメディア(1999)
東芝(1997-1999)ATR(1994-1998)NTTデータ(1995-1997)、音響測器(1994-1996)NTTアドバンスドテクノロジー(1996)、ブラザー工業(1996)