日本語ディクテーション基本ソフトウエアの開発

プロジェクト内容

研究の目的

英語を対象とした音声のディクテーション(任意語彙音声聞きとり)システムが、米国を中心に利用されはじめている。 IBMの他、Dragon Systemなどのベンチャーもシステムを販売しており、マイクロソフトなども開発を進めている。日本語に関しても、日本IBMが試験的に「単語区切り」 で発声した音声のディクテーションシステムをPC用に提供している他、マイクロソフトは日本語用のシステムの開発も進めているようである。日本では、ワー プロが広く使われ、その延長線上にある日本語のディクテーションも大きな産業になる可能性を秘めている。しかし、 などの未解決の日本語固有の問題もあり、その研究は英語に大きく立ち後れている。英語ディクテーション技術の開発は、DARPAのプ ロジェクトにより共通の研究・評価基盤が整備されたことで飛躍的に発展したことから、わが国においても会社や研究所の単位を越え、音声から言語までの幅広 い研究者を集め、分担して日本語ディクテーションの基盤を整える必要がある。 本研究開発は上述3点の問題を解決し、連続発声された音声の認識による日本語のディクテーションのための基本ソフトウェア(大語彙連続音声システム、音韻 モデル、言語モデル)を作成することを目的とする。 一昨年から奈良先端大鹿野教授を代表とする「大語彙連続音声認識研究用データベースワーキンググループ(WG)」を情報処理学会に設置して、大学を中心と した10数人の若手の音声言語の研究者が日本語のディクテーション用の言語コーパス(新聞4年分)、音声データベース(150文x300人)の整備を行な うとともに、大語彙連続音声認識や音韻・言語モデルの研究を行っている。作成されたデータベースに立脚して、日本語ディクテーション基本ソフトウェアの開 発が可能な段階に至っている。

ベースとして用いる理論・技術

日本語ディクテーションシステムの基本技術には、隠れマルコフモデル(HMM)音韻モデル・単語トライグラムによる統計的言語モデルに立脚した 統計的音声認識手法[1][2]を採用する。個々の研究開発項目は、上述の「大語彙連続音声認識研究用データベースWG」メンバーの研究成果にもとづき開 発を進める。また当該WGと、日本音響学会「音声データベース委員会」及びRWC「データベースワークショップ」の協力で作成された言語コーパス、音声 データベースを利用する。

重点研究項目とその内容の要点

研究内容

音声による日本語入力、いわゆる日本語ディクテーションシステムは、現在のワープロにとって替わる可能性のある重要な技術であ ると考えられている。このディクテーションシステムは、ある面では、音声認識技術の究極の研究であり、音声処理、言語処理の広い範囲にわたりレベルの高い 技術が必要であり、音声および言語の研究者の密接な協力が必要である。これまで日本語ディクテーションシステムの研究は、本研究開発のメンバーである大 学、国立研究所、NTT、ATRなどで、独立して要素技術を中心に進められてきたが、本格的な取り組みはなされていない。本研究開発のメンバーのほとんど は、情報処理学会「大語彙連続音声認識研究用データベースWG」で、日本語ディクテーションのためのデータベースの整備の活動を行なってきた[1]。この WGのメンバーの研究を中心にして、統合・発展させることで、日本語ディクテーションの基本ソフトウェアの開発および、音韻モデル・言語モデルの作成を行 なう。また作成したモデルやプログラムは、基本的にパブリックドメインソフトウェア(PDS)とし、会社などの研究開発にも利用できるようにする。
(1)大語彙連続音声認識プログラムの開発
HMMに基づく学習プログラムであるHTKを改良して音韻モデルの精密化をはかる。さらに、 単語トライグラム言語モデルを作成する。これらのモデルを利用する高速な連続音声認識プログラムを作成する。プログラムは、2万単語以上を対象とした連続 音声を、通常のパーソナルコンピュータで、実時間の10倍以下の処理時間で、単語誤り率は10%以下を目指す。本項目における主たる研究課題は、以下のと おりである。
(2)統計的言語モデルの作成
「大語彙連続音声認識研究用データベースWG」で作成した新聞記事コーパスを形態素解析し、頻出5千・2 万・6万語の単語辞書の作成を行なう。これらの結果から、単語バイグラム・トライグラムの作成を行なう[4]。さらに、より長い単語連鎖に基づく言語モデ ルの作成に関しても検討を行なう。また、統計的言語モデルの標準評価プログラムを作成する。
(3)音韻モデルの作成
「大語彙連続音声認識研究用データベースWG」と「音声データベース調査委員会(日本音響学会)」の協力で作成した、新聞記事読み上げ音声データベースを用いて、不特定話者用のHMM音韻モデルを作成する。 HMMの学習には汎用ツールであるHTKを用いる。 HMMの形式には、連続型HMM、及びTied Mixture 型のHMMを採用する[5]。また、音韻の種類 としては、1000個程度のトライフォンを考える。さらに、HMNETのように効率のよい音韻モデルをTied Mixture HMMで作成する。また、音韻モデルの標準評価プログラムを作成する。

参考文献リスト