海野秀之(うんのひでゆき)の外部記憶
Twitter (twilog) / RSS / アンテナ / ぶくま
誰でも思いつきそうなので、きっとだれか思いついてそうですが、メモっておくことにする。
ざっと文献をチラ見したところによると、日本語の音声認識において、母音を認識するだけなら(もちろん識別率100%ではないが)、比較的容易らしい。第1、第2フォルマントによる二次元ベクトル量で特徴抽出が可能だとか。
考えてみれば、われわれ人間だった、純粋に「耳」だけで、日本語の音をきちんと識別しているかというと、大変うたがわしい。識別率うんぬんについて、機械をバカにできるほど、きちんと聞き分けているかというと、そんなことなさそうです。
一方、Slime なんかを見ると、コンピウタさんは偉いもので、母音がだいたいわかれば、元の文を推測するなんて芸当を(人間には苦痛ですが)、なんとかこなしてくれそうな気もします。
つまり、音響認識部では、母音の識別+αくらいにしておいて、基本、母音列から推定するつもりで、後段でがんばる。
いけそうじゃない?
さすがに、母音しかわからない状態まで縮退した情報から、もとの文を推定するのはムリゲーくさい。<br><br>ふと、大学時代の先生が書かれた教科書をみていると、「フーリエ解析は、線形時不変システムの解析に向いているが、時間要素がなくなってしまうので、それが不都合な場合にはウェーブレット解析などを使うのがよい」(うろおぼえ)と書かれているのを読むなど。<br><br>そうか、母音は持続音の響きに個性があるので、フーリエ解析でうまくいっていたのか。<br><br>そして、子音は、すでに時間成分を失ってしまったフーリエ解析結果をごにょごにょしても認識するのは無理なのでは?<br>もしかして。(短時間フーリエーだーといわれたら、そうかも)<br><br>んで、すこし探すと、聴覚に障害のある人(とくに子音が聞き取りにくいことが多いのだそう)むけの音声認識補助にウェーブレット変換をもちいたらどうなるのかといった論文を発見。<br><br>http://proceedings.spiedigitallibrary.org/proceeding.aspx?articleid=967311<br><br>ずばりじゃないか?
母音の識別に従来通りフーリエ解析を用いつつ、母音の直前には1個または0個の子音があるかもという知識と、ウェーブレットを併用したらどうかなと思っている、ということ。