2)人工内耳によるコトバの変換
コトバは同時に多くの音の周波数成分を含み、しかもこれが子音から母音へ、母音から子音へと刻々と変化し、また母音を特徴付けるフォルマントの中心周波数も刻々と変化します。このようなコトバの情報をどのような電気刺激に変えるかが大間越なのです。音は空気の疎密波です。これをマイクでとらえて、増幅すると電気の波になります。この波は、そのままだとアナログ波と言われます。音の情報を聴神経に伝えるのに、まず思いつくのは、音を電気的に変換したアナログ波で聴神経を刺激してはどうかという事で、これをアナログ刺激方式といいます。一方、音の情報を一旦パルス信号の系列に変えて聴神経に入力するのがパルス刺激方式です。この際、語音の特徴をどのように取り出し、どのようなパターンと時系列で各電極を活動させるかを語音符号化法(speech coding strategy)といい、どの様な符号化法を用いるかがその人工内耳の性能を大きく左右します。以下に、現在、世界で最も標準的に用いられている符号化法について、その特徴を紹介します。
3)コトバの符号化法の種類
(1)SPEAK法
わが国および世界で最も広く用いられている人工内耳は、コクレア社製の22チャンネル人工内耳で、その語音符号化法の基本的考え方は「語音の特徴を抽出して、それを選択的に入力する」というものでした。この人工内耳はメルボルン大学で開発され、1982年に実用化されたましたが、この時点での人工内耳は音声の基本周波数と第2フォルマントの2箇所の情報のみを伝える方式でした。その後1985年に、これに第1フォルマントの情報を加えた機種となり、1989年、スピーチプロセッサの小型化と高周波帯域のコトバの情報をも取り入れる型(マルチピーク法:MPEAK法)に改良されました。さらに1995年に、スペクトルピーク方式(SPEAK法)に移行し、 MPEAK法に比べてさらに語音弁別と雑音下での聞き取りが向上しました。
SPEAK法では周波数帯域150〜10000Hzに20個のフィルタが並列に使用されており、フィルタに入力された音の中からエネルギーの強い信号成分が選択されます(図6)。蝸牛内の電極は1秒間に平均250回の刺激を送り出します。1回の刺激で活動する電極数は平均6個ですが、広い周波数の成分を待つ信号の場合は、最大10個までの信号成分が選択され、逆に周波数構成が単純な音では、選択される信号成分は少なくなります。SPEAK法は信号成分の強いフィルタ出力が多数選択されて電極の刺激に使われるので、たとえ雑音のために幾つかの電極が使われても、他の電極でこれと同時にコトパの情報を送り込めるので、相対的に雑音の影響が少なくなり、周囲の雑音の影響を受けにくくなっています。
このようにSPEAK法では、あえてフォルマントを探索して決定するのではなくスペクトルの強い部分ならどこでも取り上げるという方法に変化しました。この符号化法の変化には、語音の「特徴」としてフォルマントを重視し、これを「抽出する」という考え方から、語音の周波数および時間情報をより忠実に入力するという考え方への転換が感じられます。