「音」への好奇心を、社会の価値に繋げていく。研究者としての不安の先に見い出した可能性。
コンピューターで人の声を再現する技術「音声合成」の基礎研究を行いつつ、発音・発声に障害を伴う「ALS(筋萎縮性側索硬化症)」等の患者さんに向けた会話補助システム作り等も行う山岸さん。ドラム演奏をキッカケに抱いた音への関心と、迷いながらも決めた研究者への道。基礎研究者としては珍しく、直接社会と接する部分まで包括的に力を注ぐ背景にはどのような思いがあるのでしょうか?お話を伺いました。
山岸 順一
やまぎし じゅんいち|音声合成技術の基礎研究・医療・福祉応用に関する研究
国立情報学研究所 コンテンツ科学研究系 准教授として、音声合成技術の基礎研究に取り組む傍ら、医療・福祉分野の応用事例として、ALS患者の会話補助システム作りを行う「ボイスバンクプロジェクト」を運営する。
※本チャンネルは、TBSテレビ「夢の扉+」の協力でお届けしました。
TBSテレビ「夢の扉+」で、山岸 順一さんの活動に密着したドキュメンタリーが、
2015年10月18日(日)18時30分から放送されます。
番組公式HPはこちら
番組公式Facebookはこちら
音への関心から音声研究の道へ
私は東京で生まれ、小学校からは神奈川に引っ越し、県内の学校に通って育ちました。高校卒業が近づき、大学進学を考えるようになると、ちょうど「Windows95」が出た時期ということもありコンピューターサイエンスが人気の分野に。特別コンピューターが好きという訳ではないものの、理系の私の関心と重なる部分もあり、東京工業大学工学部情報工学科に進学を決めました。
大学に入ってからは仲間とバンドを組み、ドラムを始めました。元々音楽を聴くことが好きで、ロックやヘビーメタル等のジャンルを聴いており、自ら楽器を演奏することにも関心を持つようになったんです。
実際にライブハウス等で演奏をするようになると、ドラムの音を拾うマイクを何本も設置する準備が必要で、見よう見まねでセッティングを自ら行うようになりました。すると、収録の仕方や処理の仕方で全く音の質が変わることを、非常に面白く感じるようになっていったんです。「どうなっているんだろう?工夫すると良い音になるのはなんでだろう?」という知的好奇心が強くなっていき、音に対する興味を強めていきました。
また、所属していた学科で情報系の勉強をしていたことも合わさり、大学4年生になってからは音と情報学に関わるような音声の研究室に入ることに決めました。最初はライブハウスのイメージから、サウンドエンジニアのような研究をするのかと思っていましたが、実際にふたを開けてみると、「はい、この数式を解いてみましょう」というような世界で、音声に関わる数理的な技術を学ぶことになりました。
しかし、そんなギャップはありながらも、実際に作った音を聴いてみると、やはり面白いという感覚は変わらず、学部の卒業後は大学院に進み同じ研究を続けることに決めました。純粋に、好きだからというのが一番の動機でしたね。
「平均声」を介した声のモノマネ技術を提案
修士課程での研究を終えると、周りの仲間は皆民間企業に就職し、私もこのまま博士課程に進学して研究を続けるか企業で働くかを悩むようになりました。音声の技術ということもあり、国内の電気メーカーや外資系の情報通信系企業等、選択肢は多数ある状況でした。
ただ、文部科学省が実施している、博士学生研究を支援する制度の審査に幸いにも通過したこともあり、もう少し頑張ってみようという気持ちもあったんです。また、インターンを通じて他の研究者の方々と出会う機会もあり、この道に進むのも良いなという感覚がありました。そのように、周りの環境に恵まれたことで、悩みはしたものの、博士課程に進学して研究者になることを決めました。
私が取り組んでいたのは、「音声合成」というコンピュータの中で人間のように聞こえる音声を自動合成する研究分野でした。カーナビや音声翻訳等でよく利用されており、日本がリードしている数少ない音声技術の一つでした。
そして、博士課程の終盤に、東工大での研究の総まとめとして、複数人の音声データから「平均声」を自動で作るアルゴリズムを提案し、2007年に、その平均声を特定の人に似たものに寄せていく技術(話者適応、又はモーフィング)を提案しました。
それまでは、誰かの声のモノマネをコンピューターで作ろうとすれば、一人あたり数十時間のスタジオ収録が必要で、金銭に換算すれば1000万円もコストがかかりました。加えて、しゃべり方を変えたい場合はその金額が何セットもかかるような状況でした。
しかし、この新しい技術を使うことで、似せる対象の話者の音声データ量を5分〜10分に減らすことができるようになったんです。一度「平均声」を介して近づけることで、特定の人から学習しなければいけないのは「その人らしさ」だけになり、非常に低コストで類似した音声を生成できるようになりました。
ところが、ベースとして利用していた音声合成技術が未だメジャーでなく、また数式も頻出する論文だったため、これらの技術はすぐには普及しませんでした。それでも、先の文部科学省の制度を利用し、イギリスのエジンバラ大学で客員研究員として1年間研究を行うと、ユニークな技術を持っていると分かってもらうことができ、現地で助手として働かないかと誘っていただけました。
取り組んでいた技術が段々とポピュラーになってきたことも重なり、他の海外の研究者からも面白いと言ってもらえるようになり、また、エジンバラ大学の上司からも、こんな応用をしてみようと色々な提案をもらうようになりました。
異国の地で掴んだ研究者としての手応え
そして、自分の論文で発表した技術の応用事例として、騒音下で人の話し方が変わる「ロンバード効果」を利用して、駅のアナウンスや車のカーナビ・船舶のアナウンス等を、騒音に囲まれた中でも音量を上げないで聞き取れるようにする話法のプログラム化を行いました。人が騒音下で話す場合、声が高くなる、母音をゆっくり発音し、反対に子音は早くなるといった様々な変化が見られるため、その話し方をコンピューターで学習して再現するという試みでした。
すると、この研究に対してEUの科学研究予算がつくことになり、ヨーロッパの有名大学や企業と共同で研究を行うことができ、プロジェクトが進むだけでなく、個人的なネットワークも広がっていきました。
正直、博士課程を卒業して1・2年目は自分が研究者としてやっていけるか不安な面もありました。企業に就職して研究をすることにしようか、と。しかし、周りに支えながら自らのアイデアを実現させていく経験ができたことで、このままやっていけそうだという手応えを持ち、自信をつけることが出来ました。それからは研究所の中での立ち位置も変わり、学生の面倒等もみるようになっていきました。
すると、ある学生から、私の技術は医療・福祉応用できるのではないかと声をかけられ、一緒に仕事がしたいという希望を受けました。具体的には、喉頭摘出やパーキンソン病等で声を発することに問題を抱えて、会話補助システムで会話を行っている方について、録音したご自身の声の音響的特徴を、平均声を介した話者適応で再現し、自分の声でメッセージを合成する会話補助システムを試作することを新たな応用例として取り組むことにしたんです。
この応用例は珍しさから新聞記事にもなり、今度は、その記事を見た「ALS(筋萎縮性側索硬化症)」の研究者が私のオフィスを尋ねてきて、「ALSの患者の方に向けても同じことをしよう」という提案をしました。この提案を受け、今度は、ALSの方のための試作品を作ることになりました。
その試作品は、あるALS患者と、ご家族の方に実際に利用していただけ、両方に非常に喜んでもらうことが出来たんです。音声合成技術の様々な活用方法の中でも、福祉応用は恩恵の形が直接的で分かり易く、また、利用者の方から直接意見を聞けることもあり、非常にやりがいを感じましたね。それ以来、もっと大規模にこのプロジェクトを進めていこうという話になりました。
自分が好きな「音」の分野で、誰かの役に立つ研究を
現在は国立情報学研究所の准教授として音声合成の基礎研究を行いつつ、声に障害を持ち、最悪の場合声を失う可能性もあるALS等の患者方に、その方の声を再現した新しい会話補助システムを提供することを目標に、必要な技術の基礎研究や開発を行う「ボイスバンクプロジェクト」に力を入れています。
ALSの患者の方々は病が進行すると発音だけでなく発声自体ができなくなっていき、指定したテキストをコンピューターが発声する会話補助装置を使ってコミュニケーションを行うことがあります。しかし、現状その声は男性女性の二つ程度しかなく、年齢や方言等は再現できない状況。声はその人のアイデンティティであるため、パーソナライズを希望する思いはありながらも、既存の仕組みだと数十時間のスタジオ収録で時間もコストもかかってしまう状況でした。
そんな中、私が過去に提案した音声合成技術をベースにしたボイスバンクプロジェクトでは、ボランティアの方々を募って年齢・性別・地域ごとの平均声を作り、患者の方からは5分〜10分程度の音声をいただくだけで、本人に音響的に似た音声を合成可能にする、ということを目指し実証実験を行っています。
加えて、収録時に既に声に障害が起こっている方もいるため、その方々も将来的に利用対象にできるよう平均声を変換する技術を改善することや、私たちが開発した会話補助装置を利用された方々の生活の質がどれほど変わるかを調査することも行っています。出口に近づいてはいるものの、世の中で困っている人が誰でも利用できる状態にするためにはもうワンステップ必要で、この音声合成システムの提供を持続可能にする社会の骨組みを作っていく必要があります。
通常、私のような基礎研究者がこのフェーズに携わることは非常に珍しいです。しかし、音声合成技術への思い入れに加え、直接患者さんからの声を聞けるやりがい、自分のノウハウがベストな性能を生み出すことに生きるのではないかという気持ちから、プロジェクトに注力しています。
また、私の専門である統計や情報学を利用した音声合成の基礎研究も並行しており、これまで同様、音声合成の機械学習を研究しています。直近では、ディープラーニングを用いた解析によって、声の韻律の再現の質を高め、音声合成の基本的な品質向上につなげようという研究を行っています。他にも、合成された音声と実際に人間が話している音声を識別するような研究等、新しい種となる研究にも力を入れています。
元々は音への関心、数理的な興味など、自分が好きなことへの好奇心がモチベーションとなっていましたが、今はその技術の応用例を通じて実際に利用者の方の声も聞くことが出来るため、その両方が、音声合成の研究の原動力になっています。
音声合成自体は、コミュニケーションという意味ではほぼ人間と同等になってきているものの、表現力という側面ではまだまだです。そのため、今後は音声合成を映画や舞台等芸術レベルでも価値を生むような技術に高めていき、応用分野をさらに発展させていきたいですね。自分が好きな音を通じて、誰かの役に立つようなより賢い音声合成システムを作っていければと思います。
2015.10.14