「Live Transcribe」の衝撃 – GoogleがめざしたAI搭載の”補聴器”

世界屈指のAI企業であり、数多くの翻訳技術や音声認識技術をもつGoogleが、2019年2月に発表したAndroidのための音声文字変換技術「Live Transcribe」について、メディア向けの説明会が3月28日に行われました。

Live Transcribeはその名の通り、リアルタイムに音声から文字への書き起こし(Speech-to-Text)をスマートフォン(Android 5.0以降)上で実現する技術で、1対1のコミュニケーションにフォーカスしています。英語や日本語などをはじめとする70以上の言語に対応しており、事前に設定しておけば英語⇔日本語のような2言語間のコミュニケーションも可能です。音声を拾ってからテキスト化するまでの時間は約200ミリ秒、少なくとも実演されたデモを見る限り、ほぼリアルタイムといって問題ないスピードでした。

そしてLive Transcribeで何より驚かされたのが、書き起こしの精度の高さです。ただ単に単語を拾って羅列するだけではなく、それなりの長さをもったセンテンスで構成される、自然な会話のやり取りとなるよう、コンテキスト(文脈)を正確に表現することにこだわったというだけあって、一般的な音声書き起こしソフトにありがちな誤変換や文法ミスがほとんどなく、「人間が頭の中で言葉を認識するプロセスと同じように、音声(音素)を拾い、つなぎ合わせて発音からスペルを推測し、言語モデル(頭の中の辞書)に照らし合わせ、フレーズとして認識する、これを15ミリ秒で実現している」(サガー・サブラ氏(トップ画像)、Google シニアプロダクトマネージャ)とのこと。音声の識別、たとえばガラスの割れる音や犬の鳴き声と人間の音声を判別する作業はデバイス上で行われますが、デバイスで識別された音声はクラウド上で各国の音声として認識され、テキストに書き起こされるしくみです。「Googleは10年以上に渡って、音声を自然に書き起こす研究を続けてきたが、ようやく外に発表できるレベルに達した」(サブラ氏)

Live Transcribeは全世界で4億6000万人とも言われる聴覚障害者のためにGoogleが”Technology for Good”の一環で開発した技術です。英語や日本語といったメジャーな言語だけでなく、方言を含む70もの言語に対応しているのも「Googleとしても、個人としても、マシンラーニングやニューラルコンピューティングといった技術でもって社会貢献を実現することがミッション」(サブラ氏)であり、また、発展途上国の人々でもコスト的に無理なく使えるよう、古いAndroid端末にも対応しています。今後は書き起こしテキストの保存(数カ月以内にリリース予定)やグループ対話、同時通訳といった機能拡張が検討されていること。なお、音声の録音機能については「録音することで聴覚障害者を懐疑的にさせるおそれがあるので、現状では追加する予定はない」(サブラ氏)ないそうで、音声のテキスト起こしに苦労する記者たちにとってはやや残念な回答でした(笑)

Live TranscribeはすでにGoogle Playストアでベータ版が配布されています。Android 5.5以上のスマートフォンがあれば、誰でも無料で利用可能なのでぜひ試してみてください。想像以上の精度とスピードで音声が文字となって変換された画面を見れば、Googleという会社のすごさをあらためて実感できると思います。