[PR]音声合成技術を活用して、Unityゲーム開発のイテレーションを高速化。「A.I.VOICE for GAMES」開発の背景と今後の展望
[本記事は株式会社エーアイ様の提供記事です。]
テキストから音声を生成する音声合成技術はさまざまな製品があり、ゲームを始めとしたデジタルコンテンツにも活用されてきました。幅広い活躍範囲をもつ音声合成技術ですが、この度ゲーム開発者向けに特化した製品
「A.I.VOICE for GAMES」が登場しました。
開発・配信を行っているのは株式会社エーアイです。同社は、過去に「Global Game Jam JAPAN」の協賛を行うなど、以前から小規模なゲーム開発者向けのサポートを積極的に行ってきていました。今回、満を持してゲーム開発者向け製品の配信となり、ユニティ・テクノロジーズ・ジャパンのキャラクター「ユニティちゃん」の声が生成できる辞書を初期搭載。非営利ゲーム向けであれば無償で使用できるライセンスが用意されているため、開発者なら誰でも音声合成の手軽さ、面白さを体験できます。
そんな「A.I.VOICE for GAMES」について、本インタビューでは開発チームの皆様から本製品の開発背景と特徴、今後の展開についてお話を伺いました。
■「A.I.VOICE for GAMES」担当チーム
・株式会社エーアイ 遠藤 篤 様
・株式会社エーアイ 中谷 友成 様
・株式会社エーアイ 本多 徹 様
(以下、敬称略)
――はじめに御社のご紹介と、「A.I.VOICE for GAMES」の概要についてお教えください。
遠藤:はじめまして、株式会社エーアイと申します。当社はテキスト情報を音声化する技術を提供している会社です。個人から法人の方まで、幅広く音声を手軽に使えるようにするための製品を提供しています。法人向け分野では自動音声やロボット、防災無線でのアナウンスなどの広い分野で当社技術を活用いただいています。
今回、そうした当社の音声合成技術をゲーム開発者の皆様により身近に触っていただくために「A.I.VOICE for GAMES」を開発いたしました。ソフトウェアの実態としては「Unity向けエディター拡張」として提供されており、Unityエディターでゲームを作りながら、同じ画面の中でテキストから音声ファイルを作れることが特徴です。UnityプラグインにA.I.VOICEのシステムが含まれていますので、オフライン環境でも使用できます。
Unityエディターのインスペクター上でテキスト入力と感情パラメータなどの設定を行うことで、Audio Clipが生成されます。
エディター上での操作のほか、csvファイルからの読み込み・音声生成にも対応しています。まずExcelやGoogle Sheetなどでゲーム内のセリフを一括で作ってcsv出力し、それを「A.I.VOICE for GAMES」に読み込ませることでセリフ分のAudio Clipが一括生成されます。そこから、個別のセリフに対してパラメーターのチューニングを行う、といったワークフローが可能です。
リアルタイムに音声を生成するのではなく、UnityエディターであらかじめAudio Clip化して使う製品となっているため、ゲーム中にランタイムが動作してCPUに負荷をかけることはありません。
――これまでの御社製品「A.I.VOICE」とは異なるものなのでしょうか。
遠藤:はい、異なる製品となりますが、厳密にいえば関連製品としております。「A.I.VOICE」は当社で個人向け製品として販売している単体ツールです。テキストを入力して音声データを出力する、というWindows向けツールで、個人向けには主に動画制作で活用されています。
この「A.I.VOICE」をゲームエンジン向けのプラグインの形にしたものが「A.I.VOICE for GAMES」です。利用する上では「A.I.VOICE」のツールを立ち上げる必要はなく、Unityのエディター拡張をGUIとして動作します。Unityエディター拡張として提供することで、ゲーム開発者が見慣れたエディター上でサクサクと音声合成が作れる体験を目指しました。
――今回の製品開発をスタートしたきっかけを教えてください。
遠藤:当社では以前から、ゲーム開発と音声合成の技術は親和性が高いと考えておりましたが、これまではその点を強くプッシュするための製品がありませんでした。個人制作の無料ゲームで「A.I.VOICE」を利用いただいたり、音声合成化したキャラクターがゲームに出演する、といった二次創作で使っていただいた事はありますが、まだまだ一般的に広まりきっていないなと感じていました。
そういった想いからゲーム開発者向け製品のプロジェクトをスタートしたのですが、昨今はインディーゲームなどの小規模開発においても、声優様を起用しているケースが多くあります。そうした背景に加えて、弊社の音声合成はキャラクター的な演技よりもナレーション調の読み方が得意なため、声優様によるボイスデータとも共存していけると考えました。
そこで当社のゲーム向け製品は、声優様に替わるものではなく「使い勝手の良さ」を追求する方針とし、今回のUnityエディター上で簡単かつ手軽に使えるコンセプト「A.I.VOICE for GAMES」にたどり着きました。その上で、非営利のゲームならば無償で使ってもらえるライセンスで配信することで、幅広いゲーム開発者さまに音声合成ならではの良さを体感してもらいたいという考え方です。
中谷:プロジェクト当初のことを思い出しますと、まずゲーム開発は長い期間がかかり、現在の「A.I.VOICE」の主な用途である動画コンテンツの制作よりも時間がかかることが多いな、というイメージからスタートしたように思います。ゲームはそれなりに長い開発期間が必要ななかで、セリフをどこかで収録しないといけないわけですが、ゲームの会話劇やカットシーン、アクションゲームの掛け声などは、早い段階で用意されていたほうが品質向上に繋がります。
しかし、それじゃあ早めに収録しようとすると、事前にセリフを決めないといけません。ところがゲーム開発が進行してくると色々な変更がありますから、あとあとすでに収録したセリフを変えないといけなくなることもありえます。
そうした背景を考え、ゲーム開発のワークフローの中で使いやすい音声合成のツールがあることが新たな価値を生むのではないかと考えました。「A.I.VOICE for GAMES」なら、セリフの修正がギリギリまであっても対応できます。ゲームを開発する中で音声を再生してみて、しっくりこなかったら声色のチューニングを変えてしまうこともすぐできます。
遠藤:「A.I.VOICE for GAMES」のプラグインでは、生成した音声を単にAudio Clipアセットへとして出力するだけではなく、Audio Clipと「A.I.VOICE Objectファイル(セリフオブジェクト)」がペアになっています。これは個々のテキストと音声の感情パラメーターなどが含まれているアセットで、ゲーム開発を進める中で何回もチューニングしながらゲームの場面に合わせていく使い方を想定しています。