今年の音声チームの振り返り | CyberAgent Developers Blog

本記事は、CyberAgent Advent Calendar 2022 17日目の記事です。

こんにちは、AI Lab Audio チームの吉本 (@mulgray) です。
非常に多くの方にお世話になり、おかげさまで今年も Audio チームにとって重要な一年になりました。

事情によりあまり時間がないので一旦遅刻なしのリリースに集中するとして、
今回は以下の話題で書きたいと思います。後日更新するかもしれません。
・現在のチームの紹介
・パークハウス事例の紹介
・研究開発の話題
・最後に＆完全自動対話研究センター

現在のチームの紹介

まだチームができたばかりの無名の頃から優秀な方がインターンに来てくれたり入社してくれたり、さらに CA の外部向け技術カンファレンスとして初の試みであった CA BASE NEXT 2021 では多くの反響を頂き、採用人事の方のご尽力もあり、優秀な方が沢山入社してくださったりと、素晴らしい環境になってきました。いつもありがとうございます。

現在は AI Lab だけで見てもそこそこの会社のような規模になり、Audio チームだけでも 5 人（インターン・アルバイトを含めると 6 人）が在籍しています。
今のチームの扱える分野を大きな分類で見ると、音声合成・音声認識・声質変換・環境音認識があり、音源分離なども視野に入ります。
各メンバーで共通してできることはあるものの、集中して取り組む領域はあまり被らず、今はスキルが広がる方向に進化しています。音声合成の中でもこの領域に詳しいのはこの人、といった感じです。

自分はチームリーダーとしての業務の傍ら、様々なプロダクト向けにそのままでも使える程度の実装を作って提供することが多く、その過程で良い論文になりそうな単位を見つけたら論文執筆を試みるといった働き方をしています。
チームメンバーには開発に集中するメンバーも論文に集中するメンバーもいて、研究の場合はプロダクトのリリースサイクルを意識せず活動しています。
研究テーマは事業をきっかけに考える場合もあれば、別分野で見つかった良い手法を取り入れてみるなどもあり、効果のある部分を適切な単位で分析して出せるようにと思っています。

パークハウス事例の紹介

今年7月28日に、三菱地所レジデンスの新築分譲マンション「ザ・パークハウス」の仮想空間「SUPER MODEL ROOM」がリリースされました。デジタルツインの冨永愛さんが入居し、綺麗な3DCGと自然な音声が特徴となっています。

プロモーション動画

冨永愛さんからのメッセージ

3DCG は CHP のスキャンやレンダリング技術の他、3DCG 関連の ML チームも連携しています。
音声は社内の大勢の人の収録データで日本語の多様なスタイルの事前学習をすることで、冨永さんの収録音声の音声がある区間の長さとしては1時間以内でこの品質を実現しています。
結構データ効率の良い学習ができるようになってきたと感じていますが、いかがでしょうか。
特に、これまで朗読や固定の感情（スタイル）など、ある程度一定の調子での音声合成は近年は汎用的にうまくいくようになってきていますが、今回の事例のような表現力豊かな語り口調は、なかなか自明ではない努力が必要だと感じました。
これにも CA Developer Conference で紹介したようなアクセント認識やアクセント情報の与え方も使われているのですが、さらなる自然性向上と、できることの飛躍のために、より発展的な手法を鋭意製作中です。

研究開発の話題

チームメンバーそれぞれ、非常に興味深いテーマで研究を進めていて、それについてはここでは語れませんが、今年自分が考えてきたことのうち、これは話してもいいかな（論文にはならないとか、なるものでも誰かがやってくれてもいいな）というところを軽く書きたいと思います。

■ 自然性？データ効率？

音声合成モデルを作っていると、ボコーダ相当部分が頑張ってくれればいずれも音質は非常に良いが、モデルによって話し方が妙に「堅い」と感じることがあります。
同じデータを使っていても、音響モデルに使うアーキテクチャによって、機械的に話す話し方になる傾向が出るなどの変化があります。これはアナウンス調のようなデータで学習しているとなかなか気づけない（気にする必要がない）場合があります。
これはピッチ条件付けや音素継続長を揃えても起こる変化で、スペクトログラム損失などでもあまりわからない変化になります。
「自然性」と言ってしまうと評価が難しく、どう定式化できるか興味の尽きないところです。
もし単にデータ効率の問題で、十分に大きなデータがあればいずれの手法も差がなくなるだけであれば、より少ないデータで「自然」にするために必要な条件を見つけられると嬉しそうです。

■ 理想のアラインメント？

音声合成の学習中に、目的の音声に最適化した音素継続長を求めるために Monotonic Alignment Search がよく使われています。
音素ラベルから作った情報と音声から作った情報の対応をとりますが、どのように作った情報の間で対応を取るかによって、得られるアラインメントの性質が異なる場合があるようです。
得られたアラインメントを音声編集ソフトに取り込んでいくつかのサンプルの各音素区間を確認する限りではなかなか気づけないような違いですが、別のアラインメントを想定しているアーキテクチャをそれで学習すると、綺麗に出にくくなったりします。

■ スペクトログラム等を経由するべきか？しないべきか？

音声合成のアーキテクチャで、音響モデルとボコーダに分けてしまって、例えば音響モデルでは音素列からスペクトログラムを作り、ボコーダはスペクトログラムから音声波形を作るという方法がよくあります。
一方で、スペクトログラムを経由せず、音素列から中間情報として人間には目視での解釈ができない代わりに（目的の）音声波形の生成にとって良い情報を作り、ボコーダはそのような情報から音声波形を作るという方法もあります。
現在ではどちらも同じくらい短い時間で良い品質に到達し、後者の方がアーティファクトが少なくなる傾向はあります。
しかし、前者の方が制御しやすかったり、色々な手法を入れやすい印象があり、前者もアーティファクトをなくせる方法が色々考えられています。

■ F0 の沼

音声合成や声質変換で、F0 を扱うような手法を考えた瞬間にこの沼に落ちます。
歌声合成では特にピッチが大事なので、歌声合成の論文を調べると皆思い思いの方法で F0 を扱っていて面白い反面、全員なぜその手法にしたのか比較して書いてほしいなと思ったりします。
別の情報や前後の情報から補完できて実は何でも良いなら、それはそれでそう書いてほしいところです。

最後に＆完全自動対話研究センター

完全自動対話研究センターとして、この一年は関連する領域の各部署と一緒に議論を進めてきました。
大規模言語モデルを用いた文脈やキャラクタ性を保持した会話など、他所でよく見かける仕組みも作ったりもしてきました。
こちらでもやはり事業から見たテーマも色々考えてきましたが、AI Lab の他のチームと同様に、適切な単位での研究で表に出られるようにしたいと考えています。

ところで、去年のアドベントカレンダーではクリスマスプレゼントを予告していましたが、色々と個人的に変わり目があったりもして、だいぶ忙しくて出せずにいました。まだ待ってくれている方がいらっしゃるかはわかりませんが、あまり気張らずにできる範囲で今年こそ用意したいと思っています。

それでは、メリークリスマス。良いお年を！

画像生成AI向け日英機械翻訳を作ってみた

分散データベース・NewSQLのCloud Spannerの特徴を簡単に紹介