こんにちは。アドテクスタジオ AI Labの山本です。
談話処理・対話についての国際会議 SIGdial 2017 にAI Labの山本と田中で聴講参加してきました。

SIGdialは産学の研究者が最新の談話・対話研究を発表している国際会議です。
また、今年は日本からの発表者も比較的多く、日本語を対象とした対話システムの研究動向も知ることができました。

SIGdial 2017 著者の国別統計
Openingのスライドから。著者の国別統計。日本はアメリカ、イギリスに続く3番目。以下に続くカナダ、ドイツとは僅差

アドテクスタジオでは、ボット応対と有人対応を融合させたチャットボット事業 AI Messenger を展開しています。
今回の学会は、今後どのような技術を導入すれば今まで以上にクライアントの方々に利用していただけるサービスになるかを考えるよい機会となりました。

このブログでは2人が聴講した発表の中から気になった内容をまとめてみました。
対話研究の参考になれば幸いです😼

発表論文まとめ

ACL 2017まとめと同様にarXivTimesの取り組みを参考にまとめてみました。
理解が及んでいない点があるかもしれません。ご了承ください。
間違いがあれば指摘していただけると助かります。

  •  Generative Encoder-Decoder Models for Task-Oriented Spoken Dialog Systems with Chatting Capability
    •  Tiancheng Zhao, Allen Lu, Kyusong Lee and Maxine Eskenazi
    •  Language Technologies Institute, Carnegie Mellon University, Pittsburgh, Pennsylvania, USA
    •  タスク指向の対話システムをencoder-decoderモデルをベースに構築するフレームワークの提案。発話中の固有表現を[TYPE+INDEX]、知識ベースの結果を[kb-search] [parameter]のように一旦形式化する。その後encoder-decoderモデルで発話生成して、元に戻す(語彙化する)というやり方。ドメイン外のユーザ発話をうまく扱うようにするために、タスク指向の対話データにオープンドメインのチャット会話を差し込むという一種のデータ拡張も行っている。
  • Key-Value Retrieval Networks for Task-Oriented Dialogue
    •  Mihail Eric(1), Lakshmi Krishnan(2), Francois Charette(2), and Christopher D. Manning(1)
    •  (1) Stanford NLP Group (2) Ford Research and Innovation Center
    •  タスク指向の対話システムにおいて、ナレッジベースを検索することによって様々な分野での対話を可能にする手法を提案。ルールベースのシステム、ベースラインのニューラルを用いた手法と比較し、自動評価(BLEU, entityF1)、人手による評価の両方で超えた。加えて、車中でのパーソナルアシスタントとしての、スケジュール管理・天気情報の推薦・興味のあるポイントのナビゲーションタスクにおける3,031対話からなるデータセットを公開した。
  • Lexical Acquisition through Implicit Confirmations over Multiple Dialogues
    •  Kohei Ono(1), Ryu Takeda(1), Eric Nichols(2), Mikio Nakano(2) and Kazunori Komatani(1)
    •  (1) The Institute of Scientific and Industrial Research (ISIR), Osaka University, Ibaraki, Osaka, Japan, (2) Honda Research Institute Japan Co., Ltd., Wako, Saitama, Japan
    •  ユーザの発話に未知の用語が出てきたときに、その語のカテゴリを確定させたい。すでにカテゴリーを推定する方法はあるので、本当にそのカテゴリかをユーザに直接問い合わせることはできるが、いちいち問い合わせするのはユーザに迷惑がられそうである。そのため、エージェントが推定したカテゴリーで話を進めてユーザにカテゴリが合っているか否かを暗黙的に確認する方法を取りたい(例えば、ユーザの発話「天ぷらそば最高」に対して、「日本料理は健康的ですね?」と返すといったこと)。ただし、単純には確定できないこともある。提案手法では素性設計を行った上で機械学習で分類を行っている。また、複数の対話を合わせたときに確度を高くする方法も示した。
  • Demonstration of interactive teaching for end-to-end dialog control with hybrid code networks
    • Jason D Williams(1) and Lars Liden(2)
    •  (1) Microsoft Research, (2) Microsoft
    •  ACL 2017の”Hybrid code networks: practical and efficient end-to-end dialog control with supervised and reinforcement learning”のデモ。Hybrid Code Networksを簡単に説明すると、タスク指向の対話システムをEnd-to-Endで学習するもので、開発者が作ったドメイン固有のソフトウェアにRNNを組み合わせている。デモではタスク指向の対話システムを構築するWebサービスを見せていた。
  • MACA: A Modular Architecture for Conversational Agents
    •  Hoai Phuoc Truong, Prasanna Parthasarathi and Joelle Pineau
    •  School of Computer Science, McGill University
    •  対話システムの実装を簡単にできるようにするためのソフトウェアアーキテクチャ MACAを提案。プラグアンドプレイスタイルで簡単に対話システムの試作品を作ることができ、新しい技術の開発や従来の研究をもとにした対話システムの開発が行える。このアーキテクチャではドメインごとの対話システムの応答方法を分けることができるので、複数ドメインの対話に容易に拡張することができる。MACAは同時に対話システムをAmazon Mechanical Turk上にホスティングするツールを提供しているので、データ収集ができ、外部ソースをもとにするトレーニングが行える。現在のバージョンのフレームワークはすでにいくつかのドメインと最近の対話手法が組み込まれている。
  • Sequential Dialogue Context Modeling for Spoken Language Understanding
    • Ankur Bapna, Gokhan Tur, Dilek Hakkani-Tur and Larry Heck
    • Google Research
    • 音声言語理解システムを踏まえて、RNN中の(対話)文脈のモデリングを改良するというもの。過去のそれぞれの発話についてBiGRUをかけてベクトル化したもの(メモリベクトル)を、もう一回BiGRUをかける。ただし、入力はメモリベクトルと現時点の発話のBiGRUをかけてベクトル化したもの(内容ベクトル)をfeed forward layerで変換していたものを用いる。複数ドメインの対話データセットで実験を行ったところ、提案した手法はSemantic Frame Error Rates(ドメインまたぎでドメイン分類、意図分類、スロットフィルの誤り割合)を減らせるという結果が得られた。
  • The E2E Dataset: New Challenges For End-to-End Generation
    •  Jekaterina Novikova, Ondřej Dušek and Verena Rieser
    •  School of Mathematical and Computer Sciences, Heriot-Watt University
    •  自然言語生成を行うためのデータとして、レストランに関するドメインのデータセットを公開。このデータセットは今までに広く使用されてきたデータの10倍の量がある。このデータは、クラウドソーシング CrowdFlowerで収集され、Novikovaらの手法によって品質をコントロールしている。E2E NLG Shared Taskのデータとして公開している。
  • Towards a General, Continuous Model of Turn-taking in Spoken Dialogue using LSTM Recurrent Neural Networks
    • Gabriel Skantze
    • Department of Speech Music and Hearing, KTH
    • ユーザの発話が止まったとき、システムは返事をし始めるべきか。システムの発話が止まったとき、ユーザは返事をし始めるか。音声データから素性(voice acticity, pitch, power, posなど)を抽出をしLSTMの入力し、発話の交代を予測する問題に取り組んだ。データはHCRC MapTaskCorpusを使用。発話が止まったときに次の話者を予測するタスクと発話開始時に一連の発話の長さを予測するタスクで評価を行った。従来のルールベースなどの手法と比べ精度が向上することを示した。
  • Are you serious?: Rhetorical Questions and Sarcasm in Social Media Dialog
    • Shereen Oraby(1), Vrindavan Harrison(1), Amita Misra(1), Ellen Riloff(2) and Marilyn Walker(1)
    • (1) University of California, Santa Cruz, (2) University of Utah
    • 修辞疑問文(Rhetorical Questions; RQ)は、説得力を出すため、問題点を強調するため、皮肉るためなどに使用される一種の比喩的表現。先行研究のデータセットを拡張し、異なる談話機能を持つディベートフォーラム、twitterから10,270件のデータセットを作成した。RQと伝えたいことと異なることを言っていない質問を分類する手法を提案。F1スコアは0.76となった。また、RQの使われ方を分類する実験をSVMとLSTMを用いて行った。素性としてlinguistic featuresと、投稿単位でのコンテクストを使用した。結果として、フォーラムの皮肉のポストに対してはF1スコアが0.76、皮肉でないものに関しては0.77、ツイッターでは両者とも0.81のスコアになった。
  • Attentive listening system with backchanneling, response generation and flexible turn-taking
    • Divesh Lala, Pierrick Milhorat, Koji Inoue, Masanari Ishida, Katsuya Takanashi and Tatsuya Kawahara
    • Graduate School of Informatics, Kyoto University
    • 気配りのできる応答をロボットが行えるようにするため、あいづち(backchanneling)、返答(statement response)、話者交代(turn-taking)の3つの要素に着目しそれぞれの手法を提案。発話の終わりにかぎらずあいづちを打つために、ロジスティック回帰を用いて500ms以内にあいづちをすべきかどうかを予測するモデルを提案。CRFを用いた特定の単語に対してフォーカスする手法、フォーカスした単語に対して質問で返したり、単語を復唱したりする決定木を用いた手法を提案。ロジスティック回帰を用いた話者交代が起こりロボットが返答を行うべきタイミングかどうかを判別する手法を提案。それぞれに対する個別の評価と、それらを併せてアンドロイド Ericaに導入した際の評価を行った。

おわりに

SIGdial 2017から気になった発表をまとめてみました。
私自身は、「この手法、実際にサービスに適用したらどうなるだろう?」「この研究は音声対話だけど、テキストチャットで同様の現象は起こるのだろうか?」みたいなことを考えながら、未来のチャットサービスに思いを馳せていました。
引き続き、よりよいユーザ体験が実現できるように研究開発に取り組んでまいります。