ACL2017 の論文たちを一言でまとめてみた

こんにちは、アドテクスタジオの AI Lab で対話エージェントの研究をしている馬場です。
7/30 – 8/4 の6日間に渡り開催された、 NLP（自然言語処理）のトップカンファレンスである ACL 2017@バンクーバーに、AI Lab の対話研究グループで参加してきました。

ACL（The Association for Computational Linguistics）は自然言語処理でもっとも権威のあるトップカンファレンスで、1962年に設立されて以来、今年で55回目のカンファレンス開催となります。Google や Facebook をはじめ、世界の名だたる企業たちがこぞってスポンサーをしているところからもこのカンファレンスの注目度合いがわかります。

(from ACL 2017 Sponsors Page)

今回は、採択された論文の傾向と、我々が聴講した発表論文たちについてまとめてみました。世界のNLP界隈の熱が少しでも伝われば幸いです。

ACL 2017 の傾向（前年比）

まず全体を把握するために、ACL2017に投稿された論文タイトルの単語たちで WordCloud を作ってみました。去年の論文タイトルのものも並べてみました。

2017	2016

ACLロゴの形＆色に合わせて作成してみたら、見づらすぎてすごい。。よくわからない。。
普通に単語カウントを比較してみます。使用した単語カウントデータはこちら。まずは昨年よりも大きく減った単語たちから。

word	2016	2017	2017 – 2016（昇順）
topic	16	2	-14
embeddings	25	12	-13
word	37	25	-12
models	25	14	-11
representations	16	6	-10
compositional	9	1	-8

単語から推察するに、今年は、トピックモデルや分散表現自体を研究する論文が減ったようです。たしかに、すでにいくつもの分散表現を作るライブラリが出てきており、手軽に使えるレベルにまでなっている肌感があります。分散表現をどう作るかよりどう使うかに興味が移っているのかもしれません。

word	2016	2017	2017 – 2016（降順）
neural	48	80	32
generation	10	18	8
reading	1	8	7
extraction	10	16	6
prediction	4	10	6
framework	1	7	6
knowledge	12	17	5
attention	8	13	5
discourse	6	11	5
chinese	6	11	5
comprehension	3	8	5
relations	2	7	5
end-to-end	2	7	5
parser	1	6	5

neural が約1.7倍増えていて、ニューラルモデルを利用した研究が前年よりも多いことがわかります。
また、generation, extraction, prediction, framework, end-to-end などの単語が増えているので、基礎研究というよりも言語処理タスクをニューラルモデルで解決する応用研究な論文が増えているようです。たしかに、データセットやベンチマークが用意されている既存タスクに、ニューラルモデルを適用し既存手法よりも高い精度を実現していたものが多かったように感じました。
さらに、knowledge, attention, discourse などの単語が出現する論文では、知識ベースやアテンションモデルをどう対話システムに利用するかというものが多く、今とてもアツい領域なのだとわかります。

もちろん、上記には顕著に現れた傾向のみ挙げていますが、それ以外にも幅広い言語処理の研究（方言と位置情報、画像キャプション、話し言葉の構造など）が発表されており、改めて ACL の網羅性と質の高さを感じました。

聴講した発表論文たちの「一言でいうと」まとめ

参加メンバーそれぞれが聴講した論文たちから、言語処理や機械学習界隈の方向けに、約30稿ほど「一言でいうと」でまとめました。（arXivTimes の取り組みを参考にさせていただいてます。）理解が及んでいなかったりもするのでご了承ください。間違いがあれば指摘していただけると助かります。

A Convolutional Encoder Model for Neural Machine Translation
- Jonas Gehring, et al.（Facebook AI Research）
- Encoder-DecoderモデルのEncoder部分をRNNからCNNに変更した。グローバルな情報を扱うCNNとローカルを扱うCNNを合わせて使うのが特徴。BiLSTMと比べてBLEUでほぼ変わらず、CPU時間を半分に縮めることができた。DecoderもCNNにしているモデルは1週間後のICML17(Convolutional Sequence to Sequence Learning)で。

Deep Neural Machine Translation with Linear Associative Unit
- Mingxuan Wang, et al. （Tencent Technology Co., Ltd, DeeplyCurious.ai, Baidu Co., Ltd, Chinese Academy of Sciences, Dublin City University）
- 層が深いニューラル機械翻訳では非線形の活性化関数が原因となるgradient diffusion(ネットワークの層を深くすると勾配が急激に小さくなること)に陥りがちである。提案手法ではGRUの隠れ状態を求めるところをLinear associative unitにすることを提案した。これは隠れ状態を求める際に入力の線形変換したものを付加できるような効果を持たせるものである。簡単でありながらもすごく効果的で、中英翻訳タスクでBLEUが11.7改善した。WMT14 英独、英仏翻訳タスクでも最高性能と同等の結果を達成することができた。

Modeling Source Syntax for Neural Machine Translation
- Junhui Li, et al. （Soochow University, Tencent AI Lab）
- Encoder-DecoderモデルにおいてEncoderに構文情報を入れる手法を提案。木構造になっている非終端記号の部分を線状にしてRNNに入れるというものであるが、単語と非終端記号をどのように組合せるのかについて3つのRNN(Parallel RNN, Hierarchical RNN, Mixed RNN)を示し比較実験を行なっている。中英翻訳において構文情報を入れていないEncoderと入れたEncoderでは後者のほうが性能がよかった。

Visualizing and Understanding Neural Machine Translation
- Yanzhuo Ding, et al.（Tsinghua University, Jiangsu Collaborative Innovation Center for Language Competence）
- ニューラル機械翻訳は、連続値(のベクトル)で表現されることや、ニューラルネットが非線形であることから解釈が難しい。この研究ではLayer-wise Relevance Propagationを用いて(文脈の)単語の隠れ状態への貢献度を計算することを提案した。出力層や隠れ層のあるノードが、入力層の各ノードからどれぐらい影響を受けているかが色の濃さで可視化される。

Skip-Gram – Zipf + Uniform = Vector Additivity
- Alex Gittens, et al.（Rensselaer Polytechnic Institute, UC Santa Cruz, UC Berkeley）
- Skip-gramモデルで学習した語のベクトルが加法的構成性を持つことの理論的な理由付け。それぞれの語の生起確率分布が一様であることと、(MikolovモデルのSkip-gramのように)文脈下での複数の語の同時生起確率が語単位で独立であるという前提をおいて導出している。また、Skip-gramモデルは暗にSufficient Dimensionality Reduction Modelをフィットさせていることを示した。

Classifying Temporal Relations by Bidirectional LSTM over Dependency Paths
- Fei Cheng, Yusuke Miyao（National Institute of Informatics）
- 時間関係の分類。基本的には2つのエンティティについて依存構造上で最小となる経路(shortest dependency path; SDP)を元にbiLSTM + FC + Softmaxの構成で分類器を作る。従来手法では素性(抽出)や外部リソースが必要であったが、提案手法ではそれらがより少なくて済む。最高性能と同等の性能を達成することができた。

Cross-Sentence N-ary Relation Extraction with Graph LSTMs
- Nanyun Peng, et al. （Johns Hopkins University, Microsoft Research, Google Research）
- 複数文またぎでn項関係を取り出す。提案手法ではグラフ構造を扱うLSTMを拡張している。単純にLSTMを作ると閉路ができてしまうので右向きと左向きのLSTMを作って連結する工夫を行なっている。生体医学ドメイン(のコーパス)で実験を行い、文またぎの関係抽出において優位性を確認した

Adversarial Multi-task Learning for Text Classification
- Pengfei Liu, et al. （Fudan University）
- 一般的なマルチタスク学習では隠れ層や埋め込み層を共有するが、タスク特化の情報や他のタスクからのノイズを混同してしまうことがある。敵対的マルチタスク学習フレームワークを提案し、タスク特化なパラメータとタスク間で共有できるパラメータを精密に分けることを可能にした。16の異なるテキスト分類タスクに対して実験を行い手法の有用性を示した。

Neural End-to-End Learning for Computational Argumentation Mining
- Steffen Eger, et al. （German Institute for Educational Research and Educational Information, Technische Universitt Darmstadt）
- ニューラルでargumentation miningを行うend-to-endの仕組みを提案した。マルチタスク学習の枠組みでトークンベースの依存構造解析とシーケンスタギングを行った。BiLSTMを使ったモデルに比べ、遠いセンテンス間での構造を解析することができるようになった。

Neural Relation Extraction with Multi-lingual Attention
- Yankai Lin, et al. （National Lab for Information Science and Technology, Jiangsu Collaborative Innovation Center for Language Competence）
- 関係抽出を複数言語のデータを使用して行う手法を提案。従来の関係抽出は単一の言語で行う場合が多い。この研究では、複数言語のデータを使用することで精度を向上させられると仮定し、多言語間でのattentionモデルを採用して関係抽出をした。

Multi-space Variational Encoder-Decoders for Semi-supervised Labeled Sequence Transduction
- Chunting Zhou, Graham Neubig（Carnegie Mellon University）
- ラベル付き系列変換とは、ラベル集合で表される変換したい内容を満たすように、ある系列から別の系列に変換することである。提案手法では変分オートエンコーダ(VAE)を拡張してラベル付きの系列変換を半教師あり学習でモデル化した。SIGMORPHONデータセットを使って形態素の語尾変化のベンチマークした。(既存の)最高性能のモデルよりも優れていた。

Scalable Bayesian Learning of Recurrent Neural Networks for Language Modeling
- Zhe Gan, et al. （Duke University）
- BPTTの確率的勾配降下を用いたRNNは過学習しがちである。提案手法では確率的勾配MCMC(Stochastic Gradient MCMC)を用いてRNNのパラメータ重みの不確定さを学習できるようにする(ベイズ学習なのでできるようになる)。言語モデル、画像の字幕生成、文書分類タスクで単純な確率的勾配(RMSProp)よりも性能が優れていることを確認した。

Neural AMR: Sequence-to-Sequence Models for Parsing and Generation
- Ioannis Konstas, et al. （Univ. of Washington, Allen Institute for Artificial Intelligence）
- 自然言語の抽象的な意味をグラフで表す AMR (Abstract Meaning Representation) を Seq2Seq でパース／生成しようという提案。パースと生成それぞれで seq2seq モデルを学習し、既存研究よりも高い精度でパースができるようになっている。AMR コーパスは数が少ないので、大量の教師なしの文を使い、半教師ありで学習する（Paired Training と呼ばれる）。

Program Induction by Rationale Generation: Learning to Solve and Explain Algebraic Word Problems
- Wang Ling, et al. （DeepMind, University of Oxford）
- 自然文で与えられた数学の問題からそれを解くプログラムを生成したい。ただ、直接ブログラム文を生成するのは難点があるので、解説文を生成した上で正解を導き出すアプローチ。学習に staged back-propagation を導入し、既存手法よりも高い精度の生成を実現した。

Coarse-to-Fine Question Answering for Long Documents
- Eunsol Choi, et al. （University of Washington, Google, XIX.ai, Element AI, Tel Aviv University）
- 10文以上を含む長文記事から質問の応答を生成したい。既存のRNNは長い文書を苦手としている（遅い＆冒頭の文書を忘れがち）ので、文抽出と応答生成に分け、文抽出をより簡易で速いモデルで解決することによりスピードと精度を高める。文抽出は feed-forward network を強化学習で学習し、既存手法より同等かそれ以上の精度を、3~6倍の速さで実現した。

Generating Natural Answers by Incorporating Copying and Retrieving Mechanisms in Sequence-to-Sequence Learning
- Shizhu He, et al. （Chinese Academy of Sciences）
- QAの際にQの中にある “名前”, “地名”, “性別” などをAに埋め込むための、COREQAというネットワークを提案。seq2seqモデルに、QuestionとKB(Knowledge Base) のコンテキストをAttentionとして追加し、COpy（QにあるテキストをAに出現させる）とREtrieve（KBにある情報をAに出現させる）を実現した。

Learning Discourse-level Diversity for Neural Dialog Models using Conditional Variational Autoencoders
- Tiancheng Zhao, et al. （Carnegie Mellon University）
- 応答の多様性を増やすために VAE を拡張した Conditional VAE を提案する。P(応答 | 対話コンテキスト, 潜在変数）をDNNで求め、それを使った Decoder で応答文を出力する。単語の出現確率を利用する bag-of-word loss 関数のもと学習を行い、結果的にBLEUなどの指標で既存手法を超える結果を出した。

Hybrid Code Networks: practical and efficient end-to-end dialog control with supervised and reinforcement learning
- Jason D Williams, et al. （Microsoft Research, Brown University）
- ドメイン知識（Entity, 制約, テンプレートアクション）をNNに加える実践的なシステムHybrid Code Networksを提案。自然文での応答と同じように、テンプレート画像などでの応答も扱える仕組みになっている。bAbI dialog dataset の task5, 6 において、既存手法よりも高い精度を達成した。

Generating Contrastive Referring Expressions
- Martin Villalba, et al. （Saarland University）
- 人間に参照表現（ex.「あれ」「その青いやつ」「机の上の赤い本」など）を間違って解釈されてしまうのを減らすために、インタラクティブに contrastive focus (対比的焦点: ex. 「それじゃなくて、青いやつ」など) を使う手法を提案。状態遷移オートマトンと文法解析といくつかのルールを確率モデルで扱い、間違いやすそうな要素の推定を実現した。

Neural Discourse Structure for Text Categorization
- Yangfeng Ji and Noah A. Smith（University of Washington）
- Rhetorical Structure Theory に基づいて抽出した対話構造をそのままRNNの構造にして学習することで、テキスト分類の精度をあげるアプローチ。質疑で、論文の構造を使って学習すれば論文分類にも使えるんじゃないかという議論が出ていて、データが何らかの文章構成を持っているものに対しては応用先が広いように思えた。

Adversarial Connective-exploiting Networks for Implicit Discourse Relation Classification
- Lianhui Qin, et al. （Shanghai Jiao Tong University, Carnegie Mellon University）
- 暗示的な対話関係（「大丈夫だよ、(なぜなら)君はすでに知ってるから」などの暗示的な接続）を分類したい。明示的な関係を学習するCNNと、暗示的関係に接続詞を明示したデータを学習するCNNを組み合わせる手法を提案。Penn Discourse Treebank(PDTB) benchmark の多クラス分類において関連研究より高い分類精度を叩き出した。

Context-Dependent Sentiment Analysis in User-Generated Videos
- Soujanya Poria, et al. （NTU, NITW, IPN, CMU）
- 人間が発話しているビデオシーンから positive, negative, emotion (angry, happy, sad, neutral) などの感情を判定したい。発話のテキスト、音、映像それぞれを Contextual LSTM で学習 → その後３つの出力をまとめて Contextual LSTM で学習する、という階層構造。意味と感情の両方のテストデータセットにおいて既存手法を上回る精度を出した。

Lifelong Learning CRF for Supervised Aspect Extraction
- Lei Shu, et al. （University of Illinois at Chicago）
- レビュー文書から商品属性の抽出をする際に、学習モデルを未知のドメインデータが来るたびに更新できる Lifelong Learning を提案。すでにあるドメインのデータで学習したCRFモデルを使い、新しいドメインのデータから属性を表す単語たちを抽出し、属性候補のリストに加える。属性候補のうち高頻度に出現するものを信頼できる属性の単語とし、それを使うとさらに次のドメインデータから新しい属性を抽出することができる。

Diversity driven attention model for query-based abstractive summarization
- Preksha Nema, et al. （Indian Institute of Technology Madras, IBM Research India）
- クエリを元にした抽出的要約とはクエリに関連する文書の要点に焦点を当てて要約するものである。(既存の)Encoder-decoderモデルでも注目すべき成果が出ているが、フレーズが繰り返し出力されてしまう問題があった。提案手法では (1) クエリに対してのアテンションを張ることと、(2) 前の時間に現れた文脈ベクトルを元に弱い直交化を行った。通常のencoder-attention-decoderと比べてROUGE-Lで向上が見られた。

PositionRank: An Unsupervised Approach to Keyphrase Extraction from Scholarly Documents
- Corina Florescu, Cornelia Caragea（University of North Texas）
- 大量の学術データのキーフレーズを教師なしで抽出するグラフベースのアルゴリズムPositionRankを提案。従来のPageRankアルゴリズムに、単語の出現場所(ドキュメントの早い段階で出てくるほど重要)・出現頻度のバイアスをかけたPosition-Biased PageRankを用いる。KDD, WWW, Nguyen datasetの3つを使用。MRRで精度評価。
  first position of a wordを使用したPositionRankと、全てを使うほうでは後者が良い精度。2つのバイアスを使用しないPageRankと比較するとPositionRankのほうが高い精度になった。従来キーワード抽出手法であるTF-IDF、ExpandRank、TopicalPageRank (TPR)と比較して最も高い精度となった。

A Nested Attention Neural Hybrid Model for Grammatical Error Correction
- Jianshu Ji, et al. （Microsoft AI & Research, Google Research, Microsoft Research）
- 文法誤り訂正システムでは語順や用法の訂正といった(文レベルでの)大局的な誤りの他にスペルや語尾活用といった局所的な誤りも扱う。提案手法では単語のデコーダと文字のデコーダ(いずれもアテンション付き)を入れ子構造にした文法誤りのニューラルモデルを提案した。CoNLL14のデータセットで最高性能を達成することができた。

Exploring Neural Text Simplification Models
- Sergiu Nisioi, et al. （University of Bucharest, University of Mannheim, Oracle Corporation）
- テキスト簡略化タスクに対してseq2seqモデルを初めて使用した。このモデルは従来のに比べ、語彙的な簡略化と内容の削減を同時に行うことができる。Simple Wikipediaコーパスを使用し、自動評価指標と人手による評価を行っている。

On the Challenges of Translating NLP Research into Commercial Products
- Daniel Dahlmeier（SAP Innovation Center Singapore）
- SAPという会社の人による、ビジネスでNLPを活用するまでのフローについて。NLPのリサーチそのものの話ではなく、NLPをビジネスシーンに適応したいと考えている人向けの話。

Multimodal Word Distributions
- Ben Athiwaratkun, Andrew Gordon Wilson（Cornell University）
- 単峰性のガウス分布を用いて単語埋め込みをすると多義性のある語を捉えることができず過剰に分布が広がってしまう。そのため提案手法では混合ガウス分布で形成される多峰性のある確率分布を導入した。提案手法は類似単語や含意のデータセットで他手法よりも性能が高かった。

EmoNet: Fine-Grained Emotion Detection with Gated Recurrent Neural Networks
- Muhammad Abdul-Mageeda, Lyle Ungar（University of British Columbia, University of Pennsylvania）
- (テキストからの)感情検出のための大規模なコーパスを作成した。Twitterのハッシュタグを元に取り出している。既存手法、新たに作ったDeepLearning(Gated RNNベース)のモデルをそのコーパスで学習、評価した。提案手法がもっとも性能が高かった。

A Neural Model for User Geolocation and Lexical Dialectology
- Afshin Rahimi, et al. （The University of Melbourne）
- Twitterの位置情報推定タスクにおいて、非常に簡単な構造のモデルを提案し、state-of-the-artを超える精度を出したというお話。教師データから k-d tree や k-means で位置をクラスタリングし、どのクラスタに属するかを隠れ層が1層のみのMLPで学習し分類する。MLPの入力に、方言の単語を加味したBoWベクトルを与えている。

Vancouver Welcomes You! Minimalist Location Metonymy Resolution
- Milan Gritta, et al. （University of Cambridge）
- 換喩（「バンクーバーはあなたを歓迎している!」のような表現）で使われることが多い固有表現を正確に学習するための、最小構成のNNを提案。ターゲットの固有表現から始まる5つの単語までのPredicate Windowと呼ばれる範囲のテキストのみを使い、biLSTMで学習する。固有表現に対する無駄な修飾句などを取り除くことで、換喩であることを明確に抽出することができる。

最後に

今回の ACL 2017 は言わずもがなニューラル祭りでしたが、話を聞いていくと機械学習でなんとかしようとする勢と、コーパスや辞書をしっかり作るのもいいよね勢がいて、面白かったです。特に一部の論文では、手法を提案するだけではなく、コーパスや辞書を作って公開しているものや、アノテーションのガイドラインを定めているものなど、データセットを拡充していく動きがより活発になっていると感じました。特に、言語処理ではアノテーションなどが大変なタスクが多いので、公開されていくデータセットはしっかりチェックしておきたいところです。

それにしてもバンクーバーはとても過ごしやすい街でした。終わります。

ピグパーティ初 ABテストの実施

MIRU 2017 でのサイバーエージェントの取り組み