Skip to content

SEQ3 : Differentiable Sequence-to-Sequence-to-Sequence Autoencoder for Unsupervised Abstractive Sentence Compression #57

@kacky24

Description

@kacky24

short summary

wordを離散潜在変数とした、seq2seqが2つ連なった機構であるsequence-to-sequence-to-sequence autoencoder(seq3)を提案し、教師なしabstract翻訳に適用。

スクリーンショット 2019-05-04 0 35 48

architecture

スクリーンショット 2019-05-04 1 23 08

まずxを入力としてCompressorで要約文yを生成し、Reconstructorでyからxを復元する。
yを得るとき、通常だとカテゴリカル分布からサンプリングする必要があるので、微分不可能な処理となる。そこで、gumbel softmaxを用いて、サンプリングを近似する。
スクリーンショット 2019-05-04 1 09 25
ただし、これはあくまで複数の単語のembeddingの重み付き和なので、実際の単語と1対1対応はしていない。そのため、StraightThrough estimator (https://arxiv.org/pdf/1308.3432.pdf) を用いて、forward時はeをargmaxをとって離散化するが、backward時にはgumbel-softmaxを用いて勾配を計算する。この手法はforward時とbackward時に乖離があるが、実際うまくいく。

loss

上2つがSEQ3の一般的なロスで、下2つが要約特化のロス。

  • reconstruction loss
    • 元の文を再現できるかのロス
  • LM prior loss
    • summary yが文としてreadableになるように、LSTMベースの言語モデルを用いる。言語モデルの出力する確率分布と、Compressorが出力する確率分布のKLダイバージェンスをロスとする。
  • topic loss
    • 入力xと要約yが同じトピックを持つように、tf-idfで重み付けしたxとyのembeddingのコサイン類似度をロスとしてとる。
  • length penalty
    • yの出力長Mを超える出力についてEOSとの間でロスをとる。

結果

スクリーンショット 2019-05-04 1 42 35

Gigaword sentence compression datasetでの検証で他の教師なし手法を上回った。 また、出力例では、文頭が入力と一緒のものが多かったが、これは、各出力単語はその前の単語に依存するため、最初で間違えると全部間違えてしまうことから、Compressorが入力の文頭をコピーするように学習したと考えられる。

author

Christos Baziotis1,2
, Ion Androutsopoulos2
, Ioannis Konstas3
, Alexandros Potamianos1
1 School of ECE, National Technical University of Athens, Athens, Greece
2 Department of Informatics, Athens University of Economics and Business, Athens, Greece
3
Interaction Lab, School of Math. and Comp. Sciences, Heriot-Watt University, Edinburgh, UK
cbaziotis@mail.ntua.gr, ion@aueb.gr
i.konstas@hw.ac.uk, potam@central.ntua.gr

URL

https://arxiv.org/pdf/1904.03651.pdf

year

NAACL2019

Metadata

Metadata

Assignees

No one assigned

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions