-
Notifications
You must be signed in to change notification settings - Fork 1
Description
short summary
wordを離散潜在変数とした、seq2seqが2つ連なった機構であるsequence-to-sequence-to-sequence autoencoder(seq3)を提案し、教師なしabstract翻訳に適用。
architecture
まずxを入力としてCompressorで要約文yを生成し、Reconstructorでyからxを復元する。
yを得るとき、通常だとカテゴリカル分布からサンプリングする必要があるので、微分不可能な処理となる。そこで、gumbel softmaxを用いて、サンプリングを近似する。

ただし、これはあくまで複数の単語のembeddingの重み付き和なので、実際の単語と1対1対応はしていない。そのため、StraightThrough estimator (https://arxiv.org/pdf/1308.3432.pdf) を用いて、forward時はeをargmaxをとって離散化するが、backward時にはgumbel-softmaxを用いて勾配を計算する。この手法はforward時とbackward時に乖離があるが、実際うまくいく。
loss
上2つがSEQ3の一般的なロスで、下2つが要約特化のロス。
- reconstruction loss
- 元の文を再現できるかのロス
- LM prior loss
- summary yが文としてreadableになるように、LSTMベースの言語モデルを用いる。言語モデルの出力する確率分布と、Compressorが出力する確率分布のKLダイバージェンスをロスとする。
- topic loss
- 入力xと要約yが同じトピックを持つように、tf-idfで重み付けしたxとyのembeddingのコサイン類似度をロスとしてとる。
- length penalty
- yの出力長Mを超える出力についてEOSとの間でロスをとる。
結果
Gigaword sentence compression datasetでの検証で他の教師なし手法を上回った。 また、出力例では、文頭が入力と一緒のものが多かったが、これは、各出力単語はその前の単語に依存するため、最初で間違えると全部間違えてしまうことから、Compressorが入力の文頭をコピーするように学習したと考えられる。author
Christos Baziotis1,2
, Ion Androutsopoulos2
, Ioannis Konstas3
, Alexandros Potamianos1
1 School of ECE, National Technical University of Athens, Athens, Greece
2 Department of Informatics, Athens University of Economics and Business, Athens, Greece
3
Interaction Lab, School of Math. and Comp. Sciences, Heriot-Watt University, Edinburgh, UK
cbaziotis@mail.ntua.gr, ion@aueb.gr
i.konstas@hw.ac.uk, potam@central.ntua.gr
URL
https://arxiv.org/pdf/1904.03651.pdf
year
NAACL2019


