Skip to content

Language Models with Transformers #53

@kacky24

Description

@kacky24

short summary

transformerベースのアーキテクチャ(BERT、GPT)に対して、LSTM層の追加と、構造の自動探索を行うことで、LSTMベースの中でのSOTAにperplexityで12pt改善したという研究。
スクリーンショット 2019-04-29 17 45 22

LSTMの追加

language modelingでは、次の単語を予測するのに、強い文脈情報が必要であるが、transformerでは、そこが曖昧。
→ LSTM層を加える(AddLSTM)

ファインチューニング

WikiTextやPenn Tree Bankのようなデータセットは、そこまでサイズが大きくないので、transformerの全層を更新するのは過学習に繋がる。
→ ランダムに層を選択して、固定する。(FixSubset)

CAS( Coordinate Architecture Search)

ベースのtransformerモデルに対して、AddLinear, AddLSTM, FixSubsetをランダムに、AddLinearが出るまで実行する。(AddLinearは最終層の追加)
→ 構造の候補を生成
これで生成したものを学習・比較し、最も良いものを最適構造とする。
スクリーンショット 2019-04-29 18 36 51

結果

既存のLSTMベースのLMより大幅にいい結果
スクリーンショット 2019-04-29 18 40 49

GPT2に対して、学習に要するデータ数が少ないのに匹敵する結果。
スクリーンショット 2019-04-29 18 54 13

author

Chenguang Wang Mu Li Alexander J. Smola
Amazon Web Services
{chgwang, mli, smola}@amazon.com

URL

https://arxiv.org/abs/1904.09408

year

2019

Metadata

Metadata

Assignees

No one assigned

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions