-
Notifications
You must be signed in to change notification settings - Fork 1
Open
Description
short summary
transformerベースのアーキテクチャ(BERT、GPT)に対して、LSTM層の追加と、構造の自動探索を行うことで、LSTMベースの中でのSOTAにperplexityで12pt改善したという研究。

LSTMの追加
language modelingでは、次の単語を予測するのに、強い文脈情報が必要であるが、transformerでは、そこが曖昧。
→ LSTM層を加える(AddLSTM)
ファインチューニング
WikiTextやPenn Tree Bankのようなデータセットは、そこまでサイズが大きくないので、transformerの全層を更新するのは過学習に繋がる。
→ ランダムに層を選択して、固定する。(FixSubset)
CAS( Coordinate Architecture Search)
ベースのtransformerモデルに対して、AddLinear, AddLSTM, FixSubsetをランダムに、AddLinearが出るまで実行する。(AddLinearは最終層の追加)
→ 構造の候補を生成
これで生成したものを学習・比較し、最も良いものを最適構造とする。

結果
GPT2に対して、学習に要するデータ数が少ないのに匹敵する結果。

author
Chenguang Wang Mu Li Alexander J. Smola
Amazon Web Services
{chgwang, mli, smola}@amazon.com
URL
https://arxiv.org/abs/1904.09408
year
2019
Reactions are currently unavailable
