Skip to content

Document Expansion by Query Prediction #55

@kacky24

Description

@kacky24

short summary

information retrievalにおいて、seq2seqでdocからqueryを生成し(Doc2query)、docに付帯することで、documentを拡張する手法の提案。
計算コストをあまり増やすことなく精度を向上。
SOTAのBERTベースのrankerと組み合わせることで2つのデータセットでSOTA。

スクリーンショット 2019-04-30 18 30 20

手法

transformerベースのseq2seqでdoc → queryを学習させる。
10個のqueryを生成し、documentに結合させる。
生成の際、beam searchよりtop-k random samplingの方が多様性を担保できて効果的。

結果

MS MARCO、TREC-CARでSOTA。
スクリーンショット 2019-04-30 19 11 50

latencyはBM25オンリーで300 ms に対して+Doc2queryで350 ms

author

Rodrigo Nogueira,1 Wei Yang,2 Jimmy Lin,2
and Kyunghyun Cho3,4,5,6
1 Tandon School of Engineering, New York University
2 David R. Cheriton School of Computer Science, University of Waterloo
3 Courant Institute of Mathematical Sciences, New York University
4 Center for Data Science, New York University
5 Facebook AI Research 6 CIFAR Azrieli Global Scholar

URL

https://arxiv.org/pdf/1904.08375.pdf

year

2019

Metadata

Metadata

Assignees

No one assigned

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions