请问一下原论文中的离线指标是如何计算的? dqn的样本label是用户的折扣回报,但这个是未知的,只有当前request的点击、成交、计费等是groundtruth,那么怎么评估不同模型效果呢?
请问一下原论文中的离线指标是如何计算的?
dqn的样本label是用户的折扣回报,但这个是未知的,只有当前request的点击、成交、计费等是groundtruth,那么怎么评估不同模型效果呢?