- [ ] 引入NLU任务:对NLU任务而言,evaluation-as-a-service的意义是什么? * 比如可以标注化evaluation库的版本(e.g., seqeval) - [ ] 引入benchmark:比如GLUE,价值是什么? ### 我们要总结下有哪些东西需要标准化? * NLG: 数据预处理(tokenize, capitalness, truncation) * NLG: metric自带的超参数 * metric版本 * 数据边界处理 * .... (继续补充)