在关系预测中,通常为多关系数据,模型可以用来预测关系,也可预测头尾实体。但ChineseCSCW2021比赛为单关系预测,即头尾实体之间存不存在连接。
原数据文件:
- 训练集、验证集和测试集:格式相同,均为两列(头实体ID,尾实体ID)表明两者之间存在连接关系;
- attribute:其中包含每个实体ID的属性
数据预处理:
- 去属性:一些属性只出现过一次,去掉;
- 填充空属性:一些实体ID不存在属性,填充“填充字符”属性;
- 截断:一些实体ID属性过长,达500+,以频率排序,取前N个属性
- 无向图:翻转头尾实体
| 测试集1 | 测试集2 | |
|---|---|---|
| 准确率 | 0.983 | 0.976 |
| 精确率 | 1.000 | 0.969 |
| 召回率 | 0.983 | 0.983 |
| F1值 | 0.991 | 0.976 |

