dianai-2023 3.16 刚刚考完大雾缓考,第一个任务第一次尝试97正确率还没有测试神经元等变化 第二个任务86正确率左右 3.17 学习MQA并完成代码 这里其实就是让方差变为1,变为和维度无关的数 MHA和MQA的区别学习 3.18 完成了第三部分的代码,学习了GQA