如果想要follow论文中的消融实验(iii),对LLM decoder进行lora微调,需要将模型从"Meta-Llama-3-8B-Instruct"换成"Llama-3-8B"的base模型吗? 我在instruct模型上进行微调,效果非常差,而且loss收敛速度比frozen LLM训练时要快得多,是因为没有在base模型上进行微调吗? 此外,进行lora finetune的时候,还有什么需要特别注意的地方吗? 感谢回复!
如果想要follow论文中的消融实验(iii),对LLM decoder进行lora微调,需要将模型从"Meta-Llama-3-8B-Instruct"换成"Llama-3-8B"的base模型吗?
我在instruct模型上进行微调,效果非常差,而且loss收敛速度比frozen LLM训练时要快得多,是因为没有在base模型上进行微调吗?
此外,进行lora finetune的时候,还有什么需要特别注意的地方吗?
感谢回复!