核心方法:使用预留的验证集和测试集,从多个维度对微调后的模型进行全面评估,并与基座模型进行对比。
1、量化指标评估
准确率
精确率
2、人工评估
(适用于创作类)
相关性
流畅性
有用性
无害性
3、对比实验
将微调后模型和基座模型在相同的测试集上作对比
4、泛化能力
领域外测试:使用新数据进行测试
对抗性测试:输入一些边缘性、有歧义、误导性的问题,观察鲁棒性
检验模型是真正学会了,还是只会死记硬背
评估流程
1、划分数据集
微调前划分训练集 验证集 测试集,
验证集用于调参监控,测试集用于评估
2、训练过程监控
3、综合评估
4、分析于迭代
如果效果未达到预期,分析原因
数据质量问题:噪音大,不准确
数据量不足
训练超参数不正确