声明:本站文章均为作者个人原创,图片均为实际截图。如有需要请收藏网站,禁止转载,谢谢配合!!!

核心方法:使用预留的验证集和测试集,从多个维度对微调后的模型进行全面评估,并与基座模型进行对比。

1、量化指标评估

准确率
精确率

2、人工评估
(适用于创作类)
相关性
流畅性
有用性
无害性

3、对比实验

将微调后模型和基座模型在相同的测试集上作对比

4、泛化能力

领域外测试:使用新数据进行测试
对抗性测试:输入一些边缘性、有歧义、误导性的问题,观察鲁棒性

检验模型是真正学会了,还是只会死记硬背

评估流程

1、划分数据集

微调前划分训练集 验证集 测试集,
验证集用于调参监控,测试集用于评估

2、训练过程监控

3、综合评估

4、分析于迭代

如果效果未达到预期,分析原因

数据质量问题:噪音大,不准确
数据量不足
训练超参数不正确