机器学习的战略(3)--误差分析

我觉得这一部分是导师指导/监督学生实验时应该出手的部分.

误差分析

这是个手工分析操作技巧了. 老师在课程中不断强调不要看不起手工分析, 一是人类看图识别的效率很高, 看上100张图很快就搞定了, 二是在分析过程中还有助于产生直观的印象, 再次利用人类强大的识别能力来解决问题.

方法是: dev set 中, 找100个被标记错误的图片, 人眼看, 手工数. 怎么数呢? 要列一张表, 要比较容易编辑扩展的, 我觉得excel之类的就不错.

图片编号 这是狗 狮子老虎 图片太模糊 Instagram滤镜 备注
1 +1 +1
2 +1 +1
3 +1 +1 下雨天
... ... ...
合计 8% 43% 61% 12%

有了这样的表格, 就很容易分析应该在哪些方面改进了.

标注错误

dataset的图片标注通常也是由人类来完成的, 也可能有各种不小心的错误, 如果你发现dataset中的图片有标注错误怎么办?

  • 随机出现的错误, 算了不管.
  • 系统性的错误, 比如大量的白狗被标记成了猫
    • 进行误差分析,看看标注错误有多大影响
    • 如果影响很大, 在dev / test set中一起改
    • 如果有精力, 也注意那些识别"正确"的图
    • train set中的标注错误可改可不改.

参考资料: