图文精华

hadoop-2.6.0+zookeeper-3.4.6+hbase-1.0.0+hive-1.1.0完全分布 ...

About云-梭伦科技»专题 › 技术学习(版主发帖区) › AI学习 › 机器学习 › 连载型› 吴恩达《Machine_Learning_Yearning》中文版第8章使用 ...

1
1
2

分享

吴恩达《Machine_Learning_Yearning》中文版第8章使用单值评估指标进行优化

desehawk 2018-5-21 18:09:32 发表于连载型 [显示全部楼层] 只看大图回帖奖励

回帖奖励

阅读模式关闭右栏 1 5663

About云VIP帮助找工作和提升

本帖最后由 desehawk 于 2018-5-21 18:26 编辑

上一篇
吴恩达《Machine_Learning_Yearning》中文版第7章开发集和测试集应有多大？
http://www.aboutyun.com/forum.php?mod=viewthread&tid=24510

问题导读

1.多值评估指标为什么使使算法之间的优劣比较变得更加困难？
2.在多个分类器之间进行抉择时，什么方法可以更快的做出决定？

所谓的单值评估指标（single-number evaluation metric）有很多，分类准确率就是其中的一种：你在开发集（或测试集）上运行分类器后，它将返回单个的数据值，代表着被正确分类的样本比例。根据这个指标，如果分类器 A 的准确率为 97％，而分类器 B 的准确率为 90%，那么我们可以认为分类器 A 更优秀。

相比之下，查准率（Precision，又译作精度）和查全率（Recall，又译作召回率）均不是单值评估指标，因为它给出了两个值来对你的分类器进行评估。多值评估指标将使算法之间的优劣比较变得更加困难，假设你的算法表现如下：

猫分类器的查准率指的是在训练集（或者测试集）被预测为猫的图片中，实际类别是猫的样本比例。而查全率指的是在训练集（或者测试集）所有实际类别为猫的图片中，被正确预测为猫的样本比例。人们常常在查准率和查全率之间权衡取舍。

根据上面表格的数值进行比较，两个分类器都没有较为明显的优势，因此也无法引导你立即做出选择。

你的团队在进行开发时往往会尝试许多的算法架构、模型参数、特征选择，或者是其它的想法。使用单值评估指标（如准确率）可以让你将所有的模型根据在此指标上的表现进行排序，从而快速确定哪一个模型的性能表现最好。

如果你认为查准率和查全率很关键，可以参考其他人的做法，将这两个值合并为一个值来表示。例如取二者的平均值，或者你可以计算 “F1分数（F1 score）” ，这是一种经过修正的平均值计算方法，比进行简单取平均的效果会好一些。

如果你想了解更多关于 F1 分数的信息，可以参考 https://en.wikipedia.org/wiki/F1_score

因此，当你在多个分类器之间进行抉择时，使用单值评估指标将帮助你更快速地作出决定。它能给出一个清楚的分类器性能排名，从而帮助明确团队后续的处理方向。

最后补充一个例子，假设你在“美国”、“印度”、“中国”和“其它地区”，这四个关键市场跟踪你的猫分类器的准确率，并且获得了四个指标。通过对这四个指标取平均值或进行加权平均，你将得到一个单值指标。取平均值或者加权平均值是将多个指标合并为一个指标的最常用方法之一。

原文链接

本帖被以下淘专辑推荐:

· 大数据|主题: 906, 订阅: 9

关注公众号，获取大数据、人工智能20套、区块链资源5阶段等资源，随时更新，获取最新技术资源

回复

使用道具举报

自定义广告语

已有(1)人评论

电梯直达

跳转到指定楼层

正序浏览

还有一些帖子被系统自动隐藏，点此展开

发表新帖

desehawk

实习版主

关注

1058

主题
1959

帖子
189

粉丝

TA的主题

24小时热文

推荐 /2

关于我们· 联系我们· 加入我们· 小黑屋· 合作伙伴

Copyright © 2001-2024 About云-梭伦科技 Powered by Discuz! X3.4 Licensed Discuz Team.

简书 / 京ICP备2020039040号简书网举报电话：021-34700000

意见
反馈