Spark 高级分析:第四章第1，2，3节

本帖最后由 feilong 于 2017-12-30 07:51 编辑

问题导读

1.什么是分类？什么是回归？
2.什么是向量？什么是特征
3.如何训练样例？

上一篇：Spark 高级分析:第三章第8,9,10节
http://www.aboutyun.com/forum.php?mod=viewthread&tid=23640&extra=

第四章用决策树预测森林覆盖率

预测是非常困难的，特别是对于未来。 —玻尔

在19世纪后期，英国科学家弗朗西斯·高尔顿爵士忙于测量豌豆和人类。他发现，一般来说，大豌豆(和人)有较小的后代。这并不奇怪。作为一种特别大的豌豆是非常罕见的，而这种豌豆的后代可能比一般的豌豆大，它也不太可能比已经很大的父母大。

他的研究几乎是一个副作用，他将孩子与父母的大小进行了对比，并发现两者之间有大致的线性关系。大的父母豌豆有稍微小一点的孩子;小的父母一般有稍大的孩子。因此，这条直线的斜率小于1，高尔顿描述了我们今天所做的这种现象，即回归均值。

虽然在当时可能不是这样认为的的，但对我来说，这条线是对数据做出预测的开始。这条线将这两个值连接起来，暗示了其中一个值与另一个值有关。考虑到豌豆的大小，这种关系可能会导致更准确的估计其后代的大小，而不是简单地假设后代会像父母或其他所有的豌豆一样。

第1节快进到回归

统计学之后的一个多世,甚至自现代机器学习和数据科学的出现,我们仍然谈论从其他值回归预测的价值想法,即使它无关滑回到平均值,或者向后移动。回归技术也与分类技术有关;一般来说，回归指的是预测一个数字，比如大小、收入或温度，而分类是指预测一个标签或类别，比如“垃圾邮件”或“猫的图片”。

连接回归和分类的共同主线是，两者都包含预测一个(或多个)值给定一个(或多个)其他值。要做到这一点，两者都需要一组输入和输出来学习。他们需要回答问题和知道答案。因此，他们被称为有监督学习的类型。

分类和回归是最古老和最深入研究的预测分析类型。在分析包和库中，你可能会遇到的大多数算法都是分类或回归技术，比如支持向量机、逻辑回归、朴素贝叶斯、神经网络和深度学习。前一章的主题，更直观的介绍，也是机器学习的一个相对较新的子课题。

本章将重点介绍一种既流行又灵活的分类和回归算法:决策树及其扩展，随机决策森林。

令人兴奋的事情是这些算法,对波尔先生,他们可以帮助预测未来——或者至少,预测我们尚不确定的东西,根据你的在线行为购买汽车的可能性,电子邮件是否是垃圾邮件，或由于地理位置和化学成分，有多少英亩的土地有可能种出最多的农作物。

第2节向量和特征

为了解释本章中数据集和算法的选择，并开始解释回归和分类是如何操作的，我们有必要简要地定义描述它们的输入和输出的术语。

给定今天的天气，预测明天的高温。这个想法并没有错，但是“今天的天气”是一个松散而随意的概念，需要一些结构，才能被输入到学习算法中。

今天天气的某些特征可以预测明天的气温，比如:
•今天的高温
•今天的低温
•今天的平均湿度
•今天是阴天，下雨还是晴朗
•预测明天会有寒流的天气预报员的人数

这些特征有时也被称为维数，甚至只是变量。这些特征都可以量化。例如，高温和低温是用摄氏度来衡量的，湿度可以被测量为0到1之间的分数，而天气类型可以被标记为阴天，下雨或晴天。当然，许多预测者都是整数。因此，今天的天气可能会被降为一个值，比如13.1、19.0、0.73、cloudy、1

这5个特征组合在一起，被称为特征向量，可以描述任何一天的天气。这种用法与线性代数中术语向量的使用有些相似，只是这个意义上的向量在概念上可以包含非数字的值，甚至缺少一些值。

这些特性并不是完全相同的类型。前两个特征是用摄氏度来衡量的，但是第三个特征是一个单位量，一个分数。第四个不是一个数字，第五个是一个永远是非负整数的数字。

为了讨论的目的，本书将只讨论两大类的特性:类别特征和数字特征。这里的数字特征是可以被数字量化并有意义的排序。例如，有意义的说今天的最高温度是23C，这比昨天的最高温度22C大。上面所有的特性都是数值型的，除了天气类型。像clear这样的术语不是数字，没有排序。说多云比晴天是没有意义的。这是一个分类特性，它替代了几个离散值中的一个。

第3节训练样例

为了做出预测，学习算法需要对数据进行训练。它需要大量的输入和从历史数据得出的已知正确的输出。例如，在这个问题中，学习算法会给出，一天天气在12到16摄氏度之间，有10%的湿度，晴，没有寒流预报，第二天，最高温是17.2度。有了足够多的例子，一个学习算法可能学会预测第二天的高温和一些准确性。

特征向量提供了一种有组织的方法来描述学习算法的输入(这里:12.5,15.5,0.10,clear,0)。预测的输出或目标也可以被认为是一个特性，这里有一个数字特征:17.2。

简单地将目标包含在特征向量中作为另一个特性并不少见。上面的整个训练例子可能被认为是12.5,15.5,0。10，晴，0,17.2。所有这些例子的集合被称为训练集。

注意，回归问题只是目标是数字特征的问题，分类问题是目标明确的问题。并不是每一种回归或分类算法都能处理分类特征或分类目标，有些仅限于数值特征。

xiaee · 发表于 2018-1-2 09:27:40

谢谢。拿走不客气了。

图文精华

Spark 高级分析:第四章第1，2，3节

已有(1)人评论

推荐 /2