问题导读 1.本文什么场景? 2.本文选择了什么数据模型? 3.决策树预测底部的点叫什么? 最新经典文章,欢迎关注公众号 介绍 我们首先概述机器学习模型如何工作以及如何使用它们。 如果之前已完成统计建模或机器学习,这可能会感觉很基础。 我们这里会建立强大的模型。 本文将构建以下场景的模型: 你的堂兄已经花了数百万美元来推测房地产。 由于你对数据科学的兴趣,他愿意与你成为业务合作伙伴。 他会提供资金,你会提供预测各种房屋价值的模型。 你问你的堂兄他过去如何预测房地产价值。 他说这只是直觉。 但更多的质疑表明,他已经确定了他过去看过的房屋的价格模式,他利用这些模式对他正在考虑的新房进行预测。 机器学习的工作方式相同。 我们将从一个名为决策树的模型开始。 有更高级的模型可以提供更准确的预测。 但决策树很容易理解,它们是数据科学中一些最佳模型的基本构建块。 为了简单起见,我们将从最简单的决策树开始。 它将房屋分为两类。 所考虑的任何房屋的预测价格是同一类别房屋的历史平均价格。 我们使用数据来决定如何将房屋分成两组,然后再次确定每组的预测价格。 从数据捕获模式的这一步骤称为拟合或训练模型。 用于拟合模型的数据称为训练数据。 模型如何拟合的细节(例如,如何分割数据)非常复杂,我们以后在说。 在模型拟合后,可以将其应用于新数据以预测其他房屋的价格。 改进决策树 通过拟合房地产训练数据,更有可能产生以下两个决策树中的哪一个? 左侧的决策树(决策树1)可能更有意义,因为它捕捉到了这样的现实:拥有更多卧室的房屋往往以比卧室更少的房屋更高的价格出售。 这种模式的最大缺点是它不能捕捉影响房价的大多数因素,如浴室数量,批量,位置等。 你可以使用具有更多“拆分”的树来捕获更多因素。 这些被称为“更深”的树木。 决策树也考虑每个房子的总批量大小可能如下所示: 你通过跟踪决策树来预测任何房子的价格,总是选择与该房子的特征相对应的路径。房子的预计价格在树的底部。我们预测底部的点叫做叶子。 叶子上的分割和值将由数据确定,因此你可以查看将要使用的数据。 |
|小黑屋|about云开发-学问论坛|社区-大数据云技术学习分享平台 ( 京ICP备12023829号 )
GMT+8, 2018-9-8 16:02 , Processed in 0.349848 second(s), 30 queries , Gzip On.