分享

带你一起机器学习:模型如何工作


问题导读

1.本文什么场景?
2.本文选择了什么数据模型?
3.决策树预测底部的点叫什么?

最新经典文章,欢迎关注公众号


介绍
我们首先概述机器学习模型如何工作以及如何使用它们。 如果之前已完成统计建模或机器学习,这可能会感觉很基础。 我们这里会建立强大的模型。

本文将构建以下场景的模型:
你的堂兄已经花了数百万美元来推测房地产。 由于你对数据科学的兴趣,他愿意与你成为业务合作伙伴。 他会提供资金,你会提供预测各种房屋价值的模型。

你问你的堂兄他过去如何预测房地产价值。 他说这只是直觉。 但更多的质疑表明,他已经确定了他过去看过的房屋的价格模式,他利用这些模式对他正在考虑的新房进行预测。

机器学习的工作方式相同。 我们将从一个名为决策树的模型开始。 有更高级的模型可以提供更准确的预测。 但决策树很容易理解,它们是数据科学中一些最佳模型的基本构建块。

为了简单起见,我们将从最简单的决策树开始。

7tsb5b1.png

它将房屋分为两类。 所考虑的任何房屋的预测价格是同一类别房屋的历史平均价格。

我们使用数据来决定如何将房屋分成两组,然后再次确定每组的预测价格。 从数据捕获模式的这一步骤称为拟合或训练模型。 用于拟合模型的数据称为训练数据。

模型如何拟合的细节(例如,如何分割数据)非常复杂,我们以后在说。 在模型拟合后,可以将其应用于新数据以预测其他房屋的价格。

改进决策树

通过拟合房地产训练数据,更有可能产生以下两个决策树中的哪一个?
1.png 2.png

左侧的决策树(决策树1)可能更有意义,因为它捕捉到了这样的现实:拥有更多卧室的房屋往往以比卧室更少的房屋更高的价格出售。 这种模式的最大缺点是它不能捕捉影响房价的大多数因素,如浴室数量,批量,位置等。

你可以使用具有更多“拆分”的树来捕获更多因素。 这些被称为“更深”的树木。 决策树也考虑每个房子的总批量大小可能如下所示:

1.png

你通过跟踪决策树来预测任何房子的价格,总是选择与该房子的特征相对应的路径。房子的预计价格在树的底部。我们预测底部的点叫做叶子。

叶子上的分割和值将由数据确定,因此你可以查看将要使用的数据。




没找到任何评论,期待你打破沉寂

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条