about云开发-活到老学到老 › 首页 ›人工智能› 机器学习› 实操演练 › 查看内容

带你一起机器学习：第一个机器学习模型

2018-8-29 21:32| 发布者: admin| 查看: 1| 评论: 0|原作者: pig2

摘要: 问题导读 1.如何选择建模数据？ 2.什么是特征？ 3.本文使用什么建模？关注最新经典文章，欢迎关注公众号机器学习，人工智能在我们看来是非常神秘，并且是非常难学的，在你有一定的了解后，发现原 ...

问题导读

1.如何选择建模数据？
2.什么是特征？
3.本文使用什么建模？

关注最新经典文章，欢迎关注公众号

机器学习，人工智能在我们看来是非常神秘，并且是非常难学的，在你有一定的了解后，发现原来没有想象的那么难，跟我们的普通编程，唯一不同的地方就是使用了数学公式。但是并不是上来我们就需要数学的，我们可以循序渐进的学习。下面是第一个机器学习模型。

选择建模数据
数据集有太多的变量，你怎么能把这些压倒性的数据减到你能理解的内容？

我们首先使用我们的直觉选择一些变量。后面将展示自动确定变量优先级的统计技巧。

要选择变量/列，我们需要查看数据集中所有列的列表。这是通过DataFrame的columns属性（下面的代码底部行）完成的。

有很多方法可以选择数据的子集。我们现在将重点关注两种方法。

Dot notation，我们用它来选择“预测目标”
选择列列表，我们用它来选择

选择预测目标
您可以使用dot-notation来提取变量。这一列存储在一个Series中，它大致类似于只有一列数据的DataFrame。

我们将使用dot notation来选择我们想要预测的列，这称为预测目标。按照惯例，预测目标称为y。因此，我们需要在墨尔本数据中保存房价的代码是

选择“特征”
输入到我们模型中的列（后来用于进行预测）被称为“特征”。在我们的例子中，那些将是用于确定房价的列。有时，将使用除目标之外的所有列作为要素。其他时候你会用更少的功能更好。

目前，我们将构建一个只有少数特征的模型。稍后你将看到如何迭代和比较使用不同特征构建的模型。

我们通过在括号内提供列名列表来选择多个特征。该列表中的每个项都是一个字符串（带引号）。

例子：

按照惯例，这个数据称为X.

让我们使用describe方法和head方法快速查看我们将用于预测房价的数据，该方法显示前几行。

	Rooms	Bathroom	Landsize	Lattitude	Longtitude
count	6196.000000	6196.000000	6196.000000	6196.000000	6196.000000
mean	2.931407	1.576340	471.006940	-37.807904	144.990201
std	0.971079	0.711362	897.449881	0.075850	0.099165
min	1.000000	1.000000	0.000000	-38.164920	144.542370
25%	2.000000	1.000000	152.000000	-37.855438	144.926198
50%	3.000000	1.000000	373.000000	-37.802250	144.995800
75%	4.000000	2.000000	628.000000	-37.758200	145.052700
max	8.000000	8.000000	37000.000000	-37.457090	145.526350

	Rooms	Bathroom	Landsize	Lattitude	Longtitude
1	2	1.0	156.0	-37.8079	144.9934
2	3	2.0	134.0	-37.8093	144.9944
4	4	1.0	120.0	-37.8072	144.9941
6	3	2.0	245.0	-37.8024	144.9993
7	2	1.0	256.0	-37.8060	144.9954

使用这些命令直观地检查数据是数据科学家工作的重要组成部分。经常会在数据集中发现值得进一步检查。
建立模型
你将使用scikit-learn库来创建模型。编码时，此库编写为sklearn，你将在示例代码中看到。 Scikit-learn是最常用的库，用于对通常存储在DataFrame中的数据类型进行建模。

构建和使用模型的步骤如下：
定义：它是什么类型的模型？决策树？其他类型的模型？还指定了模型类型的一些其他参数。
fit：从提供的数据中匹配模式。这是建模的核心。
预测：看起来是什么样的
评估：确定模型预测的准确程度。

下面是使用scikit-learn定义决策树模型并将其与特征和目标变量拟合的示例。

许多机器学习模型允许模型训练中的一些随机性。为random_state指定一个数字可确保在每次运行中获得相同的结果。这被认为是一种很好的做法。使用任何数字，模型质量不依赖于选择的确切值。

我们现在有一个可以用来进行预测的拟合模型。

在实践中，你会想要对市场上的新房子进行预测，而不是对我们已经有价格的房屋进行预测。但是我们将对训练数据的前几行进行预测，以了解预测函数的工作原理。

鲜花

握手

雷人

路过

鸡蛋

收藏分享邀请

		自动登录	找回密码
密码			立即注册

带你一起机器学习：第一个机器学习模型

相关分类

站长推荐 /1