分享

请教大家一个预测问题

telekinesis 发表于 2016-1-9 14:32:18 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 4 7350
刚接触数据分析、机器学习领域,请教大侠分析思路和方法,多谢各位啦~~
现在手上有某旅游平台的训练样本(10000)和测试样本(4000),用于建模并预测各酒店未来0~7天的剩余客房数Y。
目前业务的三个分支ABC可以为模型的预测提供实时支持。
1.       A分支提供单一A指标;
2.       B分支提供十个指标:B1,…, B10
3.       C分支也提供十个指标:C1,…, C10
训练数据集中含有因变量Y,即各酒店某日的剩余房间量;自变量除了以上21个外,还有酒店名称、日期、保留房剩余数(旅游平台会提前买断各酒店的部分房间,即保留房)等。
数值型变量均集中在(-10,10)区间,只有酒店名称、日期非数值型。
现在有以下问题:
1.  已知三个分支给提供的信息是相关的:任意两个部门提供的预测信息量等价于三个部门提供的信息量,请设计数据分析方法,并判断哪个分支所提供的指标可以忽略
我的思路是用Pearson相关性分析来判断,发现A与C1~C10在0.01水平上显著相关,AB/BC间相关性不明显,是不是就可以得出结论忽略A或C呢?不知思路是否正确?

2、建立对Y的预测模型。
请教一下各位的思路,最好可以讲得细一点。应该选用什么模型呢?怎么进行变量筛选呢?初步考虑用线性回归进行拟合,但是想不明白日期变量和酒店名称这样的非数据值型变量怎么处理呢?另外不同酒店的剩余房型量预期不同,假设各酒店样本量足够多,是不是要按酒店分开建模分析呢?

已有(4)人评论

跳转到指定楼层
starrycheng 发表于 2016-1-9 16:36:09
1.  已知三个分支给提供的信息是相关的:任意两个部门提供的预测信息量等价于三个部门提供的信息量,请设计数据分析方法,并判断哪个分支所提供的指标可以忽略
我的思路是用Pearson相关性分析来判断,发现A与C1~C10在0.01水平上显著相关,AB/BC间相关性不明显,是不是就可以得出结论忽略A或C呢?不知思路是否正确?思路没有正确与错误,楼主可以按照自己的方式来验证。

2、建立对Y的预测模型。
请教一下各位的思路,最好可以讲得细一点。应该选用什么模型呢?怎么进行变量筛选呢?初步考虑用线性回归进行拟合,但是想不明白日期变量和酒店名称这样的非数据值型变量怎么处理呢?另外不同酒店的剩余房型量预期不同,假设各酒店样本量足够多,是不是要按酒店分开建模分析呢?
非数值是否可以转换,或则处理掉无关的内容。对于酒店样本根据自己的情况,如果觉得可以分开建模并且有价值,那就分开
回复

使用道具 举报

telekinesis 发表于 2016-1-9 18:05:49
本帖最后由 telekinesis 于 2016-1-9 18:09 编辑


日期一般怎么转换成可用于线性回归的变量呢?由于要预测未来某一天的剩余客房数,感觉这个变量不可忽略啊@starrycheng
回复

使用道具 举报

wscl1213 发表于 2016-1-9 20:36:00
看看其它方法比如
聚类,时间序列模型等
回复

使用道具 举报

linbowei 发表于 2016-1-20 16:46:35
题目的要求是要预测接下来一周的剩余客房数,这是一个很明显的提示,一周也就是周一到周日。所有把所有日期转换成周几(一一对应)。同时你的训练样本集已经有了因变量,因此选择分类的模型,这样结果更加准确。像这样的数据集,用神经网络的话,准确度应该挺高。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条