分享

如何高效的计算一年的平均值,方差和标准差

foreverfeng168 发表于 2015-8-13 13:39:28 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 3 30945
最近在做一个项目,需要统计每日近某个时间段(如:近一年,近30日,近60日)的平均值,标准差,方差,请问大路大神,有木有比较高效的方法计算?我不想把一年的数据都加载进来,数据量太大,一年的数据量估计有3个T。这样的加载会导致运行速度会很慢。

已有(3)人评论

跳转到指定楼层
T_T 发表于 2015-8-13 13:48:53
均值可分割计算,有了均值再分布计算标准差、方差,我是这么想的
回复

使用道具 举报

arsenduan 发表于 2015-8-13 14:46:09
T_T 发表于 2015-8-13 13:48
均值可分割计算,有了均值再分布计算标准差、方差,我是这么想的

描述的清楚些,从哪里到哪里是从关系数据库到nosql,还是hdfs,还是什么情况。
你提的这个问题,会让 别人误认为是数学题。
笼统来讲,你不想加载全部,你加载一部分也是可以的,关心哪部分,就加载哪部分。
如果是hdfs,使用mapreduce或则hive sql都是可以的
回复

使用道具 举报

foreverfeng168 发表于 2015-8-14 09:07:43
arsenduan 发表于 2015-8-13 14:46
描述的清楚些,从哪里到哪里是从关系数据库到nosql,还是hdfs,还是什么情况。
你提的这个问题,会让 别 ...

数据源存在hdfs中,我的初步想法是,能不能只加载上一天的数据,利用上一天的平均值,方差来计算今天的平均值和方差。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条