分享 机器学习该怎么入门?
howtodown 2015-4-4 19:33
机器学习说简单就简单,说难就难,但如果一个人不够聪明的话,他大概很难知道机器学习哪里难。基本上要学习机器学习,先修课程是algebra, calculus, probability theory, linear regression。这几门科学好了再学Machine learning是事半功倍的。此外近代数学的东西也要懂, functional analysis啥的。其实不懂也行,只是现 ...
1598 次阅读|0 个评论
分享 零基础学习PDB命令行调试Python代码
howtodown 2015-4-4 19:27
你有多少次陷入不得不更改别人代码的境地?如果你是一个开发团队的一员,那么你遇到上述境地的次数比你想要的还要多。然而,Python中有一个整洁的调试特性(像其他大多数语言一样),在这种情况下使用非常方便。本文是一篇快速教程,希望它能让你的编码生活更加容易。 1. 一个混乱的程序 出于本教程的目 ...
905 次阅读|0 个评论
分享 大数据分析平台架构(Big Data Analytics Platform)
howtodown 2015-4-2 23:05
大数据分析平台架构(Big Data Analytics Platform)
一、数据分析平台层次解析 大数据分析处理架构图 数据源: 除该种方法之外,还可以分为离线数据、近似实时数据和实时数据。按照图中的分类其实就是说明了数据存储的结构,而特别要说的是流数据,它的核心就是数据的连续性和快速分析性; 计算层: 内存计算中的Spark是UC Berkeley的最 ...
3044 次阅读|0 个评论 热度 1
分享 第二个“LTS”版本:Django 1.8发布,安全更新期至少三年
howtodown 2015-4-2 20:20
jango项目是一个定制框架,它源自一个在线新闻Web站点,于2005年以开源的形式被释放出来,最新版本为近日发布的Django 1.8。 Django 1.8被认定作为Django第二个“LTS”版本推出,其安全更新时长将达到至少三年,支持之前的LTS。Django 1.4将在Django 1.8发布六个月之后停止维护。和Django 1.7版本一样,使用Django 1.8 ...
927 次阅读|0 个评论
分享 Apache Spark生态环境组成
howtodown 2015-4-2 19:59
Apache Spark生态环境有以下几个组成部分: Spark Core:平台的底层执行引擎,支持大量应用以及Java、Scala和Python等应用程序接口(API)。 Spark SQL(结构化查询语言) :用户可通过其探究数据。 Spark Streaming:可对来自推特的流数据进行分析,并且让Spark具备批处理能力。 机器学习库 (MLlib):一种分 ...
988 次阅读|1 个评论 热度 1
分享 spark参数简略统计图
howtodown 2015-3-31 19:40
spark参数简略统计图
来自qq群记录下来以后验证
756 次阅读|0 个评论
分享 由于在写oozie hive action时候script属性指定hql脚本时多写了一个斜杠导致的一个悲剧 ...
howtodown 2015-3-18 12:33
今天在编写 oozie hive action,编写的action如下: action name="action_0_0_0" hive xmlns="uri:oozie:hive-action:0.2" job-tracker${jobTracker}/job-tracker name-nod ...
904 次阅读|0 个评论
分享 mahout推荐之关于动态刷新推荐引擎
howtodown 2015-3-18 12:10
我们知道FileDataModel可以装载一个偏好值文件,其实FileDataModel还支持动态更新装在的数据,增量更新文件命名规则如下: 假如主数据文件为:intro.txt ,则增量更新文件的命名应为intro.1.txt ,intro.2.txt如此跟进。 当调用refresh()方法时,会自动装在更新文件并更新现有偏好值数据。 但是一般不会单独刷新DataModel ...
936 次阅读|0 个评论
分享 编译支持hive的spark assembly
howtodown 2015-3-18 11:59
原生的spark assembly jar是不依赖hive的,如果要使用spark hql必须将hive相关的依赖包打到spark assembly jar中来。打包方法: 假设已经装好了maven, 1添加环境变量,如果jvm的这些配置太小的话,可能导致在编译过程中出现OOM,因此放大一些: export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheS ...
2193 次阅读|1 个评论 热度 1
分享 spark中的SparkContext实例的textFile使用的小技巧
howtodown 2015-3-18 11:58
网上很多例子,包括官网的例子,都是用textFile来加载一个文件创建RDD,类似sc.textFile("hdfs://n1:8020/user/hdfs/input") textFile的参数是一个path,这个path可以是: 1. 一个文件路径,这时候只装载指定的文件 2. 一个目录路径,这时候只装载指定目录下面的所有文件( 不包括子目录下面的文件 ) 3. 通过通配符的 ...
1341 次阅读|0 个评论
关闭

推荐上一条 /2 下一条