2017年about云01月第03周经典帖子总结

Kafka文档：Kafka Protocol实例分析【api整理汇总】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20813
1、如何新建topic 生产、消费信息？
2、如何理解使用Metadata API？
3、如何使用Offset API（Aka ListOffset）？
4、如何应用Offset Commit/Fetch API？
5、如何通过Administrative API管理Kafka集群？

大数据框架【spark，hadoop，hive等】数据清洗适用场景介绍、对比及源码实现
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20808
1、如何防止Spark离线模型跑任务时，占用完集群所有资源？
2、大数据平台的数据源集中来源于哪些方面？
3、如何先通过某个用户最近30天的IP列表去找到使用相同IP频数最多的那一批用户列表呢？
4、如何结合关系网络的每个维度（IP、设备指纹、身份证、银行卡和加密隐私等等），去挖掘与该用户关联度最高的那一批用户列表？
5、如何对接产品标准化模型输出，让页面查询的效应时间变得更快些？
6、如何用Hive解决70%的数据清洗？
7、如何使用MapReduce来清洗特殊的数据？

about云日志分析项目准备：spark集群安装及常见配置项说明
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20807
1.spark有哪些进程？
2.spark配置文件中常用属性的含义是什么？
3.spark序列化哪种方式效率更高？

使用Spark进行数据挖掘之实现朴素贝叶斯算法
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20839

1. 进行数据挖掘前需要了解哪些Spark基础？

2. 什么是朴素贝叶斯算法？

3. 如何理解“朴素”二字？

4. 如何使用Spark实现朴素贝叶斯算法？

Spark机器学习入门2·准备数据(pyspark)
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20825
1. 如何搭建准备环境？
2. 如何搭建运行环境？
3. 如何处理数据？

资源：
hadoop调优参数列表统计
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20802

Elasticsearch服务器开发（第2版）
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20817

spark,hadoop框架基础之ProtoBuf开发者指南
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20806

elasticsearch权威指南-中文
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20843

数据仓库（第3版）
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20829

问答：

关于hive中insert into values()
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20833

谁可以详细介绍下Hbase profbuf 吗
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20805

spark的shuffle
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20804

图文精华

2017年about云01月第03周经典帖子总结

相关帖子

推荐 /2