分享

2017年about云01月第03周经典帖子总结

admin 发表于 2017-1-22 16:56:43 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 0 5620


Kafka文档:Kafka Protocol实例分析【api整理汇总】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20813
1、如何新建topic 生产、消费信息?
2、如何理解使用Metadata API?
3、如何使用Offset API(Aka ListOffset)?
4、如何应用Offset Commit/Fetch API?
5、如何通过Administrative API管理Kafka集群?



大数据框架【spark,hadoop,hive等】数据清洗适用场景介绍、对比及源码实现
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20808
1、如何防止Spark离线模型跑任务时,占用完集群所有资源?
2、大数据平台的数据源集中来源于哪些方面?
3、如何先通过某个用户最近30天的IP列表去找到使用相同IP频数最多的那一批用户列表呢?

4、如何结合关系网络的每个维度(IP、设备指纹、身份证、银行卡和加密隐私等等),去挖掘与该用户关联度最高的那一批用户列表?

5、如何对接产品标准化模型输出,让页面查询的效应时间变得更快些?
6、如何用Hive解决70%的数据清洗?
7、如何使用MapReduce来清洗特殊的数据?


about云日志分析项目准备:spark集群安装及常见配置项说明
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20807
1.spark有哪些进程?
2.spark配置文件中常用属性的含义是什么?
3.spark序列化哪种方式效率更高?




使用Spark进行数据挖掘之实现朴素贝叶斯算法
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20839
1.  进行数据挖掘前需要了解哪些Spark基础?
2.  什么是朴素贝叶斯算法?
3.  如何理解“朴素”二字?
4.  如何使用Spark实现朴素贝叶斯算法?



Spark机器学习入门2·准备数据(pyspark)
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20825
1. 如何搭建准备环境?
2. 如何搭建运行环境?
3. 如何处理数据?




资源:
hadoop调优参数列表统计
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20802


Elasticsearch服务器开发(第2版)
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20817


spark,hadoop框架基础之ProtoBuf开发者指南
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20806


elasticsearch权威指南-中文
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20843


数据仓库(第3版)
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20829



问答:

关于hive中insert into values()
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20833


谁可以详细介绍下Hbase profbuf 吗
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20805


spark的shuffle
http://www.aboutyun.com/forum.php?mod=viewthread&tid=20804

没找到任何评论,期待你打破沉寂

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条