分享

about云每日一读汇总(第32篇2019.05.06)


about云每日一读汇总(第一篇)

about云每日一读汇总(第二篇)

about云每日一读汇总(第三篇2014.10.20)

about云每日一读汇总(第四篇2014.12.10)

about云每日一读汇总(第五篇2015.01.01)

about云每日一读汇总(第六篇2015.02.01)

about云每日一读汇总(第七篇2015.03.01)

about云每日一读汇总(第八篇2015.05.01)

about云每日一读汇总(第九篇2015.06.21)

about云每日一读汇总(第十篇2015.09.01)

about云每日一读汇总(第十一篇2015.11.14)

about云每日一读汇总(第十二篇2016.01.01)

about云每日一读汇总(第十三篇2016.04.01)

about云每日一读汇总(第十四篇2016.05.16)

about云每日一读汇总(第十五篇2016.07.18)

about云每日一读汇总(第十六篇2016.10.18)

about云每日一读汇总(第十七篇2016.12.05)

about云每日一读汇总(第十八篇2017.01.05)

about云每日一读汇总(第19篇2017.03.24)

about云每日一读汇总(第20篇2017.06.01)

about云每日一读汇总(第21篇2017.08.01)

about云每日一读汇总(第22篇2017.09.30)

about云每日一读汇总(第23篇2017.12.08)

about云每日一读汇总(第24篇2018.01.02)

about云每日一读汇总(第25篇2018.03.21)

about云每日一读汇总(第26篇2018.05.01)

about云每日一读汇总(第27篇2018.07.02)

about云每日一读汇总(第28篇2018.09.03)

about云每日一读汇总(第29篇2018.11.01)

about云每日一读汇总(第30篇2019.01.02)

about云每日一读汇总(第31篇2019.03.01)

about云2019年07月18每日一读

【总结型】
Hive性能优化总结
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27482
1、Hive表设计层面优化有哪些内容?
2、语法和参数层面如何进行优化?
3、如何进行Join、Group By 、Order By 、COUNT DISTINCT优化?
4、Hive架构层面如何优化?

【书籍】
数据挖掘技术 应用于市场营销、销售与客户关系管理 第3版
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27479

【书籍】
数据挖掘技术 应用于市场营销、销售与客户关系管理 第3版
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27479
【文档】
kettle入门例子大全
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27480

数据挖掘-概念与技术(第三版)部分习题答案汇总
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27481



about云2019年07月17每日一读

【介绍解说】
一文理解神经网络参数随机效果好与差
http://www.aboutyun.com/thread-27477-1-1.html
1、什么是随机矩阵 ?
2、如何理解一个动力系统内不同元素间的相互作用?
3、矩阵的特征值如果画在复平面上长什么样?
4、基于这种理解我们可以做什么?



【书籍】
数据挖掘理论与应用 - 胡可云
http://www.aboutyun.com/thread-27474-1-1.html


【文档】
阿里巴巴:大数据金融ppt汇总
http://www.aboutyun.com/thread-27473-1-1.html





about云2019年07月16每日一读

漫谈HBase Filter
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27469
1、FilterList的结构是怎样的?
2、Filter实际的扫描流程是怎样的?
3、PrefixFilter如何优化?

书籍:
Cassandra实战【书籍】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27470

文档:
某制造业IT发展方案【数据治理】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27471





about云2019年07月15每日一读
介绍解说:
Elasticsearch搜索系统线上部署配置规划
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27463
1.es安装包的目录结构是怎样的?
2. zen discovery集群发现机制的设置规划及其原理是怎样的?
3. es默认参数调优如何进行?



滴滴平台大数据架构离线引擎:Hive元数据上亿级别存储方案的实践
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27462
1.什么是元数据 Federation 方案?
2.怎样引入 Federation 方案?
3.怎样改造现有服务?



文档:
Cloudera一键卸载
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27467


书籍:
ETL工具Kettle用户手册
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27466






about云2019年07月12每日一读

贷前系统ElasticSearch实践总结
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27460
1、ElasticSearch有哪些常用的索引?
2、ElasticSearc如何初始化索引?
3、ElasticSearc有哪些访问安全控制方式?


推荐系统:
基于粒计算的移动电子商务推荐系统研究_王长春
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27459


文档:
DAMA数据管理知识体系指南中文版
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27458




about云2019年07月11每日一读
介绍解说:
算法—时间复杂度
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27455
1.什么是算法复杂度?
2.什么是空间复杂度?
3.什么是时间复杂度?
4.如何计算一个算法的时间复杂度?


3D重建概念之几何求解vs深度学习
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27456
1、如何理解3D 重建?
2、什么是Structure from Motion?
3、几何方法对比深度学习方法有哪些关注点?
4、未来方向有哪些值得关注?



书籍:
应用随机过程概率模型导论  第11版
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27452


基于云计算的电子商务智能推荐系统研究_朱孔真
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27453




about云2019年07月10每日一读
Apache Flink定义、架构及原理介绍
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27450
1、如何理解Apache Flink 的架构及原理?
2、如何理解「有状态的流式处理」概念解析?
3、Apache Flink 的优势有哪些?
4、如何进行状态保存与迁移?




文档:
Python开发规范
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27448


基于Spark的个性化推荐系统的研究与实现_张宜忠
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27449




about云2019年07月08每日一读

思想架构:
如何设计实时数据平台(技术篇)
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27439
1.实时数据平台如何选型?
2.实时数据平台由哪些组件组成?
3.实时数据平台可以解决哪些常见数据应用场景?



hbase中Safepoint导致长时间STW问题的解决
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27440
1.什么是GC和Safepoint,常见的GC Roots对象有哪些?
2.是什么原因导致了长时间的STW?
3.如何解决Safepoint导致长时间STW的问题?


书籍:
Hadoop构建数据仓库实践
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27441


解析卷积神经网络——深度学习实践手册
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27442


方案探讨:
如何实现druid服务加入CM管理
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27438




about云2019年07月05每日一读

思想架构:
如何设计实时数据平台(设计篇)
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27435
1、传统数仓和现代数仓的模块架构有什么区别?
2、现代数仓有哪些重要的能力?
3、实时数据平台整体概念模块架构是怎样的?



文档:
基于“用户画像”挖掘的精准营销细分模型研究
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27427


推荐系统:
大数据平台下推荐系统的研究与实现_邹小波
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27428


可视化餐饮管理推荐系统的设计与实现_邵兴
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27430


推荐系统与深度学习 学习新时代 技术新未来
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27431




about云2019年07月04每日一读

介绍解说:
神经网络概念之非权重学习
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27422
1、难道神经网络不用学权重也能完成各种任务?
2、难道我们以为 CNN 学习到的图像特征只是我们以为?
3、神经网络只不过是函数的排列组合,没有其它意义?
4、搜索权重无关的神经网络(WANN)的流程有哪些?


用户画像拼图——ID-Mapping介绍
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27421
1.什么是IDMapping?
2.ID-Mapping算法本文介绍了哪些概念?
3.本文ID-Mapping算法的思路是什么?

书籍:
强化学习在阿里的技术演进与业务创新【阿里技术】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27424

文档:
Zeppelin 机器学习最新特性和规划
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27423




about云2019年07月03每日一读

连载:
TensorFlow ML cookbook 第八章2节 实施高级CNN
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27414
1、如何声明一些图像参数,高度和宽度,以及随机裁剪图像的大小?
2、如何使用read_cifar_files()函数返回随机扭曲的图像?
3、如何声明我们的模型函数及设置两个卷积层?
4、如何初始化我们的损耗和测试精度函数?




文档:
京东电商广告和推荐系统的机器学习系统实践
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27416


基于大数据的舆情分析系统架构
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27415




about云2019年07月02每日一读

CDH6.2环境中启用Kerberos
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27412
1、如何为安装Kerberos?
2、CDH集群如何启用Kerberos?
3、Kerberos如何使用?
4、常见的错误有哪些?

书籍:
大数据 技术与应用实践指南
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27408

名企资源:
百度数据工厂在流式数据处理的应用与实践
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27409

问答:
id mapping算法
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27407




about云2019年07月01每日一读

phoenix集成hbase后,插入hbase数据,如何通过phoenix查询
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27400
1.hbase插入数据后,为何phoenix不能识别?
2.phoenix索引是如何组成的?
3.如何通过API实现?


实操演练:
PySpark读写HBase实操及方法介绍
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27398
1、HBase中值的存储结构是怎样的?
2、PySpark如何写入HBase?
3、CDH5.9以前的版本使用python3时master选定为yarn时的bug如何解决?

自然场景下的文字检测的一些定义以及挑战
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27401
1.怎样检测弯曲文字?
2.弯曲文字检测有哪几种方法?
3.怎样检测任意形状文本?


spark知识大全
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27403
1.调节资源以后,性能为什么会提升?
2.如何设置一个Spark Application的并行度?
3.Spark中应用fastutil的场景包括哪些?
4.JVM原理是什么?
5.shuffle的原理是什么?
6.SortShuffleManager与HashShuffleManager的差别是什么?
7.MapPartitions操作的优缺点是什么?
8.如何解决JVM GC导致的shuffle文件拉去失败问题?
9.如何解决数据倾斜的问题?

书籍:
HBase分布式存储系统应用__胡鑫喆&张志刚
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27404

文档:
JVM面试专题及答案
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27405

问答:
关于kafka消费端多线程丢数据的问题
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27397




about云2019年06月28每日一读

Flink保证exactly-once机制介绍:checkpoint及TwoPhaseCommitSinkFunction
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27395
1.checkpoint的作用是什么?
2.两步提交的步骤包含哪些?
3.如何实现两步提交?


Kafka简介、组成、安装、案例等
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27391
1、MQ分类有哪些?
2、Kafka组件有哪些?
3、如何进行Kafka安装配置?
4、kafka分布式环境搭建与概念验证如何实现?


文档:
Airflow使用指南【About云整理】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27394

面试题:
Java面试题
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27393




about云2019年06月27每日一读

如何确定Kafka的分区数
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27388
1.如何确定分区?
2.是否分区越多越好?
3.如何分区才是合理的?


文档:
Apache Kudu用户指导手册
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27385


基于Flink的异构海量数据源传输系统
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27386




about云2019年06月26每日一读

实操演练:
如何从oracle同步数据到kafka
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27382
1.jdbc connector插件的作用是什么?
2.如何配置kafka?
3.如何实现oracle中插入数据,同步到kafka?


技术应用:
TensorFlow 2.0实践之中文手写字识别
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27378
1、相比于简单minist识别,汉字识别具有哪些难点?
2、如何快速的构建一个OCR网络模型?
3、读取的时候有哪些点需要注意?
4、如何让模型更简单的收敛?



书籍:
Druid实时大数据分析原理与实践
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27381


功能源码:
使用Hbase协作器(Coprocessor)同步数据到ElasticSearchHbase
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27379


文档:
hbase+solr操作手册及二级索引
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27380




about云2019年06月25每日一读

ElasticSearch在数十亿级别数据下,如何提高查询效率?【课程】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27375


介绍解说:
通俗易懂了解Flink CEP【系统全面讲解】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27369
1.什么是CEP?
2.CEP解决什么问题?
3.CEP如何实现?

Hive 基本面试 Hive 数据分析面试+Flume+Kafka面试
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27376
1、分组TopN如何实现?
2、Flume如何保证数据的可靠性?
3、Kafk 数据丢失问题,及如何保证?
4、Kafka如何保证消息顺序?
5、Spark Join常见分类以及基本实现机制有哪些?


推荐:
销售案例数仓+spark项目答案版
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27372


jdk12 api文档
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27371


其它:
eclipse构建项目问题总结
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27374




about云2019年06月24每日一读

总结型:
Spark Streaming的优化:Receiver、Direct模式区别及演变
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27362
1.Receiver、Direct模式区别有哪些?
2.怎样将Receiver改造成Direct模式?
3.除了模式改造,还有哪些优化点?



Alluxio架构以及其读写行为对应用程序性能的影响
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27364
1.什么是Alluxio,使用它作为数据访问层有哪些好处?
2.Alluxio可以被分成哪几部分,他们分别有什么作用?
3.Alluxio不同的缓存场景对其性能有何影响?
4.Alluxio不同写类型的行为对应用程序的性能有何影响?


文档:
Apache Flink 和 Elasticsearch 助力实时 OLAP 平台
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27365


面试必备:数据仓库开发实例
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27366




about云2019年06月20每日一读

连载:
大数据技术Spark学习入门2
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27352
1、SparkContext 如何创建过程?
2、如何理解Task 执行和回馈?
3、Spark 的数据存储概念有哪些?
4、如何理解Spark Shuffle 过程?

文档:
Redis面试专题及答案
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27349


ClickHouse万亿数据双中心的设计与实践
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27350



about云2019年06月19每日一读

连载:
大数据技术Spark学习入门1
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27344
1、如何理解RPC 网络通信抽象?
2、如何理解Spark 通信架构?
3、如何进行Maste、Worker节点启动?
4、如何理解Driver 和 DriverRunner?



书籍:
Linux 系统编程(第二版) 带书签目录完整版.
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27342


文档:
Kafka面试专题及答案
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27343




about云2019年06月18每日一读

连载:
Flink难点:彻底明白CEP6,匹配跳过策略【api】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27334
1.匹配跳过策略的作用是什么?
2.匹配跳过策略有哪四种?
3.匹配跳过策略代码如何实现?


Flink难点:彻底明白CEP7,模式检测
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27335
1.PatternProcessFunction是哪个版本引入的?
2.对于模式检测中超时部分处理使用什么接口?
3.如何创建PatternStream?


Flink难点:彻底明白CEP8,CEP库中的时间、例子、版本说明
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27337
1.对于事件延迟,cep是如何处理的?
2.对于cep编程,本文举了一个什么例子?
3.从较旧的Flink版本迁移有哪些需要注意?


初识Airflow任务调度平台
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27340
1、集群和分布式有哪些区别?
2、Airflow中的作业和任务依赖于什么?
3、Airflow的调度时间有哪些?
4、Airflow的调度方式有哪些?
5、Airflow的服务构成有哪些?



书籍:
高性能Apache Ignite完整版
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27338


文档:
zookeeper面试专题及答案
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27339



异常错误:
impala无法识别orc格式的表
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27336





about云2019年06月17每日一读

介绍解说:
HBase多租户详解
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27324
1.怎样设置Namespace&ACL,以实现HBase的多租户功能?
2.怎样设置Quota,以实现HBase的多租户功能?
3.怎样设置RSGroup,以实现HBase的多租户功能?




Spark精细深度比较:为何ShuffleManager改成了SortShuffleManager【面试必备】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27330
1.HashShuffleManager 运行原理是什么?
2.SortShuffleManager 运行机制及其原理是什么?
3.shuffle 相关参数如何使用?


文档:
JVM体系结构与GC调优
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27327


Python3零基础教程
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27332


问答:
怎么计算用户在线时长变化趋势
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27328




about云2019年06月14每日一读

总结型:
面试生产大数据集群软、硬件资源规划必备:集群规划
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27318
1.大规模、小规模集群一般多少台机器?
2.小规模硬件配置该如何分配?
3.内存本文是如何计算的?


常识型:
《Spark The Definitive Guide》Chapter 6:处理不同类型的数据
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27319
1、基本的数据类型如何处理?
2、复杂的数据类型如何处理?
3、自定义函数(UDF)如何使用?



招聘:
大数据高级架构师开发(存储led)
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27321


大数据运维工程师【北京】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27322


文档:
企业大数据搭集群搭建硬件选择:Hadoop集群规划
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27314


数据集:
训练数据集
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27316


问答:
关于flink的JDBCAppendTableSink的问题
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27317




about云2019年06月12每日一读

连载:
Flink难点:彻底明白CEP3:独立模式【Patterns】操作Pattern Operation
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27300
1.独立模式有哪些条件?
2.循环模式模式该如何停止?
3.subtype的作用是什么?


介绍解说:
HBase原理机制:Region的拆分与合并
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27301
1、Region为什么需要拆分?
2、Region拆分有几种方法?
3、Region如何拆分?
4、HFile的合并策略有哪些?
5、合并的具体过程有哪些步骤?


About云 VIP会员套餐介绍
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27305


SQL为什么是你最值得掌握的技能之一?【课程】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27302


AI时代验证码攻防知识简介
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27306
1、什么是验证码?
2、验证码的作用是什么?
3、验证码分类有哪些?
4、市场上验证码破解有哪些?





文档:
基干图数据库的电影推荐系统的设计与实现
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27303


书籍:
Tableau:数据可视化之极速BI
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27304




about云2019年06月06每日一读

总结:
SparkStreaming产生小文件原因及解决办法汇总
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27275
1.Spark streaming产生小文件的的原因是什么?
2.如何从原理角度去解决小文件?
3.如何从外部解决小文件问题?



文档:
支持向量机SVM【2019.05】最新文档-中南大学分享
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27273


nifi文档
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27277


书籍:
《Spark机器学习第2版》高清中文PDF
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27274


外站经典链接:
Cloudera Enterprise 5.8.x 中文文档汇总
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27276




about云2019年06月05每日一读

TensorFlow ML cookbook 第八章1节 卷积神经网络-实施更简单的CNN
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27271
1、如何理解图像卷积工作的原理?
2、如何加载数据并将图像转换为28x28阵列?
3、如何声明我们的卷积权重和偏差?
4、如何声明训练步骤并初始化所有模型变量?


文档:
百度大脑智能对话引擎白皮书
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27269

书籍:
卷积神经网络的Python实现【附代码】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27270




about云2019年06月04每日一读

Flink难点:彻底明白CEP1
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27142
1.Flink CEP解决什么问题?
2.如何使用Flink CEP
3.CEP有哪些模式?
4.CEP量词的作用是什么?
5.本文讲了哪些量词?


Flink CEP:量词Quantifiers详解
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27266
1.什么是量词?
2.量词的作用是什么?
3.greedy()的作用是什么?
4.如果事件可以不发生,该使用什么量词来表示?



Kafka核心技术与实战【课程】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27264



书籍:
决战大数据(升级版):大数据的关键思考-车品觉
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27263



文档:
边缘计算文档【华为】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27261


微博混合云应用实践&微博混合云DCP平台介绍与业务上云实践
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27262


疑问解答:
Spark streaming 拉取mysql数据库表问题
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27260


Spark读Hive表慢?
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27265



about云2019年06月03每日一读

总结型:
深度剖析Spark Shuffle:包括Spark Shuffle1 和 Shuffle2比较及调优
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27252
1.什么是Spark Shuffle,它的原理是什么?
2.Spark Shuffle的技术演进之路是怎样的,每次演进解决了那些问题?
3.Shuffle Read的数据的获取和处理时间、存储路径是怎样的?
4.触发Shuffle的操作有哪些?
5.如何对Spark Shuffle进行相关的优化?

Flink web ui 使用简介
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27251
1.怎样在Flink的web ui中查看job的详细信息?
2.怎样在Flink的web ui中查看已经完成的job的详细信息?
3.怎样在Flink的web ui中提交新的job?


Scala迭代器Iterator:是数据结构还是循环器
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27254


书籍:
刷脸背后:人脸检测+人脸识别+人脸检索
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27257

Spark大数据实例开发教程
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27256

疑问解答:
求助 关于Hbase完全分布式
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27255



about云2019年05月31每日一读

Apache Flink在唯品会的实践
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27247
1、实时平台的职责主要包括哪些?
2、Flink在唯品会的实践有哪些?
3、Flink在K8S底层框架上整体架构是怎样的?



项目源码:
structured-streaming-Kafka2HBase项目源码
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27243


书籍:
《卷积神经网络与视觉计算》钱亚冠
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27244


美团机器学习实践
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27245




about云2019年05月30每日一读

Elasticsearch 7.1安全功能入门【实践】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27241
1、有哪些版本的x-pack?
2、安全部分免费之前,大家怎么保证基础安全?
3、基于免费安全认证,我们能做什么?
4、角色的访问控制有哪些内容?



英文:
Hbase学习
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27238


书籍:
Spark内核设计的艺术架构设计与实现(耿嘉安)
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27239


Hadoop-Eclipse插件大全
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27240




about云2019年05月29每日一读

通过TensorFlow2.0实现YoloV3检测网络(一)
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27235
1、如何安装tensorflow2.0?
2、如何使用Dataloader读取数据?
3、如何将coco转化成tfrecord?
4、x_train 和 y_train需要注意哪些内容?




外站链接:
Flinkx介绍:基于flink的分布式数据同步工具
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27236


名企资源:
流式数据处理在百度数据工厂应用与实践
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27232


Flink七武器及应用实战
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27231



about云2019年05月28每日一读

介绍解说:
Flink1.8开发必备:如何配置依赖、连接器、库
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27228
1.Flink二进制包中是否包含连接器?
2.Flink二进制包中是否包含相关库?
3.如何添加Connector 和Library 依赖?


连载:
大数据实战之App管理平台日志分析(六)
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27225
1、如何统计查询一周内每天新增加的用户数量
2、如何在web端展示数据?
3、如何集成echart进行可视化展示?

外站经典链接:
spark2.2中文文档
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27224



书籍:
推荐系统与深度学习 学习新时代 技术新未来
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27227


《区块链安全技术指南》_黄连金等
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27226



about云2019年05月27每日一读

总结型:
Hbase学习之表设计大全
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27218
1.在建表中常使用的命令有哪些?
2.表设计中列簇设计和RowKey 设计是怎样的,他们追求的原则是什么?
3.如何防止数据热点?
4.协处理器observer 和 endpoint他们的原理及区别是什么?
5.协处理器的加载方式是怎样的?


入门帮助:
爬虫入门必备
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27217



介绍解说:
大数据权限管理利器 - Ranger资料汇总
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27219



书籍:
张俊 OPPO】基于Flink SQL构建实时数仓
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27222


英文:
Kafka Streams实战【书籍】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27221




about云2019年05月23每日一读

介绍解说:
Oozie案例分析及配置文件说明
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27202
1.Oozie是什么?
2.Oozie的功能模块有哪些?
3.本文有哪些案例?


轻松理解集成学习的各种概念:bagging、boosting 、stacking
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27205
1、何为集成方法?
2、什么是组合弱学习器?
3、如何理解Bagging、Boosting、Stacking?
4、如何理解提升方法?



书籍:
opencv3机器视觉Python语言实现_刘波
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27203


JAVA核心知识点整理
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27204



about云2019年05月22每日一读

总结型:
IntelliJ IDEA导入项目手册及问题总结【Flink代码为例】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27198
1.IDEA社区版如何import项目?
2.项目导入中,该如何选择避免找不到相关包?
3.导入的过程中,有哪些需要注意的?


使用深度学习生成恶意样本的方法
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27200
1、如何理解应用FGSM算法?
2、如何理解应用IGSM算法?
3、如何使用BasicIterativeMethod函数实现IGSM算法?
3、如何理解应用DeepFool算法?



资源:
PostgreSQL系列文档:window下载安装及基础学习
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27194


Python数据分析与挖掘实战
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27195



方案探讨:
log4j2.properties
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27196


Oozie工作流之间的依赖怎么配置
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27197


疑问解答:
5台kafka集群有一台机器的消息流入量远远落后于其他几个机器
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27199


HRegionServer经常性的挂掉
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27193




about云2019年05月21每日一读

介绍解说:
TensorFlow和深度学习入门教程
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27187
1、什么是神经网络和如何训练它?
2、如何使用TensorFlow构建基本的1层神经网络?
3、如何添加更多的神经网络层数?
4、如何排查深层神经网络的故障?
5、如何构建卷积神经网络(convolutional networks)?

介绍解说:
Kafka高并发如何实现写入每秒几十万上百万并发
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27191
1.Kafka 到底是如何做到这么高的吞吐量和性能的呢?
2.kafka 写数据的时候,是如何写磁盘的?
3.如果频繁的从磁盘读数据然后发给消费者,性能瓶颈在哪里呢?

书籍:
机器学习实战-中文版
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27190

jdk-9_中文文档
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27189

问答:
求解 sparksql 得出结果后遍历 将结果放入 hashmap 为什么放不进去
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27188

zookeeper中每天都有timeout的报错
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27186




about云2019年05月20每日一读

MongoDB介绍包括:介绍、安装部署、命令使用、编程等
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27180
1.MongoDB是怎样的数据库系统?
2.如何搭建MongoDB数据库环境?
3.怎样在MongoDB中进行增删改查操作?



Hive入门详解:包括数据模型、数据类型、常用函数等
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27181
1.Hive常见的数据模型有哪些?
2.Hive的复杂数据类型是如何使用的?
3.hive常用的环境变量及其含义有哪些?



人工智能、大数据、爬虫、web、OpenStack必学语言Python【课程】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27179


资源:
impala3.1 指南
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27183


Spark内核机制解析及性能调优
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27184


问答:
MapReduce shuffle时,map端溢写的小文件是存在HDFS上的吗
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27182





about云2019年05月17每日一读


Spark 机器学习——凸优化算法、线性回归算法、FPGrowth关联规则算法、决策树等
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27176
1、凸优化是什么?
2、如何实现从经验风险最小化到结构经验最小化?
3、线性回归算法的数学模型是怎样的?

4、FPGrowth挖掘过程是怎样的?
5、协同过滤的步骤有哪些?


文档:
Flink在B站的实践
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27174


大数据平台Ambari编译文档
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27175




about云2019年05月16每日一读
技术应用:
数据增强方法在深度学习中的应用
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27172
1、什么是数据增强?
2、如何理解有监督的数据增强?
3、如何理解无监督的数据增强?
4、如何设计限制模型的有效容量?




书籍:
神经网络原理+Simon.Haykin+编著——神经网络书籍中最经典的一本
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27170


《离线和实时大数据开发实战 》
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27171



about云2019年05月15每日一读

连载:
TensorFlow ML cookbook 第七章4、5节使用Word2vec进行预测及使用Doc2vec进行情感分析
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27165
1、如何使用Word2vec进行预测?
2、如何声明我们的模型操作和损失函数?
3、如何使用Doc2vec进行情感分析?
4、如何声明Doc2vec索引和目标词索引的占位符?



总结:
spark写hfile遇到错误以及总结
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27168
1.本文解决了什么问题?
2.在写入hbase的过程中遇到了什么问题?
3.本文解决问题的思路是什么?




文档:
某制造业IT发展方案
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27167


书籍:
Cassandra权威指南(中文版)
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27166




about云2019年05月14每日一读

用Flink取代Spark Streaming!知乎实时数仓架构演进
http://www.aboutyun.com/thread-27162-1-1.html
1、如何动态配置 Streaming?
2、Spark Streaming 在实时数仓 1.0 中的稳定性如何?
3、实时数仓 1.0 的不足之处有哪些?
4、实时数仓 2.0 中的技术如何实现?
5、实时数仓未来将会如何发展?

连载:
Flink外篇:官方文档-Flink CEP
http://www.aboutyun.com/thread-27161-1-1.html
1.FlinkCEP是什么?
2.FlinkCEP解决了什么问题?
3.FlinkCEP该如何使用?

书籍:
DAMA数据管理知识体系指南-全
http://www.aboutyun.com/thread-27159-1-1.html

postgresql_必备参考手册
http://www.aboutyun.com/thread-27160-1-1.html

数据下载:
航空公司客户价值分析案例数据
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27157

问答:
HBase写入数据后再拿出来乱码求救
http://www.aboutyun.com/thread-27158-1-1.html





about云2019年05月13每日一读

连载:
大数据实战之App管理平台日志分析(四)
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27147
1.如何自定义hive时间函数?
2.怎样利用hive进行用户相关数据的统计?
3.怎样创建hive可视化页面?



介绍解说:
Hive全面入门包括:概念、架构、原理、编程等
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27148
1.什么是数据仓库?
2.传统数据仓库面临怎样的挑战?
3.hive是什么?
4.hive系统构架是怎样的?
5.hive的工作原理是怎样的?
6.hive HA基本原理是什么?
7.Impala是什么?
8.Impala的系统架构是怎样的?
9.Impala查询执行过程是怎样的?
10.Impala和hive的区别在哪里?
11.hive如何安装配置?
12.hive的基本数据类型和基本操作有哪些?
13.hive有哪些优势?



知识型:
scala中s 字符串插值器
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27149



文档:
石山石_从OpenStack到Kubernetes-云平台日志监控的新挑战
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27150


吕昕-讯飞AI广告平台机器学习算法演进之路
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27151


统计学:从数据到结论(第四版)
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27153




about云2019年05月10每日一读

百度智能监控场景下的 HBase 实践
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27144
1、HBase架构是怎样的?
2、HBase有哪些组件?
3、如何合理的设置 Region 数量?
4、热点Region问题如何解决?


文档:
大数据、人工智能文档100篇
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27140


书籍:
数据挖掘商业案例分析及实现
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27141


问答:
执行stop-all.sh时遇到了no namenode to stop问题
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27139

如果我想用curl创建一个用户,我该怎么做?
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27145



about云2019年05月09每日一读

技术应用:
图算法在金融风控反欺诈中的应用
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27137
1、模块度 (Modularity) 公式及简化有哪些内容?
2、如何进行模块度公式的解释?
3、如何理解Infomap 算法的迭代过程?
4、如何理解评价指标Modularity?



连载:
大数据实战之App管理平台日志分析(三)
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27136
1.如何使用脚本创建Hive分区表?
2.Linux调度如何实现?
3.如何实现周期性load HDFS的数据到hive的分区表?



文档:
物联网基础架构:设备接入与大数据分析
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27133


书籍:
[V版]数据不说谎:大数据之下的世界_城市数据团_清华大学
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27134



about云2019年05月08每日一读

Flink SQL性能提升推荐写法及配置
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27129
1、Group Aggregate优化技巧有哪些?
2、如何定制高效去重方案?
3、如何进行网络传输的优化?
4、如何配置优化参数?



书籍:
MATLAB神经网络+30个案例分析(高清版附代码)
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27130


名企资源:
最终版-沈礼-蚂蚁金服-蚂蚁亿级金融业务的前端实践
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27131




about云2019年05月07每日一读

Kafka原理详解
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27121
1、Kafka与其他常用的Message Queue有什么区别?
2、Kafka的使用场景有哪些?
3、Kafka的架构包括哪些?
4、Kafka消息流是怎样处理的?
5、Kafka offset机制是什么?


通俗易懂机器学习入门【任何人都能读懂的机器学习】
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27122
1.什么是机器学习?
2.机器学习可以干什么?
3.机器学习需要哪些基础?


文档:
Flink on Yarn部署文档
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27123


百度_陈骁_搜索组件化探索与实践
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27124


疑问解答:
java连接hbase  Kerberos 24小时过期问题
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27125




about云2019年05月06每日一读


技术应用:
spark2.0对文本分词进行多分类建模
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27106
1、如何使用spark进行文本数据预处理?
2、如何进行数据处理模型训练、保存和调用?
3、如何进行多分类模型训练和超参数调优?
4、如何进行多分类模型预测和模型评估?



实时计算中有关G7的探索和实践
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27107
1.G7是如何工作的?
2.G7的业务场景是怎样的
3.哪一种流计算框架比较适合IoT这个场景的
4.G7业务应用案例 Flink目前在G7的应用场景有哪几个方面?
5.实时计算平台开发和现状是怎样的?
6.Glink的实时计算平台的架构是怎样的?
7.Glink主要由哪几个部分组成?
8.Glink实时计算平台的功能有哪些?
9.Glink-Framework框架提供哪些封装?
10.平台收益主要体现在哪几个方面?
11.未来对于flink的规划是怎样的?

文档:
Spark面试2000题(1_6期 外加60题)
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27108


机器学习个人笔记完整版2.5
http://www.aboutyun.com/forum.php?mod=viewthread&tid=27109











没找到任何评论,期待你打破沉寂

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条