用户组:游客
本帖最后由 feilong 于 2017-9-1 17:58 编辑 问题导读 1.实验室中的分析和工厂的分析的区别是什么?2.数据在分析前需要做哪些 ...
本帖最后由 hero1122 于 2017-7-31 19:07 编辑 问题导读: 1.什么是LDA文档问题模型? 2.LDA 建模算法是什么样的? 3.spa ...
本帖最后由 hero1122 于 2017-7-17 16:32 编辑 1.概述 首先,笔者要先申明,我也是初学机器学习领域的内容,虽然我是从事 ...
问题导读 1.rdd,dataframe,dataset在哪个版本被引入? 2.什么情况下使用rdd,dataframe,dataset? 3.它们有什么不同? ...
问题导读: 1. 如何学习图数据处理和分析? 2. 如何用Apache Spark GraphX库进行图数据分析? 3. 哪些常用的图类算法? 4. ...
本帖最后由 xioaxu790 于 2015-2-6 22:17 编辑 问题导读 1、什么是Consumer Rebalance? 2、如何理解消息Deliver guarantee ...
本帖最后由 Tank_2000 于 2017-5-4 21:16 编辑 问题导读: 1.spark-submit 命令都有哪些参数可以设置? 2.如何合理设置spa ...
问题导读: 1.Scala函数参数传值调用? 2.Scala函数参数传名调用? 引言 Scala的解释器在解析函数参数(fun ...
问题导读: 1.RDD的本质是什么?2.Shuffle的本质是什么?3.为什么Shuffle 容易导致Spark挂掉? 前言很多初 ...
问题导读: 1. Spark MLlib 在应用架构中是什么位置? 2. Spark MLlib 中算法怎么分类的? 3. 监督和非监督式学习的异同点? ...
本帖最后由 xuanxufeng 于 2017-4-4 15:03 编辑 问题导读 1.什么是KMeans? 2.KMeans算法可以用来做什么? 3.KMeans如何 ...
本帖最后由 pig2 于 2017-6-15 09:10 编辑 问题导读 1.DStreams的含义是什么? 2.DStreams提供哪两种类型的操作? 3.Tran ...
本帖最后由 pig2 于 2017-6-15 09:11 编辑 问题导读 1.Spark Streaming提供了哪三种内置的数据源支持? 2.Receiver的作用 ...
问题导读 1.spark中job、stage、task他们之间的关系是什么? 2.DAGScheduler的主要职能是什么? 3.DAGScheduler包含哪些st ...
本帖最后由 pig2 于 2015-3-9 02:43 编辑 问题导读 1.在Standalone部署模式下,Spark运行过程中会创建哪些临时性目录及文 ...
问题导读 1、Spark技术有哪些热点? 2、如何更好的使用Tachyon? 3、Tachyon在百度实践中遭遇的挑战有哪些? 本文 ...
问题导读: 1.基于文件系统的单点恢复实现Spark集群高可用? 2.基于zookeeper的Standby Masters实现Spark集群高可用? ...
问题导读: 1.Master如何根据启动参数决定不同重启策略? 2.CuratorFramework实现Zookeeper的高可用? ...
问题导读: 1.如何使用maven对Spark进行构建? 2.如何使用maven对Spark进行编译? 系统环境: 引 ...
问题导读 1、如何根据实际场合对Spark进行配置优化? 2、Storage相关配置参数有哪些? 随着Spark的逐渐成熟完善, ...
问题导读1.如何通过Parser把sql解析成一个LogicPlan?2.child.execute()执行子节点的execute来返回数据的过程是怎样的? ...
问题导读1.Spark与Hadoop MapReduce相比较有何优劣?2.如何使用Spark SQL分析数据? 去年网上曾放出个2000W的 ...
本帖最后由 pig2 于 2015-1-6 14:13 编辑 问题导读 1、如何直接将spark在yarn上面运行? 2、结合yarn,需要修改Hadoop哪些配 ...
本帖最后由 xioaxu790 于 2014-12-15 13:19 编辑 问题导读 1、Analyzer在Spark SQL里起到了什么作用? 2、如何理解流程是实 ...
问题导读 1、 in-memory 有哪些典型技术? 2、如何理解InMemoryColumnarTableScan在Catalyst中的作用? 3、怎样理解ColumnAcc ...
问题导读 1、Spark SQL有哪些函数类型? 2、如何理解Spark目前的UDF原理? 3、如何编写一个spark udf? 在SQL的世 ...
问题导读 1、如何理解 Spark Plan的4种操作类型? 2、joinRow的实现本质是什么? 3、什么是ShuffleHashJoin? 本 ...
本帖最后由 xioaxu790 于 2014-12-15 13:55 编辑 问题导读 1、什么是Physical Plan? 2、如何理解Optimizer工作流程? 3、 ...
问题导读 1、什么是Optimizer? 2、优化的主要策略总结起来是哪几大类? 3、如何理解Optimizer的工作方式? 本文 ...
问题导读 1、spark实验环境搭建流程是什么? 2、spark中job的生成和运行流程具体步骤是? 3、Spark布置环境中组件构成分 ...
本版积分规则 发表帖子
查看 »