用户组:游客
问题导读 1.如何统计网站总的点击量? 2.如何实现统计不能访问网页的个数? 3.文章中如何定义和使用Scala函数的? ...
问题导读 1.在url中,如何过滤不需要的内容? 2.如何获取404记录并且获取字段? 3.获取不能访问url列表的思路是什么? ...
问题导读 1.如何从所有数据中,抽取样本查看? 2.如何保存结果到hdfs? 3.saveAsTextFile的作用是什么? 上一篇 ...
本帖最后由 xioaxu790 于 2014-9-12 18:17 编辑 问题导读 1、如何理解Spark应用程序的构造? 2、如何接入和初始化Spark? 3 ...
问题导读: 1.spark与hadoop有什么不同? 2.如何操作RDD? 3.Spark有哪些编程接口? 概述 什 ...
本帖最后由 pig2 于 2017-12-15 18:11 编辑 问题导读 1.dataframe如何保存格式为parquet的文件? 2.在读取csv文件中,如何设 ...
本帖最后由 pig2 于 2014-8-15 23:00 编辑 问题导读 1.spark on yarn能否查看运行日志? 2.spark on yarn需求该如何定义与查 ...
本帖最后由 Oner 于 2016-12-29 10:42 编辑 问题导读:1. spark-jobserver有哪些特性?2. 如何安装spark-jobserver?3. 如何使 ...
...
问题导读: 1.什么是Spark Streaming?2.怎样配置并运行Spark Streaming?3.怎样调优Spark Streaming? Spark Stream ...
本帖最后由 PeersLee 于 2016-4-13 19:01 编辑 问题导读: 1.Spark生态圈是否缺乏一个支持在线学习的流分析算法引擎? 2 ...
GraphX 是 图 和 图并行计算的 Apache Spark's API 灵活性 图与集合无缝结合 图结合ETL,探索性分析,迭代图计算。 ...
hbase-rdd二次开发 [*]创建: 张敏,最新修改: 昨天3:41 下午 hbase-rdd是一个构建在SparkContext基础之上的用于对 ...
本帖最后由 xuanxufeng 于 2016-8-11 18:03 编辑 问题导读 1.Spark Streaming 的作用是什么? 2.Spark Streaming工作原理 ...
问题导读: 1.RDD是什么?2.如何选择存储级别?3.什么是并行集合? Spark 的一切都是建立在RDD这个抽象概念之上,而 ...
问题导读:1.RDD支持哪些操作?2.什么是Shuffle?3.怎样用Scala写spark程序? RDD 操作介绍RDD 有两种操作方式的概念 ...
本帖最后由 yuwenge 于 2015-6-2 20:59 编辑 问题导读 1.Spark on Yarn如何查看日志? 2.spark-env.sh文件的作用是什么? 3 ...
问题导读 1.spark编程中print内容,在控制台是否能看到?2.输出的日志有哪两种?3.如何才能看到spark运行日志? 比如,Spark ...
问题导读 1.spark安装包如何下载? 2.如何git下载源码包? 3.如果通过maven下载spark? 1.安装包下载 ...
问题导读 1.数据科学项目的第一步是什么? 2.Spark是用什么语言编写的?是否可以使用R/Python调用Spark? 3.哪些做法能使你更 ...
问题导读 1.spark Streaming支持哪些语言? 2.spark Streaming是否具有故障恢复功能? Spark Streaming使容易的 ...
问题导读: 1.Spark如何部署到yarn? 2.Spark如何基于Scala进行开发? 下载 虽然Spark已经提供了针对Hadoop1 ...
本帖最后由 xuanxufeng 于 2016-6-9 14:21 编辑 问题导读 1.什么是dataset? 2.本文认为DataSet和RDD主要的区别是是什么? ...
本帖最后由 Oner 于 2016-6-3 08:37 编辑 问题导读: 1. Spark MLlib 在应用架构中的位置是怎样的? 2. Spark MLlib 算法可 ...
易于使用 使用Java, Scala 和 Python. MLlib 适合 Spark's APIs 于使用Python NumPy 交互((开始于Spark 0.9).) ...
问题导读: 1.什么是Parquet?2.Hbase怎样转换为Parquet? 列式存储布局(比如 Parquet)可以加速查询,因为它只检查 ...
本帖最后由 坎蒂丝_Swan 于 2014-12-30 12:28 编辑 1、存储系统 如果可以的话,把Spark的hadoop的节点安装在一起, ...
本帖最后由 yuwenge 于 2015-5-9 22:14 编辑 问题导读 1.什么是关联规则挖掘? 2.关联规则有哪些术语? 3.什么是FP-Growt ...
问题导读 1.在Topology中我们可以指定spout、bolt的并行度,在提交Topology时Storm如何将spout、bolt自动发布到每个服务器并 ...
问题导读: 1.Smack 4.1的改进有哪些?2.Smack 4.1的API变化有哪些? 一、Smack 4.1的主要改进 Smack 4.1.x最 ...
本版积分规则 发表帖子
查看 »