用户组:游客
本帖最后由 Oner 于 2017-1-19 14:56 编辑 问题导读:1. 进行数据挖掘前需要了解哪些Spark基础?2. 什么是朴素贝叶斯算法?3 ...
本帖最后由 feilong 于 2017-10-13 11:57 编辑 问题导读 1.什么是Spark Shell,SparkContext,REPL? 2.什么是RDD? 3.如 ...
问题导读 1.在url中,如何过滤不需要的内容? 2.如何获取404记录并且获取字段? 3.获取不能访问url列表的思路是什么? ...
问题导读 1.如何统计网站总的点击量? 2.如何实现统计不能访问网页的个数? 3.文章中如何定义和使用Scala函数的? ...
在启动spark shell的时候,产生如下错误 [mw_shl_code=bash,true]Caused by: java.sql.SQLException: Failed to start datab ...
问题导读 1.自定义包,本文放到哪个路径下面? 2.复制包之后,需要做哪些权限操作? 3.如何验证导入是否成功? ...
问题导读: 1.如何用Hadoop的FileSystem实现在已有目录下用一个文件保存Spark数据?2.如何分块读取RDD数据并保存到hdfs?3. ...
本帖最后由 sehriff 于 2017-10-3 11:46 编辑 问题导读1.机器学习算法可以分成哪些类型?2.为什么python适合机器学习?3.什么是P ...
本帖最后由 sehriff 于 2017-9-27 23:06 编辑 问题导读 1.什么是CBO,RBO?2.什么是执行计划?3.什么是join,filter?4.事实表 ...
问题导读: 1.下载安装zeppelin 2.修改配置文件并启动 3.启动异常与解决方案 下载安装zeppelin 下载zeppelin官方地址:z ...
本帖最后由 PeersLee 于 2017-9-27 18:13 编辑 问题导读: 1. 属性 Graph 是什么? 2. Graph 运算符有哪些? 3. Graph 建造 ...
问题导读: 1.in-heap 和 off-heap (MemoryAllocator)是什么? 2.内存管理器(MemoryManager)介绍? 3.ExecutorMemoryManager ...
问题导读 1.数据科学项目的第一步是什么? 2.Spark是用什么语言编写的?是否可以使用R/Python调用Spark? 3.哪些做法能使你更 ...
问题导读: 1.怎样最小化每个批数据的处理时间?2.怎样找出一个合适的batch间隔?3.当SparkStreaming应用程序发生故障时, ...
问题导读: 1.ListenerBus 是如何工作的? 2.ListenerBus 做了什么? 3.MetricsSystem 是如何工作的? 4.如何配置MetricsSys ...
问题导读 1.新版scala插件有啥改进? 2.什么是隐式转换? 今年夏天,我们很高兴地宣布了Scala插件一些新功能和改进。 ...
问题向导: (1)MLlib的提供了哪些相关性计算方法? (2)假设检验是什么? 上一篇Spark机器学习库(MLlib)指南之1:简介 http:/ ...
问题导读: 1.RDD具有哪些重要的特性?2.Spark支持哪些集群模式?3.在Standalone模式下,核心组件是怎样交互的? ...
本帖最后由 xzc0202 于 2017-9-15 09:16 编辑 问题向导: (1)Spark机器学习库是什么,目标是什么? (2)MLlib具体提供哪些功能 ...
本书的其余部分不会是关于Spark的优缺点。 还有一些其他的东西,它也不会介绍。 本书将介绍Spark编程模型和Scala基础 ...
问题导读: 1.SparkContext是什么? 2.SparkContext内部做了什么? SparkContext是什么 SparkContext是在Driver端创建 ...
本帖最后由 Oner 于 2017-6-29 16:50 编辑 问题导读: 1. 什么是ETL? 2. 使用Spark开发ETL系统有哪些优势? 3. 如何使 ...
本帖最后由 feilong 于 2017-9-1 17:58 编辑 问题导读 1.实验室中的分析和工厂的分析的区别是什么?2.数据在分析前需要做哪些 ...
问题导读 1.数据科学是怎么来的? 2.数据科学能做哪些事情? 3.什么是HPC? [*]数以千计的功能和数十亿的 ...
本帖最后由 Oner 于 2016-11-10 07:53 编辑 问题导读:1. 使用Direct API时为什么需要见offset保存到Zookeeper中? 2. 如何将 ...
问题导读: 1.什么是线性回归算法? 2.线性回归代码示例? 3.如何在本地跑spark mllib的线性回归算法? 4.线性回归结果如 ...
问题导读 1.添加开发包有几种方式? 2.使用sbt可能存在什么问题? 3.spark streaming开发需要了解哪些开发知识? ...
本帖最后由 PeersLee 于 2017-8-16 15:24 编辑 问题导读: 1. 如何选择ide? 2. 如何Build Spark? 3. 如何工程导入? 4 ...
问题导读: 1. 排序算子是如何做排序的? 2. 完整的排序流程是? 解决方案: 1 前言 在前面一系列博客中,特别 ...
本帖最后由 丫丫 于 2017-2-6 18:38 编辑 问题导读 1、RDD是什么? 2、如何创建RDD? 3、什么是mapPartitions? 4、什么 ...
本版积分规则 发表帖子
查看 »