用户组:游客
Iceberg是数据湖的重要技术,也会与其它组件组合.其中Spark读写Iceberg是比较新且重要的应用,我们看在腾讯的实践和优化 全文目 ...
问题导读: 1、什么事Apache Spark? 2、Spark SQL发展历程有几个阶段? 3、Spark SQL底层执行原理如何理解? 4、Catalyst ...
问题导读: 1、sparkSQL支持的数据类型有哪些? 2、greatest方法和Greatest类如何使用? 3、ArrayType处理方法是什么? 4、S ...
问题导读: 1、为什么同一批数据执行相同sql返回值不相同? 2、怎样构建一个测试用例? 3、怎样使同一批数据执行相同sql ...
问题导读: 1、如何理解自适应查询执行设计原理? 2、如何设置Shuffle分区的自适应数目? 3、如何进行动态合并shuffle分区? ...
问题导读: 1.启动命令是什么?有什么含义? 2.每次序列化时间、shuffle时间是多少? 3.executors的数量、block的数量各有多 ...
本帖最后由 BGnv5 于 2019-6-30 09:55 编辑 问题导读: 1.调节资源以后,性能为什么会提升? 2.如何设置一个Spark Applica ...
问题导读 1.Receiver、Direct模式区别有哪些? 2.怎样将Receiver改造成Direct模式? 3.除了模式改造,还有哪些优化点? ...
问题导读 1.Spark streaming产生小文件的的原因是什么? 2.如何从原理角度去解决小文件? 3.如何从外部解决小文件问题? ...
本帖最后由 BGnv5 于 2019-6-1 09:49 编辑 问题导读: 1.什么是Spark Shuffle,它的原理是什么? 2.Spark Shuffle的技术演 ...
问题导读 1.本文解决了什么问题? 2.在写入hbase的过程中遇到了什么问题? 3.本文解决问题的思路是什么? 需求 将HDF ...
问题导读 1.spark的执行原理包含哪些内容? 2.本文分享了哪些调优经验? 3.shuffle如何调优? 1:本文主讲的是client模 ...
问题导读 1. Spark出现问题如何定位? 2. Spark日志中,各种状态的意义? 3. Spark任务都有哪几个耗时阶段? 4. Spark任务如 ...
问题导读 1.如何创建rdd? 2.什么是pair rdd? 3.如何获取数组指定列? 4.foreachRDD的作用是什么? 本文来自 ...
本帖最后由 levycui 于 2018-9-4 20:56 编辑 问题导读: 1、什么是 ETL? 2、如何理解离线 ETL 的架构设计及实现原理? 3、 ...
问题导读 1.Idea中红色字体代表什么含义? 2.灰色字体代表什么含义? 3.找不到相关包和函数原因是什么? 最新经典文章,欢 ...
问题导读 1. pySpark 2.x 的代码迁移到Spark 1.6 会遇到哪些坑? 2. pySpark 2.x 的代码迁移到Spark 1.6 改写思路是什么? 3. ...
异常总结 ###1.Spark和hadoop依赖冲突 最近在实践项目遇到了问题,hadoop使用的是2.6.0(2.2.0也测试过),spark使用的1.2.1编译 ...
此总结来自about云7群552029443 #### 看到群友,在使用spark2的时候,仍然使用的是spark1.x的函数。导致错误找不到类或 ...
群4中90371779,群友遇到这么个问题: [mw_shl_code=bash,true]application rejeted by queue placement policy[/mw_shl_ ...
hadoop升级跟spark升级是大同小异的。大同基本上,都是先备份原先的安装包,然后替换为新的安装包。然后替换下配置文件及环境 ...
Spark Streaming实例分析 http://www.aboutyun.com/forum.php?mod=viewthread&tid=8901 Spark-Streaming实时大数据处理 ...
本帖最后由 Oner 于 2017-2-22 16:57 编辑 问题导读: 1. 什么是TensorFlow? 2. TensorFlow On Spark出现的意义在于什么? ...
本帖最后由 pig2 于 2017-12-6 19:18 编辑 问题导读: 1. 为什么会出现 Spark SQL 这个模块? 2. 什么是Spark SQL/DataFra ...
本帖最后由 pig2 于 2017-1-16 18:38 编辑 问题导读 1.spark有哪些进程? 2.spark配置文件中常用属性的含义是什么? 3.sp ...
问题导读: 1.Spark 2.1.0有哪些主要改动?2.Spark 2.1.0的性能和稳定性有哪些改进? Spark 2.1.0是2.x分支中的第 ...
问题导读1.spark中什么是stage?2.什么是 kafka topic?3.本文中kafka和消费者线程遵循哪些约束? 最近在做利用Spark s ...
问题导读: 1.什么是TaskSchedulerBackend、SchedulerBackend?2.FIFO与FAIR两种调度模式有什么区别?3.Task数据本地性资源怎 ...
本帖最后由 PeersLee 于 2016-12-14 10:52 编辑 问题导读: 1. 在使用destream.foreachrdd 连接数据库时经常出现的错误时什么 ...
问题导读: 1.Spark的计算过程是怎样的?2.Spark中的任务调度分哪几个层次?3.Spark是怎样提高计算性能的? 基本概 ...
本版积分规则 发表帖子
查看 »