用户组:游客
问题导读 1.Hadoop3.3支持JDK哪个版本? 2.SCM是什么? 3.YARN应用程序做了哪些改进? 4.整合腾讯云实现了什么文件系统? ...
Iceberg是数据湖的重要技术,也会与其它组件组合.其中Spark读写Iceberg是比较新且重要的应用,我们看在腾讯的实践和优化 全文目 ...
问题导读 1.Spark 3.3 新增了哪些特性? 2.Join查询性能提升最高可提高多少倍? 3.自适应查询执行(AQE)做了哪些改进? ...
问题导读: 1、怎样构建一个风控业务架构? 2、风控规则模型有哪些? 3、怎样实现Flink CEP 动态更新? 一、 ...
问题导读: 1、 Catalyst的早期实现有哪些缺陷? 2、 Spark 3.0 中 AQE做了哪些优化? 3、 Spark 3.0 中 DPP做了哪些优 ...
问题导读: 1、什么事Apache Spark? 2、Spark SQL发展历程有几个阶段? 3、Spark SQL底层执行原理如何理解? 4、Catalyst ...
问题导读: 1、sparkSQL支持的数据类型有哪些? 2、greatest方法和Greatest类如何使用? 3、ArrayType处理方法是什么? 4、S ...
问题导读: 1.说一下spark调度机制? 2.Spark的调度框架是否支持并行提交多个job? 3.思考下在非自适应与自适应情况下SQL的并 ...
问题导读: 1、为什么同一批数据执行相同sql返回值不相同? 2、怎样构建一个测试用例? 3、怎样使同一批数据执行相同sql ...
问题导读 1.SparkListener类的作用事什么? 2.Spark如果想监控各个任务的事件该如何实现? 3.阶段的事件监听接口类是哪个? ...
问题导读: 1、如何理解自适应查询执行设计原理? 2、如何设置Shuffle分区的自适应数目? 3、如何进行动态合并shuffle分区? ...
问题导读 1.本项目需求有哪些?2.类的入口是什么?3.各个需求是如何实现的? 代码下载:链接: https://pan.baidu.com/s/17IAal ...
问题导读: 1、yarn有哪些界面?功能是什么? 2、如何解决数据倾斜? 3、如何处理小文件过多问题? 4、如何解决笛卡尔积/数 ...
基于Apache Spark 3.1.1的CDS 3.1在CDP Private Cloud Base 7.1.6上正式发布,这是CDS 3的小版本更新发布,主要改进包括: Pa ...
问题导读 1.Spark3.1.1是否稳定版? 2.Zen 项目的启动从哪三个方面提高 PySpark 的可用性? 3.为了增强查询性能,做了哪些 ...
问题导读: 1、Iceberg在实际的应用场景中会有什么收益? 2、Iceberg可以优化哪些流程? 3、Iceberg的数据读写流程是怎 ...
本帖最后由 levycui 于 2021-1-20 20:13 编辑 问题导读: 1、如何理解CBO基本原理? 2、如何阅读Spark CBO源码实现? 3、Sp ...
本帖最后由 levycui 于 2020-3-25 17:53 编辑 问题导读: 1、Spark Streaming有哪些组件? 2、Micro-Batch Architecture如何 ...
问题导读: 1.启动命令是什么?有什么含义? 2.每次序列化时间、shuffle时间是多少? 3.executors的数量、block的数量各有多 ...
问题导读: 1.什么是推荐系统中的在线计算和离线计算,它们各自的优缺点是什么? 2.如何将离线分布式训练的模型直接用到在线 ...
本帖最后由 BGnv5 于 2019-6-30 09:55 编辑 问题导读: 1.调节资源以后,性能为什么会提升? 2.如何设置一个Spark Applica ...
问题导读 1.Receiver、Direct模式区别有哪些? 2.怎样将Receiver改造成Direct模式? 3.除了模式改造,还有哪些优化点? ...
本帖最后由 levycui 于 2019-6-19 20:43 编辑 问题导读: 1、SparkContext 如何创建过程? 2、如何理解Task 执行和回馈? 3 ...
本帖最后由 levycui 于 2019-6-19 19:54 编辑 问题导读: 1、如何理解RPC 网络通信抽象? 2、如何理解Spark 通信架构? 3、 ...
问题导读: 1.HashShuffleManager 运行原理是什么? 2.SortShuffleManager 运行机制及其原理是什么? 3.shuffle 相关参数如 ...
本帖最后由 a87758133 于 2019-6-13 21:02 编辑 问题导读: 1、基本的数据类型如何处理? 2、复杂的数据类型如何处理? ...
问题导读 1.Spark streaming产生小文件的的原因是什么? 2.如何从原理角度去解决小文件? 3.如何从外部解决小文件问题? ...
本帖最后由 BGnv5 于 2019-6-1 09:49 编辑 问题导读: 1.什么是Spark Shuffle,它的原理是什么? 2.Spark Shuffle的技术演 ...
问题导读 1.本文解决了什么问题? 2.在写入hbase的过程中遇到了什么问题? 3.本文解决问题的思路是什么? 需求 将HDF ...
问题导读: 1、如何使用spark进行文本数据预处理? 2、如何进行数据处理模型训练、保存和调用? 3、如何进行多分类模型训练和 ...
问题导读 1.HBase Connector是用来干什么的? 2.Catalog的作用是什么? 3.HBase Connector该如何使用? 在github上有一 ...
本版积分规则 发表帖子
查看 »