用户组:游客
问题导读 1.如何构建一个模型? 2.怎样进行抽样检测? 3.广播变量是什么?如何使用? 上一篇:Spark 高级分析: ...
本帖最后由 pig2 于 2017-12-15 18:11 编辑 问题导读 1.DataFrame如何创建tempview?2.sql()函数的作用是什么? s ...
问题导读 1.如何评估推荐质量? 2.评估模型时是否会将数据集作为一个整体作为输入? 3.什么是AUC?如何计算? ...
本帖最后由 pig2 于 2017-12-15 18:12 编辑 问题导读 1.RDD转换为DataFrame需要导入哪个包? 2.Json格式的Dataset如何转换 ...
问题导读 1.DataFrame合并schema由哪个配置项控制? 2.修改配置项的方式有哪两种? 3.spark读取hive parquet格式的表,是否 ...
本帖最后由 feilong 于 2017-12-22 08:26 编辑 问题导读 1.ALS.trainImplicit()参数有哪些?各自的意义是什么? 2.Spark M ...
本帖最后由 feilong 于 2018-1-12 19:13 编辑 问题导读 1.Covtype数据集在哪里下载? 2.使用Spark MLib实现一个决策树要做 ...
问题导读 1.AUC指标是什么? 2.决策树现实时数据集要分成几份? 3.DecisionTree有哪几个方法? 上一篇:Spark 高 ...
问题导读 1.什么是良好的决策规则? 2.基尼系数与什么有关?基尼不纯度方程是什么? 3.熵是什么?其方程是什么? ...
本帖最后由 feilong 于 2018-3-9 12:57 编辑 问题导读 1.网络攻击的模式有哪些? 2.K-Means如何检测网络异常? 3.本章所 ...
本帖最后由 feilong 于 2018-3-30 11:39 编辑 问题导读 1.如何使用Spark实现K-Means聚类k值的选择? 2.K值是不是越大越好 ...
问题导读 1.什么是分类变量? 2.什么是熵? 3.文中使用熵做何种操作? 上一篇:Spark 高级分析:第五章第8节 ...
本帖最后由 feilong 于 2018-5-12 12:17 编辑 问题导读 1.如何执行聚类? 2.如何解释分析结果? 3.Spark畜类K-Means聚类 ...
问题导读 1.什么是LSA?为什么需要LSA? 2.什么是SVD? 3.什么是词语文档矩阵? 4.什么是TF-IDF,有何作用,Spark中是否有 ...
问题导读 1.从哪里获取数据?得到数据后存储在哪里? 2.文章中如何将XML转换成纯文本? 3.XmlInputFormat是什么? ...
本帖最后由 feilong 于 2018-6-1 09:15 编辑 问题导读 1.什么是词干?如何进行词形还原?如何用代码实现? 2.如何利用Spar ...
问题导读 1.为什么产生TensorFlowOnSpark? 2.TensorFlowOnSpark解决了什么问题? 3.TensorFlowOnSpark是否支持TensorFlow ...
本帖最后由 feilong 于 2018-6-15 09:38 编辑 问题导读 1.如何校验SVD的输出? 2.SVD中V代表什么? 3.如何得到文档集? ...
本帖最后由 feilong 于 2018-6-22 10:48 编辑 问题导读 1.什么是余弦相似度,如何计算? 2.LSA有哪些降维的方式? 3.LSA ...
本帖最后由 feilong 于 2018-6-29 11:16 编辑 问题导读 1.什么是文档相关性,如何计算? 2.什么是词文档相关性,如何计算 ...
问题导读 1.图论和网络科学是如何产生影响的? 2.GraphX是什么? 3.MEDLINE是什么,有什么用? 上一篇:Spark ...
问题导读 1.如何获取样本数据的总体分布? 2.哪些主题词出现的频率最高?有什么规律? 3.Scala库中方法combinations有何作 ...
问题导读 1.什么是连通图?如何判断? 2.Graphx中内置的计算连通分支的方法是什么?如何使用? 3.判断图是否是连通图对数据 ...
问题导读 1.如何获取示例数据? 2.要将示例中的数据做哪些操作?如何操作? 3.基因组学中的许多计算是否很好地融入了Spark ...
本版积分规则 发表帖子
查看 »