用户组:游客
在经常使用订单支付时间的一张大型订单表,怎么做分区比较合适?用支付时间做分区的话,怎么解决数据更新的问题?
离线数仓:维度建模理论:缓慢变化维如何设计,累积表、全量表、周期快照表、拉链表分别作用于什么场景?举例说明 ...
首先举个案例: 一个用户登录访问 aboutyun,他从首页点进第二页,从第二页点进第三页,之后又进入第四页,然后点击回到第二页 ...
我测试了hive on mr 与hive on spark 多表join/窗口函数/groupby这三种情况 结果令我很失望,hive on spark 在使用相同资源 ...
各位大神,一般我们仓库数据会存放到hfds目录下,通过load方式加载到hive中 但是现在想学习下除了load方法外,是否有其他方式实 ...
各位大佬,大家能否分享一下自己了解的使用hive构建数据仓库的大概架构和流程。 1. 数据都是从哪里来? 2. 数据是怎么到hi ...
Hive 大表join查询的优化 上面的帖子中,我有一个疑问:为何不在对大表关联查询之前,对a表的脏数据进行过滤一遍,然后基于过 ...
这些优化全是在公司中遇到瓶颈后的一些解决方案,精华部分,当然大数据时代任何问题的解决方法都不止一种,智者见智 slow相关 ...
场景:工作中时长会有操作hive覆盖指定表或者目录数据的需求,比如: insert overwrite local directory '$dataPath' row forma ...
set hive.intermediate.compression.codec; set hive.intermediate.compression.type; 这两个参数在hive编程指南书中有找到, ...
有些公司是把爬虫的数据放到es上或者solr上,方便查询,建索引…… 问题: 如果要把爬虫数据建成一张维表,比如用做和 ...
本版积分规则 发表帖子
查看 »