谢谢分享 |
楼主讲了一般的大数据分析方法,其实,分析方法不是主角,关键是怎么理解了上面的这些业务逻辑,这才是最重要的 |
实际的平台至少需要 多维大数据查询分析服务 基于Python的机器学习算法库集成服务 机器学习算法设计及性能优化 机器学习算法参数自动优化 大数据系统安全与认证 |
clixiang 发表于 2018-9-20 16:17 1、按上面的用法,用大数据平台分析数据,实际上就是一堆的联表查询吗?这个性能会不会有问题?如果要实时去表里边查询数据,都是实时执行联表的HQL语句? 基本上都会用到联表查询,性能可以优化,不能因为性能而去掉联表,如果数据都放到一个表里,那问题才是最大的。有性能问题多优化。 实时框架不会用hive的,可以使用kafka sql或则是spark等,hive一般为离线数据 2、如果要做很多不同类型的数据分析,要建立一些结果表来存放HQL的执行结果不? 对滴,需要存储,但是存到哪里是框架问题,比如mysql,文件等。一般不会存到hive里面。 3、Mysql有多少个表,Hive也要建立对应的表么? 具体情况具体分析如上面。 |
各位大佬,我想问几个问题: 1、按上面的用法,用大数据平台分析数据,实际上就是一堆的联表查询吗?这个性能会不会有问题?如果要实时去表里边查询数据,都是实时执行联表的HQL语句? 2、如果要做很多不同类型的数据分析,要建立一些结果表来存放HQL的执行结果不? 3、Mysql有多少个表,Hive也要建立对应的表么? 请各位大佬赐教。 |
其实流程还是那个分析流程,就是把分析平台从关系型数据库放到了大数据平台 |