一道面试题讨论

本帖最后由 desehawk 于 2018-4-24 16:16 编辑

在about云铁粉技术微信群中，讨论一道面试题，觉得不错分享给大家。参与者：三年二班邱小东，布衣，CC等
有一个5000万的用户文件，一个2亿记录的用户看电影记录文件，列出前1000个看电影最多的用户（内存只有1G），那前1000万个？

desehawk · 发表于 2018-4-24 14:20:10

本帖最后由 desehawk 于 2018-4-24 14:21 编辑

分析：
这是道面试题，而且是大数据面试题。这里问题不知大家是否感到奇怪
1.没有限制组件，使用spark或则mapreduce
2.内存限制为1G。
从上面我们可以得到什么信息？
也就是说不限制你使用什么技术，但是限制使用内存。
如果是大数据组件，内存1G是不行的。所以这里只有使用算法来实现。

解答：
1.一个5000万长度的数组加一个5000万个key的HashMap，内存消耗会超过1个G吗？遍历2亿次加上5000万*log(5000wan）时间效率。（cc）

2.这是个topN算法，网上应该可以搜到吧，所有数据肯定内存是没法容下的，先把大文件hash成许多个小文件直到内存可以处理，之后算每个小文件的top1000，然后再递归合并小文件，直到内存可以处理。（回答者：Lyndon yang，此回答得到大家的认可）

about云铁粉微信群
http://www.aboutyun.com/forum.php?mod=viewthread&tid=24102

图文精华

一道面试题讨论

已有(1)人评论

活跃会员

热心会员

优秀版主

推荐 /2