关于 spark 编程的一个问题。

1412043042    125.64.229.40 CN5115 auto.sohu.com /wmh-auto-tab?pvid=tc_auto&a=tab&b=auto 000242D62CB409A55251BDCE0D3381D3
1412037977    60.165.17.191 CN6201 auto.sohu.com /wmh-auto-tab?pvid=tc_auto&a=tab&b=auto 00026D7C9E94DA60EE020DC57AB4EB73
1412036910    1.83.119.80    CN6101 jiangjia.auto.sohu.com  /110000/157/4001/0/all/all/0/0/fd/0.html 00029B77BFAD79F18EBF90DBACBDDE21
1412040269    1.85.212.7    CN6101 db.auto.sohu.com       /model_1004/pic_t3295555.shtml 00029B77BFAD79F18EBF90DBACBDDE21
1412040254    1.85.212.7    CN6101 db.auto.sohu.com       /model_1004/pic_t3106880.shtml 00029B77BFAD79F18EBF90DBACBDDE21
1412040271    1.85.212.7    CN6101 db.auto.sohu.com       /model_1004/pic_t3295553.shtml 00029B77BFAD79F18EBF90DBACBDDE21
1412040292    1.85.212.7    CN6101 db.auto.sohu.com       /model_1004/pic_m3235689.shtml 00029B77BFAD79F18EBF90DBACBDDE21

第一列：时间
第二列： ip
第三列：地区码，相当于某个地区的代码
第四列：域名
第五列： url
第六列：suv  --> (说明：来计算uv的)，需要去重的

现在想通过spark 来计算当前日志中包含 db.auto.sohu.com 的 pv 和 uv

val rdd = sc.textFile("/user/logs/pvlog/test1")
xxxxxxx ，
rdd.map(_.split("\t")).filter(_(3)).contains("db.auto.sohu.com").count // 这个求出来的只是包含 "db.auto.sohu.com" 的 pv ，而 uv呢？如何计算？？？？，请各位出出注意

muyannian · 发表于 2014-10-25 11:40:17

UV计算一下ip就可以了

pig2 · 发表于 2014-10-25 11:49:04

00029B77BFAD79F18EBF90DBACBDDE21

这个是不是获取的cookie，如果这样的，去重就能得出UV了。

UV是指的自然人，然而这个自然人判断的标准可以根据cookie来判断，虽然可能是同一个ip，但是如果cookie不同，说明就是两个用户。所以有多少cookie就有多少自然人访问。

xpy888 · 发表于 2014-10-25 11:59:42

其实第六列就是 suv ，类似说的 uv。可是这个怎么来写呢？关键。其实最后我想得到这样的一个效果：

db.auto.sohu.com 2000 1500

rsgg03 · 发表于 2014-10-25 12:28:50

需要说一下你的具体场景，实现方式很多种。
spark适用于实时计算的，如果简单的去重没有必要使用spark。

简单来说：
一、可以使用数据库去重

1.hive去重，把定义输出结果

db.auto.sohu.com   2000 1500
复制代码

2.pig也可以去重，这个简单些，可以了解pig语法

Pig编程指南【完整版】书籍分享

PIG实战

pig系统学习

3.当然hbase也可以去重。

上面建议使用pig，hive也可以，时间长一些。

二、自己编写代码去重

spark
比如你现在想用spark，可以的。

采用循环过滤的方法，最后把结果输出保存。

mapreduce

mapreduce同样也是可以的。当我们运行mapreduce的时候有待输入的文件，经过mapreduce处理之后，会有输出文件，这个输出文件就是你想要的结果。

如下输入数据为两个文本文件：

经过mapreduce处理后，如下显示结果

spark也是同样的道理，所以想要得到你想要的结果很容易的。

详细参考
MapReduce初级案例（1）：使用MapReduce去重