分享

如何在项目中使用Hadoop程序

例如,现在有一个项目,要将服务器上的某个文件夹下的所有文件使用Hadoop程序在某个时段自动上传到Hadoop集群中。笔者的做法如下:1.该项目的文件夹是网站的日志文件,要定时进行日志到集群的备份。将服务器和Hadoop集群通过路由器连接起来
2.在eclipse中使用插件,编写java程序,远程连接集群,实现上传一个小文件的功能,进行测试
3.右击该项目,选择run on hadoop。此时便可以成功上传了。
---------------------------------------------------
那么问题来了。。。。。
----------------------------------------
1.如何在网站编写一个类似于servlet的程序,使得能够定时上传该文件夹下的文件?
2.Hadoop程序是否支持servlet类似的执行方式,响应web请求?
3.如何设置才能够默认是“Run on Hadoop”,而不需要人为右击项目等等,实现自动化上传。还望各位不吝赐教。

已有(4)人评论

跳转到指定楼层
阿飞 发表于 2015-6-1 11:56:02
楼主想的优点复杂。
首先方式有很多种:
1.通过shell的方式。
这个需要楼主懂shell编程.
也就是首先会使用Linux shell编程
然后懂hadoop shell。这两者结合起来。
编程时间短,效率还高

2.通过Java的方式

Java整体分为两种
1.通过web的方式
2.通过hadoop jar的方式提交job.


1.通过web的方式
使用spring hadoop
Spring for Apache Hadoop 2.1 版本介绍

Spring for Apache Hadoop介绍及官方文档下载

当然也有Servlet
如何将Hadoop API 引入到 Servlet Tomcat


还有另外一种方式:
直接使用hadoop api

hadoop网盘小项目介绍及相关代码下载2
http://www.aboutyun.com/thread-10423-1-1.html

hadoop网盘小项目介绍及相关代码下载3
http://www.aboutyun.com/thread-10424-1-1.html


hadoop网盘小项目介绍及相关代码下载1
http://www.aboutyun.com/thread-10422-1-1.html




2.通过Java api

详细参考:

hadoop实战:Java对hdfs的编程


HDFS的Java访问接口







回复

使用道具 举报

lq_witness 发表于 2015-6-1 14:07:08
本帖最后由 pig2 于 2015-6-1 14:37 编辑

大牛,能否指点下,这些需求如何实现,小弟感激不尽

1.png
回复

使用道具 举报

小孩真笨 发表于 2015-6-1 14:12:47
阿飞 发表于 2015-6-1 11:56
楼主想的优点复杂。
首先方式有很多种:
1.通过shell的方式。

太详细了,十分感谢!
回复

使用道具 举报

tntzbzc 发表于 2015-6-1 15:06:19
lq_witness 发表于 2015-6-1 14:07
大牛,能否指点下,这些需求如何实现,小弟感激不尽

建议重新开贴:

数据导入导出hive,这个网上资料很多
可以使用sqoop
sqoop导入mysql数据到hive中

使用sqoop文件 --options-file 导入hive数据

hive统计信息通过sqoop导入mysql



合并导入,你把两个文件合并下,在导入吧
跟上面差不多,就是有个整合的过程


hive权限控制网上资料到处是

hive权限控制介绍



hive查询分页,不是太多。但是只要明白hbase分页或则关系数据库分页,应该不难

hbase分页应用场景及分页思路与代码实现



回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条