分享

基于lucene的案例开发20:纵横小说章节列表采集

本帖最后由 nettman 于 2015-4-16 22:35 编辑
问题导读:
1、如果查看网页源代码时,发现页面已经把鼠标右键操作屏蔽了,还有另外方法查看吗?
2、如何采集章节列表页信息?




接上篇:基于lucene的案例开发19:纵横小说简介页采集

在上两篇博客中,已经介绍了纵横中文小说的更新列表页和简介页内容的采集,这篇将介绍从简介页采集获得的下一跳章节列表页的信息采集,事例地址:http://book.zongheng.com/showchapter/362857.html
页面分析
      通过对页面的分析,我们可以确定下图中的部分就是我们需要采集信息及下一跳的地址。

20150403141105124.jpg

      这里当我们想用鼠标右键--查看网页源代码的时候发现页面已经把鼠标右键这个操作屏蔽了,因此我们只能采用另一种办法来查看源代码,对页面进行分析。在当前页面,按下F12,会出现一个新窗口,也就是之前博客中提到的审查元素出现的窗口,选中Network选项卡,按下 Ctrl + F5,会出现如下画面:

20150403141634157.jpg

      鼠标单机红色选中部分,即可查看网页源代码,效果图如下:

20150403141738791.jpg
      对网页源代码做简单的分析,我们很容易找到章节信息所在的部分,如下图:
20150403142054740.jpg
      每一个章节信息都存储在td标签内,因此对这部分信息我们确定最后的正则表达式为“ <td class="chapterBean" chapterId="\d*" chapterName="(.*?)" chapterLevel="\d*" wordNum="(.*?)" updateTime="(.*?)"><a href="(.*?)" title=".*?"> ”。

代码实现
      对于章节列表也信息的采集我们采用和简介页相同的方法,创建一个CrawlBase子类,用它来完成相关信息的采集。对于请求伪装等操作参照更新列表页中的介绍,这里只介绍DoRegex类中的一个方法:
  1.     List<String[]> getListArray(String dealStr, String regexStr, int[] array)  
复制代码

      第一个参数是需要查询的字符串,第二个参数是正则表达式,第三个是需要提取的信息在正则表达式中的定位,函数的整体功能是返回字符串中所有满足条件的信息。
运行结果

      20150403143210611.jpg

源代码
      查看最新源代码请访问:http://www.llwjy.com/source/com. ... ng.ChapterPage.html
  1.      /**   
  2.      *@Description:   章节列表页
  3.      */   
  4.     package com.lulei.crawl.novel.zongheng;   
  5.       
  6.     import java.io.IOException;  
  7.     import java.util.HashMap;  
  8.     import java.util.List;  
  9.       
  10.     import com.lulei.crawl.CrawlBase;  
  11.     import com.lulei.util.DoRegex;  
  12.         
  13.     public class ChapterPage extends CrawlBase {  
  14.         private static final String CHAPTER = "<td class="chapterBean" chapterId="\\d*" chapterName="(.*?)" chapterLevel="\\d*" wordNum="(.*?)" updateTime="(.*?)"><a href="(.*?)" title=".*?">";  
  15.         private static final int []ARRAY = {1, 2, 3, 4};  
  16.         private static HashMap<String, String> params;  
  17.         /**
  18.          * 添加相关头信息,对请求进行伪装
  19.          */  
  20.         static {  
  21.             params = new HashMap<String, String>();  
  22.             params.put("Referer", "http://book.zongheng.com");  
  23.             params.put("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.125 Safari/537.36");  
  24.         }  
  25.          
  26.         public ChapterPage(String url) throws IOException {  
  27.             readPageByGet(url, "utf-8", params);  
  28.         }  
  29.          
  30.         public List<String[]> getChaptersInfo() {  
  31.             return DoRegex.getListArray(getPageSourceCode(), CHAPTER, ARRAY);  
  32.         }  
  33.          
  34.         public static void main(String[] args) throws IOException {  
  35.             ChapterPage chapterPage = new ChapterPage("http://book.zongheng.com/showchapter/362857.html");  
  36.             for (String []ss : chapterPage.getChaptersInfo()) {  
  37.                 for (String s : ss) {  
  38.                     System.out.println(s);  
  39.                 }  
  40.                 System.out.println("----------------------------------------------------    ");  
  41.             }  
  42.         }  
  43.       
  44.     }  
复制代码



相关内容:
基于lucene的案例开发1:lucene初始认知

基于lucene的案例开发2:索引数学模型

基于lucene的案例开发3:索引文件结构

基于lucene的案例开发4:创建索引

基于lucene的案例开发5:搜索索引

基于lucene的案例开发6:分词器介绍

基于lucene的案例开发7:Query查询

基于lucene的案例开发8:IndexSearcher中检索方法

基于lucene的案例开发9:案例初识

基于lucene的案例开发10:搜索后台基础,JsonUtil & XmlUtil类介绍

基于lucene的案例开发11:项目常用类ClassUtil & CharsetUtil介绍

基于lucene的案例开发12:数据库连接池

基于lucene的案例开发13:实现实时索引基本原理

基于lucene的案例开发14:实时索引管理类IndexManager

基于lucene的案例开发15:实时索引的检索

基于lucene的案例开发16:实时索引的修改

基于lucene的案例开发17:查询语句创建PackQuery

基于lucene的案例开发18:纵横小说更新列表页抓取

基于lucene的案例开发19:纵横小说简介页采集

基于lucene的案例开发20:纵横小说章节列表采集

基于lucene的案例开发21:纵横小说阅读页采集



资料来源:http://blog.csdn.net/xiaojimanman/article/details/44854719
欢迎加入about云群371358502、39327136,云计算爱好者群,亦可关注about云腾讯认证空间||关注本站微信

没找到任何评论,期待你打破沉寂

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条