用户组:游客
问题导读 1.Hadoop3.3支持JDK哪个版本? 2.SCM是什么? 3.YARN应用程序做了哪些改进? 4.整合腾讯云实现了什么文件系统? ...
通过crawl进行数据爬取时,出现下面的错误java.io.IOException: Cannot initialize Cluster. Please check your configuration f ...
本帖最后由 howtodown 于 2014-10-8 16:28 编辑 问题导读: 1.SolrCloud是Solr4.0版本以后一种什么解决方案? 2.SolrC ...
1、nutch可以做什么? 2、在hbase进行升级时,nutch是否还可以正常使用?
导读 本文主要是对代码的一些介绍及需要一些准备工作 项目结构: 效果图:需要建立索引的文件(我们需要 ...
问题导读 1.空间搜索的原理是什么? 2.空间如何基于solr进行搜索? 3.使用solr搜索有哪些好处? 前 ...
问题导读 1.为什么要进行中文分词? 2.中文分词技术本文是如何分类的? 3.中文分词有哪些常用方法? 分词技术就 ...
本帖最后由 pig2 于 2015-11-17 14:37 编辑 问题导读 1.我们使用爬虫的目的是什么? 2.我们所需要的内容从何而来? 3.请求 ...
本帖最后由 xuanxufeng 于 2016-1-25 19:57 编辑 问题导读 1.什么是爬虫? 2.本文聚焦爬虫的分为几类? 3.深聚焦爬虫 ...
爬虫的目的: 可以获得自己想要的信息,如果是电商公司可以获得竞争对手的商品价格,可以参考; 政府部门可 ...
问题导读 1.StandardAnalyzer有什么优点和缺点? 2.基于Lucene的第三方中文分词是什么技术? 3.IKAnalyzer分词技术有什么缺 ...
本帖最后由 Oner 于 2016-5-12 17:56 编辑 问题导读:1. 如何理解单词-文档模型?2. 什么是倒排索引?如何理解?3. 如何理解倒 ...
问题导读 1.本文涉及全文检索中那两个概念? 2.众多结果中,排序的标准是什么? 3.如何合理的控制solr查询的命中的数量和质 ...
问题导读 1、Tomcat7上部署solr需要哪些环境? 2、如何看到solr的主页? 3、部署solr有哪些流程走? 1 部署前准 ...
问题导读: 1. 大文件是多大? 2. 检索症状是什么? 3. 如何排查问题与定位? 解决方式: 1、大文件是多大? ...
本帖最后由 pig2 于 2015-6-27 14:32 编辑 问题导读 1.了解什么是SolrCloud? 2.SolrCloud在集群中如何使用? 3.SolrCloud ...
本帖最后由 hyj 于 2014-6-18 17:54 编辑 问题导读 1.在solr中如何使用一个或则多个document来构建索引? 2.可以向 Solr ...
问题导读 1.什么是Spiderman? 2.webmagic有什么功能? 3.分布式爬虫包含哪些技术架构? SpidermanSpide ...
问题导读 1.Windows7环境下MyEclipse+Nutch2.2.1+Mysql搭建包含哪些步骤? 2.如何从eclipse中下载nutch? 3.如何解决eclip ...
问题导读 1、电商数据分析指标体系分为哪几类? 2、电商总体运营指标包括哪几个方面? 3、网站流量指标包括哪几个方面? 4、 ...
本帖最后由 坎蒂丝_Swan 于 2015-1-23 17:43 编辑 问题导读 1.本文使用的是什么框架?2.IKAnalyzer与中文分词方法有什么不同 ...
问题导读: 1. 如何优化集群节点的配置? 2. 机器内存为什么需要预留一半给Lucene用? 3. 给ES内存配置是不是越大越好呢? 4 ...
问题导读 1.什么是结构化数据? 2.什么是非结构化数据? 3.如何对非结构化数据实现索引? 4.如何进行索引检索? ...
问题导读 1、什么是Nutch,用于做什么? 2、Nutch-2.2.1安装时如果无法从资源库下载jar包,怎么解决? Nutch起 ...
本帖最后由 nettman 于 2015-4-13 19:57 编辑 问题导读1.如何配置nutch存储数据到hbase?2.如何过滤种子URL?3.如何将Nutch与S ...
问题导读 1.lucene索引结构是层次结构,主要有哪几个层次? 2.索引的最小单位是什么? 3.索引(Index)与段什么关系? 4. ...
本帖最后由 Godman 于 2017-9-15 17:07 编辑 问题向导: (1)什么是ELK,有什么作用? (2)elasticsearch(ES)简介。 (3)基本 ...
问题导读 1、什么是Web负载均衡? 2、负载均衡策略有哪些,各自的特点是什么? 3、如何在Web服务器和数据库之间建立缓存? 4 ...
问题导读: 1.es 在数据量很大的情况下(数十亿级别)如何提高查询效率啊? 2.什么是数据预热? 3.什么是冷热分离? 4.docum ...
问题导读 1、如何配置Nutch文件,整合Hbase? 2、使用Nutch的生态系统,哪些最易出错? 3、如果Nutch和HBase的版本问题引起错 ...
1. 整体流程 InjectorJob => GeneratorJob => FetcherJob => ParserJob => DbUpdaterJob => SolrIndexerJob InjectorJob : ...
本版积分规则 发表帖子
查看 »