分享

Solr如何加入中文分词

yuwenge 2015-7-4 21:07:23 发表于 实操演练 [显示全部楼层] 回帖奖励 阅读模式 关闭右栏 1 21969


Solr与中文分词的整合以mmseg为例:

第一步:
    将我们下载的分词器中mmseg-solr.jar、mmseg-core.jar mmseg-analyzer.jar(或者mmseg-all.jar)拷到我们solr下server里面的\solr\WEB-INF\lib目录下
第二步:
    找到我们下载分词器包中的README.txt文件,将里面的关于Fieldtype内容拷贝到home下Config文件夹里的schema.xml的typs下面
         [mw_shl_code=xml,true]<fieldType name="textComplex" class="solr.TextField" >
      <analyzer>
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="dic"/>
      </analyzer>
    </fieldType>
<fieldType name="textMaxWord" class="solr.TextField" >
      <analyzer>
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="dic"/>
      </analyzer>
    </fieldType>
<fieldType name="textSimple" class="solr.TextField" >
      <analyzer>
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="dic"/>
      </analyzer>
    </fieldType>[/mw_shl_code]

第三步:
在home目录下新建一个文件夹dic,然后将我们下载的mmseg中data里面的文件拷贝到该dic目录下


进入solr/admin选择analysis,在Field里面选择Type,然后textComplex,然后就可以进行测试。

已有(1)人评论

跳转到指定楼层
iamltd 发表于 2015-8-6 09:35:10
solr该如何整合IK呢?尤其是cloudera的版本?

我把两个jar放到/var/lib/solr/tomcat-deployment/webapps/solr/WEB-INF/lib/,重启solr。
把配置xml和stopword.dic放到schema.xml的同个目录,然后solrctl instancedir --update collection1 ./solr_configs,再create collection1。
提示报错是org.apache.solr.client.solrj.impl.HttpSolrServer$RemoteSolrException:Error CREATEing SolrCore 'collection1_shard1_replica1': Unable to create core [collection1_shard1_replica1] Caused by: org.wltea.analyzer.lucene.IKAnalyzer

请问下该如何解决?
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条