Solr如何加入中文分词

Solr与中文分词的整合以mmseg为例：

第一步：
将我们下载的分词器中mmseg-solr.jar、mmseg-core.jar mmseg-analyzer.jar(或者mmseg-all.jar)拷到我们solr下server里面的\solr\WEB-INF\lib目录下
第二步：
找到我们下载分词器包中的README.txt文件，将里面的关于Fieldtype内容拷贝到home下Config文件夹里的schema.xml的typs下面
      [mw_shl_code=xml,true]<fieldType name="textComplex" class="solr.TextField" >
   <analyzer>
      <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="dic"/>
   </analyzer>
</fieldType>
<fieldType name="textMaxWord" class="solr.TextField" >
   <analyzer>
      <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="dic"/>
   </analyzer>
</fieldType>
<fieldType name="textSimple" class="solr.TextField" >
   <analyzer>
      <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="dic"/>
   </analyzer>
</fieldType>[/mw_shl_code]

第三步：
在home目录下新建一个文件夹dic,然后将我们下载的mmseg中data里面的文件拷贝到该dic目录下

进入solr/admin选择analysis，在Field里面选择Type，然后textComplex，然后就可以进行测试。

iamltd · 发表于 2015-8-6 09:35:10

solr该如何整合IK呢？尤其是cloudera的版本？

我把两个jar放到/var/lib/solr/tomcat-deployment/webapps/solr/WEB-INF/lib/，重启solr。
把配置xml和stopword.dic放到schema.xml的同个目录，然后solrctl instancedir --update collection1 ./solr_configs，再create collection1。
提示报错是org.apache.solr.client.solrj.impl.HttpSolrServer$RemoteSolrException:Error CREATEing SolrCore 'collection1_shard1_replica1': Unable to create core [collection1_shard1_replica1] Caused by: org.wltea.analyzer.lucene.IKAnalyzer

请问下该如何解决？

图文精华

Solr如何加入中文分词

已有(1)人评论

推荐 /2