千家信息网

elasticsearch中文分词集成怎么实现

发表于:2025-12-03 作者:千家信息网编辑
千家信息网最后更新 2025年12月03日,本篇内容介绍了"elasticsearch中文分词集成怎么实现"的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学
千家信息网最后更新 2025年12月03日elasticsearch中文分词集成怎么实现

本篇内容介绍了"elasticsearch中文分词集成怎么实现"的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!

对于索引可能最关系的就是分词了 一般对于es 来说默认的smartcn 但效果不是很好

一个是ik的,一个是mmseg的,下面分别介绍下两者的用法,其实都差不多的,先安装插件,命令行:

安装ik插件

plugin -install medcl/elasticsearch-analysis-ik/1.1.0

下载ik相关配置词典文件到config目录

unzip ik.zip

rm ik.zip

分词配置

ik分词配置,在elasticsearch.yml文件中加上

index:  analysis:                       analyzer:            ik:          alias: [ik_analyzer]          type: org.elasticsearch.index.analysis.IkAnalyzerProvider

index.analysis.analyzer.ik.type : "ik"

安装mmseg插件:

bin/plugin -install medcl/elasticsearch-analysis-mmseg/1.1.0

下载相关配置词典文件到config目录

cd config

wget http://github.com/downloads/medcl/elasticsearch-analysis-mmseg/mmseg.zip --no-check-certificate

unzip mmseg.zip

rm mmseg.zip

mmseg分词配置,也是在在elasticsearch.yml文件中

index:  analysis:    analyzer:      mmseg:          alias: [news_analyzer, mmseg_analyzer]          type: org.elasticsearch.index.analysis.MMsegAnalyzerProvider

index.analysis.analyzer.default.type : "mmseg"

mmseg分词还有些更加个性化的参数设置如下

index:  analysis:    tokenizer:      mmseg_maxword:          type: mmseg          seg_type: "max_word"      mmseg_complex:          type: mmseg          seg_type: "complex"      mmseg_simple:          type: mmseg          seg_type: "simple"

这样配置完后插件安装完成,启动es就会加载插件。

定义mapping

在添加索引的mapping时就可以这样定义分词器

{   "page":{      "properties":{         "title":{            "type":"string",            "indexAnalyzer":"ik",            "searchAnalyzer":"ik"         },         "content":{            "type":"string",            "indexAnalyzer":"ik",            "searchAnalyzer":"ik"         }      }   }}

indexAnalyzer为索引时使用的分词器,searchAnalyzer为搜索时使用的分词器。

java mapping代码如下:

XContentBuilder content = XContentFactory.jsonBuilder().startObject()        .startObject("page")          .startObject("properties")                   .startObject("title")              .field("type", "string")                         .field("indexAnalyzer", "ik")              .field("searchAnalyzer", "ik")            .endObject()             .startObject("code")              .field("type", "string")                       .field("indexAnalyzer", "ik")              .field("searchAnalyzer", "ik")            .endObject()               .endObject()         .endObject()       .endObject()

测试分词可用调用下面api,注意indexname为索引名,随便指定一个索引就行了

"elasticsearch中文分词集成怎么实现"的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注网站,小编将为大家输出更多高质量的实用文章!

0