elasticsearch 5.x中IK分词器怎么用
发表于:2025-12-01 作者:千家信息网编辑
千家信息网最后更新 2025年12月01日,本篇文章为大家展示了elasticsearch 5.x中IK分词器怎么用,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。ik分词器的地址 https://git
千家信息网最后更新 2025年12月01日elasticsearch 5.x中IK分词器怎么用
本篇文章为大家展示了elasticsearch 5.x中IK分词器怎么用,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。
ik分词器的地址 https://github.com/medcl/elasticsearch-analysis-ik/releases ,分词器插件需要和ES版本匹配
由于es是5.6.16版本,所有我们下载5.6.16
https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v5.6.16/elasticsearch-analysis-ik-5.6.16.zip
解压后,把安装包放在ES节点的plugins目录,包名重命名为ik

重启ES,测试下IK分词效果
(1)无分词器下的效果
GET _analyze?pretty{ "text":"安徽省长江流域"}返回结果。
{ "tokens": [ { "token": "安", "start_offset": 0, "end_offset": 1, "type": "", "position": 0 }, { "token": "徽", "start_offset": 1, "end_offset": 2, "type": "", "position": 1 }, { "token": "省", "start_offset": 2, "end_offset": 3, "type": "", "position": 2 }, { "token": "长", "start_offset": 3, "end_offset": 4, "type": "", "position": 3 }, { "token": "江", "start_offset": 4, "end_offset": 5, "type": "", "position": 4 }, { "token": "流", "start_offset": 5, "end_offset": 6, "type": "", "position": 5 }, { "token": "域", "start_offset": 6, "end_offset": 7, "type": "", "position": 6 } ]} 可见 "安徽省长江流域" 每个字都分成了一个词
(2)IK分词器下的效果,ik_smart分词器
GET _analyze?pretty{ "analyzer": "ik_smart", "text":"安徽省长江流域"}结果
{ "tokens": [ { "token": "安徽省", "start_offset": 0, "end_offset": 3, "type": "CN_WORD", "position": 0 }, { "token": "长江流域", "start_offset": 3, "end_offset": 7, "type": "CN_WORD", "position": 1 } ]}(3)IK分词器下的效果,ik_smart分词器
GET _analyze?pretty{ "analyzer": "ik_max_word", "text":"安徽省长江流域"}结果
{ "tokens": [ { "token": "安徽省", "start_offset": 0, "end_offset": 3, "type": "CN_WORD", "position": 0 }, { "token": "安徽", "start_offset": 0, "end_offset": 2, "type": "CN_WORD", "position": 1 }, { "token": "省长", "start_offset": 2, "end_offset": 4, "type": "CN_WORD", "position": 2 }, { "token": "长江流域", "start_offset": 3, "end_offset": 7, "type": "CN_WORD", "position": 3 }, { "token": "长江", "start_offset": 3, "end_offset": 5, "type": "CN_WORD", "position": 4 }, { "token": "江流", "start_offset": 4, "end_offset": 6, "type": "CN_WORD", "position": 5 }, { "token": "流域", "start_offset": 5, "end_offset": 7, "type": "CN_WORD", "position": 6 } ]}为什么IK分词器能分析中文词汇呢?因为在它的config目录内置了一些词典。
那么如果我们需要识别一些新的词汇怎么办?例如一部连续剧 "权利的游戏"
自定义词典
在IK插件的config目录下创建tv目录,新建 tv.dic 文件(注意,一定要UTF-8无BOM的格式)
然后在 IKAnalyzer.cfg.xml 文件在添加配置
重启ES、Kibana ,试下效果
GET _analyze?pretty{ "analyzer": "ik_smart", "text":"权利的游戏"}分词结果
{ "tokens": [ { "token": "权利的游戏", "start_offset": 0, "end_offset": 5, "type": "CN_WORD", "position": 0 } ]}上述内容就是elasticsearch 5.x中IK分词器怎么用,你们学到知识或技能了吗?如果还想学到更多技能或者丰富自己的知识储备,欢迎关注行业资讯频道。
流域
安徽
长江
安徽省
长江流域
效果
目录
结果
权利
内容
技能
插件
文件
版本
知识
词典
词汇
简明
简明扼要
地址
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
nas文件备份服务器
服务器安全数据库
妨碍网络安全
麦当劳软件开发票
网络安全攻防演练小结
入门软件开发前景如何
泰国软件开发者的工作单位
服务器带宽占满
网信办网络安全ppt
教培软件开发
吃鸡时如何快速的切换服务器
网络安全技术试点示范申报
怀柔哪家公司有从事软件开发
乐视服务器异常无法登录怎么办
vr全景数据库
简单的软件开发语言
精锐纵横网络技术
财务服务器净残值率
北京影时光网络技术
手机ui用什么软件开发
数据库空字符段设置
滴滴网络安全审查不通过怎么办
db2 查看数据库字符集
网络安全法试卷 答案
outlook连接服务器
流放者柯南服务器配置文件
远红外成像手机软件开发
大学广播站网络技术部笔试
网络安全看大家手抄报
杭州直播软件开发价格