如何使用HanLP增强Elasticsearch分词功能
发表于:2025-11-07 作者:千家信息网编辑
千家信息网最后更新 2025年11月07日,这篇文章主要介绍如何使用HanLP增强Elasticsearch分词功能,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!Elasticsearch 默认对中文分词是按"字"进行分
千家信息网最后更新 2025年11月07日如何使用HanLP增强Elasticsearch分词功能
这篇文章主要介绍如何使用HanLP增强Elasticsearch分词功能,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!
Elasticsearch 默认对中文分词是按"字"进行分词的,这是肯定不能达到我们进行分词搜索的要求的。官方有一个 SmartCN 中文分词插件,另外还有一个 IK 分词插件使用也比较广。但这里,我们采用 HanLP 这款 自然语言处理工具 来进行中文分词。
Elasticsearch
Elasticsearch 的默认分词效果是惨不忍睹的。
GET /_analyze?pretty { "text" : ["广州计算科技有限公司"] }输出:
{ "tokens": [ { "token": "广", "start_offset": 0, "end_offset": 1, "type": "", "position": 0 }, { "token": "州", "start_offset": 1, "end_offset": 2, "type": "", "position": 1 }, { "token": "亿", "start_offset": 2, "end_offset": 3, "type": "", "position": 2 }, { "token": "速", "start_offset": 3, "end_offset": 4, "type": "", "position": 3 }, { "token": "云", "start_offset": 4, "end_offset": 5, "type": "", "position": 4 }, { "token": "计", "start_offset": 5, "end_offset": 6, "type": "", "position": 5 }, { "token": "算", "start_offset": 6, "end_offset": 7, "type": "", "position": 6 }, { "token": "科", "start_offset": 7, "end_offset": 8, "type": "", "position": 7 }, { "token": "技", "start_offset": 8, "end_offset": 9, "type": "", "position": 8 }, { "token": "有", "start_offset": 9, "end_offset": 10, "type": "", "position": 9 }, { "token": "限", "start_offset": 10, "end_offset": 11, "type": "", "position": 10 }, { "token": "公", "start_offset": 11, "end_offset": 12, "type": "", "position": 11 }, { "token": "司", "start_offset": 12, "end_offset": 13, "type": "", "position": 12 } ]} 可以看到,默认是按字进行分词的。
elasticsearch-hanlp
HanLP
HanLP 是一款使用 Java 实现的优秀的,具有如下功能:
中文分词
词性标注
命名实体识别
关键词提取
自动摘要
短语提取
拼音转换
简繁转换
文本推荐
依存句法分析
语料库工具
安装 elasticsearch-hanlp(安装见:https://github.com/hualongdata/hanlp-ext/tree/master/es-plugin)插件以后,我们再来看看分词效果。
GET /_analyze?pretty { "analyzer" : "hanlp", "text" : ["广州计算科技有限公司"] }输出:
{ "tokens": [ { "token": "广州", "start_offset": 0, "end_offset": 2, "type": "ns", "position": 0 }, { "token": "", "start_offset": 2, "end_offset": 5, "type": "nr", "position": 1 }, { "token": "计算", "start_offset": 5, "end_offset": 7, "type": "nr", "position": 2 }, { "token": "科技", "start_offset": 7, "end_offset": 9, "type": "n", "position": 3 }, { "token": "有限公司", "start_offset": 9, "end_offset": 13, "type": "nis", "position": 4 } ]}以上是"如何使用HanLP增强Elasticsearch分词功能"这篇文章的所有内容,感谢各位的阅读!希望分享的内容对大家有帮助,更多相关知识,欢迎关注行业资讯频道!
中文
功能
公司
插件
有限
有限公司
科技
广州
内容
工具
效果
篇文章
输出
优秀
惨不忍睹
价值
关键
关键词
兴趣
句法
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
软件开发 战略
深圳3u服务器散热器多少钱
wind数据库怎么下载股价
自组织mesh网络技术
逆水寒服务器怎么设置
网络安全培训问题
河南健信网络技术有限公司招聘
gdc2000数据库文件
网络安全法中明确网络运营者
软件开发商有哪些责任
谁能清除数据库缓存
网络安全密钥怎么用
创杰互联网科技有限公司
系统存储过程主要存储在数据库中
中国未来网络安全会怎么发展
哈尔滨壹双科技软件开发
cam软件开发用什么语言
软件开发 定额
数据库一体机技术
sql数据库中各个项目学分
数据库与或
网络安全心得体会2
惠州行业软件开发公司
合肥网络视频系统服务器
万方数据库下的论文
网络安全毕业设计教学视频
车载网络技术书籍
淮阴师范学院数据库期中考
深圳大学生网络安全保障中心
黄浦区云服务器