千家信息网

mmseg4j-1.9 solr4的bug怎么处理

发表于:2025-12-02 作者:千家信息网编辑
千家信息网最后更新 2025年12月02日,这篇文章主要讲解了"mmseg4j-1.9 solr4的bug怎么处理 ",文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习"mmseg4j-1.9 solr
千家信息网最后更新 2025年12月02日mmseg4j-1.9 solr4的bug怎么处理

这篇文章主要讲解了"mmseg4j-1.9 solr4的bug怎么处理 ",文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习"mmseg4j-1.9 solr4的bug怎么处理 "吧!

目前 中文分词mmseg4j 在 solr4 下是不能正常工作的。
解决方法可简单了, 只是solr4 接口有点变化 。

中文分词mmseg4插件的作者 没及时的跟上"solr4 接口"变化。 虽然分词算法是对的,添加的文档不能建索引。

源码80M读是读不懂的。在源码里猜测查找 不能新建索引这个的原因,比较费劲,差点没找到,结果还是"凑巧"给找到了。

bug描述:
(1)java.lang.RuntimeException: java.lang.NoSuchMethodError: org.apache.l
ucene.analysis.Tokenizer.reset
报错信息:
http://code.google.com/p/mmseg4j/issues/detail?id=31 我是在分词测试时碰到这样的错误的。
解决方法:

这里的这个文件里的setReader 是新版solr4提供的。旧的接口reset 已经过期。
(2)
不能建索引 的相关描述:http://code.google.com/p/mmseg4j/issues/detail?id=38
原因:MMSegTokenizer 还是按以前版本的的solr 接口的。
MMSegTokenizer 在solr 里是缓存的,它和词库都是启动时就缓存了。 在后续有新的的短语要分词时,就会调用这个MMSegTokenizer.reset 方法把新词传进来,传给MMSegTokenizer。 但新版solr4里已经不调用这个reset方法了(也就是上图显示的那个reset方法),而是调用setReader ,这样MMSegTokenizer 实际分词的对象mmSeg就得不到新数据。于是 我加了下面的hack 代码,让mmSeg能得到新数据。

解决方法:


找到MMSegTokenizer.java 这个文件打开 上图 框里的内容是我新加的。 自己找到mmSeg对象加上一个ReaderStatus 属性默认值填0。
然后编译这个包。再放到solr 里去。重启tomcat 就能工作了。

感谢各位的阅读,以上就是"mmseg4j-1.9 solr4的bug怎么处理 "的内容了,经过本文的学习后,相信大家对mmseg4j-1.9 solr4的bug怎么处理 这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是,小编将为大家推送更多相关知识点的文章,欢迎关注!

方法 处理 接口 内容 索引 学习 上图 原因 对象 数据 文件 源码 缓存 还是 中文 变化 凑巧 费劲 也就是 代码 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 石家庄软件开发技校 浪潮服务器找不到磁盘阵列 文档里如何加入数据库 怎么查邮箱服务器地址 服务器为什么还没有手机大呢 网络安全科技警察需要体测吗 阿里云服务器学生用户 软件开发v系统 江苏服务器应用线束采购 网络安全带来的问题有哪些 服务器DIMM未通过内存测试 电商系统软件开发服务方案价钱 天津爱福生软件开发 bt数据库需要的文件格式 网易服务器怎么调时间 cpu要求高怎么选云服务器 北京大学网络安全考研 杭州运动软件开发 软件开发也是我们团队的优势 上海网络安全教育培训中心 janes数据库 江苏服务器维护定制云主机云空间 软件开发涉及到哪些成本 奥兰多游戏软件开发工具公司 莆田学院网络技术协会 延庆区网络软件开发大概费用 国防部网络安全局 网络安全法研究生 互联网零售科技工作经验 方舟服务器隐藏管理员代码
0