《从Lucene到Elasticsearch:全文检索实战》学习笔记五
发表于:2025-12-03 作者:千家信息网编辑
千家信息网最后更新 2025年12月03日,今天我给大家讲讲tf-idf权重计算tf-idf权重计算:tf-idf(中文词频-逆文档概率)是表示计算词项对于一个文档集或语料库中的一份文件的重要程度。词项的重要性随着它在文档中出现的次数成正比,会
千家信息网最后更新 2025年12月03日《从Lucene到Elasticsearch:全文检索实战》学习笔记五
今天我给大家讲讲tf-idf权重计算
tf-idf权重计算:
tf-idf(中文词频-逆文档概率)是表示计算词项对于一个文档集或语料库中的一份文件的重要程度。词项的重要性随着它在文档中出现的次数成正比,会随着它在文档集中出现的频率成反比。如果一个词项在一遍文档中出现的频率非常高,说明其比较重要,如果这个词项在其他文档中出现的频率也高,那么说明这个词有可能是比较通用的。
tf代表词项频率,如果要计算指定词项的词频,统计该词在整篇文档中出现的次数就可以了。如果一篇3000字的文档中词语"足球"出现了3次,我很难判定这片文章和足球相关,但是一篇100字但微博中通用出现三次"足球"。基本可以断定微博内容和足球有关,为了削弱文档长度但影响,需要将词频标准化,计算公式如下
另外,词频标准化的方法不止一种,Lucene中采用了另外一种词频标准化方法:
文档频率df表示包含指定词的所有文档数目。df通常比较大,把它映射到一个较小的取值范围,用逆文档频率(idf)来表示':
从上面公式中可以看出分母越大,说明该词越常见,逆文档频率越小。分母中文档数加1是进行平滑处理,防止所有文档都不包括某个词时分母为0的情况发生。词项的权重用TF-IDF来表示,计算公式如下:
通过tf-idf可以把文档表示成n维的词项权重向量
作者:柯之梦
来源:CSDN
原文:https://blog.csdn.net/yin4302008/article/details/86104662
版权声明:本文为博主原创文章,转载请附上博文链接!
文档
频率
词频
足球
重要
公式
权重
标准
标准化
分母
文章
方法
次数
较大
平滑
中词
代表
作者
原创文章
原文
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
访问服务器的管理控制台
网络安全与大数据业务合规
一个大型软件开发多少钱
数据库运行一段时间后连接失败
服务器cpu 功耗
广元市网络安全宣传周
第三方机构数据库
c 如何提取数据库中的值
昆明通信网络技术有限公司
小米摄像头 网络安全
网络安全征文的结尾
orcale 创建数据库
网络安全70周年重保
软件开发石家庄勒泰
大未来互联网科技有限公司
七个一流网络安全学院
导出数据库的命令
服装进货数据库
医院收费数据库er图
软件开发管理会计分录
游戏软件开发有哪些公司吗
海康摄像头开启虚拟服务器
网络安全调查报告论文
数据库与信息管理技术
数据库写双表是什么意思
服务器三个小电脑的标志
万方数据导出数据库
宿迁软件开发来电咨询
宣智健服务器在哪里
武科大网络安全