千家信息网

如何用Python写一个词频统计小项目

发表于:2025-12-02 作者:千家信息网编辑
千家信息网最后更新 2025年12月02日,如何用Python写一个词频统计小项目,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。这里用python做一个小小的英文词
千家信息网最后更新 2025年12月02日如何用Python写一个词频统计小项目

如何用Python写一个词频统计小项目,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。

这里用python做一个小小的英文词频的统计。当然了,自己写的,就没有停词、计算词语权重这些功能了,纯粹是写写代码练练手。

首先呢,这里是一篇英文文章,就像下面这样的185个小段落,数据量还是不大的,哈利波特小说好像有10W行,感兴趣可以找到分一下。

虽然我安装了2、3两个版本.这里用的是Python2,因为Python2打印好像不用写括号,比较省事。

废话不多说,这里主要有两个脚本,一个是分词,一个是统计词频的:

1

分词

我这里是用的cmd窗口的命令依次读取一行,形成文件流,每次处理一行,否则就需要弄一个很大的列表(list)。

如上面几行代码所示,对英文进行分词是非常简单的,只需要根据空格分开就行了。不像中文,还需要词库、用一系列算法计算。然后打印到控制台就行了。这样打印出来的词语还是无序的,我们需要将其排序,就是让相邻词语一小段一小段一样的,需要用sort排序,就像这样:

cmd窗口输入命令执行脚本:

type The_Clock_and_the_Key.txt | python2 splitText.py | sort

这里的"type"是打开一个文本文件,"|"是管道:把左边内容作为参数给右边的函数。

这样每个词语就占一行,其实这个就是hadoop的一个基本功能之一:【排序】。

2

统计词频

思想是,如果当前读进来的单词与保存的单词不一样,表明该词语统计结束。由于,最后一个词语赋值给current_word后,没有对比的了(已经到最后一行了,这里打印的时候,需要在循环外面打印一次,第23行代码)。


将第一个脚本处理后的一个单词占一行,并且相邻段单词一样的数据流用管道传入这个脚本进行处理。

cmd窗口输入命令执行脚本:

type The_Clock_and_the_Key.txt | python2 splitText.py | sort | python2 splitText2.py | sort /R

这里的sort /R表示倒序(reverse),是一个函数。

windows命令行不太会玩,最终排序是这样的排序:

好像是按照字典排序的,哈哈,就这样吧!有强迫症的同学可以用列表或者字典,调用Python自带sort函数排一下序。

看完上述内容是否对您有帮助呢?如果还想对相关知识有进一步的了解或阅读更多相关文章,请关注行业资讯频道,感谢您对的支持。

词语 排序 统计 一行 脚本 词频 单词 命令 代码 函数 英文 处理 两个 内容 功能 字典 就是 数据 文件 文章 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 杭州项目软件开发哪家便宜 宝可梦世界极巨化版怎么进服务器 网上教育软件开发有用吗 网络安全面试常问问题 构建网络技术方法E半径网络 网络安全需要学面向对象嘛 石河子仕牢网络技术有限公司 网络安全法律治理研究 服务器的容量与什么有关 防城港核电软件开发招人么 网络安全法是国家安全体系的 三星ibm下一代服务器 陕西省网络安全与信息化工作综述 网络安全和信息化 文件 光遇国际服测试版服务器推荐 客观性数据库与关系型数据库区别 网络安全演习比例 怎样共享服务器 网络安全事件工作计划 公司数据库怎么建立 学校无盘启动服务器 天津软件开发济南 数据库 超类实体 网络安全征文五年级400字作文 数据库用什么软件更新 企业信用有哪些数据库 服务器的容量与什么有关 硬件开发软件还是软件开发硬件 广东企业软件开发预算 个人买个服务器能干嘛
0