Python怎么统计西游记用字的数量
发表于:2025-12-01 作者:千家信息网编辑
千家信息网最后更新 2025年12月01日,本篇内容主要讲解"Python怎么统计西游记用字的数量",感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习"Python怎么统计西游记用字的数量"吧!一、数据xy
千家信息网最后更新 2025年12月01日Python怎么统计西游记用字的数量
本篇内容主要讲解"Python怎么统计西游记用字的数量",感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习"Python怎么统计西游记用字的数量"吧!
一、数据
xyj.txt,《西游记》的文本,2.2MB
致敬吴承恩大师,4020行(段)
二、目标
统计《西游记》中:
1. 共出现了多少个不同的汉字;
2. 每个汉字出现了多少次;
3. 出现得最频繁的汉字有哪些。
三、涉及内容:
1. 读文件;
2. 字典的使用;
3. 字典的排序;
4. 写文件
四、效果

五、源代码
# coding:utf8import sysreload(sys)sys.setdefaultencoding("utf8")fr = open('xyj.txt', 'r')characters = []stat = {}for line in fr: # 去掉每一行两边的空白 line = line.strip() # 如果为空行则跳过该轮循环 if len(line) == 0: continue # 将文本转为unicode,便于处理汉字 line = unicode(line) # 遍历该行的每一个字 for x in xrange(0, len(line)): # 去掉标点符号和空白符 if line[x] in [' ','', '\t', '\n', '。', ',', '(', ')', '(', ')', ':', '□', '?', '!', '《', '》', '、', ';', '"', '"', '……']: continue # 尚未记录在characters中 if not line[x] in characters: characters.append(line[x]) # 尚未记录在stat中 if not stat.has_key(line[x]): stat[line[x]] = 0 # 汉字出现次数加1 stat[line[x]] += 1print len(characters)print len(stat)# lambda生成一个临时函数# d表示字典的每一对键值对,d[0]为key,d[1]为value# reverse为True表示降序排序stat = sorted(stat.items(), key=lambda d:d[1], reverse=True)fw = open('result.csv', 'w')for item in stat: # 进行字符串拼接之前,需要将int转为str fw.write(item[0] + ',' + str(item[1]) + '\n')fr.close()fw.close()到此,相信大家对"Python怎么统计西游记用字的数量"有了更深的了解,不妨来实际操作一番吧!这里是网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!
西游
西游记
汉字
统计
数量
用字
内容
字典
尚未
文件
文本
空白
学习
排序
不同
实用
更深
频繁
一行
兴趣
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
lol服务器这么卡怎么不解决
网络技术简历自我评价
怎么才可以不花钱开一个服务器
传真服务器是什么牌子
在病例样本数据库中分析突变
一级网络安全素质教育考试
云服务器文件安全
软件开发公司开发流程
大类是软件开发怎么开票
青少年应该如何维护网络安全
sun服务器串口命令登录系统
软件开发的工作怎么样
北京咪小九互联网科技有限公司
自考学历网络技术是什么
盐城工程软件开发行业
适合W10的用友数据库
熵体网络技术上海有限公司
华为服务器sata是固态接口吗
农大网络安全知识
如何分辨服务器域控
数据库设计是否要加冗余字段
校园网络安全宣传周ppt
专网网络安全边界
美国服务器 he
数据库原理关系模型习题
数据库中abcf是什么
阿里云 云数据库设置
网络安全社交网络的正确使用
四川电商软件开发大概多少钱
服务器做硬件测试具体做什么