shell两个文件去重的方式
发表于:2025-11-08 作者:千家信息网编辑
千家信息网最后更新 2025年11月08日,本篇内容主要讲解"shell两个文件去重的方式",感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习"shell两个文件去重的方式"吧!前言大家都知道shell在文
千家信息网最后更新 2025年11月08日shell两个文件去重的方式
本篇内容主要讲解"shell两个文件去重的方式",感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习"shell两个文件去重的方式"吧!
前言
大家都知道shell在文本处理上确有极大优势,比如多文本合并、去重等,但是最近遇到了一个难搞的问题,即两个大数据量文件去重。下面来看看详细的介绍吧。
要求
有txt文件A.txt和B.txt。
其中A为关键词和搜索量,以逗号分隔,约90万行。
B为关键词,约400万行。
需要从A中找出与B重复的关键词。
我试了N种姿势,但结果都不尽人意,最奇怪的是有些方法对小数据量的测试文件有用,一旦用在A与B上就会失败,真叫人百思不得其解。
姿势一:
awk -F, '{print $1}' A >keywords.txtcat keywords.txt B.txt | sort | uniq -d #先从A.txt种取出关键词,然后与B.txt一起打开,用sort排序,uniq -d 取出重复的行姿势二:
awk -F, '{print $1}' A >keywords.txt#照例先取出关键词 comm -1 -2 keywords.txt B.txt#利用comm命令,显示两个文件都存在的行姿势三:
awk -F, '{print $1}' A >keywords.txtfor i in `cat keywords.txt`do A=`egrep -c "^$i$" B.txt` if [ $A != 0 ] then echo $i >>重复关键词.txt fidone #这种姿势就稍微复杂点#首先取出关键词,然后利用for循环逐个去B.txt里面匹配(注意正则写法^$i$),如果匹配到的结果数不为0,说明这个关键词是重复的,然后输出#这种方法的优点是稳妥,缺点是效率太TM低了,90万个词逐一与400万词匹配,shell默认又没有多线程,耗时太长。姿势四:
awk -F, '{print $1}' A >keywords.txtcat keywords.txt B.txt | awk '!a[$1]++' #这个方法的原理其实我不太懂,awk命令实在太强大太高深了,但是这种方法又简洁又快速其实还有一种grep -v 、grep -f 的方法,但是我没有试过,所以不在这里列出了。
到此,相信大家对"shell两个文件去重的方式"有了更深的了解,不妨来实际操作一番吧!这里是网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!
关键
关键词
文件
姿势
方法
两个
方式
内容
命令
数据
文本
结果
学习
复杂
实用
更深
稳妥
简洁
难搞
百思不得其解
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
软件开发过程中常用什么工具
嘉兴网络技术创新服务
小学生网络安全竞赛简报
南京市网络安全事件应急预案
望江软件开发技术
有没有必要去上海做软件开发
修改数据库某字段长度
渭南艺红网络技术有限公司
数据库怎么设置税率
联想机架服务器对比
千玺网络技术有限公司
互联网医院网络安全解决方案
构建h2测试数据库
数据库长连接和短链接跨机房
龙之谷提示服务器未就绪
中宏黄金互联网科技有限公司
云服务器销售
数据库实时打印日志文件
软件开发项目经费预算怎么写
亳州oa管理软件开发外包公司
团队管理基站服务器
莒南软件开发
医院材料数据库
学科专业数据库
中国互联网络技术发展状况
联想t280服务器红灯闪烁
对软件开发环境的认识
玖富金融信用信息基础数据库
网络安全渗透工程师学习路径
网络安全军队演讲稿