如何对比vcf文件
发表于:2025-12-02 作者:千家信息网编辑
千家信息网最后更新 2025年12月02日,这篇文章将为大家详细讲解有关如何对比vcf文件,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。如果我们要比较的两个vcf文件的参考基因组版本不一致,就需要使用Cros
千家信息网最后更新 2025年12月02日如何对比vcf文件
这篇文章将为大家详细讲解有关如何对比vcf文件,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。
如果我们要比较的两个vcf文件的参考基因组版本不一致,就需要使用CrossMap等软件进行参考基因组版本转换,然后里使用 SnpSift 软件的 Concordance 命令比较它们。其中CrossMap软件依赖pyBigWig,使用conda进行安装,代码如下:
conda create -n py3 python=3.6
conda activate py3
conda install -c bioconda pyBigWig
pip3 install CrossMap
进行参考基因组版本转换的命令如下:
# 需要自行下载 hg19ToHg38.over.chain.gz 文件,以及参考基因组 Homo_sapiens_assembly38.fasta
python ~/miniconda3/envs/py3/bin/CrossMap.py \
vcf ~/data/liftover/hg19ToHg38.over.chain.gz test.snp.hg19.vcf \
~/data/Homo_sapiens_assembly38.fasta test.snp.hg38.vcf
可以把snp和indel的vcf文件都转换一下,然后拿到的转换好的文件如下:
1.3M Jul 8 05:16 test.indel.hg38.vcf
23K Jul 8 05:16 test.indel.hg38.vcf.unmap
1003K Jun 19 11:10 test.indel.vcf
13M Jul 8 05:18 test.snp.hg38.vcf
245K Jul 8 05:18 test.snp.hg38.vcf.unmap
13M Jun 19 18:29 test.snp.vcf
可以看到转换的成功率是非常高的!unmap的文件很小,因为确实参考基因组有变化,总有一下基因组片段被修改了。
但是,有意思的是,之前我们的vcf文件是严格按照基因组坐标排好序的,但是转换过后,出现了部分坐标乱序情况,如下:
这个很容易理解,因为同一个物种的不同版本参考基因组肯定是有
chr1 119955031 . G A
chr1 148483282 rs7513869 C T
chr1 144995248 rs6600697 A G
chr1 144995236 rs6600696 A C
chr1 144995050 rs1884147 C T
chr1 144995033 rs1884146 A G
也就是说,人类的参考基因组在由hg19进化到hg38的时候,不仅仅是片段的自然扩充,还包括一些以前组装顺序弄错了的片段的纠正。
这样坐标乱序的vcf文件,在很多下游分析都是不友好的,所以可以使用下面的代码进行简单过滤。
input=test.snps.VQSR.vcf
cat $input | java -jar ~/biosoft/snpEff/SnpSift.jar filter "( DP > 20 & FILTER = 'PASS' )" | \
perl -alne '{print unless $F[0] =~ /_/}' | \
awk '$1 ~ /^#/ {print $0;next} {print $0 | "sort -k1,1 -k2,2n"}' | \
grep -v '1/2' > test.filter.sort.vcf
# 检查不同染色体分布情况:
cat new.filter.sort.vcf |grep -v '^#' |cut -f 1 |sort |uniq
# 接下来就可以对干净的VCF文件进行注释啦
java -jar ~/biosoft/snpEff/snpEff.jar GRCh48.86 \
test.filter.sort.vcf > test.filter.sort.eff.vcf
关于"如何对比vcf文件"这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,使各位可以学到更多知识,如果觉得文章不错,请把它分享出去让更多的人看到。
文件
基因
基因组
参考
版本
坐标
片段
篇文章
软件
不同
代码
命令
情况
更多
不错
实用
干净
一致
成功
接下来
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
用服务器
信息网络安全的第二代
嘉定区智能软件开发中心
国家网络安全改革路
服务器能插移动硬盘吗
软件开发指令
来电拦截 数据库
珠海软件开发信任小罗6专业
都江堰市网络安全宣传周
wifi如何连接云服务器地址
安全狗服务器怎么看
深圳市碧威特网络技术
网络安全风险变量增多
青州中医院网络安全宣传
ftp服务器被删除
网络安全实用技术第三版答案
网络安全理论有哪些
m8服务器
株洲东塔网络安全学院白盒测试
熊熊联盟全部的人无法连接服务器
计算机编程和数据库考试题
软件开发质量相关指标
数据库表别名可以一样吗
山西大学数据库历年试卷
连续交付 软件开发
电力网络安全和网络管理
珠海软件开发信任小罗6专业
网络安全黑板主题
学校监控服务器连接状态红色
湖北pdu服务器专用电源购买