千家信息网

GATK BQSR的作用是什么

发表于:2025-12-03 作者:千家信息网编辑
千家信息网最后更新 2025年12月03日,本篇内容主要讲解"GATK BQSR的作用是什么",感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习"GATK BQSR的作用是什么"吧!BQSR 全称叫做 Ba
千家信息网最后更新 2025年12月03日GATK BQSR的作用是什么

本篇内容主要讲解"GATK BQSR的作用是什么",感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习"GATK BQSR的作用是什么"吧!

BQSR 全称叫做 Base Quality Score Recalibration, 可以理解为碱基质量校正。对于变异位点的鉴定,碱基质量是非常重要的。比如测序识别到的一个位点,其碱基和参考基因组上的碱基不同,但是其质量值特别低,此时可以认为是一个测序错误,而不是一个SNP位点。

在测序的原始数据中,本身就提供了每个碱基对应的质量值,但是GATK官方认为测序仪提供的碱基质量值,是不准确的,存在误差的。

某个位点前后的碱基的种类,称之为上下文环境,会对这个碱基的质量值产生影响。对于A,T,C,G 4种碱基,共有4 x 4 =16 种上下文环境,左侧的图是利用fastq文件中测序仪给出的碱基质量值做的图,可以看到,对于不同的上下文环境,碱基质量值分布不同;右图为经过BQSR校正之后,不同上下文环境中碱基质量的分布。可以看到,校正之后,不同的上下文环境的碱基质量分布基本相同。也就是说,BQSR消除了上下文环境对碱基质量的影响。

在碱基质量校正时,主要考虑下列3个因素:

  1. 碱基在reads中的位置

  2. 碱基的上下文环境

  3. 碱基原始的质量值


根据这3这个因素,首先计算出原始碱基质量中错误的分布模型,然后利用这个模型对碱基质量校正,生成新的碱基质量值。

执行BQSR分析包含以下三步

1. 根据原始bam文件中的碱基质量值计算出系统误差的分布

命令如下

gatk BaseRecalibrator \    -R ${ref_fasta} \    -I ${input_bam} \    --use-original-qualities \    -O ${recalibration_report_filename} \    --known-sites ${dbSNP_vcf} \    --known-sites ${sep=" --known-sites " known_indels_sites_VCFs}

在计算的过程中, 不考虑已知的变异位点的碱基质量,--known-sites指定已知变异位点对应的vcf文件。这一步对单个样本进行操作,每个样本生成一个错误模型文件。

2. 综合多个样本的模型,生成一个总的模型

命令如下

gatk GatherBQSRReports \    -I ${sep=' -I ' input_bqsr_reports} \    -O ${output_report_filename}
3. 根据之前计算的模型对碱基质量进行校正

命令如下:

gatk ApplyBQSR \    -R ${ref_fasta} \    -I ${input_bam} \    -O ${output_bam_basename}.bam \    -bqsr ${recalibration_report} \    --static-quantized-quals 10 --static-quantized-quals 20 --static-quantized-quals 30 \    --add-output-sam-program-record \    --create-output-bam-md5 \    --use-original-qualities

BQSR会对输入的bam文件中的碱基质量值进行替换,替换为校正之后的质量值,而原先的质量值保存在OQtag 中,示意图如下

到此,相信大家对"GATK BQSR的作用是什么"有了更深的了解,不妨来实际操作一番吧!这里是网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!

碱基 质量 上下 上下文 环境 位点 模型 不同 文件 原始 作用 变异 命令 样本 错误 生成 内容 因素 误差 学习 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 网络安全法的立法方针是什么 服务器管理有关的ppt pop3服务器是什么怎样连接 域名连接服务器ip查询 数据库月的类型 数据库的ora文件是什么 简述软件开发过程的三种模型 网络安全学习哪些专业 南通网络安全审计招聘网 软件开发的服务哪家好 中国大学生网络安全答题答案 好的软件开发不二之选 工业互联网物流科技 浏览器访问服务器程序需要密码吗 啥是佩奇 软件开发 上海参考网络技术服务市价 java数据库监控 武装突击三怎么进服务器 广州盛祺网络技术科技有限公司 网易buff无法读取服务器 豆客游戏平台 连接服务器失败 燃料电池软件开发 铜陵市网络安全应急支撑单位 保定市中级人民法院网络安全 简述软件开发过程的三种模型 学校重大危险数据库 app软件开发融资与财务 启明星辰重庆网络安全中心 sql连接错误请检查数据库配置 vb6.0访问数据库方法
0