RPKM、FPKM和TPM

前言

在重复Nature Prtocol的RNAseq流程中看到了FPKM,就想起来了这三个概念。现在把它们分辨清楚。

定义

RPKM:Reads per kilobase of exon per million reads mapped;
每一百万比对的reads中,其中外显子的每一千个碱基中reads的条数。
FPKM:Fragments per kilobase of exon per million reads mapped;
每一百万比对的fragments中,其中外显子的每一千个碱基中fragments的条数,注意其中将比对到一个fragment上的两个reads计算一次。
TPM:Transcripts per million reads。
每一百万条reads中转录本的个数。

计算过程

因为在对基因或者转录本标准化的过程中,基因长度和测序深度影响较大。
RPKM和FPKM都是先将测序深度标准化,即每个样本的每个基因的reads count数同时除以总的样本各自的总reads count数。再进行基因长度的标准化,将上一步得到的结果除以该基因的长度即可。
TPM的计算类似,但是计算顺序不同,先除以该基因的长度,即先进行基因长度的标准化,再除以标准化后的总reads count数,即后进行测序深度的标准化。
此处可以得到,RPKM和FPKM在进行标准化后的每个样本的reads count之和并不完全相等。而TPM的每个样本的reads count之和是相等的,可以直接用作比较。
现在很多软件可以直接处理原始的reads count,有的则只能处理RPKM/FPKM。注意分辨。

参考

RNA-Seq分析|RPKM, FPKM, TPM, 傻傻分不清楚?
RPKM vs FPKM vs TPM

-------------本文结束 感谢您的阅读-------------
暖一下
ZJohnson wechat
扫一扫,领红包!
0%