十年网站开发经验 + 多家企业客户 + 靠谱的建站团队
量身定制 + 运营维护+专业推广+无忧售后,网站问题一站解决
这篇文章给大家分享的是有关HiC-Pro软件有什么用的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。
从策划到设计制作,每一步都追求做到细腻,制作可持续发展的企业网站。为客户提供网站制作、成都网站制作、网站策划、网页设计、域名注册、网络空间、网络营销、VI设计、 网站改版、漏洞修补等服务。为客户提供更好的一站式互联网解决方案,以客户的口碑塑造优易品牌,携手广大客户,共同发展进步。
HiC-Pro是一款高效的Hi-C数据分析软件,提供了从原始数据到归一化之后的HI-C图谱构建的完整功能,运行效率高,用法简便。该软件对应的文章链接如下
https://genomebiology.biomedcentral.com/track/pdf/10.1186/s13059-015-0831-x
完整的pipeline如下图所示
红色方框标记的是数据预处理部分,功能和HICUP软件类似,包括序列比对和筛选valid pairs;预处理之后就是binning, 构建不同分辨率下的原始的交互矩阵contact map, 最后对原始的contact map进行归一化处理,得到校正后的contact map。
HiC-Pro的一个强大功能在于可以构建单倍型级别的Hi-C图谱,单倍型级别的Hi-C图谱有助于更加精细化理解基因组三维结构,进一步对基因调控等功能进行深入细致的研究。
整个处理过程分为以下几个步骤
HiC-Pro采用了两步比对的策略,如下所示
考虑到连接点在插入片段上的位置和测序读长的关系,第一步先将R1和R2端分别与基因组比对,对于没有比对上的reads, 可能是存在连接点的嵌合体reads, 也可能本身就是unmapping reads, 通过从3’端切除部分序列的方式,使得嵌合体序列也能够比对上基因组, 两步策略保证了数据的利用率。
比对时将R1和R2端分开单独考虑,但是二者其实来自于同一个fragment, 这一步的筛选其实是能够代表染色质交互的有效fragment,这样的fragment肯定是一个嵌合体序列,有来自交互作用的两个染色质区域的序列构成, 如下图所示
只有来自嵌合体fragment的reads才被定义为valid pairs, 然后进行后续分析。
根据指定的分辨率,统计两个bin
区域内valid pairs的数目, 去除PCR重复之后,构建原始的交互矩阵。
不同区域GC含量,mapping概率等系统误差都使得原始的交互矩阵不能够有效代表染色质交互信息, 所以需要进行归一化。采用了一种迭代校正的归一化算法对原始的交互矩阵进行归一化,矫正系统误差。
HIC-Pro还提供了一系列的质控标准,如下图所示
一个高质量的文库绝大部分肯定都能够比对上基因组,如图A所示, R1和R2的比对率都很高。而比对上的reads中应该主要是unique mapping, 如图A第二张图所示,multiple hits和low quality也是文库质量的指标之一。
valid pairs的比例则是文库质量的最直接体现,valid pairs的比例至少要在50%以上。
将染色质交互作用进一步区分为染色质之间的inter-interaction. 对应B图中的trans contact, 和染色质内部的intra-interaction, 对应cis contact。对于cis contact, 根据距离阈值分成short和long两种。
一个高质量的文库首先intra-interaction的比例在40%以上,其次由于线性距离近的染色质更容易随机结合,引入系统误差,所以高质量文库的cis long contacts的比例在40%以上。
HiC-Pro所有的参数都放置在一个配置文件中,既可以一键化运行整个pipeline, 也可以分布运行,单独执行其中的某几步,灵活性很强,后续会介绍其详细用法。
感谢各位的阅读!关于“HiC-Pro软件有什么用”这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,让大家可以学到更多知识,如果觉得文章不错,可以把它分享出去让更多的人看到吧!