ALLHiC
ALLHiC copied to clipboard
ALLHiC optimize可以跳过GA吗
我在使用ALLHiC组装简单的二倍体时发现,optimize这一步可能会将原来正确的朝向搞错
这是使用optimize默认参数绘制的热图
根据信号强弱变化,左下角的方向可能是反了
于是我试着optimize 用 --skipGA跳过GA步骤结果绘制的热图
结果可能更加符合预期
我想问的是
- GA步骤是如何根据clm文件确定contig的朝向呢? 2 GA步骤是否是必须的?
@xuzhougeng
抱歉回复晚了。基本我还是推荐用GA。
确定朝向和定位的方法是优化一个目标函数,在ALLHIC文章中有提到,简单的说就是最后所有HiC link距离的倒数之和。所以算法会用各种优化方法,试图降低link之间的距离,最终结果就是”对角线化“。
这个数据有GA和没有GA之间比较,注意不光是方向,定位也有改变,就是原本在端粒的序列(skipGA)跑到了着丝粒(GA)。不做验证实验的话很难确定谁对谁错,基本可以肯定的是,目标函数的分值用了GA优化以后肯定是上升的。
两个建议:
- 有条件的话通过共线性去比对同源物种,大致判断下结果的准确性
- 如果不牵涉敏感数据,可以发给我这条染色体的clm和RE.txt文件,或者log,我这边帮忙看下有没有步骤出错
@tanghaibao 非常感谢您的解答,虽然没有比较好的同源物种,但是后续可以试着用F2的GBS的遗传图谱来评估下结果的可靠性。
我前期组装的contig大小为250M,N50为10M。issue的热图主要包括两个比较大的contig,分别为9M和16M。是否可能是contig过大的原因? 此外组装的mis-assembly, 我用BioNano的光学图谱确认过,起码光学图谱覆盖的部分都没有错误组装。原本是希望用光学图谱确认这个朝向问题的,但是并没有覆盖到着丝粒的图谱。
下面两个文件是我筛选出来的clm和RE文件
然后这是相应的命令行
allhic optimize clean.counts_GATC.8g5.txt clean.8g5.clm &> 8g6.log
运行的输出日志文件为 8g5.log
不知是否能够符合调试需要。