ALLHiC icon indicating copy to clipboard operation
ALLHiC copied to clipboard

ALLHiC optimize可以跳过GA吗

Open xuzhougeng opened this issue 4 years ago • 2 comments

我在使用ALLHiC组装简单的二倍体时发现,optimize这一步可能会将原来正确的朝向搞错

这是使用optimize默认参数绘制的热图

image

根据信号强弱变化,左下角的方向可能是反了

image

于是我试着optimize 用 --skipGA跳过GA步骤结果绘制的热图

image

结果可能更加符合预期

我想问的是

  1. GA步骤是如何根据clm文件确定contig的朝向呢? 2 GA步骤是否是必须的?

xuzhougeng avatar Aug 07 '20 04:08 xuzhougeng

@xuzhougeng

抱歉回复晚了。基本我还是推荐用GA。

确定朝向和定位的方法是优化一个目标函数,在ALLHIC文章中有提到,简单的说就是最后所有HiC link距离的倒数之和。所以算法会用各种优化方法,试图降低link之间的距离,最终结果就是”对角线化“。

这个数据有GA和没有GA之间比较,注意不光是方向,定位也有改变,就是原本在端粒的序列(skipGA)跑到了着丝粒(GA)。不做验证实验的话很难确定谁对谁错,基本可以肯定的是,目标函数的分值用了GA优化以后肯定是上升的。

两个建议:

  • 有条件的话通过共线性去比对同源物种,大致判断下结果的准确性
  • 如果不牵涉敏感数据,可以发给我这条染色体的clm和RE.txt文件,或者log,我这边帮忙看下有没有步骤出错

tanghaibao avatar Aug 09 '20 03:08 tanghaibao

@tanghaibao 非常感谢您的解答,虽然没有比较好的同源物种,但是后续可以试着用F2的GBS的遗传图谱来评估下结果的可靠性。

我前期组装的contig大小为250M,N50为10M。issue的热图主要包括两个比较大的contig,分别为9M和16M。是否可能是contig过大的原因? 此外组装的mis-assembly, 我用BioNano的光学图谱确认过,起码光学图谱覆盖的部分都没有错误组装。原本是希望用光学图谱确认这个朝向问题的,但是并没有覆盖到着丝粒的图谱。

下面两个文件是我筛选出来的clm和RE文件

然后这是相应的命令行

allhic optimize  clean.counts_GATC.8g5.txt clean.8g5.clm &> 8g6.log

运行的输出日志文件为 8g5.log

不知是否能够符合调试需要。

xuzhougeng avatar Aug 09 '20 08:08 xuzhougeng