FMtree
FMtree copied to clipboard
FMtree: A fast locating algorithm of FM-indexes for genomic data
 程博,按照您的论文,我将dna200MB经过preprocess处理,然后建了index,采样距离D=2。patterns也是从中随机抽取10个lengh=5的短字串。进行比对时候,就出现了如图所示的错误,这是怎么回事?
程博士好,读了您的文章FMtree,很有收获. 我理解,当一个pattern有多个Occ时,FMtree将排位邻近的Occ一起做LF跳步,可以提高访问bwt串的数据局部性,即cache更有效,减少访存时间. 当人基因组中,取长30的模式时,绝大多数模式都只有1处Occ,这样的长模式,FMtree应该就起不到加速作用了. 看到文章中结果部分,FMtree仍比未优化的FM-index快了8倍,不太理解是什么原因?或者是我理解错了,FMtree是对多个(上千)模式的Occ一起处理?这样可以避免单个长模式Occ为1的情况.