chinese-layoutlm-v2 icon indicating copy to clipboard operation
chinese-layoutlm-v2 copied to clipboard

layoutlm信息提取

Open hehuang139 opened this issue 3 years ago • 5 comments

您好,不好意思,又来请教这个问题! 最近一段研究后,我大致能理解layoutlm的思路。 我还是想请教下关于训练和下游任务的问题

我的下游任务是从文档中抽取信息以及QA问题,如一片论文(是整个论文文档docx)抽取作者,题目等。qa问题(有可能在文档的任意位置) 关于训练方面,我的文档有几百页,但是其中的信息只有个别几页才有,比如说1,5,10页的一部分信息,那我的fine-tuning训练集要怎么构建?是每页都需要转换,还是只有有答案的页才标记(比如说qa任务)。

以及我的下游任务要设计,训练完的模型要怎么应用,我有一个新的文档(整个文档吗?),以及问题,要怎么使用新的文档以及问题作为输入,如果是bert,直接可以通过[cls]question pad [sep] question[sep]来构建下游任务,那如果是新文档,难道我要把整个文档作为输入?这显然不可能。这点非常困扰我。我也考虑过单页拿出来和问题作为输入,但是我不能保证单页一定有对应的输出(即qa问题的答案)。

谢谢

hehuang139 avatar Oct 17 '22 18:10 hehuang139

训练:没有答案的页可以采样一些,不需要全部放进去,包含答案的要全部保留 预测:所有页都要预测一遍,再综合一下结果

xueyongfu avatar Oct 18 '22 03:10 xueyongfu

训练:没有答案的页可以采样一些,不需要全部放进去,包含答案的要全部保留 预测:所有页都要预测一遍,再综合一下结果

xueyongfu avatar Oct 18 '22 03:10 xueyongfu

可以理解为对所有的结果取并集吗?这个好像长文本通过句号划分也是这种思路。很棒的思路!您觉得如果页数太多,无用的页也很多,对实际的结果的偏差会不会太大。这点有点担心。还有就是如果单页的文本过多,是否还需要继续拆分? 通过页进行拆分的思路,如果存在答案跨页的页呢?我有个想法是在训练时候,标记过程发生跨页,就增加一个新的页(程序处理)作为输入,但是我也担心这样会影响实际的结果,因为这就要求在验证输入文档时,如果发生跨页也需要增加新页,同时这样其实也改变了bbox的2D信息。

hehuang139 avatar Oct 18 '22 03:10 hehuang139

layoutlm对一个layout页如果token太多目前是怎么处理的,也是用段落或者句号进行拆分吗?

hehuang139 avatar Oct 18 '22 03:10 hehuang139

layoutXLM是把一页拆成了最大长度为512的片段,然后再合并结果

xueyongfu avatar Oct 18 '22 03:10 xueyongfu