chinese-layoutlm-v2 layoutlm信息提取

您好，不好意思，又来请教这个问题！最近一段研究后，我大致能理解layoutlm的思路。我还是想请教下关于训练和下游任务的问题

我的下游任务是从文档中抽取信息以及QA问题，如一片论文（是整个论文文档docx）抽取作者，题目等。qa问题（有可能在文档的任意位置）关于训练方面，我的文档有几百页，但是其中的信息只有个别几页才有，比如说1,5,10页的一部分信息，那我的fine-tuning训练集要怎么构建？是每页都需要转换，还是只有有答案的页才标记（比如说qa任务）。

以及我的下游任务要设计，训练完的模型要怎么应用，我有一个新的文档（整个文档吗？），以及问题，要怎么使用新的文档以及问题作为输入，如果是bert，直接可以通过[cls]question pad [sep] question[sep]来构建下游任务，那如果是新文档，难道我要把整个文档作为输入？这显然不可能。这点非常困扰我。我也考虑过单页拿出来和问题作为输入，但是我不能保证单页一定有对应的输出（即qa问题的答案）。

谢谢

Oct 17 '22 18:10 hehuang139

训练：没有答案的页可以采样一些，不需要全部放进去，包含答案的要全部保留预测：所有页都要预测一遍，再综合一下结果

Oct 18 '22 03:10 xueyongfu

训练：没有答案的页可以采样一些，不需要全部放进去，包含答案的要全部保留预测：所有页都要预测一遍，再综合一下结果

Oct 18 '22 03:10 xueyongfu

可以理解为对所有的结果取并集吗？这个好像长文本通过句号划分也是这种思路。很棒的思路！您觉得如果页数太多，无用的页也很多，对实际的结果的偏差会不会太大。这点有点担心。还有就是如果单页的文本过多，是否还需要继续拆分？通过页进行拆分的思路，如果存在答案跨页的页呢？我有个想法是在训练时候，标记过程发生跨页，就增加一个新的页（程序处理）作为输入，但是我也担心这样会影响实际的结果，因为这就要求在验证输入文档时，如果发生跨页也需要增加新页，同时这样其实也改变了bbox的2D信息。

Oct 18 '22 03:10 hehuang139

layoutlm对一个layout页如果token太多目前是怎么处理的，也是用段落或者句号进行拆分吗？

Oct 18 '22 03:10 hehuang139

layoutXLM是把一页拆成了最大长度为512的片段，然后再合并结果

Oct 18 '22 03:10 xueyongfu

chinese-layoutlm-v2 chinese-layoutlm-v2 copied to clipboard

layoutlm信息提取

chinese-layoutlm-v2
chinese-layoutlm-v2 copied to clipboard