Results 15 comments of Saicoco
trafficstars

Sorry to I reply to so late, I didn't train it on icdar, the backgroud, border and text area are imbalance, so you need to add OHEM or other balanced...

路过,对于大规模数据读取,LMDB因为是顺序读取,随着数据量的增加io会成为瓶颈。这类问题可以采用类似tfrecord的处理方式,将数据进行分片,在分片内部顺序读取,分片间随机读取。 可使用工具:webdataset,pickle,tar等。 读取工具可以使用torchdata,目前已经可以较好支持webdataset等类似tar的读取。 另外一个问题是大规模数据的准备:可以借助spark等工具加速数据的生成

> > 可以将padding换为left, 然后取outputs.last_hidden_state[:, -1, :] > > code = """ > > !pip install -q transformers bitsandbytes accelerate torch Pillow decord flash-attn --no-build-isolation > > from transformers import AutoTokenizer,...