FlagEmbedding icon indicating copy to clipboard operation
FlagEmbedding copied to clipboard

数据长度超过512

Open changyunke opened this issue 1 year ago • 5 comments

作者,您好。我使用spaCy对文档处理,部分文本长度超过512,您提供的模型只能做截断处理吧?能否调整模型,适应最大文本长度呢?还是说超过512后,性能提升少没有意义

changyunke avatar Jan 03 '24 02:01 changyunke

您好,是的,超过512会被截断。目前模型训练时只开到了512,无法处理更长的长度。下一版本模型会提升最大文本长度。

staoxiao avatar Jan 03 '24 09:01 staoxiao

您好,是的,超过512会被截断。目前模型训练时只开到了512,无法处理更长的长度。下一版本模型会提升最大文本长度。

您好,方便告知下一版本什么时候发布吗?

mouju avatar Jan 24 '24 08:01 mouju

您好,是的,超过512会被截断。目前模型训练时只开到了512,无法处理更长的长度。下一版本模型会提升最大文本长度。

您好,方便告知下一版本什么时候发布吗?

您好,预定下个礼拜。

staoxiao avatar Jan 24 '24 09:01 staoxiao

您好,是的,超过512会被截断。目前模型训练时只开到了512,无法处理更长的长度。下一版本模型会提升最大文本长度。

您好,方便告知下一版本什么时候发布吗?

您好,预定下个礼拜。

不好意思,请问下一版本模型是指reranker吗?刚刚看到发了m3,reranker的下一版本有发布计划吗?

mouju avatar Jan 31 '24 02:01 mouju

您好,是的,超过512会被截断。目前模型训练时只开到了512,无法处理更长的长度。下一版本模型会提升最大文本长度。

您好,方便告知下一版本什么时候发布吗?

您好,预定下个礼拜。

不好意思,请问下一版本模型是指reranker吗?刚刚看到发了m3,reranker的下一版本有发布计划吗?

上面指的是embedding模型m3,reranker的下一版也在训练中。

staoxiao avatar Jan 31 '24 03:01 staoxiao