fastNLP 请教使用StaticEmbedding时，遇到的一个问题

请教使用StaticEmbedding时，遇到的一个问题

Open mahatmaWM opened this issue 3 years ago • 1 comments

在使用StaticEmbedding时，为了兼顾最终模型能够被导出成TorchScript供线上CPP服务使用的时候，遇到一个问题，主要是在创建字典vocab vocab.from_dataset的时候，如果使用了官方推荐的no_create_entry_dataset参数，后续在导出向量weight的时候，其大小会比vocab尺寸更小，使得我在模型中将weight权重赋值给torch原生的nn.Embedding对象后，对某一些越界的token的index就无法解析了，看了一下源码，创建StaticEmbedding传入的vocab对象没有办法被更新（如果这里能够被更新，使得其大小与weight矩阵的大小一致，那么后续对token做index的时候，使用这个更小的vacab，也可以避免这个问题）。

由于显示问题，我把测试样例代码放附件了，更为细节的问题描述也放在了文件中 test.txt

Apr 15 '21 09:04 mahatmaWM

非常抱歉，这个问题目前解决起来比较麻烦。目前可能最好的办法就是不要使用no_create_entry_dataset, 对于上线的模型来说，这个参数实际上没有什么意义。

May 17 '21 14:05 yhcc

fastNLP fastNLP copied to clipboard

请教使用StaticEmbedding时，遇到的一个问题

fastNLP
fastNLP copied to clipboard