Yu Li

Results 5 issues of Yu Li

博主好: 看到你的文章有一些思考, 中文状态下, apple就是苹果, china就是中国, 而bert的输入是字符级别的,那么在做soft position的时候, 苹果和中国, 属于同一个索引还是分开索引, 分开索引的话visible matric应该怎么构建, 谢谢.

文章给出的lattcie-lstm的结构与我看到的[Chinese NER Using Lattice LSTM](https://arxiv.org/pdf/1805.02023.pdf)有点不一样, 有个问题想要请教一下, 按照[Chinese NER Using Lattice LSTM](https://arxiv.org/pdf/1805.02023.pdf)中的构建方法, 重庆人和药店应该会提取出[重庆, 重庆人, 人和药店, 药店]四个词, 请问是如何剔除重庆人人这个词的. 文章中只提到“Some words in lattice may be important for NER. ”, 能给出如果筛选这些重要的词的么?

使用resume_from_checkpoint导入已训练的checkpoint和adapter,报如下错误: ![image](https://github.com/pengxiao-song/LaWGPT/assets/8037442/4cf97dcc-54ca-4cb9-aec6-c7a9b63fcf46) 请问是否遇到类似的问题?

Adjust pad token before count the number of tokens

你好,我在使用piccolo-embedding代码分别加载stella-mrl-large-zh-v3.5-1792d和tao-8k两种模型分别在3090和A800上对比显存占用存在一些差异,请问这个怎么解释? 分别使用3090和A800加载stella-mrl-large-zh-v3.5-1792d(MAX_LENGTH=512)时显存占用基本符合预期, 3090单卡最大可以支撑112个batch, A800单卡最大可以支撑240个batch。但是加载tao-8k(MAX_LENGTH=8192)出现了不一样的表现, 3090单卡最大可以支撑12个batch,A800单卡最大可以支撑6个batch。 stella-mrl-large-zh-v3.5-1792d的模型大小为1248M和tao-8k的模型大小为1278M,两者的差异只有embedding层的30M差异。 训练过程中的显存占用细节如下: ![image](https://github.com/user-attachments/assets/0723e0e8-eac5-4107-8ddc-d0f7445a9d05) ![image](https://github.com/user-attachments/assets/873cd917-62e6-4ab1-ae61-7c988772d467)