桐原因

Results 63 comments of 桐原因

> 将task type embedding也加上了 torch pooled output:+ task type embedding > > ``` > [[ 0.988166 -0.8854939 0.25455064 -0.58845514 0.93798053 0.8004532 > -0.89700645 0.09135557 -0.9623787 -0.9367434 -0.5948328 0.21737 > -0.85140526...

> @yysirs 请教一下,pytorch 是怎么做到 + task type embedding 的 我根据你的转换脚本还不能进行结果的复现 我提交的是不带task type embedding的版本,如果需要加task type embedding的话,BERTModel需要进行代码的更改,我后面可以把这个也提交一个pr😊

> 感谢!! 我刚刚重构了一下代码 好的,我刚提交了pr,大佬可以看看😁

> 嗯嗯,我感觉最好的方案还是直接给huggingface发起一个mr,让其支持task type 这个参数 可以,我感觉可以把ERNIEModel 提交,毕竟Transformers现在还不支持ERNIEModel😂😂😂😂😂

![image](https://user-images.githubusercontent.com/43271630/160592818-c195d4da-0790-4455-9391-29981234f20e.png)

查看了一下问题,发现是由于label变成sparse导致的。稀疏化可能会防止内存爆炸,但是导致在多卡运行时出现问题,希望把生成labels的过程放在collate_fn中,每个batch去生成就应该不会有问题了。

GlobalPoint的label是三维矩阵,直接生成label并放入内存中,如果实体数目很多,训练语料又很大。对于配置一般的同学训练起来应该挺难受的,为了能够较好的循环利用内存资源,私认为把生成label的过程放在collate_fn中这样是比较合适的。提供一个小建议,作者大大考虑一下~

``` import torch import warnings from ark_nlp.factory.loss_function import get_loss from ark_nlp.factory.utils import conlleval from ark_nlp.factory.task.base._token_classification import TokenClassificationTask from ark_nlp.factory.utils.ema import EMA from torch.utils.data._utils.collate import default_collate class GlobalPointerNERTask(TokenClassificationTask): """ GlobalPointer的命名实体识别Task Args:...

哈哈哈 也是希望自己能做点贡献 不能白嫖😂😂😂

workerlog.1日志: ``` ---------------------- Error Message Summary: ---------------------- FatalError: `Process abort signal` is detected by the operating system. [TimeInfo: *** Aborted at 1651162139 (unix time) try "date -d @1651162139" if you...