PaddleNLP icon indicating copy to clipboard operation
PaddleNLP copied to clipboard

[Question]: 再使用UIE-X封闭域信息抽取时遇到的问题

Open lili-changjiang opened this issue 10 months ago • 18 comments

请提出你的问题

使用的是 paddlepaddle-gpu 2.5.2.post112 paddlenlp 2.5.2 protobuf 3.20.2 报错:ImportError: cannot import name 'DataCollatorForClosedDomainIE' from 'paddlenlp.data.data_collator' 求解

lili-changjiang avatar Apr 20 '24 07:04 lili-changjiang

paddlenlp 2.6.0 2.6.1 2.7.0 2.7.1 2.7.2 都试过也不行

lili-changjiang avatar Apr 20 '24 07:04 lili-changjiang

图片1 图片2

lili-changjiang avatar Apr 20 '24 08:04 lili-changjiang

我把 paddlepaddle-gpu 回退到 2.4.0rc0, cuda 回退到了10.2 然后 构建封闭域训练样本 就得到了label_maps.json, 我就开始准备训练, 一脸懵逼啊...

python train.py \
    --train_path data/train_data.json \
    --dev_path data/dev_data.json \
    --label_maps_path data/label_maps.json \
    --num_epochs 50 \
    --model_name_or_path ernie-3.0-base-zh

文档给出的训练数据和验证集 哪儿来的啊... 我最开始微调训练用过的吗? 我用训练和验证都指定训练时候用到的 label_studio.json,提示我 TypeError: list indices must be integers or slices, not str

我用 训练时候的 train.txt 和 dev.txt 然后提示我 KeyError: 'entity_list'... 好难啊 QAQ

zhaoqf-cq avatar Apr 20 '24 13:04 zhaoqf-cq

我把 paddlepaddle-gpu 回退到 2.4.0rc0, cuda 回退到了10.2 然后 构建封闭域训练样本 就得到了label_maps.json, 我就开始准备训练, 一脸懵逼啊...

python train.py \
    --train_path data/train_data.json \
    --dev_path data/dev_data.json \
    --label_maps_path data/label_maps.json \
    --num_epochs 50 \
    --model_name_or_path ernie-3.0-base-zh

文档给出的训练数据和验证集 哪儿来的啊... 我最开始微调训练用过的吗? 我用训练和验证都指定训练时候用到的 label_studio.json,提示我 TypeError: list indices must be integers or slices, not str

我用 训练时候的 train.txt 和 dev.txt 然后提示我 KeyError: 'entity_list'... 好难啊 QAQ

谢谢提供思路,我试试去

lili-changjiang avatar Apr 21 '24 04:04 lili-changjiang

我把 paddlepaddle-gpu 回退到 2.4.0rc0, cuda 回退到了10.2 然后 构建封闭域训练样本 就得到了label_maps.json, 我就开始准备训练, 一脸懵逼啊...

python train.py \
    --train_path data/train_data.json \
    --dev_path data/dev_data.json \
    --label_maps_path data/label_maps.json \
    --num_epochs 50 \
    --model_name_or_path ernie-3.0-base-zh

文档给出的训练数据和验证集 哪儿来的啊... 我最开始微调训练用过的吗? 我用训练和验证都指定训练时候用到的 label_studio.json,提示我 TypeError: list indices must be integers or slices, not str

我用 训练时候的 train.txt 和 dev.txt 然后提示我 KeyError: 'entity_list'... 好难啊 QAQ

还是不行,python data_convert.py --label_studio_file ../data/label_studio.json --splits 0.7 0.3 0 --task_type ext --layout_analysis True 我执行这个还是报错ImportError: cannot import name 'DataCollatorForClosedDomainIE' from 'paddlenlp.data.data_collator',你用的paddlenlp是哪个版本

lili-changjiang avatar Apr 21 '24 05:04 lili-changjiang

我把 paddlepaddle-gpu 回退到 2.4.0rc0, cuda 回退到了10.2 然后 构建封闭域训练样本 就得到了label_maps.json, 我就开始准备训练, 一脸懵逼啊...

python train.py \
    --train_path data/train_data.json \
    --dev_path data/dev_data.json \
    --label_maps_path data/label_maps.json \
    --num_epochs 50 \
    --model_name_or_path ernie-3.0-base-zh

文档给出的训练数据和验证集 哪儿来的啊... 我最开始微调训练用过的吗? 我用训练和验证都指定训练时候用到的 label_studio.json,提示我 TypeError: list indices must be integers or slices, not str 我用 训练时候的 train.txt 和 dev.txt 然后提示我 KeyError: 'entity_list'... 好难啊 QAQ

还是不行,python data_convert.py --label_studio_file ../data/label_studio.json --splits 0.7 0.3 0 --task_type ext --layout_analysis True 我执行这个还是报错ImportError: cannot import name 'DataCollatorForClosedDomainIE' from 'paddlenlp.data.data_collator',你用的paddlenlp是哪个版本

我没有使用NLP... 我直接使用的源码, 在ide 里面运行这个 data_convert.py

zhaoqf-cq avatar Apr 21 '24 09:04 zhaoqf-cq

我把 paddlepaddle-gpu 回退到 2.4.0rc0, cuda 回退到了10.2 然后 构建封闭域训练样本 就得到了label_maps.json, 我就开始准备训练, 一脸懵逼啊...

python train.py \
    --train_path data/train_data.json \
    --dev_path data/dev_data.json \
    --label_maps_path data/label_maps.json \
    --num_epochs 50 \
    --model_name_or_path ernie-3.0-base-zh

文档给出的训练数据和验证集 哪儿来的啊... 我最开始微调训练用过的吗? 我用训练和验证都指定训练时候用到的 label_studio.json,提示我 TypeError: list indices must be integers or slices, not str 我用 训练时候的 train.txt 和 dev.txt 然后提示我 KeyError: 'entity_list'... 好难啊 QAQ

还是不行,python data_convert.py --label_studio_file ../data/label_studio.json --splits 0.7 0.3 0 --task_type ext --layout_analysis True 我执行这个还是报错ImportError: cannot import name 'DataCollatorForClosedDomainIE' from 'paddlenlp.data.data_collator',你用的paddlenlp是哪个版本

我没有使用NLP... 我直接使用的源码, 在ide 里面运行这个 data_convert.py

我安装的paddlenlp2.5.2,然后把 add-doc-ie里面那个paddlenlp替换我自己的paddlenlp D:\Anaconda\envs\table\Lib\site-packages\paddlenlp,就问题了

lili-changjiang avatar Apr 22 '24 02:04 lili-changjiang

可以使用较早版本的paddlenlp,比如paddlenlp2.5.2及其以下

w5688414 avatar Apr 22 '24 10:04 w5688414

下面几个版本2.3.x 2.4.x都试过,都有问题

lili-changjiang avatar Apr 23 '24 06:04 lili-changjiang

是不是我们看到的文档都是错误的.... https://github.com/PaddlePaddle/PaddleNLP/issues/8074 这里面说的,暂不支持...

zhaoqf-cq avatar Apr 23 '24 13:04 zhaoqf-cq

我咨询了一下,DataCollatorForClosedDomainIE 这个暂停开发了,欢迎开发者贡献,或者使用大模型的解决方案。

w5688414 avatar Apr 25 '24 02:04 w5688414

我咨询了一下,DataCollatorForClosedDomainIE 这个暂停开发了,欢迎开发者贡献,或者使用大模型的解决方案。

大模型不方便本地化部署, 离线使用不方便...

zhaoqf-cq avatar Apr 25 '24 14:04 zhaoqf-cq

用显存比较大的显卡,使用fp16或者量化后的模型进行推理部署

w5688414 avatar May 11 '24 12:05 w5688414

用显存比较大的显卡,使用fp16或者量化后的模型进行推理部署

训练我试过24GB的3090,还有就是16GB的4080s, 想在CPU进行推理部署,使用CPU进行推理,服务器级别的CPU,单核能力不强 推理不出来结果... 是那种卡半个小时,然后结果输出还是为空

zhaoqf-cq avatar May 11 '24 13:05 zhaoqf-cq

目前UIE技术已经停止开发了,cpu的话,使用更轻量化的模型(精度会下降),但不建议使用cpu推理,另外欢迎开发者贡献。

w5688414 avatar May 13 '24 04:05 w5688414

目前UIE技术已经停止开发了,cpu的话,使用更轻量化的模型(精度会下降),但不建议使用cpu推理,另外欢迎开发者贡献。

好吧... 目前还行并没有其他能微调的更小的模型了吧,希望有大佬来贡献一下....

zhaoqf-cq avatar May 13 '24 10:05 zhaoqf-cq

uie-small可以,目前由于人力原因,第三方可以贡献一下

w5688414 avatar May 13 '24 16:05 w5688414

请提出你的问题

使用的是 paddlepaddle-gpu 2.5.2.post112 paddlenlp 2.5.2 protobuf 3.20.2 报错:ImportError: cannot import name 'DataCollatorForClosedDomainIE' from 'paddlenlp.data.data_collator' 求解

ac98908819853894e7d22170fa67174 可以试试这种,这个代码是 https://github.com/linjieccc/PaddleNLP/tree/add-doc-ie/ 分支拉取的

ahahaha-zxp avatar May 15 '24 03:05 ahahaha-zxp

This issue is stale because it has been open for 60 days with no activity. 当前issue 60天内无活动,被标记为stale。

github-actions[bot] avatar Jul 15 '24 00:07 github-actions[bot]

This issue was closed because it has been inactive for 14 days since being marked as stale. 当前issue 被标记为stale已有14天,即将关闭。

github-actions[bot] avatar Jul 29 '24 00:07 github-actions[bot]