anxiangyi

Results 6 comments of anxiangyi

> 这里可以离线下载 https://paddlenlp.readthedocs.io/zh/latest/model_list.html 不好意思,我看到这个地址已经无法使用了,而且如果离线下载之后我应该如何使用它呢.

> sorry 最近更新了一下。 https://paddlenlp.readthedocs.io/zh/latest/website/index.html 可能你误解我的意思了,我是使用了我自己的模型Taskflow('information_extraction', schema=self.schema, model='paddlenlp/PP-UIE-0.5B',precision='float32'),我将我训练好的模型放到了.paddlenlp来使用我已经训练好的模型,但是当我离线使用时,会报错, ```shell [2025-04-27 10:01:23,559] [ INFO] - The unk_token parameter needs to be defined: we use eos_token by default. [2025-04-27 10:01:23,764] [ INFO] -...

> sorry 最近更新了一下。 https://paddlenlp.readthedocs.io/zh/latest/website/index.html 以下是我离线时,他的报错信息: ```python Traceback (most recent call last): File "D:\anaconda\envs\my_nlp\lib\site-packages\urllib3\connectionpool.py", line 464, in _make_request self._validate_conn(conn) File "D:\anaconda\envs\my_nlp\lib\site-packages\urllib3\connectionpool.py", line 1093, in _validate_conn conn.connect() File "D:\anaconda\envs\my_nlp\lib\site-packages\urllib3\connection.py", line 741, in...

> 你好文本的长度大概多少?`结尾部分文字没有抽取出来` 这个指的是 ` '合同结束时间': [{'text': '无相应实体'}], '合同编号': [{'text': '无相应实体'}],` 吗? 文本长度大概800多字 ```text 2.3工程内容:以总包合同中约定的冻结专业工程内容为基 础,包括冻结措施工程所包含的一切工作、工序(井筒净径3米, 冻结深度5630米)。 第3条分包合同价款 总包合同中冻结专业工程金额为人民币叁仟陆佰肆拾叁万柒仟肆佰壹 拾柒元整(小写:¥36437417元),甲乙双方商定该专业分包工程的最终结 算价款为甲方按照建设单位结算价款的97%支付给乙方(3%为甲方的现场管 理费用)。 双方约定合同价款的调整因素:执行总包合同中价款调整的规定。 第4条合同工期 4.1总工期日历天数:410天;其中:造孔、安装、积极冻 结期205天,维护冻结期205天。 开工日期:以建设单位开工令为准。 4.2严格按照建设单位批复的整体网络计划节点控制。 第5条质量标准 本工程质量标准为:合格,执行总包合同标准。 第6条分包工程结算与价款支付...

> 你好文本的长度大概多少?`结尾部分文字没有抽取出来` 这个指的是 ` '合同结束时间': [{'text': '无相应实体'}], '合同编号': [{'text': '无相应实体'}],` 吗? ``` { "model_name_or_path": "paddlenlp/PP-UIE-0.5B", "dataset_name_or_path": "./application/information_extraction/data", "output_dir": "./checkpoints/ie_ckpts", "per_device_train_batch_size": 5, "gradient_accumulation_steps": 1, "per_device_eval_batch_size": 2, "eval_accumulation_steps":8, "num_train_epochs": 50, "learning_rate": 1e-05,...

> 大概明白你的意思的。应该主要是你的数据 Label的长度非常长,PP-UIE训练的数据的标签相对较短,导致的原因。您这边标注的数据量有多大? 这边建议您,1、换用PP-UIE 7B 更大的模型有更好的泛化性。对长度的微调改变会更容易。2、在0.5B的基础上,继续添加训练数据。 好的,我这边看到,我的数据量目前大概是125条数据,第一个可能是因为我这边标注数据有嵌套实体的出现,现在正在修改我的标注数据,继续添加更多的标注数据来进行训练,如果效果还是不理想,我会使用7B的模型来尝试训练(可能硬件跟不上). 还有我想问一下大佬,假如标注的数据文本,比如合同结款条款有很多条连续的文字,比如第十二条这个大段落里面有很多小条如12.1,12.2,12.3等的合同条款,我是应该直接把这一大段都标注上合同结款标签,还是每一条都标注上合同结款标签.