Linjie Chen comments

Results 92 comments of


                                            Linjie Chen

[UIE Issue]UIE关系抽取后执行evaluate.py文件发现，对性能评估的问题：关系的类居然是一条一条class 输出的，不应该是都属于一类输出吗

感谢反馈~我们优化下这部分体验 @dingidng

UIE多域/跨域事件抽取，schema如何构造，以及多个域都会得到抽取结果

@LiZeng001 你好， 1. 因为是开放域抽取，所以输入必须包含schema以引导模型抽取相应结果。对于事件域未知的语料，一阶段的抽取目标可以用『触发词』代替，例如： ```text {"触发词": ["时间", "赛事名称"]} ``` 相比零样本直接调用，更推荐在场景相关的语料上标注少量数据进行微调定制 2. 我们提供了UIE数据蒸馏的解决方案，可以将开放域抽取转为封闭域抽取，这样就不会有schema遍历的问题，具体可以参考这里的例子：https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/uie/data_distill

[UIE Slim Issue]UIE Slim 数据蒸馏中：预测无监督数据的标签以及学生模型训练中样本处理方式选择是否可以多样化？

1. 学生模型支持同时进行实体、关系和事件抽取任务，观点抽取前后处理和其他类型任务稍微有些区别 2. 同源指的是和已有标注数据来源相同的无监督数据，在具体的业务场景中就是业务相关的无标注文本 3. 示例主要展示的是小样本定制模型从开放域到封闭域迁移的流程，当然如果标注数据足够多的话是可以直接用封闭域模型训练的

[UIE Slim Issue]UIE Slim 数据蒸馏中：预测无监督数据的标签以及学生模型训练中样本处理方式选择是否可以多样化？

会的，UIE后续会提供更多模型压缩的解决方案来进一步提升预测性能，欢迎持续关注~CPU端目前Taskflow在paddlenlp 2.3.2版本之后会默认使用多核推理，多卡推理目前可以通过Taskflow传入device_id来实现

[Question]: UIE 关系抽取和实体抽取是否可以混合标注训练呢

可以混合标注训练，参考doccano标注指南里面不同任务的标注方式标注即可，https://github.com/PaddlePaddle/PaddleNLP/blob/develop/model_zoo/uie/doccano.md

[Question]: UIE 关系抽取和实体抽取是否可以混合标注训练呢

> > 这玩意必须可以，本来uie就是多任务训练出来的 > > 那当句子较长的时候，存在多个关系，而UIE只会输出一个概率最大的关系，这个怎么办呢？ UIE默认会输出满足关系阈值的所有可能结果，例如这个例子中主办方和承办方这两个关系类别 ```python >>> schema = {'竞赛名称': ['主办方', '承办方', '已举办次数']} # Define the schema for relation extraction >>> ie.set_schema(schema) # Reset schema >>> pprint(ie('2022语言与智能技术竞赛由中国中文信息学会和中国计算机学会联合主办，百度公司、中国中文信息学会评测工作委员会和中国计算机学会自然语言处理专委会承办，已连续举办4届，成为全球最热门的中文NLP赛事之一。')) [{'竞赛名称':...

UIE关系抽取，用自己的数据微调训练后，有些抽取的关系会乱串

感谢反馈问题！关于多关系乱窜的情况以及自己标注的正样本数据能否给几个例子看下。当前UIE关系抽取任务的负例构造主要是包含以下三种形式 1) 反关系负例（如：b的B，b为A的B的抽取结果） 2) 随机替换A负例（如：C的B，C为文本中不包含的实体） 3) 随机替换B负例（如：A的D，D为文本中不包含的实体类型）

UIE关系抽取时同一句话存在多个关系怎么构建schema？

推荐同时标注更高效一些，按照你的标注标签定义对应的schema应该是[{'方面': ['概括描述', '具体描述', '性能描述']}]

UIE关系抽取时同一句话存在多个关系怎么构建schema？

UIE默认会输出所有大于概率阈值的抽取结果 ```python >>> ie = Taskflow("information_extraction", schema={"评价维度":"观点词"}) >>> ie("早餐很好并且房间很干净") >>> pprint(ie("早餐很好并且房间很干净")) [{'评价维度': [{'end': 8, 'probability': 0.9876017673144375, 'relations': {'观点词': [{'end': 11, 'probability': 0.989785349373669, 'start': 9, 'text': '干净'}]}, 'start': 6, 'text': '房间'},...

[Bug]: ERNIE-LayoutX 按照示例程序运行demo 报错： IndexError: list index out of range

感谢反馈~paddleocr 新版本（>=2.6.0.2）对输出格式做了更新，我们修复下这个问题