ChatGLM-6B icon indicating copy to clipboard operation
ChatGLM-6B copied to clipboard

[BUG/Help] 想要进行医疗实体信息提取,微调可行吗?

Open netwolf712 opened this issue 1 year ago • 2 comments

Is there an existing issue for this?

  • [X] I have searched the existing issues

Current Behavior

要求:从一段医生描述中提取医生所要表述的医疗实体, 比如: 输入:妇科B超检查:宫颈糜烂I°:建议一年左右复查宫颈液基超薄细胞学检查,若有相关症状,请妇科诊治。 输出:宫颈糜烂I°。

通过原始的chatGLM模型能提取出部分,准确率50%左右,这种情况下微调可行吗? 假如微调,训练数据如何收集会比较合理? 人工将提取出错的部分挑出来进行微调训练,得到结果后再次挑出来训练?

本人小白一枚,请各大神赐教。

Expected Behavior

No response

Steps To Reproduce

Environment

Anything else?

No response

netwolf712 avatar Apr 10 '23 05:04 netwolf712

也许可以试试few shot prompting或者p-tunning?

songxxzp avatar Apr 12 '23 04:04 songxxzp

p-tunning 可以

h3clikejava avatar Apr 13 '23 07:04 h3clikejava

通过p-tunning发现训练后可以得到比较理想的效果,感谢各位回复。

netwolf712 avatar Apr 20 '23 02:04 netwolf712

通过p-tunning发现训练后可以得到比较理想的效果,感谢各位回复。

大概可以提升到多少的准确率呀?

Zxr1314 avatar Apr 25 '23 03:04 Zxr1314

请问是直接把最终想要输入和输出作为微调的语料吗,比如这样: content:妇科B超检查:宫颈糜烂I°:建议一年左右复查宫颈液基超薄细胞学检查,若有相关症状,请妇科诊治。 summary:宫颈糜烂I°。

wenChingzhou avatar Jun 01 '23 01:06 wenChingzhou

通过p-tunning发现训练后可以得到比较理想的效果,感谢各位回复。

大佬你微调数据集是自己一条一条人工敲的吗

zhuozj22 avatar Jul 12 '23 09:07 zhuozj22