FinanceChatGLM
FinanceChatGLM copied to clipboard
SMP 2023 ChatGLM金融大模型挑战赛 60 分baseline思路介绍
SMP 2023 ChatGLM 金融大模型挑战赛 60 分 Baseline 思路
队伍: 小打小闹
数据提取整体过程

PDF 表格识别结果对比

自研PDF表格识别逻辑

主要步骤:
- 定位表格区域
- 识别单元格
- 跨页表格合并
识别单元格并生成表格算法伪代码

基于有限状态机的数据提取

资产负债表示意图 (三大表之一) 数据入库

主要内容:
- 公司基本信息
- 资产负债表
- 现金流量表
- 利润表
- 公司员工信息
公司全称与简称及代码对照

信息从表格转为文本描述
公司员工信息

文本描述示例: 安靠智电
安靠智电(股票代码:300617)在2019年共有642名职工,其中74人是研发人员,研发人员占比11.53%。该公司有10名硕士学历以上学历的员工,但没有博士学历的员工。
整体推理流程

⚠️ 不要相信大模型的数学能力
改进前

改进后
直接帮他算好。
安记食品2019年营业利润为49072627.15元, 2019年营业收入为421296738.60元。根据公式:
[ \text{营业利润率} = \frac{\text{营业利润}}{\text{营业收入}} \times 100 ]
得出结果安记食品2019年营业利润率为11.65%。
⚠️ 不要相信大模型的推理能力
建议 剔除冗余信息,否则可能无法得到正确答案。
"""