优化建议:扩展命令前缀、自定义追问时长和集成OCR功能以提升GPT-4中文图像识别能力
有几个小建议:
1、建议 这个配置设置 "qa_prefix": "问",能否增加更多的前缀?例如 "qa_prefix": "问"、“再”、“继续”; 这个 "search_prefix": "搜", 配置是否也能增加更多的前缀设置?
2、追问时间5分钟有点太短了,能否可以在chonfig.py中自定义时长,相应的也变成“{ 自定义的时间}内可追问”(考虑到第一点可能会增加几个前缀,所以这样写会好一些)
3、关于图像识别的中文问题,不知道你有没有发现使用openai 的GPT-4-V虽然能力很强,但是几乎无法识别中文。我有一个小小技巧,可以先将图像OCR识别出文字,OCR能力不用很强,GPT-4就能完全理解中文和其中的意思以及中文所在图像的位置,非常适合用在复杂的示意图或者流程图中。 因此能不能找到一个免费的OCR,或者直接在代码中加入OCR功能,这样用openai 的GPT-4-V识别中文内容能力马上获得大幅提升。
我的提示词是:
任务目标
根据图像的内容,详细全面的分析图像的内容,请用中文输出分析结果。
图像内容
如果图像内容是示意图或者流程图,应结合文字内容,详细全面一步步的分析和解释示意图或者流程图。
文字内容
如果内容包含的主要是英文内容,或者没有文字内容,请忽略以下我提供的文字内容。 如果内容包含了较多的中文内容,可以参考以下我帮助你识别好的中文内容。 以下是OCR识别的文字内容,可能有错别字,供参考: {OCR识别内容}
问题 3 方案太复杂了,还不如期待技术进步。问题1 和 2,能不能提个 PR 哈哈
MILKMILKKING @.***>于2023年12月12日 周二11:27写道:
有几个小建议:
1、建议 这个配置设置 "qa_prefix": "问",能否增加更多的前缀?例如 "qa_prefix": "问"、“再”、“继续”; 这个 "search_prefix": "搜", 配置是否也能增加更多的前缀设置?
2、追问时间5分钟有点太短了,能否可以在chonfig.py中自定义时长,相应的也变成“{ 自定义的时间}内可追问”(考虑到第一点可能会增加几个前缀,所以这样写会好一些)
3、关于图像识别的中文问题,不知道你有没有发现使用openai 的GPT-4-V虽然能力很强,但是几乎无法识别中文。我有一个小小技巧,可以先将图像OCR识别出文字,OCR能力不用很强,GPT-4就能完全理解中文和其中的意思以及中文所在图像的位置,非常适合用在复杂的示意图或者流程图中。 因此能不能找到一个免费的OCR,或者直接在代码中加入OCR功能,这样用openai 的GPT-4-V识别中文内容能力马上获得大幅提升。
我的提示词是: 任务目标
根据图像的内容,详细全面的分析图像的内容,请用中文输出分析结果。 图像内容
如果图像内容是示意图或者流程图,应结合文字内容,详细全面一步步的分析和解释示意图或者流程图。 文字内容
如果内容包含的主要是英文内容,或者没有文字内容,请忽略以下我提供的文字内容。 如果内容包含了较多的中文内容,可以参考以下我帮助你识别好的中文内容。 以下是OCR识别的文字内容,可能有错别字,供参考: {OCR识别内容}
— Reply to this email directly, view it on GitHub https://github.com/fatwang2/sum4all/issues/25, or unsubscribe https://github.com/notifications/unsubscribe-auth/A77NZSTVTKJZ2F2HG42ZUWDYI7FLHAVCNFSM6AAAAABAQY2YX2VHI2DSMVQWIX3LMV43ASLTON2WKOZSGAZTMOJQGMZDONA . You are receiving this because you are subscribed to this thread.Message ID: @.***>
Gemini 的图像识别效果还不错,应该是因为Google 自己有OCR 技术,代码更新了,你试试