有几个小建议：

1、建议这个配置设置 "qa_prefix": "问",能否增加更多的前缀？例如 "qa_prefix": "问"、“再”、“继续”；这个 "search_prefix": "搜", 配置是否也能增加更多的前缀设置？

2、追问时间5分钟有点太短了，能否可以在chonfig.py中自定义时长，相应的也变成“{ 自定义的时间}内可追问”（考虑到第一点可能会增加几个前缀，所以这样写会好一些）

3、关于图像识别的中文问题，不知道你有没有发现使用openai 的GPT-4-V虽然能力很强，但是几乎无法识别中文。我有一个小小技巧，可以先将图像OCR识别出文字，OCR能力不用很强，GPT-4就能完全理解中文和其中的意思以及中文所在图像的位置，非常适合用在复杂的示意图或者流程图中。因此能不能找到一个免费的OCR，或者直接在代码中加入OCR功能，这样用openai 的GPT-4-V识别中文内容能力马上获得大幅提升。

我的提示词是：

任务目标

根据图像的内容，详细全面的分析图像的内容，请用中文输出分析结果。

图像内容

如果图像内容是示意图或者流程图，应结合文字内容，详细全面一步步的分析和解释示意图或者流程图。

文字内容

如果内容包含的主要是英文内容，或者没有文字内容，请忽略以下我提供的文字内容。如果内容包含了较多的中文内容，可以参考以下我帮助你识别好的中文内容。以下是OCR识别的文字内容，可能有错别字，供参考： {OCR识别内容}

Dec 12 '23 03:12 MILKMILKKING

问题 3 方案太复杂了，还不如期待技术进步。问题1 和 2，能不能提个 PR 哈哈

MILKMILKKING @.***>于2023年12月12日周二11:27写道：

有几个小建议：

1、建议这个配置设置 "qa_prefix": "问",能否增加更多的前缀？例如 "qa_prefix": "问"、“再”、“继续”；这个 "search_prefix": "搜", 配置是否也能增加更多的前缀设置？

2、追问时间5分钟有点太短了，能否可以在chonfig.py中自定义时长，相应的也变成“{ 自定义的时间}内可追问”（考虑到第一点可能会增加几个前缀，所以这样写会好一些）

3、关于图像识别的中文问题，不知道你有没有发现使用openai 的GPT-4-V虽然能力很强，但是几乎无法识别中文。我有一个小小技巧，可以先将图像OCR识别出文字，OCR能力不用很强，GPT-4就能完全理解中文和其中的意思以及中文所在图像的位置，非常适合用在复杂的示意图或者流程图中。因此能不能找到一个免费的OCR，或者直接在代码中加入OCR功能，这样用openai 的GPT-4-V识别中文内容能力马上获得大幅提升。

我的提示词是：任务目标

根据图像的内容，详细全面的分析图像的内容，请用中文输出分析结果。图像内容

如果图像内容是示意图或者流程图，应结合文字内容，详细全面一步步的分析和解释示意图或者流程图。文字内容

如果内容包含的主要是英文内容，或者没有文字内容，请忽略以下我提供的文字内容。如果内容包含了较多的中文内容，可以参考以下我帮助你识别好的中文内容。以下是OCR识别的文字内容，可能有错别字，供参考： {OCR识别内容}

— Reply to this email directly, view it on GitHub https://github.com/fatwang2/sum4all/issues/25, or unsubscribe https://github.com/notifications/unsubscribe-auth/A77NZSTVTKJZ2F2HG42ZUWDYI7FLHAVCNFSM6AAAAABAQY2YX2VHI2DSMVQWIX3LMV43ASLTON2WKOZSGAZTMOJQGMZDONA . You are receiving this because you are subscribed to this thread.Message ID: @.***>

Dec 12 '23 11:12 fatwang2

Gemini 的图像识别效果还不错，应该是因为Google 自己有OCR 技术，代码更新了，你试试

Dec 17 '23 03:12 fatwang2

优化建议：扩展命令前缀、自定义追问时长和集成OCR功能以提升GPT-4中文图像识别能力

任务目标

图像内容

文字内容