Theodore Teach

Results 53 comments of Theodore Teach

> 这个 `/eng` 是你的业务路径吧,不能把业务代码侵入到框架代码中去 是的,那是我的业务路径,不知道有什么方法可以配置?

> > 我没有时间进一步研究这个问题。它仍然是有问题的 AFAICT,最近在 5.0.5 上调试深度构造的画布任务时,我在自己的工作中看到了它的症状。我现在将取消分配并将其放入 5.2 中,但如果它在此之前登陆 5.1.x 版本会很好(尽管 5.1.0 似乎不太可能!如果可能,Ping 并重新分发。 > > 没有压力。我们将很快重新审视这个问题和相关的画布问题。我有一些积压工作。清洁后会检查 Hi, > > I haven't had time to look further into this issue. It...

可能要训练吧,感觉直接开始用的效果不是很好。

> 程序开始实例化paddleocr类,开启mkldnn加速 ![image](https://private-user-images.githubusercontent.com/153340967/349335333-58a88767-d9a8-492c-9dbf-f837dc3010e4.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MzUxNzkyODIsIm5iZiI6MTczNTE3ODk4MiwicGF0aCI6Ii8xNTMzNDA5NjcvMzQ5MzM1MzMzLTU4YTg4NzY3LWQ5YTgtNDkyYy05ZGJmLWY4MzdkYzMwMTBlNC5wbmc_WC1BbXotQWxnb3JpdGhtPUFXUzQtSE1BQy1TSEEyNTYmWC1BbXotQ3JlZGVudGlhbD1BS0lBVkNPRFlMU0E1M1BRSzRaQSUyRjIwMjQxMjI2JTJGdXMtZWFzdC0xJTJGczMlMkZhd3M0X3JlcXVlc3QmWC1BbXotRGF0ZT0yMDI0MTIyNlQwMjA5NDJaJlgtQW16LUV4cGlyZXM9MzAwJlgtQW16LVNpZ25hdHVyZT02MDFlNTg5YmU1YmViZGQ5OWI3NjM1NDkzZTRlZDVhMmNkYWEyNGM1NDJhYjcxNjhjMjg0M2EwNmEyMGFlMGY5JlgtQW16LVNpZ25lZEhlYWRlcnM9aG9zdCJ9.jR_6HHWuMMJyBbj09nT-nEBmdT4vZ5Lt2TZnmmZBWko) 后循环执行对pdf文件的文字识别。 出现的问题是正常执行一个pdf文件的识别,报错一个,再正常执行一个,交替出现。 报错内容如下 ![image](https://private-user-images.githubusercontent.com/153340967/349335093-df959a28-3ec9-40ac-9da3-fe2d2446dfac.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MzUxNzkyODIsIm5iZiI6MTczNTE3ODk4MiwicGF0aCI6Ii8xNTMzNDA5NjcvMzQ5MzM1MDkzLWRmOTU5YTI4LTNlYzktNDBhYy05ZGEzLWZlMmQyNDQ2ZGZhYy5wbmc_WC1BbXotQWxnb3JpdGhtPUFXUzQtSE1BQy1TSEEyNTYmWC1BbXotQ3JlZGVudGlhbD1BS0lBVkNPRFlMU0E1M1BRSzRaQSUyRjIwMjQxMjI2JTJGdXMtZWFzdC0xJTJGczMlMkZhd3M0X3JlcXVlc3QmWC1BbXotRGF0ZT0yMDI0MTIyNlQwMjA5NDJaJlgtQW16LUV4cGlyZXM9MzAwJlgtQW16LVNpZ25hdHVyZT0xYTdhZmZlOTQxMGU2N2Q5YTI2ZjFkMjEzMDgzN2VkYmRlMmY0MDIzYjcxMjE3ZTg1NzE4ZTFiMDRiNDIyYzAyJlgtQW16LVNpZ25lZEhlYWRlcnM9aG9zdCJ9.aqQg-3OG_a0_YddcyudJX7XkeSQyHejz1Et4hkabH3M) 关闭mkldnn加速后没有此问题。修改为每次对pdf文件进行识别之前重新实例化paddleocr类,也无此问题。但这样解决会导致时间大幅增加。 更换最新的paddleocr2.8.0版本无法解决。 请问这个问题的出现是什么因素导致的,以及解决的思路。或有无除了mkldnn之外其他的cpu加速方式? 确实是的,交替出现。刚遇到

> @DAAworld ,Hi, 我尝试写了一个脚本复现,并未发现报错,脚本如下,是否能够帮忙查看与你的使用是否有区别,另外想请问一下使用的cpu型号,我在 Intel(R) Core(TM) i7-9700K CPU @ 3.60GHz ,Intel(R) Xeon(R) Gold 6348 CPU @ 2.60GHz 等机型测试均通过,不知道是不是cpu型号过老引起的 > > ```python > import os > import multiprocessing as mp >...

73 {'type': 'icon', 'bbox': [0.30748462677001953, 0.7972637414932251, 0.5034134984016418, 0.8806127905845642], 'interactivity': True, 'content': 'A link to an email or message.'} ![Image](https://github.com/user-attachments/assets/c853c214-1625-40b2-b9ff-c1259490e6c1) such as 73.PARSED_CONATENT_LIST’content is 'A link to an email or message.',...

> > > 我加了个手动处理的逻辑,判断相邻表格,如果表格间没有换行符之外的其他符号,且表格的最大列数一致,则认为这两个表格应该合并。 如果可以的话再加上model.json里边,判断两个表格不在同一页再合并。 不过,最好还是希望框架层面可以解决这个问题 > > > > > > 可否咨询一下,如何添加手动处理的逻辑? > > 拿到解析结果之后: > > 1. 正则检索markdown中所有table标签; > 2. 如果两个table之间没有除了换行、空格之外的其他符号,且table的最大列数一致 > 3. 且content.json里边的这两个表格不在同一页,就认为是同一个表格,将第二个表格拼接到一起 ragflow的文件解析能合并跨页表格

> Have the same issue with 27B ... how to solve that?