BallonsTranslator icon indicating copy to clipboard operation
BallonsTranslator copied to clipboard

希望能增加第三方ocr的api接口

Open TXT2GAM opened this issue 1 year ago • 13 comments

本地跑ocr太吃显卡,而且效果也不如大公司的ocr api

TXT2GAM avatar Oct 09 '23 09:10 TXT2GAM

请问哪家的ocr api对日语识别最好

gomingge avatar Oct 17 '23 02:10 gomingge

请问哪家的ocr api对日语识别最好

有道 注册送10元体验金

lhj5426 avatar Oct 17 '23 07:10 lhj5426

请问哪家的ocr api对日语识别最好

有道 注册送10元体验金

我会改,不过试了下,有道日语识别并不是很好,官方也说了只达到90%,可能自己训练针对漫画ocr比较好吧

gomingge avatar Oct 19 '23 09:10 gomingge

请问哪家的ocr api对日语识别最好

In the territory outside of China, the best ocr is google. But the same Google does not understand the very strange text used in the manga at all, such as sounds and a distorted font. I think the same with you, it makes no sense for companies to train ocr on such data, and accordingly, while MANGAOCR and MIT remain more or less working.

bropines avatar Oct 19 '23 09:10 bropines

请问哪家的ocr api对日语识别最好

In the territory outside of China, the best ocr is google. But the same Google does not understand the very strange text used in the manga at all, such as sounds and a distorted font. I think the same with you, it makes no sense for companies to train ocr on such data, and accordingly, while MANGAOCR and MIT remain more or less working.

你说的是拟声词吧,这种拟声词就连大部分专业的翻译组也会选择保留不翻译

TXT2GAM avatar Oct 19 '23 09:10 TXT2GAM

请问哪家的ocr api对日语识别最好

In the territory outside of China, the best ocr is google. But the same Google does not understand the very strange text used in the manga at all, such as sounds and a distorted font. I think the same with you, it makes no sense for companies to train ocr on such data, and accordingly, while MANGAOCR and MIT remain more or less working.

你说的是拟声词吧,这种拟声词就连大部分专业的翻译组也会选择保留不翻译

拟声词可以忽略,问题不大。主要是一些老的漫画,或者是单张漫画文字过多,某些文字过小。以及扭曲的日文无法识别。如果翻译多了就会发现,可能是我的要求比较高,希望有98%识别成功率。

gomingge avatar Oct 19 '23 09:10 gomingge

请问哪家的ocr api对日语识别最好

In the territory outside of China, the best ocr is google. But the same Google does not understand the very strange text used in the manga at all, such as sounds and a distorted font. I think the same with you, it makes no sense for companies to train ocr on such data, and accordingly, while MANGAOCR and MIT remain more or less working.

你说的是拟声词吧,这种拟声词就连大部分专业的翻译组也会选择保留不翻译

拟声词可以忽略,问题不大。主要是一些老的漫画,或者是单张漫画文字过多,某些文字过小。以及扭曲的日文无法识别。如果翻译多了就会发现,可能是我的要求比较高,希望有98%识别成功率。

Well, we are a bit finished in Russia and even draw sounds in a new way. There's also the fact that yes, we will add for example youdao или paddleOCR. They are really better at recognizing plain text, but they often ignore handwritten text, recognize explanations (which is not always good in manga). Also, embedding in the current implementation of the api program for sending to ocd services and receiving json with text from them is a little more of a problem

bropines avatar Oct 19 '23 10:10 bropines

首先虽然这个项目已经是个缝合怪了但我认为第三方api不是越多越好,加一些劣化的api到核心模块浪费我的时间也浪费用户的时间。 所以除非有有力证据(至少三张以上的图,至少给原图和这个第三方方api的识别结果)支持某些第三方api在某些漫画图片上的表现好过现有ocr,我不打算加。如果有哪家ocr效果确实不错我们也可以用来洗数据炼表现相近的模型。我知道22年年初市面上的所有ocr在漫画上的表现都不太行,当然这个判断随时可能过时。 其次是速度问题,现在有消费级n卡或者m1及以上芯片跑这些东西都不慢,你要是不需要手动编辑可以直接用colab或者kaggle跑manga image translator。

最后是ocr表现问题,我们训练用的是合成数据加脏数据,脏数据主要来源是manga109,要是有人想贡献劳动力洗数据啥的可以加manga image translator那个discord频道和管理聊下。当然大厂有能力去收集和处理这些数据改进他们的模型在漫画上的表现,只是他们好像一直没有发现这些问题或者不重视,所以你们可以尝试引起大厂重视漫画场景优化他们的模型,我们也就可以用他们的api去洗数据炼免费开源的模型。

dmMaze avatar Oct 19 '23 11:10 dmMaze

首先虽然这个项目已经是个缝合怪了但我认为第三方api不是越多越好,加一些劣化的api到核心模块浪费我的时间也浪费用户的时间。 所以除非有有力证据(至少三张以上的图,至少给原图和这个第三方方api的识别结果)支持某些第三方api在某些漫画图片上的表现好过现有ocr,我不打算加。如果有哪家ocr效果确实不错我们也可以用来洗数据炼表现相近的模型。我知道22年年初市面上的所有ocr在漫画上的表现都不太行,当然这个判断随时可能过时。 其次是速度问题,现在有消费级n卡或者m1及以上芯片跑这些东西都不慢,你要是不需要手动编辑可以直接用colab或者kaggle跑manga image translator。

最后是ocr表现问题,我们训练用的是合成数据加脏数据,脏数据主要来源是manga109,要是有人想贡献劳动力洗数据啥的可以加manga image translator那个discord频道和管理聊下。当然大厂有能力去收集和处理这些数据改进他们的模型在漫画上的表现,只是他们好像一直没有发现这些问题或者不重视,所以你们可以尝试引起大厂重视漫画场景优化他们的模型,我们也就可以用他们的api去洗数据炼免费开源的模型。

I have this weird question. If I find a bunch of people who will be able to mark up a dataset for ocr can I get the raw dataset somewhere to give to my team? Like we can improve recognition at the expense of a hundred Russian and foreign enthusiasts, who I think would gladly want to help out

bropines avatar Oct 19 '23 12:10 bropines

首先虽然这个项目已经是个缝合怪了但我认为第三方api不是越多越好,加一些劣化的api到核心模块浪费我的时间也浪费用户的时间。 所以除非有有力证据(至少三张以上的图,至少给原图和这个第三方方api的识别结果)支持某些第三方api在某些漫画图片上的表现好过现有ocr,我不打算加。如果有哪家ocr效果确实不错我们也可以用来洗数据炼表现相近的模型。我知道22年年初市面上的所有ocr在漫画上的表现都不太行,当然这个判断随时可能过时。 其次是速度问题,现在有消费级n卡或者m1及以上芯片跑这些东西都不慢,你要是不需要手动编辑可以直接用colab或者kaggle跑manga image translator。 最后是ocr表现问题,我们训练用的是合成数据加脏数据,脏数据主要来源是manga109,要是有人想贡献劳动力洗数据啥的可以加manga image translator那个discord频道和管理聊下。当然大厂有能力去收集和处理这些数据改进他们的模型在漫画上的表现,只是他们好像一直没有发现这些问题或者不重视,所以你们可以尝试引起大厂重视漫画场景优化他们的模型,我们也就可以用他们的api去洗数据炼免费开源的模型。

I have this weird question. If I find a bunch of people who will be able to mark up a dataset for ocr can I get the raw dataset somewhere to give to my team? Like we can improve recognition at the expense of a hundred Russian and foreign enthusiasts, who I think would gladly want to help out

You may join discord of manga-image-translator and discuss there, any help would be appreciated

dmMaze avatar Oct 19 '23 12:10 dmMaze

请问哪家的ocr api对日语识别最好

有道 注册送10元_体验_金

我会改,不过试了下,有道日语识别并不是很好,官方也说了只达到90%,可能自己训练针对漫画ocr比较好吧

我做了快100部漫画 https://exhentai.org/?f_search=uploader%3Allflzy+uploader%3A%E6%B7%AB%E4%B9%A6%E9%A6%86+uploader%3AL%E6%B7%AB%E4%B9%A6%E9%A6%86L+uploader%3A%E6%B7%AB%E6%9B%B8%E9%A6%86

90多部PPT视频 image

在本地OCR出现差错的问题 都是用有道进行补漏OCR的 所以我觉得有道是最好的 百度 腾讯 火山 等所有API 我都有 这是我自己亲自使用下来的体验 结果 我买了panda 各种OCR的API都白嫖过一遍 最后日文还是有道最好 image

lhj5426 avatar Oct 19 '23 16:10 lhj5426

试了下, 有道ocr确实很厉害, 对于模糊图片,以及各种分辨率图片基本上日语识别基本上完美, 目前我计划在manga image translator项目增加有道ocr接口, 就是ocr成本太高, 翻译大量漫画不划算, 希望后续有人有精力基于这个ocr去洗数据, 练新的模型

gomingge avatar Nov 10 '23 02:11 gomingge

试了下, 有道ocr确实很厉害, 对于模糊图片,以及各种分辨率图片基本上日语识别基本上完美, 目前我计划在manga image translator项目增加有道ocr接口, 就是ocr成本太高, 翻译大量漫画不划算, 希望后续有人有精力基于这个ocr去洗数据, 练新的模型

我识别了数万页漫画 离线日文OCR 识别率还是很高的 在线API 在润色的时候查缺补漏就行 不需要全程用API

lhj5426 avatar Nov 10 '23 04:11 lhj5426