bilingual_book_maker icon indicating copy to clipboard operation
bilingual_book_maker copied to clipboard

未来是否支持pdf格式 要是可以用这个看论文也会很快

Open DaviRain-Su opened this issue 1 year ago • 9 comments

DaviRain-Su avatar Mar 04 '23 03:03 DaviRain-Su

不确定,可以试试 pdf 转 epub

yihong0618 avatar Mar 04 '23 03:03 yihong0618

不确定,可以试试 pdf 转 epub 刚刚试试了,格式很不好,代码都给变成文本了。

DaviRain-Su avatar Mar 04 '23 03:03 DaviRain-Su

核心还是 pdf 是不是可读的文版,而不只是图片?

wonderful259 avatar Mar 04 '23 08:03 wonderful259

yihong0618 avatar Mar 04 '23 10:03 yihong0618

我覺得可以試試看一些 Python 上的 pdf to doc, txt or other 之類的套件。

但就不保證翻譯後正確了。

這可以以中間層的方式達成,我會紀錄在 todo 上面。

DennySORA avatar Mar 04 '23 17:03 DennySORA

直接的PDF转epub可以用在线工具,但转出来的不一定是用<p>标记的。直接的python库一时找不到。 其实word打开pdf效果看起来最好,然后可以用calibre转换word到epub。

如果顺着这个思路,这里有一个pdf2docx的库,可以用来转换pdf https://github.com/dothinking/pdf2docx

然后可以考虑直接去双语docx,docx也是一个值得支持的格式。

PDF比较麻烦的是排版,加一段双语可能格式就都混乱了。从排版考虑的话,以”页“为单位处理PDF而不是以”段“来可能会更好,但就需要一个大大的宽屏显示器了。

PDF真是一个邪恶的格式啊

goldengrape avatar Mar 05 '23 00:03 goldengrape

感觉可以支持下tex格式吗?tex转epub的效果不是特别好,vendor默认提供也是source + binary(tex + pdf)

eg. https://github.com/apple/swift/tree/main/docs/Generics

如果在 pdf 侧不方便转换,可以在 tex 侧进行翻译后再转换到pdf,感觉也是可行的

Kyle-Ye avatar Mar 06 '23 08:03 Kyle-Ye

感觉一个一个格式依次支持也很复杂,要不可以这样: 先都提取文本,然后再一段一段往回送,这样就不用管各种标记符号了。 摘取文本的动作可以直接从llamahub那里拿到插件。 一段一段往回送,其实就是一个字符串(纯文本)从起点选子串,另一个字符串(复杂格式)可以从中间选子串,然后取最大连续相同子串,选出来以后纯文本字符串删掉子串。然后循环

A=file_to_text(B)
new_file=B
while len(A)>0
    max_sub=find_max_same_sub_string(A[:n], B)
    trans_sub=translate(max_sub)
    new_file.replace(max_sub, max_sub+trans_sub)
    A=A[n:]

goldengrape avatar Mar 06 '23 17:03 goldengrape

我之前处理过pdf格式的文件处理,感觉主流的Adoble PDF大部分是可以处理的,主要还是看pdf的编码格式,大部分是可以提取text的。

LcenArthas avatar Mar 07 '23 11:03 LcenArthas