bilingual_book_maker
bilingual_book_maker copied to clipboard
未来是否支持pdf格式 要是可以用这个看论文也会很快
不确定,可以试试 pdf 转 epub
不确定,可以试试 pdf 转 epub 刚刚试试了,格式很不好,代码都给变成文本了。
核心还是 pdf 是不是可读的文版,而不只是图片?
是
我覺得可以試試看一些 Python 上的 pdf to doc, txt or other 之類的套件。
但就不保證翻譯後正確了。
這可以以中間層的方式達成,我會紀錄在 todo 上面。
直接的PDF转epub可以用在线工具,但转出来的不一定是用<p>标记的。直接的python库一时找不到。 其实word打开pdf效果看起来最好,然后可以用calibre转换word到epub。
如果顺着这个思路,这里有一个pdf2docx的库,可以用来转换pdf https://github.com/dothinking/pdf2docx
然后可以考虑直接去双语docx,docx也是一个值得支持的格式。
PDF比较麻烦的是排版,加一段双语可能格式就都混乱了。从排版考虑的话,以”页“为单位处理PDF而不是以”段“来可能会更好,但就需要一个大大的宽屏显示器了。
PDF真是一个邪恶的格式啊
感觉可以支持下tex格式吗?tex转epub的效果不是特别好,vendor默认提供也是source + binary(tex + pdf)
eg. https://github.com/apple/swift/tree/main/docs/Generics
如果在 pdf 侧不方便转换,可以在 tex 侧进行翻译后再转换到pdf,感觉也是可行的
感觉一个一个格式依次支持也很复杂,要不可以这样: 先都提取文本,然后再一段一段往回送,这样就不用管各种标记符号了。 摘取文本的动作可以直接从llamahub那里拿到插件。 一段一段往回送,其实就是一个字符串(纯文本)从起点选子串,另一个字符串(复杂格式)可以从中间选子串,然后取最大连续相同子串,选出来以后纯文本字符串删掉子串。然后循环
A=file_to_text(B)
new_file=B
while len(A)>0
max_sub=find_max_same_sub_string(A[:n], B)
trans_sub=translate(max_sub)
new_file.replace(max_sub, max_sub+trans_sub)
A=A[n:]
我之前处理过pdf格式的文件处理,感觉主流的Adoble PDF大部分是可以处理的,主要还是看pdf的编码格式,大部分是可以提取text的。