bilingual_book_maker 未来是否支持pdf格式要是可以用这个看论文也会很快

未来是否支持pdf格式要是可以用这个看论文也会很快

Open DaviRain-Su opened this issue 1 year ago • 9 comments

Mar 04 '23 03:03 DaviRain-Su

不确定，可以试试 pdf 转 epub

Mar 04 '23 03:03 yihong0618

不确定，可以试试 pdf 转 epub 刚刚试试了，格式很不好，代码都给变成文本了。

Mar 04 '23 03:03 DaviRain-Su

核心还是 pdf 是不是可读的文版，而不只是图片？

Mar 04 '23 08:03 wonderful259

是

Mar 04 '23 10:03 yihong0618

我覺得可以試試看一些 Python 上的 pdf to doc, txt or other 之類的套件。

但就不保證翻譯後正確了。

這可以以中間層的方式達成，我會紀錄在 todo 上面。

Mar 04 '23 17:03 DennySORA

直接的PDF转epub可以用在线工具，但转出来的不一定是用<p>标记的。直接的python库一时找不到。其实word打开pdf效果看起来最好，然后可以用calibre转换word到epub。

如果顺着这个思路，这里有一个pdf2docx的库，可以用来转换pdf https://github.com/dothinking/pdf2docx

然后可以考虑直接去双语docx，docx也是一个值得支持的格式。

PDF比较麻烦的是排版，加一段双语可能格式就都混乱了。从排版考虑的话，以”页“为单位处理PDF而不是以”段“来可能会更好，但就需要一个大大的宽屏显示器了。

PDF真是一个邪恶的格式啊

Mar 05 '23 00:03 goldengrape

感觉可以支持下tex格式吗？tex转epub的效果不是特别好，vendor默认提供也是source + binary(tex + pdf)

eg. https://github.com/apple/swift/tree/main/docs/Generics

如果在 pdf 侧不方便转换，可以在 tex 侧进行翻译后再转换到pdf，感觉也是可行的

Mar 06 '23 08:03 Kyle-Ye

感觉一个一个格式依次支持也很复杂，要不可以这样：先都提取文本，然后再一段一段往回送，这样就不用管各种标记符号了。摘取文本的动作可以直接从llamahub那里拿到插件。一段一段往回送，其实就是一个字符串（纯文本）从起点选子串，另一个字符串（复杂格式）可以从中间选子串，然后取最大连续相同子串，选出来以后纯文本字符串删掉子串。然后循环

A=file_to_text(B)
new_file=B
while len(A)>0
    max_sub=find_max_same_sub_string(A[:n], B)
    trans_sub=translate(max_sub)
    new_file.replace(max_sub, max_sub+trans_sub)
    A=A[n:]

Mar 06 '23 17:03 goldengrape

我之前处理过pdf格式的文件处理，感觉主流的Adoble PDF大部分是可以处理的，主要还是看pdf的编码格式，大部分是可以提取text的。

Mar 07 '23 11:03 LcenArthas

bilingual_book_maker bilingual_book_maker copied to clipboard

未来是否支持pdf格式 要是可以用这个看论文也会很快

bilingual_book_maker
bilingual_book_maker copied to clipboard

未来是否支持pdf格式要是可以用这个看论文也会很快