fruitbars
fruitbars
段落划分有点问题
hi, 感谢作者有这么好的库!!! 最近在使用的时候,有个文件期望段落能够这么分出来  但是好像分的有点问题,第二个段落,由于单词之间的间距变大了,每个单词都被划分为段落  原始文件如下,改文件的第1页 [1.pdf](https://github.com/dothinking/pdf2docx/files/9313570/1.pdf)
### 您希望的更新和改进是什么 | Update or Improve 之前开发产品,用讯飞翻译的接口翻译效果还行。可以加上讯飞翻译的接口支持吗? 这是接口地址 :https://www.xfyun.cn/doc/nlp/xftrans_new/API.html#%E6%8E%A5%E5%8F%A3%E8%AF%B4%E6%98%8E ### 补充说明 | Additional context _No response_
库好像有问题
库好像有问题,python 的还能用,go的用不了了
## 开发背景 在我们的日常工作和学习中,将PDF文件转换为Word格式的需求频繁出现。作为一名经常处理大量文档的打工人,我深知寻找一个既快速又能准确保留原始格式的PDF转换工具的重要性。然而,市场上许多现有的转换工具要么功能受限,要么操作过于繁琐。面对这个普遍问题,我下定决心自主开发一款既强大又易用的在线PDF转Word工具。我着手创建了一个不仅转换效率高,而且在界面设计上简洁直观的工具——[www.pdf2docx.cn](https://www.pdf2docx.cn)。经过一个月的持续研发和改进,[www.pdf2docx.cn](https://www.pdf2docx.cn)终于诞生。 ## 技术实现 文件解析:解析PDF文件是我面临的首要挑战。我采用了尖端的文档分析技术,确保每个元素,无论大小,都能被精确地识别和处理。 格式保持:我开发了特定的算法来保持PDF原始布局和格式的完整性,使转换后的Word文档能够尽可能地忠实反映原文件的样式。 性能优化:在保证转换质量的同时,我对代码进行了深度优化,确保转换过程既快速又高效。 ## 功能介绍 PDF转Word:用户可轻松上传PDF文件,并迅速转换为格式精确的Word文档。 多格式支持:除PDF转Word外,该工具还支持PDF转Excel、PDF转PPT等多种格式的转换。 简洁用户界面:为了提升用户体验,我特别设计了一个清晰、易于操作的界面,使得文件转换变得轻而易举。 ## 效果展示 双栏排版转换效果惊艳  原始图片原样保留  表格也是轻松搞定保留原样  不允许拷贝的PDF也是可以的(参考技术文章[qpdf去除pdf安全属性](https://www.v2ex.com/t/1040100#reply3))  ## TODO 下一步开发计划:对于扫描件PDF,需要使用OCR技术来开发实现扫描件PDF转WORD
**Describe the bug** The bug occurs when the response data from the API does not include a space after the colon in the "data:" prefix. This causes the data to...