nju-lib-downloader icon indicating copy to clipboard operation
nju-lib-downloader copied to clipboard

老铁,劳烦将test也release一下,谢谢!

Open ScienceZone opened this issue 5 years ago • 8 comments

老铁,劳烦将test也release一下,谢谢!

ScienceZone avatar May 29 '19 15:05 ScienceZone

老铁你说的test指的是什么?

padeoe avatar May 30 '19 01:05 padeoe

老铁,release页面最上面那个是不是还在测试的最新版?发布一下,0.2.10版下载书香时页面稍微一多就不能合并成功,而且线程一般多于三个,一会儿就会被“拉黑”了,页面打不开。

ScienceZone avatar May 30 '19 12:05 ScienceZone

1.”页面稍微一多就不能合并成功“ 这个问题我已经注意到了,主机内存小或者安装的java默认配置的最大堆内存较小,会内存不足,合并失败。后续会改进。

你先尝试一下加-Xmx1024参数,命令形如:

java -jar -Xmx2048 libpdf.jar http://...

如果可以,请反馈一下加了这个参数后是否能解决问题。

2.”线程多于三个,一会让就被拉黑“ 这个是该网站的策略,不可避免,可以减少线程数量,或者换ip,出于个人合理使用目的,本项目默认不支持配置代理池。

padeoe avatar Jun 05 '19 02:06 padeoe

2个线程虽然比较慢,但基本不会被拉黑。-Xmx2028报错:Error occurred during initialization of VM Too small initial heap。尝试改成-Xmx100m没问题,但是还是不能合并: Exception in thread "main" java.lang.OutOfMemoryError: Java heap space at java.util.Arrays.copyOf(Unknown Source) at java.io.ByteArrayOutputStream.grow(Unknown Source) at java.io.ByteArrayOutputStream.ensureCapacity(Unknown Source) at java.io.ByteArrayOutputStream.write(Unknown Source) at org.apache.pdfbox.io.IOUtils.copy(IOUtils.java:70) at org.apache.pdfbox.io.IOUtils.toByteArray(IOUtils.java:52) at org.apache.pdfbox.pdmodel.encryption.SecurityHandler.decryptStream(SecurityHandler.java:449) at org.apache.pdfbox.pdfparser.COSParser.parseFileObject(COSParser.java:917) at org.apache.pdfbox.pdfparser.COSParser.parseObjectDynamically(COSParser.java:874) at org.apache.pdfbox.pdfparser.COSParser.parseObjectDynamically(COSParser.java:794) at org.apache.pdfbox.pdfparser.COSParser.parseDictObjects(COSParser.java:754) at org.apache.pdfbox.pdfparser.PDFParser.initialParse(PDFParser.java:185) at org.apache.pdfbox.pdfparser.PDFParser.parse(PDFParser.java:220) at org.apache.pdfbox.pdmodel.PDDocument.load(PDDocument.java:1160) at org.apache.pdfbox.pdmodel.PDDocument.load(PDDocument.java:1076) at org.apache.pdfbox.multipdf.PDFMergerUtility.legacyMergeDocuments(PDFMergerUtility.java:387) at org.apache.pdfbox.multipdf.PDFMergerUtility.mergeDocuments(PDFMergerUtility.java:277) at utils.conversion.PDFMerge.mergePDFs(PDFMerge.java:19) at cn.chineseall.Downloader.mergePDF(Downloader.java:326) at cn.chineseall.Downloader.downloadandMerge(Downloader.java:229) at cn.chineseall.Downloader.downloadBookFromMkdir(Downloader.java:213) at cn.chineseall.Downloader.downloadBook(Downloader.java:187) at Starter.main(Starter.java:35) 另外,老铁,能不能将作者和出版社加在合并后的文件名后,不然书名一样的书岂不是直接覆盖了?或者将那个bookId值加在文件名后,ISBN应该要求不切实际,因为应该书香没提供,这样是书香最垃圾的地方,搜索指定的书应该不能实现,得慢慢找……

ScienceZone avatar Jun 05 '19 14:06 ScienceZone

-Xmx2048m,不好意思我后面少打了一个m,可以分别试试-Xmx2048m-Xmx1024m。好的,命名加书的id等标识我下次更新再支持。

padeoe avatar Jun 05 '19 14:06 padeoe

老铁,谢谢,一个问题解决了,设置成-Xmx1000m可以,但是java太耗内存了,4G内存耗了90%以上。其他C++、C#开发好不好实现?能不能将目录单独下载下来,我用其他他工具合并,然后加上目录书签,电脑不卡,刚刚500页,卡了好几分钟才合并成功。来个批量,找好书一起下就好了。谢谢,老铁,这样已经喜出望外了,有空一起撮一顿?

ScienceZone avatar Jun 05 '19 15:06 ScienceZone

啊,估计是java这个合并的库的问题,我回头再看看有没有别的消耗资源少的实现。别的工具合并再加书签也行的,等我下个版本加上吧

padeoe avatar Jun 05 '19 15:06 padeoe

合并时还是经常出错,文档稍微一大就合并不了

ScienceZone avatar Aug 13 '19 04:08 ScienceZone