Laws
Laws copied to clipboard
https://www.court.gov.cn/fabu/xiangqing/419382.html
现在是全量爬取还是根据时间戳增量爬取的法典?如果是增量爬取,是在哪里通过时间戳控制的?
报错:2024-01-02 15:03:31,538:DEBUG:parsing 中华人民共和国公司法 document /flfg/WORD/15526420544a4ad18df391c0d8a88a6b.docx not exists 2024-01-02 15:03:32,180:ERROR:parsing 中华人民共和国公司法 error 2024-01-02 15:03:33,383:DEBUG:parsing 中华人民共和国粮食安全保障法 document /flfg/WORD/0bbd8205d3174aa4a0bb86dca7ed5d3d.docx not exists 2024-01-02 15:03:33,426:ERROR:parsing 中华人民共和国粮食安全保障法 error 2024-01-02 15:03:34,732:DEBUG:parsing 中华人民共和国刑法修正案(十二) document /flfg/WORD/2640f79d1b524fd2ad20535352365be4.docx not exists 2024-01-02...
TimeoutError: [Errno 110] Connection timed out urllib3.exceptions.NewConnectionError: : Failed to establish a new connection: [Errno 110] Connection timed out File "/opt/conda/lib/python3.8/site-packages/urllib3/util/retry.py", line 515, in increment raise MaxRetryError(_pool, url, reason) from...
是否能有一个 update_log.json,结构化地记录该repo每次维护时新增、废止、修改过的法律文件,包括其目录。 这样可以方便代码增量处理一些数据。比如做机器人问答,需要定时更新一下,但是全量做embedding会很痛啊~ git log 虽然可以做,但是解析起来还是不太方便的。
想请问一下request里面法律数据处理部分,我需要怎么才能debug进入req.parse_file(args[0], args[1])里面?还有处理的数据格式是什么样子的呢?
尊敬的项目作者, 您好!您的GitHub Repository做得太棒了!它为法律从业者带来了巨大价值,您的专业和奉献精神值得敬佩。 目前收录的重要地区地方法规资源非常有帮助。冒昧请教,是否可以考虑添加其他省份的地方法规?我相信这会让这个项目更加完善。 感谢您为法律界作出的卓越贡献! 祝一切顺利!
 这里的执行代码应当是 `python request.py` 请更正 执行 `python request.py` 后会报错  
我看这些参数都是定死的,不是很清楚,加油一个就是 重庆 里有一个文件是`doc`的 `Document(f)` 会报错,我研究了一下没有解决,然后我修改了部分代码把word文件名字重命名了并且建立了分类文件夹,不知道可否提交PR