zhihulive
zhihulive copied to clipboard
希望添加一个requirement.txt需求文档,免得在虚拟py环境还要手动一个个安装……
如题
另外特定版本的pymysql库(0.9.0以上)会与依赖它的aiomysql冲突,只能使用0.8的pymysql
知乎登陆机制改变,模拟登陆失效
因为我使用了pipenv,所以无需requirement.txt,您也可以试试
登录其实参考了https://github.com/7sDream/zhihu-oauth 这个项目,理论上除非知乎禁止了旧版本的客户端登录,否则是不会失效的,可以把报错发出来看看
pymysql的问题好像遇到过有点印象,忘了怎么解决了,回头有空我再试试
登陆截图如下:
总之是无法看到验证码,直接报异常 @hjlarry
谢谢 这是之前直接使用别人代码的一个BUG, 现在已经完全使用zhihu-oauth修改了这个bug,请再试试吧
登陆没有问题了,但是按照命令操作之后,live信息没能存进数据库,也没有报错…… @hjlarry
改登录出的问题 现在又改了下 可以再试试了~
数据库中爬到的audio-path很多都是Null,怀疑是速度太快被反爬了,建议加个时延,另外在主线程加个进度显示…… @hjlarry
而且只爬到35条message就不再继续了……
爬取是有间隔时延的 我这边没有问题 没法复现你的问题
一共只有35条,基本都是live最后的几段,其他的根本没有……
可能是因为config.py中我使用 '/' 这样的路径写法是针对非windows的,合理的应该是用os.path.join,这里可能导致了异常使得数据库的audio_path中没有存进去,同时也影响了其他的爬取,你可以尝试先修改IMAGE_FOLDER、AUDIO_FOLDER为一个 download,再爬取试一试
api返回显示音频质量过差……
音频需要批量降噪才能很好的识别,能否添加这一功能呢
不知是否安装正确了ffmpeg ?可以修改crawl.py中的convert_local_audio方法先不做格式转换,排除是否在格式转换中出的问题
噪音应该是开live的人录音时候带进去的,我试着用audacity对一个api显示音质过差的音频进行降噪(大约降了6分贝),就可以很清楚的进行识别。但是一个个手动搞就不现实了
爬取过程中显示 https://api.zhihu.com/people/self/lives has finished,这个应该怎么处理啊?