AC

Results 10 comments of AC

> 你好!请问我在主函数中运行时提示找不到mysql.h,请问是怎么回事啊? 这是mysql给c++ 提供的connector,你要自己下载,mysql 官网

> 感谢反馈。如果运行时有微博信息,应该有结果文件夹的,再看看项目文件夹下有没有。 你好,运行时无任何输出,应该是没爬取到数据?

> @mokeeqian 可能之前没有正确退出导致进度文件错误,下次运行也出错,删除crawls文件夹看看。 尝试过了,一直没有数据保存下来

> 程序搜索结果不稳定,你可以把时间间隔改成一天。 试了一下,还是不行,请问有什么解决方案吗?

> 或者修改search.py,目前程序通过“下一页”链接获取微博下一页信息,如果不存在就停止。因为现在有的微博即便存在下一页,但是没有链接,所以程序误判导致停止。可以改成for循环,计算下一页。 通过手动模拟我发现:web搜索页面到某一页之后,就不再显式”下一页“按钮了,即便后面还有数据(通过带上page=?参数,还能取得数据)。 你说的for轮询或许是个办法,我再去看一下应对for的终止条件

> 或者修改search.py,目前程序通过“下一页”链接获取微博下一页信息,如果不存在就停止。因为现在有的微博即便存在下一页,但是没有链接,所以程序误判导致停止。可以改成for循环,计算下一页。 作者你好,我不太懂scrapy。 - 是search.py文件里所有涉及`if next_url:` 的地方都需要改动吗还是? - yield返回时,如何在函数内判断for循环何时终止呢?

> 2.针对正负样本比例不平衡的数据集,有什么参数设置让模型得到比较好的评估值? 我最近在做的一个1:100的二分类,同样是precision很高和recall很低;gbm模型设置scale_pos_weight后,recall上到80,precision只有10; 我觉得还是入模的特征不能够很好的去区分label,你用DNN训练有提升吗?

> It seems that you are using the taxi orders data, so that you should do: 1. clustering the area into servral regins 2. map the origin samples into certain...

> Carrie您好,感谢关注!我们有开源计划,但目前其他工作排期较为靠前,GeniePath的开源计划最早也在明年初了。 MT您好,请问目前代码有开源吗?

> 格子数应该没问题,应该是你加载的底图小了。坐标系只要是经纬度坐标系即可 我又重新设置了一下,这次底图要比bounds范围大,但是划分后,格子仍然超出了bounds: 划分结果: ![image](https://github.com/ni1o1/transbigdata/assets/45727636/b055302e-87e7-4368-89d4-69f49c6d0092) 网格详情: ![image](https://github.com/ni1o1/transbigdata/assets/45727636/8e7abc3d-e5dd-430f-9d43-ab078b318382) 就是这里的 LONCOL 和 LATCOL 出现了 -1,是正常的吗