MediaCrawler
MediaCrawler copied to clipboard
整数智能《高级爬虫工程师》招聘
【你需要参与】 ● 负责设计和开发网络爬虫系统,进行多平台的信息抓取和分析 ● 根据网页特性设计独特的爬虫策略和防屏蔽规则,不断优化提升数据抓取的效率和质量 ● 完成并管理数据的清洗、结构化、入库、统计分析等全流程 ● 能够独当一面的完成数据聚合项目解决方案的制定,并完成方案的沉淀,以便后续复用 ● 具有分布式爬取和运维经验,能够保证项目的正常运行,实时解决出现的问题,确保项目的平稳、高质量运行
【我们对你的要求】 ● 责任心较强,做事细致耐心(此项有一票否决权) ● 良好的沟通能力和团队领导力,能有效组织和引导团队完成任务 ● 根据需求制定爬取方案并执行,并有良好的代码习惯及汇报习惯,抽象能力强 ● 精通至少一个爬虫框架(如Scrapy)或有相关实现,熟悉多线程,分布式爬虫的设计和实现,能处理大规模数据获取和处理的技术挑战 ● 熟练掌握基于正则表达式、XPath、CSS等网页信息抽取技术 ● 熟悉了解HTML、CSS、JavaScript,熟练掌握JS逆向、断点调试、HOOK等技能 ● 熟悉常见的反爬机制,验证码识别 ● 掌握熟练至少一种SQL语言,了解数据库优化策略,设计过千万级的表结构为加分项 ● 熟悉Linux及Docker、K8S,有K8S集群使用经验为加分项 ● 熟悉应用Selenium+PhantomJS实施动态HTML抓取 ● 熟悉应用IP池、Headers认证和Cookie等,提高爬取效率和质量 ● 熟练使用HTTP代理工具Charles、Fiddler等,掌握移动端爬取 ● 线性代数 / 高等数学 / 概率论基础好,熟悉numpy / pandas,能够通过公式描述现象 ● 热爱编程,喜欢折腾各类工具,热衷于探寻技术背后的原理
【我们在做什么】 ● 分布式爬虫框架搭建 ● 数据中心级基础设施建设 ● 多个LLM领域的PB级数据集构建
【关于我们】 ● 工作地点:杭州市萧山区浙江大学计算机创新技术研究院(地铁2 / 6号线钱江世纪城站) ● 工作时间:双休,工作日9:30-18:30(午休12:00-13:30),有团建、双休、法定节假日 ● 入职试用期缴纳五险一金 ● 年终奖与期权激励 ● 法定年假 ● 不定期团建 ● 整数智能信息技术(杭州)有限责任公司(www.molardata.com),起源自浙江大学计算机创新技术研究院,致力于成为AI行业的数据领航员。整数智能也是中国人工智能产业发展联盟、ASAM协会、浙江省人工智能产业技术联盟成员。
【薪资】 16k-20k/月,视具体能力水平可突破此范围
【联系我们】 [email protected]
你可真是个小机灵鬼
that sounds great! 那听起来可太有趣了
不给力啊老铁,我才来,发现什么都没有了! Oh shit, there is nothing here!
haha
can you delete this issue?
我盯了这个项目几天了,发现什么都没有呀
刚在Github精选上看到这个项目,竟然没了。
我盯了这个项目几天了,发现什么都没有呀
可以从以前forked过的人clone源代码
其实我第一时间就想到了去找fork,所以我用项目名称去搜了一下,点了前几个,都不是fork项目,所以就更失望了。 I thought I could find a fork repo, but I was wrong, there are hundreds of projects named the same name of this one, but none of them is from this repo, God damn it~
前排有偿出售源码~狗头
https://github.com/lewis-007/MediaCrawler 这个看着像是源码
@everydoc
https://github.com/lewis-007/MediaCrawler 这个看着像是源码
@everydoc
I've already checked this one and star it, but still not sure this is the same one, thanks anyway!
vanichocola/MediaCrawler最新源码
vanichocola/MediaCrawler最新源码
你咋这么优秀呢,fork我的仓库,然后自己commit,修改收款二维码吗,属实6,咱们能好好的做点事好么?
vanichocola/MediaCrawler最新源码
你咋这么优秀呢,fork我的仓库,然后自己commit,修改收款二维码吗,属实6,咱们能好好的做点事好么?
上面还有个更嚣张的,直接明着喊出售源码🤣原来还能这么玩,真的涨见识了
vanichocola/MediaCrawler最新源码
什么表子和丫子混合拉出的史,糊不上墙糊这来了