网易云音乐爬虫(前言)

近期在工作之余花时间折腾了个网易云音乐爬虫项目,目前已经部署在服务器上跑,每天单机器单爬虫大概有100万首以上的歌曲爬取量。

项目Github地址:https://github.com/supervipcard/music-163-spider

主要涉及以下几点:

  1. Scrapy+Redis分布式
  2. 逆向JS
  3. Bloom Filter(布隆过滤器)
  4. 异常监控
  5. ADSL动态拨号VPS防IP封禁
  6. Scrapyd部署+Gerapy管理
  7. ELK日志系统

针对以上各点,接下来会陆续发布博文,也算是回顾自己折腾的过程,欢迎大家交流。

0

评论