linxianda 9de1152989 更新 'spider/README.md' 5 år sedan
..
README.md 9de1152989 更新 'spider/README.md' 5 år sedan

README.md

#可视化爬虫

IP代理池

此爬虫为:大象代理 http://daxiangdaili.com/
爬虫购买是专业版:归安总管理
爬虫接口只需要一个 订单号。
接口地址:
http://pvt.daxiangdaili.com/ip/?tid

代理的参数


相关服务器

本地环境、测试环境:61.160.36.225
预发布环境、线上环境:61.160.36.226,管理后台CJMS,平台下
测试环境、没有后台守护进程在维护脚本、目前开发环境调用的接口可直接调用线上提供的api接口获取 可拍IP列表

启动方式

@cronta
*/2 * * * * root echo "[`date+"\%F\%T"`]`/usr/local/php/bin/php/data/webapps/admin.ouj.com/protected/bin/spider/spider_calculate.php`"  >> /tmp/spider_calculate.log &

IP代理池的分布

1、大象代理接口获取 2、61.160.36.225:8000 一个 python 爬虫服务获取的免费IP

主要介绍第二个服务、以及部署方式
https://github.com/qiyeboy/IPProxyPool

225使用的是python2的脚本。
本地环境需要 sqlite3 ,Ubuntu:apt-get install sqlite3 ,centos:yum install sqlite-devel
要注意安装相关依赖

目录结构

  • base_services/cjms/protected
    • bin/spider/ // 相关环境配置
      • spider_calculate.php //获取代理IP的脚本
        • 部署在 61.160.36.226 crontab 脚本自动运行
        • 这里 之前有部分 java 抓取服务还在使用,所以有2个存储的 redis Key。
    • controller
      • SpiderController.php // 爬虫接口
      • 提供爬虫获取接口、爬虫IP、剔除、IP可靠性记录、
      • 调用方:可视化爬虫 Node.js 后台 爬虫进程。
      • 爬虫队列分可靠爬虫 与 一般 爬虫。

流程图

流程图