Sfoglia il codice sorgente

更新 'spider/README.md'

linxianda 5 anni fa
parent
commit
9de1152989
1 ha cambiato i file con 43 aggiunte e 1 eliminazioni
  1. 43 1
      spider/README.md

+ 43 - 1
spider/README.md

@@ -12,22 +12,64 @@ http://pvt.daxiangdaili.com/ip/?tid
 ![代理的参数](http://screenshot.dwstatic.com/ojiastoreimage/07faa12eab01fd5fac3190e835bf837a_size1055x813_len83610.png)
 
 ------------
+
+### 相关服务器
+```
+本地环境、测试环境:61.160.36.225
+预发布环境、线上环境:61.160.36.226,管理后台CJMS,平台下
+测试环境、没有后台守护进程在维护脚本、目前开发环境调用的接口可直接调用线上提供的api接口获取 可拍IP列表
+```
+
+### 启动方式
+```shell
+@cronta
+*/2 * * * * root echo "[`date+"\%F\%T"`]`/usr/local/php/bin/php/data/webapps/admin.ouj.com/protected/bin/spider/spider_calculate.php`"  >> /tmp/spider_calculate.log &
+```
+
+------------
+
+
+### IP代理池的分布
+
+`1、大象代理接口获取`
+`2、61.160.36.225:8000 一个 python 爬虫服务获取的免费IP`
+
+```
+主要介绍第二个服务、以及部署方式
+https://github.com/qiyeboy/IPProxyPool
+
+225使用的是python2的脚本。
+本地环境需要 sqlite3 ,Ubuntu:apt-get install sqlite3 ,centos:yum install sqlite-devel
+要注意安装相关依赖
+```
+
+------------
+### 目录结构
+
 + base_services/cjms/protected
     + bin/spider/ // 相关环境配置
         * spider_calculate.php //获取代理IP的脚本
           * 部署在 61.160.36.226 crontab 脚本自动运行
-          * -  */2 * * * * root echo "[`date +"\%F \%T"`] `/usr/local/php/bin/php /data/webapps/admin.ouj.com/protected/bin/spider/spider_calculate.php`"  >> /tmp/spider_calculate.log &
 		  * 这里 之前有部分 java 抓取服务还在使用,所以有2个存储的 redis Key。
     + controller
      - SpiderController.php // 爬虫接口
 	   * 提供爬虫获取接口、爬虫IP、剔除、IP可靠性记录、
 	   * 调用方:可视化爬虫 Node.js 后台 爬虫进程。
 	   * 爬虫队列分可靠爬虫 与 一般 爬虫。
+
 ------------
 
+### 流程图
 ![流程图](http://screenshot.dwstatic.com/ojiastoreimage/ead33b711c8bfb195ba640474805d823_size839x803_len120532.jpg)
 
 
+------------
+
+
+
+
+
+