blackbinbin 370ab8163c add doc for crawl 6 gadi atpakaļ
..
README.md 370ab8163c add doc for crawl 6 gadi atpakaļ

README.md

#install

安装node相关依赖,node要求v8.0以上

npm install

如果pupperteer安装出现问题,请参考如下

安装 1.15.0 版本的 puppeteer
1.
下载安装包
https://github.com/GoogleChrome/puppeteer/releases

2.这里的路径根据项目地址来
安装包解压到/data/webapps/test.spider.duowan.com/protected/node_modules目录下的puppeteer

3.
进入puppeteer
执行:
sudo npm install -d package.json  安装好依赖模块
sudo node install.js              安装puppeteer 服务(这个命令会自己安装chromium)

缺什么模块用 sudo npm install 模块名

#config 配置项目

  • 设置端口 /protected/conf/config.${env}.inc.js 其中 ${env} 是环境,分别为 dev-开发,form-正式

    process.env.PORT = 端口号;
    
  • 配置数据库 /protected/conf/config.${env}.inc.js

    let dbInfo = {};
    //数据库配置
    dbInfo['Web'] = {
    host : '61.160.36.225',
    user : 'ojiatest',
    password : 'ojia305',
    database : 'Web',
    port : 3306,
    connectionLimit : 100
    };
    
    //redis配置
    let redisInfo = {};
    redisInfo['name_serv'] = {
    'host' : '61.160.36.225',
    'port' : 6405,
    'pwd' : 'ojia123',
    'db' : 1,
    'connet_timeout' : 0
    };
    

需要注意的是名字服务器发布后,会自动更新到 /protected/conf/conf_ns ,但是需要重启node进程,否则不会生效

  • 代理 爬虫需要代理池,所有的代理ip获取都是通过访问 cjms 管理后台的接口:/protected/models/ProxyPool.js

    1.获取ip列表:getXProxyList() 2.获取某个域名效果最好的代理:getXProxyBest(domain) 3.每次上报使用的代理好坏情况:reportProxy(domain, proxy, score)