blackbinbin 370ab8163c add doc for crawl | 6 tahun lalu | |
---|---|---|
.. | ||
README.md | 6 tahun lalu |
#install
安装node相关依赖,node要求v8.0以上
npm install
如果pupperteer安装出现问题,请参考如下
安装 1.15.0 版本的 puppeteer
1.
下载安装包
https://github.com/GoogleChrome/puppeteer/releases
2.这里的路径根据项目地址来
安装包解压到/data/webapps/test.spider.duowan.com/protected/node_modules目录下的puppeteer
3.
进入puppeteer
执行:
sudo npm install -d package.json 安装好依赖模块
sudo node install.js 安装puppeteer 服务(这个命令会自己安装chromium)
缺什么模块用 sudo npm install 模块名
#config 配置项目
设置端口 /protected/conf/config.${env}.inc.js 其中 ${env} 是环境,分别为 dev-开发,form-正式
process.env.PORT = 端口号;
配置数据库 /protected/conf/config.${env}.inc.js
let dbInfo = {};
//数据库配置
dbInfo['Web'] = {
host : '61.160.36.225',
user : 'ojiatest',
password : 'ojia305',
database : 'Web',
port : 3306,
connectionLimit : 100
};
//redis配置
let redisInfo = {};
redisInfo['name_serv'] = {
'host' : '61.160.36.225',
'port' : 6405,
'pwd' : 'ojia123',
'db' : 1,
'connet_timeout' : 0
};
需要注意的是名字服务器发布后,会自动更新到 /protected/conf/conf_ns ,但是需要重启node进程,否则不会生效
代理 爬虫需要代理池,所有的代理ip获取都是通过访问 cjms 管理后台的接口:/protected/models/ProxyPool.js
1.获取ip列表:getXProxyList() 2.获取某个域名效果最好的代理:getXProxyBest(domain) 3.每次上报使用的代理好坏情况:reportProxy(domain, proxy, score)