Nodejs简单爬虫

xiaoxiao2021-03-26 19

安装node初始化一个项目testjs主要代码总结

安装node

安装完成后，打开命令行，执行node -v 验证是否安装成功。

初始化一个项目

使用 npm init -y 快速初始化一个新的项目，然后新建js文件。 nodejs 爬虫需要几个模块，通过 npm install 来安装。

npm install cheerio --save-dev npm install request --save-dev npm install iconv-lite --save-dev

初始化完成后的目录结构如下

--test -----node_modules -----package.json -----test.js

test.js主要代码

引入需要的模块，

var http = require('http'); var fs = require('fs'); var iconv = require('iconv-lite'); var cheerio = require('cheerio'); var request = require('request');

定义网站的URL,

var url ="";

定义数据保存文件,

var file = "./test.txt";

采用http发起一次get请求,

保存为文件 saveHtml函数，通过node fs模块写入文件

function saveHtml(str, file){ fs.writeFile(file, str,function(err){ if(err) console.log("fail " + err); else console.log("success"); }); }

至此，已经将网页内容抓取后保存为 test.txt文件。

总结

这是用nodejs写的简单的爬虫抓取网页内容，其实也就是一个网络请求函数和一个保存文件函数，下面是完整代码。

转载请注明原文地址: https://ju.6miu.com/read-661585.html

技术

最新回复(0)