You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
index.js:
// 安装express npm i express -S// 引入依赖varexpress=require('express');// 建立 express 实例varapp=express();// 引入数据,前端就可以调用接口获取数据了varlist=require('./data/aiticle_list.json');app.get('/list',function(req,res){// 从 req.query 中取出我们的 q 参数。// 如果是 post 传来的 body 数据,则是在 req.body 里面,不过 express 默认不处理 body 中的信息,需要引入 https://github.com/expressjs/body-parser 这个中间件才会处理,这个后面会讲到。varq=req.query.q;res.send(JSON.stringify(list));});app.listen(3000,function(req,res){console.log('app is running at port 3000');});
一个简单的简书爬虫
主要技术栈:
目标
趴下简书首页前20个文章列表的信息
我们看到简书的首页的每篇文章像下面那样
项目初始化
写一个获取数据的接口
浏览器获取数据:
localshot/list 就能拿到数据了
浏览器请求的展示如下:
这里每次请求到的都是一样的数据,感觉可以写个定时器,如每隔10分钟去爬下数据,然后保存到文件中,
等接口调的时候就能获取到给你更新的数据了
参考链接:
nodejs网络爬虫技术介绍: https://cnodejs.org/topic/56b807c626d02fc6626bb4ec
Node.js 编写爬虫的基本思路及抓取百度图片的实享:https://juejin.im/entry/56e7ad03f3609a0054398f1f
An NPM installer for PhantomJS, headless webkit with JS API:
https://github.com/Medium/phantomjs
The text was updated successfully, but these errors were encountered: