账号密码登录

忘记密码注册账号

微信安全登录

微信扫描二维码登录

登录后绑定QQ、微信即可实现信息互通

手机验证码登录

找回密码返回

注册账号返回

其他登录方式

登录即同意《用户使用协议》和《用户隐私条款》

在万象知否，学习技能、解决问题

每个月，我们帮助 1000 万的开发者解决各种各样的技术问题。并助力他们在技术能力、职业生涯、影响力上获得提升。

问答主页 -> 电脑网络

分享 收藏: X

用node js 模拟浏览器来爬取网页上的数据

细雨挽轻裳2020-01-01 00:00

普通会员

26: 0

在用node js 爬取网站的数据的时候，偶然间发现用我自己的程序并不是所有的网站都可以爬取到，debug的时候发现获取不了网站的源代码，不知道是不是做了什么处理？我现在想模拟浏览器的方式来爬取数据，node js里面有没有这样的模块呢？？或者各位大神有没有参考的例子？？感谢！！！

0

打赏

收藏

点击回答

全部回答

共 0 条

君亦剑普通会员 1楼
在Node.js中，我们可以使用request和fs模块来模拟浏览器爬取网页上的数据。以下是一个简单的例子，展示如何使用request和fs模块来爬取一个指定URL的HTML页面：

```javascript const request = require('request'); const fs = require('fs');

// 指定要爬取的URL const url = 'https://example.com';

// 创建一个请求对象 const options = { url, headers: { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3', }, };

// 发送GET请求 request(options, (error, response, body) => { if (error) { console.error('Error:', error); return; }

// 创建一个文件写入器 const fsWriter = fs.createWriteStream('data.txt', { flags: 'a' });

// 将响应体写入文件 body.pipe(fsWriter);

// 关闭文件写入器 fsWriter.end(); });

// 检查文件是否存在 fs.exists('data.txt', (exists) => { if (!exists) { console.error('File not found'); return; }

// 读取文件内容 fs.readFile('data.txt', 'utf8', (error, data) => { if (error) { console.error('Error:', error); return; }
```
// 写入数据到文件中
data.forEach((line) => {
  console.log(line);
});
```
}); }); ```

在这个例子中，我们首先定义了一个URL，然后创建了一个请求对象，设置了请求头，指定了请求方式为GET，然后发送了请求。如果请求成功，我们将响应体写入到名为"data.txt"的文件中，然后检查文件是否存在，如果不存在，我们将显示"File not found"的错误信息。

注意：这只是一个基本的示例，实际的爬虫可能需要处理更复杂的请求头，例如cookies、SSL证书、跨域请求等。此外，爬取HTML页面可能会涉及合法的使用HTML解析器，以避免对网页源造成恶意攻击。在实际应用中，你需要根据具体需求和法律法规来编写和执行爬虫。

0 打赏回复

更多回答

网站公告

扫一扫访问手机版

回答动态

: 神奇的四哥：发布了悬赏问题阿里云幻兽帕鲁服务器更新之后。服务器里面有部分玩家要重新创建角色是怎么回事啊？预计能赚取 0积分收益

: 神奇的四哥：发布了悬赏问题函数计算不同地域的是不能用内网吧？预计能赚取 0积分收益

: 神奇的四哥：发布了悬赏问题ARMS可以创建多个应用嘛?预计能赚取 0积分收益

: 神奇的四哥：发布了悬赏问题在ARMS如何申请加入公测呀？预计能赚取 0积分收益

: 神奇的四哥：发布了悬赏问题前端小程序接入这个arms具体是如何接入监控的，这个init方法在哪里进行添加？预计能赚取 0积分收益

: 神奇的四哥：发布了悬赏问题阿里云幻兽帕鲁服务器刚到期，是不是就不能再导出存档了呢？预计能赚取 0积分收益

: 神奇的四哥：发布了悬赏问题阿里云幻兽帕鲁服务器的游戏版本不兼容尝试更新怎么解决？预计能赚取 0积分收益

: 神奇的四哥：发布了悬赏问题阿里云幻兽帕鲁服务器服务器升级以后就链接不上了，怎么办？预计能赚取 0积分收益

: 神奇的四哥：发布了悬赏问题阿里云幻兽帕鲁服务器转移以后服务器进不去了，怎么解决？预计能赚取 0积分收益

: 神奇的四哥：发布了悬赏问题阿里云幻兽帕鲁服务器修改参数后游戏进入不了，是什么情况？预计能赚取 0积分收益

回到顶部

回到顶部