- 27
- 0
使用Jsoup解析网易新闻网页,新闻的正文,标题内容都可以获取;
但是评论区的内容,什么都没有,是不是评论区有特殊的限制呢?
String str=GetUtil.getContent("http://sports.163.com/18/0207/09/DA1HPMLI00058781.html");
//System.out.println(str);
Document doc=Jsoup.parse(str);
Element element=doc.getElementById("epContentLeft");
Elements elements=element.getElementsByTag("h1");
System.out.println("标题: "+elements.text());
Elements elementss=doc.getElementsByClass("post_time_source");
System.out.println("发帖时间: "+elementss.text().substring(0,19));
element=doc.getElementById("endText");
System.out.println("正文:");
System.out.println(element.text());
elementss=doc.getElementsByClass("ep-source cDGray");
System.out.println(elementss.text());
//抓取评论
elementss=doc.getElementsByClass("tie-cnt");
//tie-cnt
System.out.println("跟帖 :"+elementss.text()); 0
打赏
收藏
点击回答
- 共 0 条
- 全部回答
-
年华消逝淡忘 普通会员 1楼
网易新闻的评论区是一个非常复杂的系统,它包含了大量的动态代码和数据库查询。如果你想要获取评论区的内容,通常需要对系统进行一定的爬虫操作。以下是一些基本的步骤:
-
确定爬虫的目标:首先你需要明确你想要获取什么。是评论的数量,评论的文本,还是评论的作者等。
-
确定爬虫的策略:网易新闻的评论区通常会使用一些复杂的技术来保护系统的安全。例如,它可能使用了一些反爬虫技术,如设置IP黑名单,或者使用了一些验证码等。你需要根据这些技术来制定你的爬虫策略。
-
选择爬虫工具:网易新闻的评论区通常有大量的评论,如果你自己手动爬取可能会非常耗时。你可以选择一些爬虫工具来帮助你爬取。例如,你可以在网上找到一些免费的爬虫工具,或者你也可以购买一些专业的爬虫工具。
-
实现爬虫:一旦你确定了爬虫的目标,策略和工具,你就可以开始实现爬虫了。你需要编写一些Python代码,使用这些工具和你的策略来爬取评论区的内容。
-
数据处理:爬取到评论区的内容后,你需要对这些内容进行处理,例如,提取评论的数量,提取评论的文本,提取评论的作者等。
需要注意的是,爬取他人网站的数据,通常需要遵守相关的法律法规,并且要尊重网站的使用条款和协议。在进行爬虫操作时,应该尽可能减少对网站的负担,尽量减少对网站服务器的压力。
-
更多回答
网站公告
- 扫一扫访问手机版
回答动态

- 神奇的四哥:发布了悬赏问题阿里云幻兽帕鲁服务器更新之后。服务器里面有部分玩家要重新创建角色是怎么回事啊?预计能赚取 0积分收益

- 神奇的四哥:发布了悬赏问题函数计算不同地域的是不能用内网吧?预计能赚取 0积分收益

- 神奇的四哥:发布了悬赏问题ARMS可以创建多个应用嘛?预计能赚取 0积分收益

- 神奇的四哥:发布了悬赏问题在ARMS如何申请加入公测呀?预计能赚取 0积分收益

- 神奇的四哥:发布了悬赏问题前端小程序接入这个arms具体是如何接入监控的,这个init方法在哪里进行添加?预计能赚取 0积分收益

- 神奇的四哥:发布了悬赏问题阿里云幻兽帕鲁服务器刚到期,是不是就不能再导出存档了呢?预计能赚取 0积分收益

- 神奇的四哥:发布了悬赏问题阿里云幻兽帕鲁服务器的游戏版本不兼容 尝试更新怎么解决?预计能赚取 0积分收益

- 神奇的四哥:发布了悬赏问题阿里云幻兽帕鲁服务器服务器升级以后 就链接不上了,怎么办?预计能赚取 0积分收益

- 神奇的四哥:发布了悬赏问题阿里云幻兽帕鲁服务器转移以后服务器进不去了,怎么解决?预计能赚取 0积分收益

- 神奇的四哥:发布了悬赏问题阿里云幻兽帕鲁服务器修改参数后游戏进入不了,是什么情况?预计能赚取 0积分收益
- 回到顶部
- 回到顶部
