- 27
- 0
练习爬取 billibili 的页面,在该页面的<ul>中,包含了100个<li>,每个<li></li>的内容如下
<li>
<div class="rank-item">
<div class="num">1</div>
<div class="content clearfix">
<a href="/video/av16568807/" target="_blank">
<div class="preview"><img data-img="" src="//i1.hdslb.com/bfs/archive/aaac671f55f8fce8a8a9f87a57ca71d32e8ffdf6.jpg@.webp" loaded="loaded" style="opacity: 0.9879;" /></div>
</a><i class="watch-later" aid="16568807"></i>
<div class="info info-border">
<a href="/video/av16568807/" target="_blank">
<div class="title">小猪佩奇:你吹你MMP你吹</div>
</a>
<div class="detail"><span class="data-box play"><i class="b-icon b-icon-v-play"></i>26.8万</span><span class="data-box dm"><i class="b-icon b-icon-v-dm"></i>1119</span><a href="//space.bilibili.com/548824" target="_blank"><span class="data-box author"><i class="b-icon b-icon-v-author"></i>鸡鸡·夫斯基</span></a></div>
<div class="pts" title="综合评分">
<div>666386</div>综合评分</div>
</div>
<div class="other">
<p><a href="/video/av16833578" target="_blank">小猪佩奇第三弹:我捡你MMP我捡</a><span>综合评分</span><strong>286673</strong></p>
<p><a href="/video/av16713556" target="_blank">小猪佩奇第二弹:你跳你MMP你跳</a><span>综合评分</span><strong>178434</strong></p>
</div><a class="more-data">显示UP主全部上榜视频<i></i></a></div>
</div>
</li>
现在只想获取每个 li 标签下的第一个<a>标签
在这里,我只需要<a href="/video/av16568807/" target="_blank">这个链接中的 href,后面的链接暂时不需要,请问应该如何做?
如果直接find_all('a')的话,会出现很多无效或者重复的链接
- 共 0 条
- 全部回答
-
快来扶我 普通会员 1楼
BeautifulSoup是一个Python库,用于解析HTML和XML文档。要获取特定范围的
<a>标签的链接,可以使用CSS选择器和BeautifulSoup的find_all()方法。以下是一个示例,假设你想要获取所有具有href属性值为example.com的<a>标签的链接:```python from bs4 import BeautifulSoup
创建一个BeautifulSoup对象
soup = BeautifulSoup('Example Link', 'html.parser')
使用CSS选择器选择所有匹配的标签
links = soup.find_all('a', href='example.com')
打印匹配的标签的链接
for link in links: print(link.get('href')) ```
在这个示例中,我们首先导入了BeautifulSoup模块,然后创建了一个
BeautifulSoup对象。然后,我们使用CSS选择器'a'和href='example.com'选择了所有具有href属性值为example.com的<a>标签。最后,我们使用get()方法获取每个<a>标签的href属性值,并打印出来。注意,CSS选择器
'a'表示任何具有href属性值为example.com的<a>标签。如果你想选择具有特定属性值的链接,可以使用如['href']或['href']='example.com'这样的CSS选择器,其中['href']表示具有特定属性值的属性,example.com表示你要选择的属性值。此外,如果你只想获取特定类型的链接(例如,内联链接或绝对链接),你可以使用CSS选择器
['rel']或['rel']='external'来指定链接的类型。例如,['rel']='external'表示外部链接,['rel']='self'表示内联链接。['rel']='self'会忽略当前标签的href属性,而['rel']='external'会返回具有href属性值为example.com的链接。
- 扫一扫访问手机版
回答动态

- 神奇的四哥:发布了悬赏问题阿里云幻兽帕鲁服务器更新之后。服务器里面有部分玩家要重新创建角色是怎么回事啊?预计能赚取 0积分收益

- 神奇的四哥:发布了悬赏问题函数计算不同地域的是不能用内网吧?预计能赚取 0积分收益

- 神奇的四哥:发布了悬赏问题ARMS可以创建多个应用嘛?预计能赚取 0积分收益

- 神奇的四哥:发布了悬赏问题在ARMS如何申请加入公测呀?预计能赚取 0积分收益

- 神奇的四哥:发布了悬赏问题前端小程序接入这个arms具体是如何接入监控的,这个init方法在哪里进行添加?预计能赚取 0积分收益

- 神奇的四哥:发布了悬赏问题阿里云幻兽帕鲁服务器刚到期,是不是就不能再导出存档了呢?预计能赚取 0积分收益

- 神奇的四哥:发布了悬赏问题阿里云幻兽帕鲁服务器的游戏版本不兼容 尝试更新怎么解决?预计能赚取 0积分收益

- 神奇的四哥:发布了悬赏问题阿里云幻兽帕鲁服务器服务器升级以后 就链接不上了,怎么办?预计能赚取 0积分收益

- 神奇的四哥:发布了悬赏问题阿里云幻兽帕鲁服务器转移以后服务器进不去了,怎么解决?预计能赚取 0积分收益

- 神奇的四哥:发布了悬赏问题阿里云幻兽帕鲁服务器修改参数后游戏进入不了,是什么情况?预计能赚取 0积分收益
- 回到顶部
- 回到顶部
