要使用Python抓取百度信息,可以使用Python的Requests库和BeautifulSoup库。

以下是一个简单的示例代码,演示如何从百度搜索结果中提取标题和URL:

import requests
from bs4 import BeautifulSoup

search_term = "Python web scraping"

# 构建搜索URL
url = f"https://www.baidu.com/s?wd={search_term}"

# 发送HTTP请求并获取响应文本
response = requests.get(url).text

# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(response, "html.parser")

# 提取搜索结果中的标题和URL
for result in soup.select(".result"):
    title = result.select_one('.c-title').text.strip()
    link = result.select_one('.c-title a')['href']
    print(title)
    print(link)

在这个示例中,我们首先构建了一个搜索URL,并使用Requests库发送了HTTP GET请求。然后,我们使用BeautifulSoup库解析响应文本,并使用CSS选择器(在这里是.result)选择所有搜索结果。

接下来,我们循环遍历每个搜索结果,使用CSS选择器提取标题和URL,并将它们打印到控制台上。

请注意,这只是一个简单的示例,实际的实现可能需要更复杂的逻辑来处理各种情况,例如分页、反爬虫机制等。


更多文章请关注《万象专栏》