要使用Python抓取百度信息,可以使用Python的Requests库和BeautifulSoup库。
以下是一个简单的示例代码,演示如何从百度搜索结果中提取标题和URL:
import requests from bs4 import BeautifulSoup search_term = "Python web scraping" # 构建搜索URL url = f"https://www.baidu.com/s?wd={search_term}" # 发送HTTP请求并获取响应文本 response = requests.get(url).text # 使用BeautifulSoup解析HTML soup = BeautifulSoup(response, "html.parser") # 提取搜索结果中的标题和URL for result in soup.select(".result"): title = result.select_one('.c-title').text.strip() link = result.select_one('.c-title a')['href'] print(title) print(link)
在这个示例中,我们首先构建了一个搜索URL,并使用Requests库发送了HTTP GET请求。然后,我们使用BeautifulSoup库解析响应文本,并使用CSS选择器(在这里是.result)选择所有搜索结果。
接下来,我们循环遍历每个搜索结果,使用CSS选择器提取标题和URL,并将它们打印到控制台上。
请注意,这只是一个简单的示例,实际的实现可能需要更复杂的逻辑来处理各种情况,例如分页、反爬虫机制等。
更多文章请关注《万象专栏》
转载请注明出处:https://www.wanxiangsucai.com/read/cv177161