如何用BeautifulSoup获取href

动态未结 0 273

小小草 LV1 2023年9月23日 23:40 发表

使用BeautifulSoup获取href的方法如下： 1. 首先，使用requests库获取网页的HTML代码。例如，以下代码可以获取百度首页的HTML代码： ```python import requests url = 'https://www.baidu.com' response = requests.get(url) html = response.text ``` 2. 创建BeautifulSoup对象并解析HTML代码。例如，以下代码可以创建一个BeautifulSoup对象并解析HTML代码： ```python from bs4 import BeautifulSoup soup = BeautifulSoup(html, 'html.parser') ``` 3. 使用select()方法和CSS选择器获取所有包含href属性的元素。例如，以下代码可以获取所有包含href属性的a标签元素： ```python links = soup.select('a[href]') ``` 在这个例子中，我们使用了'a[href]'选择器来获取所有包含href属性的a标签元素。 4. 遍历links列表，并使用get()方法获取每个元素的href属性值。例如，以下代码可以遍历links列表并获取每个元素的href属性值： ```python for link in links: href = link.get('href') print(href) ``` 在这个例子中，我们使用了'get()'方法来获取每个元素的href属性值，并将其打印出来。完整代码如下： ```python import requests from bs4 import BeautifulSoup url = 'https://www.baidu.com' response = requests.get(url) html = response.text soup = BeautifulSoup(html, 'html.parser') links = soup.select('a[href]') for link in links: href = link.get('href') print(href) ```