python 如何使用bs4来爬取小说

动态未结 0 292

小小草 LV1 2023年9月23日 23:40 发表

使用bs4来爬取小说，可以按照以下步骤进行： 1. 安装必要的库：在命令提示符或PowerShell窗口中输入以下命令来安装必要的库： ``` pip install requests beautifulsoup4 ``` 这个命令会安装requests和beautifulsoup4两个库，用于发送HTTP请求和解析HTML页面。 2. 发送HTTP请求：使用requests库发送HTTP请求，获取小说网站的HTML页面。例如，以下代码可以获取《斗罗大陆》小说的第一章内容： ```python import requests url = 'https://www.biquge5200.cc/0_5/2537.html' response = requests.get(url) html = response.text ``` 在这个例子中，我们使用requests库的get方法发送了一个GET请求，获取了指定URL的HTML页面，并将页面内容保存到html变量中。 3. 解析HTML页面：使用beautifulsoup4库解析HTML页面，提取小说内容。例如，以下代码可以从HTML页面中提取小说的标题和正文内容： ```python from bs4 import BeautifulSoup soup = BeautifulSoup(html, 'html.parser') title = soup.select_one('.bookname h1').text content = soup.select_one('#content').text ``` 在这个例子中，我们使用BeautifulSoup类解析HTML页面，并使用CSS选择器语法提取小说的标题和正文内容。其中，`.bookname h1`表示class为bookname的元素下的h1元素，`#content`表示id为content的元素。 4. 输出小说内容：将提取到的小说标题和正文内容输出到控制台或文件中。例如，以下代码可以将小说内容保存到txt文件中： ```python with open('novel.txt', 'w', encoding='utf-8') as f: f.write(title + '\n\n') f.write(content) ``` 在这个例子中，我们使用with语句打开一个名为novel.txt