用python 爬取https://book.qq.com/上指定的小说,并保存为txt

动态 未结 0 107
小小草
小小草 LV1 2023年9月23日 23:40 发表
为了爬取指定小说并保存为txt文件,我们可以使用Python的requests和BeautifulSoup库来实现。以下是一个简单的示例代码: ```python import requests from bs4 import BeautifulSoup # 小说链接 url = 'https://book.qq.com/intro.html?bid=AGMAYgA5VzZdV1Rj' # 发送请求 response = requests.get(url) # 解析HTML soup = BeautifulSoup(response.text, 'html.parser') # 获取小说标题 title = soup.find('h1', class_='book-title').text.strip() # 获取小说章节列表 chapter_list = soup.find_all('a', class_='chapter-item') # 遍历章节列表,依次获取每个章节的内容并保存到txt文件中 with open(title + '.txt', 'w', encoding='utf-8') as f: for chapter in chapter_list: # 获取章节标题和链接 chapter_title = chapter.text.strip() chapter_url = chapter['href'] # 发送请求 response = requests.get(chapter_url) # 解析HTML soup = BeautifulSoup(response.text, 'html.parser') # 获取章节内容 content = soup.find('div', class_='chapter-content').text.strip() # 写入txt文件 f.write(chapter_title + '\n\n') f.write(content + '\n\n') ``` 在这个示例代码中,我们首先发送请求获取小说页面的HTML代码,然后使用BeautifulSoup库解析HTML。通过查看网页源代码,我们可以找到小说标题和章节列表所对应的HTML标签和class属性,并使用find和find_all方法获取它们的内容。接着,我们遍历章节列表,依次获取每个章节的标题和链接,并发送请求获取章节页面的HTML代码。最后,我们使用find方法获取章节内容,并将标题和内容写入txt文件中。 需要注意的是,这个示例代码只适用于该网站上的小说,如果要爬取其他网站上的小说,可能需要根据具体情况进行修改。此外
收藏(0)  分享
相关标签: 智能问答
问题没解决?让AI助手帮你作答 AI助手
0个回复
  • 消灭零回复