我爱python...
生工学院py大一实验报告
生工学院大二py实验报告2(sklearn)
外国语学院大二py实验报告1(NLP-nltk)
外国语学院py实验报告
外国语学院大二py实验报告4.1
外国语学院大二py实验报告4.2
豆瓣爬虫
ECUST - 2022年下半年大二上学期外语学院python期末考试真题题库(python与语言智能)
ECUST - 2022年下半年大二上学期外语学院python备考资料
c语言求解n的阶乘1
c语言随机生成数组并排序
c语言编写递归,求解阶乘之和
2025 openvpn入门:用openvpn+云服务器实现私有网络代理
本文档使用 MrDoc 发布
-
+
首页
豆瓣爬虫
```python import requests,re,time,pandas def getdata(each_item): book_href = re.compile('<a class="nbg" href[\\s\\S]+?onclick').findall(each_item) book_href = book_href[0][21:-23:] pic_src = re.compile('img src="[\\s\\S]+?width').findall(each_item) pic_src = pic_src[0][9:-7] title = re.compile('title="[\\s\\S]+?\n').findall(each_item) title = title[0][7:-2:] score = re.compile('<span class="rating_nums">.+?</span>').findall(each_item) score = score[0][26:-7:] pingjianum = re.compile('<span class="pl">([\\s\\S]+?)</span>').findall(each_item) pingjianum = pingjianum[0][22:-21:] info = re.compile('<p class="pl">.+?</p>').findall(each_item) info = info[0][14:-4:] try: inq = re.compile('<span class="inq">[\\s\\S]+?</span>').findall(each_item) inq = inq[0][18:-7:] except: inq = "" return [book_href,title,score,pingjianum,inq,info,pic_src] headers = {"User-Agent": "Mozilla/5.0"} total_data = [["链接","书名","评分","评价人数","概要","信息","图片"]] for i in range(10): douban_url = "https://book.douban.com/top250?start="+str(i*25) resp = requests.get(url=douban_url,headers=headers) item_list = re.compile('<tr class="item">[\\s\\S]+?</tr>').findall(resp.text) print(len(item_list)) for each_item in item_list: each_data = getdata(each_item) total_data.append(each_data) data = pandas.DataFrame(total_data) data.to_csv("test.csv", encoding='utf_8_sig')
zhy@@ldy
2022年12月12日 21:10
转发文档
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
Markdown文件
PDF文档(打印)
分享
链接
类型
密码
更新密码