豆瓣爬虫

```python
import requests,re,time,pandas

def getdata(each_item):
 book_href = re.compile('<a class="nbg" href[\\s\\S]+?onclick').findall(each_item)
 book_href = book_href[0][21:-23:]
 pic_src = re.compile('img src="[\\s\\S]+?width').findall(each_item)
 pic_src = pic_src[0][9:-7]
 title = re.compile('title="[\\s\\S]+?\n').findall(each_item)
 title = title[0][7:-2:]
 score = re.compile('.+?').findall(each_item)
 score = score[0][26:-7:]
 pingjianum = re.compile('([\\s\\S]+?)').findall(each_item)
 pingjianum = pingjianum[0][22:-21:] 
 info = re.compile('.+?').findall(each_item)
 info = info[0][14:-4:]
 try:
 inq = re.compile('[\\s\\S]+?').findall(each_item)
 inq = inq[0][18:-7:]
 except:
 inq = ""
 return [book_href,title,score,pingjianum,inq,info,pic_src]

headers = {"User-Agent": "Mozilla/5.0"}
total_data = [["链接","书名","评分","评价人数","概要","信息","图片"]]
for i in range(10):
 douban_url = "https://book.douban.com/top250?start="+str(i*25)
 resp = requests.get(url=douban_url,headers=headers)
 item_list = re.compile('<tr class="item">[\\s\\S]+?</tr>').findall(resp.text)
 print(len(item_list))
 for each_item in item_list:
 each_data = getdata(each_item)
 total_data.append(each_data)

data = pandas.DataFrame(total_data)
data.to_csv("test.csv", encoding='utf_8_sig')