【Python爬虫】120行代码爬取豆瓣电影，附源码( 三 )_学习爬虫

# print(response.text)
pattern1 = re.compile('<div.*?class=\"item\">.*?<div.*?class=\"pic\">.*?<a.*?href=https://mparticle.uc.cn/"(.*?)\">'re.S)
# 去掉所有换行符，并用正则表达式去匹配每一个页面的具体电影
url = re.findall(pattern1 response.text)
# 因为这里是用findall ，他返回的是一个列表，如果我们直接append ，会导致列表嵌套，故我们这里用个for循环提取出列表的元素再append进去
for i in url:
urls.append(i)
return urls
def parse_url(urls):
# 因为只拿前两页做测试，所以range设置到50
for i in range(0 50 1):
res = requests.get(urls[i
headers = headers_urls)
print(res)
if res.status_code == 200:
soup = BeautifulSoup(res.text 'lxml')
# 爬取电影名
name = (soup.find('span' property=\"v:itemreviewed\"))
names.append(name.text)
# print(names)
# 爬取导演
director = soup.find('a' rel=\"v:directedBy\")
directors.append(director.text)
# print(director.text)
# 爬取明星
star_save = [

for star in soup.find_all('a' rel=\"v:starring\"):