【Python爬虫】120行代码爬取豆瓣电影,附源码( 三 )


# print(response.text)
pattern1 = re.compile('<div.*?class=\"item\">.*?<div.*?class=\"pic\">.*?<a.*?href=https://mparticle.uc.cn/"(.*?)\">'re.S)
# 去掉所有换行符 , 并用正则表达式去匹配每一个页面的具体电影
url = re.findall(pattern1 response.text)
# 因为这里是用findall , 他返回的是一个列表 , 如果我们直接append , 会导致列表嵌套 , 故我们这里用个for循环提取出列表的元素再append进去
for i in url:
urls.append(i)
return urls
def parse_url(urls):
# 因为只拿前两页做测试 , 所以range设置到50
for i in range(0 50 1):
res = requests.get(urls[i
headers = headers_urls)
print(res)
if res.status_code == 200:
soup = BeautifulSoup(res.text 'lxml')
# 爬取电影名
name = (soup.find('span' property=\"v:itemreviewed\"))
names.append(name.text)
# print(names)
# 爬取导演
director = soup.find('a' rel=\"v:directedBy\")
directors.append(director.text)
# print(director.text)
# 爬取明星
star_save = [

for star in soup.find_all('a' rel=\"v:starring\"):

推荐阅读