【Python爬虫】120行代码爬取豆瓣电影,附源码( 三 )
# print(response.text)
pattern1 = re.compile('<div.*?class=\"item\">.*?<div.*?class=\"pic\">.*?<a.*?href=https://mparticle.uc.cn/"(.*?)\">'re.S)
# 去掉所有换行符 , 并用正则表达式去匹配每一个页面的具体电影
url = re.findall(pattern1 response.text)
# 因为这里是用findall , 他返回的是一个列表 , 如果我们直接append , 会导致列表嵌套 , 故我们这里用个for循环提取出列表的元素再append进去
for i in url:
urls.append(i)
return urls
def parse_url(urls):
# 因为只拿前两页做测试 , 所以range设置到50
for i in range(0 50 1):
res = requests.get(urls[i
headers = headers_urls)
print(res)
if res.status_code == 200:
soup = BeautifulSoup(res.text 'lxml')
# 爬取电影名
name = (soup.find('span' property=\"v:itemreviewed\"))
names.append(name.text)
# print(names)
# 爬取导演
director = soup.find('a' rel=\"v:directedBy\")
directors.append(director.text)
# print(director.text)
# 爬取明星
star_save = [
for star in soup.find_all('a' rel=\"v:starring\"):
推荐阅读
- Python|阿里达摩院13小时讲完的python!整整466集,拿走不谢
- 爬虫学习之HttpClient练习
- Python打开和关闭文件
- 爬虫学习之HTTP协议初步了解
- 用python爬了840款真无线蓝牙耳机数据,竟发现了几个有趣结论!
- 手把手教你使用Python操控手机微信app(最新教程)
- Python编程常用技巧,你全知道么?
- 升职加薪利器:Python+Pytest框架在Jenkins上生成Allure测试报告
- 编程零基础应当如何开始学习 Python?
- 女神照片当背景,使用Python做个免费的VIP视频播放软件