1500字范文,内容丰富有趣,写作好帮手!
1500字范文 > 爬虫-基于requests模块xpath解析爬取豆瓣即将上映电影目录

爬虫-基于requests模块xpath解析爬取豆瓣即将上映电影目录

时间:2023-09-27 21:33:20

相关推荐

爬虫-基于requests模块xpath解析爬取豆瓣即将上映电影目录

首先,我们要确定要爬取的对象,然后确定我们需要的数据,要有针对性的去分析,打开豆瓣网查看

在这里我们可以看到即将上映的电影不多呀,先试试这个吧…

右键检查,打开开发者模式

此时点击NETWORK选项是没有数据的,我们需要F5刷新一下就可以看到数据了

我们找到深圳,然后可以看到我们请求的URL地址是吧,继续往下看,找到我们的request headers信息

referer、cookies和user-agent是浏览器针对客户端做的身份标识,目的是为了反爬,我们这个爬虫中,需要获取referer和user-agent即可

继续往下分析,接下来我们点击element选项

点击element选项后,再点击左上角的箭头,这样你鼠标移动在主页哪里,代码对应的位置就会有显示,方便我们确定数据的位置,如图所示,当我点击在即将上映的位置是,对应的 h2 的位置高亮了,如此,我们便能清楚的找到每一个电影所在的url位置了

点开 h2 这个标签,我们就能看到 即将上映了

继续点开下面的标签,观看发现 ul 这个标签下的 li 标签内部存放的是所有的即将上映的电影

现在我们能看到在 li 标签内部,有电影的名字 对应的是data-title 标签,导演对应的是 data-actors 标签,电影的详情对应的是 a 标签中的 herf链接,

现在我们不要=需要这么多的数据,只需要将电影名称和导演爬下来即可,现在开始完成代码

运行结果如下:

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。