1500字范文 > 爬虫-基于requests模块xpath解析爬取豆瓣即将上映电影目录

爬虫-基于requests模块xpath解析爬取豆瓣即将上映电影目录

时间：2023-09-27 21:33:20

首先，我们要确定要爬取的对象，然后确定我们需要的数据，要有针对性的去分析，打开豆瓣网查看

在这里我们可以看到即将上映的电影不多呀，先试试这个吧…

右键检查，打开开发者模式

此时点击NETWORK选项是没有数据的，我们需要F5刷新一下就可以看到数据了

我们找到深圳，然后可以看到我们请求的URL地址是吧，继续往下看，找到我们的request headers信息

referer、cookies和user-agent是浏览器针对客户端做的身份标识，目的是为了反爬，我们这个爬虫中，需要获取referer和user-agent即可

继续往下分析，接下来我们点击element选项

点击element选项后，再点击左上角的箭头，这样你鼠标移动在主页哪里，代码对应的位置就会有显示，方便我们确定数据的位置，如图所示，当我点击在即将上映的位置是，对应的 h2 的位置高亮了，如此，我们便能清楚的找到每一个电影所在的url位置了

点开 h2 这个标签，我们就能看到即将上映了

继续点开下面的标签，观看发现 ul 这个标签下的 li 标签内部存放的是所有的即将上映的电影

现在我们能看到在 li 标签内部，有电影的名字对应的是data-title 标签，导演对应的是 data-actors 标签，电影的详情对应的是 a 标签中的 herf链接，

现在我们不要=需要这么多的数据，只需要将电影名称和导演爬下来即可，现在开始完成代码

运行结果如下：

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。