首先,我们要确定要爬取的对象,然后确定我们需要的数据,要有针对性的去分析,打开豆瓣网查看
在这里我们可以看到即将上映的电影不多呀,先试试这个吧…
右键检查,打开开发者模式
此时点击NETWORK选项是没有数据的,我们需要F5刷新一下就可以看到数据了
我们找到深圳,然后可以看到我们请求的URL地址是吧,继续往下看,找到我们的request headers信息
referer、cookies和user-agent是浏览器针对客户端做的身份标识,目的是为了反爬,我们这个爬虫中,需要获取referer和user-agent即可
继续往下分析,接下来我们点击element选项
点击element选项后,再点击左上角的箭头,这样你鼠标移动在主页哪里,代码对应的位置就会有显示,方便我们确定数据的位置,如图所示,当我点击在即将上映的位置是,对应的 h2 的位置高亮了,如此,我们便能清楚的找到每一个电影所在的url位置了
点开 h2 这个标签,我们就能看到 即将上映了
继续点开下面的标签,观看发现 ul 这个标签下的 li 标签内部存放的是所有的即将上映的电影
现在我们能看到在 li 标签内部,有电影的名字 对应的是data-title 标签,导演对应的是 data-actors 标签,电影的详情对应的是 a 标签中的 herf链接,
现在我们不要=需要这么多的数据,只需要将电影名称和导演爬下来即可,现在开始完成代码
运行结果如下: