1500字范文 > 爬取猎聘python_从爬虫到数据可视化（1）—猎聘网

爬取猎聘python_从爬虫到数据可视化（1）—猎聘网

时间：2021-05-29 05:07:55

学习python爬虫有一段时间了，今天先拿猎聘网的上海公司数据练练手，并做一点数据分析，分享给大家。

一、数据获取

1、爬虫思路

①首先找到上海公司列表页面 /company/020-000/。

②由于该页面最多显示100页，所以要分行业爬取，分行业没有超过100页的了。

③获取各行业页面的网址。

④对每一个行业页面进行翻页，这样就已经得到上海公司的所有页面。

⑤再从这些页面中获取所有公司详情页的网址。

⑥对详情页进行解析获取到各公司的详细数据。

2、scrapy爬虫

4个函数分别对应后四个步骤，这里用到User-Agent随机切换，没用代理，共11548条数据用时35分钟左右

Spider模块代码如下(其他模块基本没用)：

# -*- coding: utf-8 -*-

import scrapy

import requests

from bs4 import BeautifulSoup

from lxml import etree

import re

import random

import time

from LiePinWang.items import LiepinwangItem

import json

hds=[{'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/1201 Firefox/3.5.6'},\

{'User-Agent':'Mozilla/5.0 (Windows NT 6.2) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.12 Safari/535.11'},\

{'User-Agent':'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; Trident/6.0)'},\

{'User-Agent':'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:34.0) Gecko/0101 Firefox/34.0'},\

{'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/44.0.2403.89 Chrome/44.0.2403.89 Safari/537.36'},\

{'User-Agent':'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50'},\

{'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50'},\

{'User-Agent':'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0'},\

{'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:2.0.1) Gecko/0101 Firefox/4.0.1'},\

{'User-Agent':'Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/0101 Firefox/4.0.1'},\

{'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11'},\

{'User-Agent':'Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11'},\

{'User-Agent':'Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11'}]

class LiepinSpider(scrapy.Spider):

name = "liepin"

def start_requests(self):

href_list = []

url = '/company/020-000/'

req = requests.get(url).text

soup = BeautifulSoup(req,'lxml')

hrefs_1 = soup.select('#region > div.wrap > div.top-bar > div.industry-box > div > a')

for href_1 in hrefs_1:

href_list.append(href_1['href'])

href_list.pop()

hrefs_2 = soup.select('#region > div.wrap > div.top-bar > div.industry-box > div > div > a')

for href_2 in hrefs_2:

href_list.append(href_2['href'])

href_list.pop()

for industry_href in href_list[1:]:

yield scrapy.Request(url = industry_href,callback=self.next_page)

def next_page(self,response):

base_url = response.url

req = requests.get(base_url,headers=hds[random.randint(0,len(hds)-1)]).text

pages = re.findall('(.*?)',req,re.S)[0].replace('共','').replace('页','')

if pages:

for i in range(0,int(pages)):

urls = str(base_url) + 'pn' + str(i)

yield scrapy.Request(url = urls ,callback=self.get_company_url)

else:

yield scrapy.Request(url = base_url ,callback=self.get_company_url)

def get_company_url(self,response):

url = response.url

req = requests.get(url,headers=hds[random.randint(0,len(hds)-1)]).text

soup = BeautifulSoup(req,'lxml')

company_urls = soup.select('#region > div.wrap > pany-list.clearfix > div > div.item-top.clearfix > div > pany-name > a')

for company_url in company_urls:

detail_url = company_url['href']

yield scrapy.Request(url = detail_url ,callback=self.parse_detail)

def parse_detail(self,response):

url = response.url

try:

item = LiepinwangItem()

req = requests.get(url,headers=hds[random.randint(0,len(hds)-1)]).text

selector = etree.HTML(req)

item['companyname'] = selector.xpath('//*[@id="company"]/div[2]/section/div/h1/text()')[0] if selector.xpath('//*[@id="company"]/div[2]/section/div/h1/text()') else None

position = selector.xpath('//*[@id="company"]/div[2]/div/div/div[2]/h2/small/text()')[0] if selector.xpath('//*[@id="company"]/div[2]/div/div/div[2]/h2/small/text()') else None

item['position_total'] = re.sub("\D", "", position)

item['welfares'] = selector.xpath('//*[@id="company"]/div[2]/section/div/div/ul/li/text()') if selector.xpath('//*[@id="company"]/div[2]/section/div/div/ul/li/text()') else None

item['industry'] = selector.xpath('//*[@id="company"]/div[2]/div/aside/div[2]/ul[1]/li[1]/a/text()')[0] if selector.xpath('//*[@id="company"]/div[2]/div/aside/div[2]/ul[1]/li[1]/a/text()') else None

item['companysize'] = selector.xpath('//*[@id="company"]/div[2]/div/aside/div[2]/ul[1]/li[2]/text()')[0] if selector.xpath('//*[@id="company"]/div[2]/div/aside/div[2]/ul[1]/li[2]/text()') else None

item['address'] = selector.xpath('//*[@id="company"]/div[2]/div/aside/div[2]/ul[1]/li[3]/text()')[0] if selector.xpath('//*[@id="company"]/div[2]/div/aside/div[2]/ul[1]/li[3]/text()') else None

item['poi'] = selector.xpath('//*[@id="company"]/div[2]/div/aside/div[2]/ul[1]/li[3]/@data-point')[0] if selector.xpath('//*[@id="company"]/div[2]/div/aside/div[2]/ul[1]/li[3]/@data-point') else None

item['time'] = selector.xpath('//*[@id="company"]/div[2]/div/aside/div[2]/ul[2]/li[2]/text()')[0] if selector.xpath('//*[@id="company"]/div[2]/div/aside/div[2]/ul[2]/li[2]/text()') else None

item['capital'] = selector.xpath('//*[@id="company"]/div[2]/div/aside/div[2]/ul[2]/li[3]/text()')[0] if selector.xpath('//*[@id="company"]/div[2]/div/aside/div[2]/ul[2]/li[3]/text()') else None

item['field'] = selector.xpath('//*[@id="company"]/div[2]/div/aside/div[2]/ul[1]/li[1]/text()')[0].strip() if selector.xpath('//*[@id="company"]/div[2]/div/aside/div[2]/ul[1]/li[1]/text()') else None

yield item

except Exception:

pass

由于数据量不大，爬取到的数据保存成csv格式就可以了，然后再把csv转换为Excel格式，方便做数据清洗和分析。

二、数据清洗

1、编号，方便做数据统计。

2、对异常数据进行清洗，数据格式统一。

3、坐标转换，猎聘网使用的是火星坐标系，所以要转换为WGS84地球坐标系，方便做分析，这里用到的是别人写好的代码，地址/wandergis/coordTransform_py。

4、通过QGIS软件匹配出个公司所在的行政区和街镇(区域)。

5、在猎聘网找到行业分类的数据，对每个行业归为13大类。

清洗之后，大概长这样：

三、数据分析及可视化