1500字范文 > ## 应用Python爬虫 Flask框架 Echarts WordCloud等技术实现豆瓣Top250数据分析

## 应用Python爬虫 Flask框架 Echarts WordCloud等技术实现豆瓣Top250数据分析

时间：2022-02-19 10:48:20

1.爬取豆瓣Top250信息，例如名称，评分，评价数，概况等

/top250

2.url分析：

/top250?start=25&filter=

分析可得改变url中start后的数值切换页面

3.分析页面：

借助谷歌浏览器开发者工具定位到所要信息的位置

4.开始爬取：

完整代码如下：

from bs4 import BeautifulSoupimport xlwtimport urllib.request,urllib.errorimport reimport sqlite3def main():baseurl = "/top250?start="datalist = getData(baseurl)# savepath = ".\\豆瓣电影Top250.xls"dbpath = "movie.db"saveData2DB(datalist,dbpath)# saveData(datalist,savepath)# askURL("/top250?start=")#链接规则findLink = pile(r'<a href="(.*?)">') #创建正则表达式对象，表示规则(字符串模式）#图片findImg = pile(r'img.*src="(.*?)"',re.S) #让换行符在字符中#片名findTitle = pile(r'(.*?)')#影片评分findRating = pile(r'(.*?)')#评价人数findJudge = pile(r'(\d*)人评价')#概况findInq = pile(r'(.*?)')#找到影片的相关内容findContent = pile(r'(.*?)',re.S)#爬取网页def getData(baseurl):datalist = []for i in range(0,10):url = baseurl + str(i*25)html = askURL(url) #保存获取到的网页源码# 逐一解析数据soup = BeautifulSoup(html, "html.parser")# # 测试查看所有电影信息for item in soup.find_all('div', class_="item"):data = [] # 保存一部电影所有信息item = str(item)# print(item)# break# print(item)# 获取影片详情链接link = re.findall(findLink, item)[0]data.append(link)# print(link)Imgsrc = re.findall(findImg, item)[0]data.append(Imgsrc)# print(Imgsrc)Title = re.findall(findTitle, item) # 片名可能只有一个中文名if (len(Title) == 2):ctitle = Title[0]data.append(ctitle) # 中文名otitle = Title[1].replace("/", "") # 去掉无关字符data.append(otitle) # 外文名else:data.append(Title[0])data.append(' ') # 外文名字留空rating = re.findall(findRating, item)[0]data.append(rating) # 添加评分judge = re.findall(findJudge, item)[0]data.append(judge) # 添加评价人数inq = re.findall(findInq, item)if len(inq) != 0:inq = inq[0].replace("。", "") # 去掉句号data.append(inq) # 添加概述else:data.append(" ") # 留空content = re.findall(findContent, item)[0]content = re.sub('<br(\s+)?/>(\s+)?', " ", content) # 替换brcontent = re.sub('/', " ", content) # 替换/data.append(content.strip())datalist.append(data) # 把处理好的一部电影储存在datalistreturn datalist# print(datalist)#得到指定一个URL的网页内容def askURL(url):head = {#模拟浏览器头部信息"User-Agent": "Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 85.0.4183.83Safari / 537.36"}#用户代理，告诉豆瓣服务器，我们是什么类型的机器，告诉浏览器我们可以接收什么水平的浏览器request = urllib.request.Request(url,headers=head)html = ""try:response = urllib.request.urlopen(request)html = response.read().decode("utf-8")# print(html)except urllib.error.URLError as e:if hasattr(e,"code"):print(e.code)if hasattr(e,"reason"):print(e.reason)return html#保存数据def saveData(datalist,savepath):print("save....")book = xlwt.Workbook(encoding="utf-8",style_compression=0) # 创建book对象sheet = book.add_sheet('豆瓣电影Top250',cell_overwrite_ok=True) # 创建工作表col = ('电影详情链接',"图片链接","影片中文名","影片外国名","评分","评价数","概况","相关信息")for i in range(0,8):sheet.write(0,i,col[i]) #列名for i in range(0,250):print("第%d条"%(i+1))data = datalist[i]for j in range(0,8):sheet.write(i+1,j,data[j])book.save(savepath)def saveData2DB(datalist,dbpath):init_db(dbpath)conn = sqlite3.connect(dbpath)cur = conn.cursor()for data in datalist:for index in range(len(data)):if index == 4 or index == 5:continuedata[index] = '"'+data[index]+'"'sql = '''insert into movie250 (info_link,pic_link,cname,ename,score,rated,instroduction,info)values (%s)'''%",".join(data)print(sql)cur.execute(sql)mit()cur.close()conn.close()def init_db(dbpath):sql = '''create table movie250(id integer primary key autoincrement,info_link text,pic_link text,cname varchar,ename varchar,score numeric,rated numeric,instroduction text,info text)''' #创建数据表conn = sqlite3.connect(dbpath)cursor = conn.cursor()cursor.execute(sql)mit()conn.close()if __name__ == "__main__":main()# init_db("movietest.db")print("爬取完毕！！！")

将所得数据存入数据库中

5.借助flask,echarts,wordcloud对数据进行分析

部分代码：

app.py

from flask import Flask, render_template, make_response,jsonifyimport sqlite3from wordcloud import WordCloudapp = Flask(__name__)@app.route('/')def index():return render_template("index.html")@app.route('/index')def home():# return render_template("index.html")return index()@app.route('/movie')def movie():datalist = []con = sqlite3.connect("movie.db")cur = con.cursor()sql = "select * from movie250"data = cur.execute(sql)for item in data:datalist.append(item)cur.close()con.close()return render_template("movie.html",movies = datalist)@app.route('/word')def word():return render_template("word.html")@app.route('/team')def team():return render_template("team.html")@app.route('/score')def score():score = [] #评分num = [] #每个评分统计出的电影数量con = sqlite3.connect("movie.db")cur = con.cursor()sql = "select score,count(score) from movie250 group by score"data = cur.execute(sql)for item in data:score.append(str(item[0]))num.append(item[1])cur.close()con.close()return render_template("score.html",score=score,num=num)@app.route('/login/navlist')@app.route('/slogin')def slogin():response = make_response('true')return responseif __name__ == '__main__':app.run()

生成词云：

from wordcloud import WordCloud #词云import jieba #分词from matplotlib import pyplot as plt #绘图数据可视化from PIL import Image #图片处理import numpy as np #矩阵运算import sqlite3#数据库con = sqlite3.connect('movie.db')cur = con.cursor()sql = 'select instroduction from movie250'data = cur.execute(sql)text = ""for item in data:text = text + item[0]# print(text)cur.close()con.close()cut = jieba.cut(text)string = ' '.join(cut)print(len(string))img = Image.open(r'./static/assets/img/tree2.jpg')img_array = np.array(img) #将图片转换为数组wc = WordCloud(background_color='white',mask=img_array,font_path="msyh.ttc" #字体所在位置C:\Windows\Fonts)wc.generate_from_text(string)#绘制图片fig = plt.figure(1)plt.imshow(wc)plt.axis('off') #是否显示坐标轴# plt.show() #显示生成的词云图片plt.savefig(r'.\static\assets\img\ntree2.jpg',dpi=500)

引入echarts：

最后效果：

具体代码移步github

/hupu1dong/douban/hupu1dong/douban_flask

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。