1500字范文,内容丰富有趣,写作好帮手!
1500字范文 > 基于海量微博数据的仓库构建与舆情热点挖掘项目总结

基于海量微博数据的仓库构建与舆情热点挖掘项目总结

时间:2023-08-31 05:23:01

相关推荐

基于海量微博数据的仓库构建与舆情热点挖掘项目总结

​一、mysql存储引擎

innodb

有事务,在操作性能上略低于myisam

myisam

无事务,在操作性能是哪个比较高,高于innodb

二、将hive表推送到mysql中

实现方法分析

自行实现,而不用sqoop等第三方数据传输同步插件

备注:sqoop是实现hive与其他各种关系型数据(rdb)的最受欢迎的第三方组件

自行实现步骤

将hive表数据生成到文件weibo_hot_result.txt(原名000000_0)中

拥有一个mysql库,以及相应的读写权限

在mysql中创建词频表weibo_hot_words

执行mysql命令将weibo_hot_restlt.txt导入到weibo_hot_words表中

将hive表数据生成到文件中

生成一个weibo_seg_wc表的一个分区到文件中

需求

获取每个天分区下的Top100热词

技术实现

先落地到hdfs目录

再从hdfs目录中将数据下载到入口机本地机器中

拥有一个mysql库,以及相应的读写权限(经典的多用户共享使用关系型数据库操作方法)

在mysql中创建词频表weibo_hot_words

执行mysql命令将weibo_hot_restlt.txt导入到weibo_hot_words表中

#! /bin/shmysql –h host -uroot -p******** -e "use yuqing_oncourse;LOAD DATA LOCAL INFILE './hot_words/000000_0' INTO TABLE weibo_hot_words FIELDS TERMINATED BY '\t' (word,freq,day_seq);"

三、如何证明数据挖掘的效果是准确ok的,可以被信任采纳的

直接证明

间接证明

抽样检查

四、一个高级工程师需要具备的素质

一专多能

工作过程当中,往往都是有工作交叉的

五、maven的项目打包

项目打包分类

可运行jar,即rennable jar

All in one 打包的jar

分离式打包

将自己的jar包和依赖的jar分开打

非独立运行jar,即dependency jar

六、web类开发项目的代码梳理技巧

以功能开发为依据,针对每个功能进行自前往后,然后自后往前的请求流程的梳理即可

端到端的闭环系统

七、springboot的常用注解

SpringBootApplication

定义springboot项目的根类,自此开始

ComponentScan

组件浏览配置,解决spring组件装配的扫件路径问题

Controller

MVC当中的C,即拦截器

用来拦截用户的路径请求,并进行转向,到对应的Model当中进行处理

完成后,再返回给指定的View视图

RestController

微服务,Controller+ResponseBody

响应数据请求,将得到的处理结果,一般是json返回给前端的view进行渲染处理

EnableAutoConfiguration

让某个controller或是restcontroller可以独立启动,对外提供独立的微服务

常用于微服务接口当中

AutoWired

自动织入,或者叫自动注入。

将标记有该注解的对象,进行自动初始化,注入到spring容器当中。

RequestMapping

请求路径映射作用,将指定的映射路径交给对应的controller的方法去处理。

Component

将写的类纳入到spring容器管理当中。

八、cdn

content delivery network,内容传输网络

像云计算都有自己的cdn网络结点

优缺点说明

有点

访问速度更快,不占用自家宽带资源

缺点

不够灵活,需要按照cdn有的东西来进行cdn的数据使用

九、echarts的使用方法

引入echarts的核心,js依赖和相关插件依赖

定义main div画板

初始化画板,拿到对应的echarts对象

定义参数对象option

设置chart的option参数,使之生效

响应式设置

window.οnresize=chart.resize

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。