1500字范文,内容丰富有趣,写作好帮手!
1500字范文 > Rattle :基于R的数据挖掘工具(3):载入数据

Rattle :基于R的数据挖掘工具(3):载入数据

时间:2020-12-01 17:12:18

相关推荐

Rattle :基于R的数据挖掘工具(3):载入数据

数据

数据是进行数据挖掘工作的基础,要是没有数据,那也就没什么可挖的了。当今时代,数据的丰富超乎想象,它可以是数字,也可以是文本,图像,声音,视频等各种形式的存在。但是要把数据变成知识和信息,并不是一件简单的事。

关于数据的一般术语:

一个数据集由变量(列)的各个观测(行) 构成,其中变量可分为输入变量和输出变量,这些变量可以是数值的也可以是属性的(categoric variables)。

为了完成数据挖掘工作,首先需要把数据保存在各种系统中。要把形式和格式各异的数据组织成我们挖掘工作所需的形式。数据的收集,整理,存储和访问是一项重要的工作

载入数据

数据会从不同的来源,以不同的形式进入我们的项目。借助于R的数据处理能力,Rattle可以载入多种来源的数据。

(1)csv数据

csv数据是一种很简单普通的逗号分隔型取值格式,一种纯文本的数据存储格式。在csv中,数据的字段由逗号分开,程序通过读取文件重新创建正确的字段。csv数据可以说是R当中(当然也是Rattle当中)输入数据的首选格式。csv文件可以在电子表格和各种数据库之间输入输出,包括LibreOffice Calc, Gnumeric,, Microsoft Excel, SAS/Enterprise Miner, Teradata, Netezza等等。

在Rattle里载入csv数据

使用Data标签的Sprasdsheet选项,这个选项可以载入csv,txt,和execl数据文件。选中Sprasdsheet后,点击Filename,选择相关数据文件,最后按执行按钮。

在Rattle里有三个作为例子的csv数据集

来选择weather.csv,看看数据载入的结果。

在界面上会给出数据集的变量的名称和内容,也就是基本的数据汇总。

在载入数据文件的时候,用到了Rattle界面的两个参数,Separator 和 Header。Separator表示文件中字段的分割形式,如csv文件是逗号而txt文件是使用tab键,在Separator中应用 \\t。 选中Header参数会给出变量名(列名)。如果你的csv文件中不包含变量名,不要选这一项,否则会误把第一行作为变量名读入。

载入weather.csv数据还有一种简易方式,执行--- 弹窗选是即可。

(2)其它的数据类型

ARFF 数据:Attribute-Relation File Format,是一种文本格式的文件。本质上来说,ARFF格式其实就是带有元数据(关于数据格式的信息)的CSV格式。weather示例数据也有ARFF格式版本提供。

ODBC 数据:The Open Database Connectivity (ODBC) standard,这是在数据库中访问数据的一般方法,这是基于SQL语言的技术。通过ODBC来访问数据需要通过DSN给出数据来源。

R 数据集和其它的数据来源,包括SPSS数据,XML数据等,把它们转化为数据框即可用于Rattle中。注意这些数据要被放入Rattle的库里边。在R的安装目录下可以读取一般的R数据。

Library:很多R包都提供了示例数据集,Rattle也可以读入它们。

语料库(Corpus)和脚本数据(Script)。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。