1500字范文 > NoSQL数据库介绍及相关模型比较（如：键值数据库列式数据库文档数据库图形数据库）

NoSQL数据库介绍及相关模型比较（如：键值数据库列式数据库文档数据库图形数据库）

时间：2021-04-02 05:09:47

导读

当大多数人想到数据库时，他们通常会想到传统的关系数据库模型，其中包含由行和列组成的表。虽然关系型数据库管理系统仍然处理互联网上的大部分数据，但近年来，随着开发人员开始寻找替代关系模型的方法，替代数据模型变得越来越普遍。这些非关系型数据库模型，每个都有自己独特的优点、缺点和用例，被归类为NoSQL数据库。

本文将向您介绍几个更常用的NoSQL数据库模型。本文将权衡它们的优缺点，并提供一些数据库管理系统的例子和它们各自的潜在用例。

关系数据库及其局限性

数据库是对信息或数据进行逻辑建模的集群。同时，数据库管理系统(DBMS)是与数据库交互的计算机程序。DBMS允许你控制对数据库的访问、写入数据、执行查询以及执行与数据库管理相关的任何其他任务。虽然数据库管理系统经常被称为“数据库”，但这两个术语并不能完全互换。数据库可以是任何数据的集合，而不仅仅是存储在计算机上的数据，而DBMS是允许你与数据库交互的特定软件。

所有数据库管理系统都有一个底层模型，该模型对数据的存储和访问方式进行结构化。关系数据库管理系统(RDBMS)是一种采用关系数据模型的DBMS。在这种模型中，数据被组织成表，在rdbms的上下文中，表更正式地称为关系。关系型数据库管理系统通常使用结构化查询语言SQL来管理和访问数据库中的数据。

历史上，关系模型是管理数据最广泛使用的方法，直到今天许多最流行的数据库管理系统都实现了关系模型。然而，关系模型存在一些限制，在某些用例中可能会产生问题。

例如，水平扩展一个关系型数据库可能很困难。水平扩展，或称向外扩展，是指向现有堆栈中添加更多的机器，以分散负载，并允许更多流量和更快的处理。这通常与垂直扩展相对，后者涉及升级现有服务器的硬件，通常是通过增加更多的RAM或CPU。

很难横向扩展一个关系型数据库的原因是，关系型数据库的设计是为了保证一致性，这意味着查询同一个数据库的客户端总是能看到最新的数据。如果要在多台机器上水平扩展关系型数据库，就很难保证一致性，因为客户端可能会向一个节点写入数据，而不是其他节点，而且在初次写入数据和其他节点更新数据以反映变化之间可能会有延迟。

rdbms的另一个限制是关系模型被设计为管理结构化数据，或者与预定义的数据类型保持一致，或者至少以某种预定的方式组织的数据，使其易于排序和搜索。然而，随着20世纪90年代初个人计算的普及和互联网的兴起，非结构化数据——如电子邮件消息、照片、视频等——变得更加普遍。

随着这些限制变得越来越限制，开发人员开始寻找传统关系数据模型的替代品，这导致了NoSQL数据库的流行。

关于NoSQL

标签NoSQL本身的定义相当模糊。“NoSQL”是由Carlo Strozzi在1998年创造的，作为他当时新创建的NoSQL数据库的名称，选择它只是因为它不使用SQL来管理数据。

Johan Oskarsson组织了一次开发者聚会，讨论像Cassandra和Voldemort这样的“开源、分布式和非关系型数据库”的传播，之后这个词有了新的含义。Oskarsson将这次聚会命名为“NOSQL”，从那时起，这个术语就被用来概括所有不采用关系模型的数据库。有趣的是，Strozzi的NoSQL数据库实际上确实采用了关系模型，这意味着原始的NoSQL数据库并不适合当代的NoSQL定义。

因为“NoSQL”通常指的是任何不采用关系模型的DBMS，所以有几种与NoSQL概念相关的操作数据模型。下表包含了一些这样的数据模型，但请注意，这个列表并不全面。

尽管底层数据模型不同，但大多数NoSQL数据库都有几个共同的特征。首先，NoSQL数据库通常被设计为以牺牲一致性为代价来最大化可用性。从这个意义上说，一致性指的是任何读操作都将返回最近写入数据库的数据。在为强一致性设计的分布式数据库中，任何写入到一个节点的数据都将立即在所有其他节点上可用;否则，就会报错。

相反，NoSQL数据库通常以最终一致性为目标。这意味着新写入的数据最终会在数据库的其他节点上可用(通常是几毫秒)，但不一定立即可用。这样做的好处是可以提高数据的可用性:即使您可能看不到写入的最新数据，您仍然可以查看它的早期版本，而不是收到错误。

关系数据库旨在处理符合预定义模式的规范化数据。在DBMS的上下文中，规范化数据是指以消除冗余的方式组织的数据——这意味着数据库占用尽可能少的存储空间——而模式是数据库中数据结构的大纲。

虽然NoSQL数据库能够处理规范化数据，并且能够在预定义的模式中对数据进行排序，但它们各自的数据模型通常比关系数据库强加的严格结构具有更大的灵活性。正因为如此，NoSQL数据库被认为是存储半结构化和非结构化数据的更好选择。不过，考虑到这一点，因为NoSQL数据库没有预定义的模式，这通常意味着由数据库管理员定义如何组织和访问数据，以对其应用程序最有意义的任何方式。

现在你已经了解了什么是NoSQL数据库，以及它们与关系型数据库的不同之处，让我们来仔细研究一些更广泛实现的NoSQL数据库模型。

键值数据库

键值数据库，也称为键值存储，通过存储和管理关联数组来工作。关联数组，也称为字典或哈希表，由一组键值对组成，其中键作为检索关联值的唯一标识符。值可以是简单的对象，如整数或字符串，也可以是更复杂的对象，如JSON结构。

关系数据库定义了一种由行和列组成的表组成的数据结构，这些表具有预定义的数据类型。与此相反，键值数据库将数据存储为一个单一的集合，没有任何结构或关系。在连接到数据库服务器之后，应用程序可以定义一个键(例如，the_meaning_of_life)并提供一个匹配的值(例如，42)，稍后可以通过提供这个键以相同的方式检索该值。键值数据库将其中的任何数据视为不透明的blob;这取决于应用程序如何理解它的结构。

键值数据库通常被描述为高性能、高效和可扩展。键值数据库的常见用例有缓存、消息队列和会话管理。

一些流行的开源键值对数据存储如下：

列式数据库

列式数据库，有时也称为面向列数据库，是一种以列存储数据的数据库系统。这看起来与传统的关系型数据库类似，但不同的是，它没有将列分组到表中，而是将每一列存储在系统存储中的单独文件或区域中。

列式数据库中存储的数据是以记录顺序出现的，也就是说一列中的第一个条目与其他列中的第一个条目是相关的。这种设计允许查询只读取它们需要的列，而不是必须读取表中的每一行，并在不需要的数据存储在内存后丢弃它们。

因为每列中的数据类型都相同，所以可以使用各种存储和读取优化策略。特别是，许多列式数据库管理员实现了一种压缩策略，如游程编码，以最小化单个列占用的空间。这可以提高读取速度，因为查询需要遍历更少的行。但是，列式数据库的一个缺点是负载性能往往较慢，因为每列都必须单独写入，并且数据经常被压缩。特别是增量加载，以及对单个记录的读取，在性能方面是非常昂贵的。

列式数据库早在20世纪60年代就出现了。不过，自2000年代中期以来，列式数据库在数据分析方面的应用越来越广泛，因为列式数据库模型非常适合快速查询处理。当应用程序需要频繁地执行聚合函数时，比如计算某一列数据的平均值或总和，它们也很有优势。一些列式数据库管理系统甚至能够使用SQL查询。

一些流行的开源列式数据库有:

面向文档的数据库

面向文档的数据库，或文档数据库，是一种以文档的形式存储数据的NoSQL数据库。文档存储是一种键值存储:每个文档都有一个唯一的标识符——它的键——文档本身充当值。

这两种模型的区别在于，在键值数据库中，数据被视为不透明的，数据库不知道也不关心其中保存的数据;这取决于应用程序了解存储了什么数据。然而，在文档存储中，每个文档包含某种元数据，为数据提供一定程度的结构。文档存储通常带有API或查询语言，允许用户根据包含的元数据检索文档。它们还允许复杂的数据结构，因为可以在其他文档中嵌套文档。

与关系型数据库不同，在关系型数据库中，给定对象的信息可能分布在多个表或数据库中，而文档型数据库可以将给定对象的所有数据存储在单个文档中。文档存储通常将数据存储为JSON、BSON、XML或YAML文档，有些还可以存储二进制格式，如PDF文档。有些使用SQL的变体、全文搜索或它们自己的本地查询语言进行数据检索，还有一些提供了多种查询方法。

近年来，面向文档的数据库得到了极大的普及。由于他们灵活的模式，他们已经在电子商务、博客、分析平台以及内容管理系统中得到了广泛的应用。文档存储被认为是高度可扩展的，分片是一种常见的水平扩展策略。它们还非常适合保存大量结构各异的不相关的复杂信息。

一些流行的基于文档的开源数据库如下: