eygle.com   eygle.com
eygle.com eygle
eygle.com  
 

« E.F.codd全关系系统的十二条基本准则 | 文摘首页 | 关系型数据库发展演义 »

关系型:数据库发展的分水岭

作者:清华大学计算机科学与技术系教授 周立柱  2003年07月29日 本文选自:软件世界

数据库领域的一次革命

关系型数据库的数据模型及其理论是在上个世纪70年代由时任IBM研究员的E.F.Codd博士提出的。一开始它并没有受到太多的重视,但是后来人们逐渐发现了其生命力所在,而它最终也成为了数据库领域的一次革命。今天,它已从理论研究走向系统实现,再到商业应用,占据了数据库市场的主流地位。

DB2的前身,是E.F.Codd提出关系数据库理论之后,在IBM的实验室研究开发的一个关系数据库系统原型System R(系统R)。系统R对关系数据库模型的理论,SQL查询语言,数据库的体系结构,查询处理与优化,事务处理,分布式数据库理论等进行了大量的实验,发现并且解决了其中的许多关键问题。这个系统原型在推向市场的时候,就成为今天大家所熟知的DB2。在数据库领域,这个贡献比后来的任何贡献都大,因为与传统的层次、网状数据库相比,它开拓了一个全新的数据库领域,是一次革命。

DB2在一些大型的商业应用当中,发挥了很大的作用。特别是IBM的主机系统上,二十世纪70年代后80年代初,在一些大型的应用中占主流地位。比如银行和金融业,它们对数据处理的要求非常迫切,在这种情况下,IBM DB2逐步介入。所以现在有不少大的应用,特别是在金融界和银行中,跟IBM主机配套的数据库基本上都是DB2。

随着技术的进步,对数据处理的要求也越来越多、越来越高。它不再像过去那样只是对数据的直接的使用,像普通的查询、加减乘除和简单统计等等。现在很重要的应用,就是把数据里面蕴含着的很多有价值的东西拿出来,就是所谓的数据挖掘。跟数据挖掘相关的就是数据仓库,还有联机事务分析OLAP。IBM在这个方面也作了很好的工作,比如它开发了数据仓库的工具,联机事务处理的工具,数据挖掘方面,也开发了一些有影响的工具。这是适应新的应用需求提出来的。在这些方面,市场的竞争是很激烈的。除了IBM的DB2以外,主要的数据库厂商,在上述的几个方面都有自己的产品。

新发展与分水岭

数据库现在的发展方向,是新近出现的将原有的关系数据库与许多其它的功能,如电子邮件、个人通讯等等相结合的趋势。而在企业自动化、电子政务等应用领域,人们相互进行的协同工作,也在与数据库技术融合。比较热门的研究领域还有XML数据库技术,它主要处理关系数据库过去处理不了的半结构化数据,如文档数据,这跟传统的关系数据库是不一样的。

我相信现在数据库技术发展到了一个全新的阶段,或者说是一个分水岭的阶段。这个分水岭的标志就是数据库所管理的数据发生了根本的变化,它的基本标志就是从过去仅仅管理由键盘输入的数字、字符等简单数据,到今天必须管理由各种设备、装置、计算所产生的多种类型的复杂数据。例如,图形、图像、视频、音频、电子图书与档案、Web网页等等。这一变化给数据库技术带来了很多的挑战,需要我们研究许多新的问题。

从这个意义上说,关系数据库是一种适合处理由键盘输入的数据的数据库技术,而这一特点是由产生它的历史条件所造成的。

今天,信息领域飞速的技术进步使进入计算机的数据发生了巨大的变化,键盘输入的数据所处的统治地位正在让位于其他形式输入的数据。现在,各种媒体的数据都可以数字化,进入计算机。例如,扫描的图像,各种装置和设备直接采集的数字化的内容有照片、电视节目、电影、音乐、报纸、书、杂志等等,为了有所区别,我们不妨把它称之为"后键盘"时代。

"后键盘"时代的上述变化对数据库领域所产生的影响是多方位的,也是根本性的,关系数据库已经无法胜任这种变化了的应用需求,可以说它使数据库技术的发展面临一个新的分水岭,我们必须寻求新的解决办法。

首先,数据库的一个基本问题就是要找到一个恰当的数据模型来表达它所管理的对象。关系数据库的模型可以简化为普通的表格,它对于表达键盘输入的数据十分到位。但是,如果我们用表格表达一本书,而书里面有文字、图形、图像、数学公式,还有很多特定领域特殊的内容,还要分成章节,这对关系数据库模型而言显然是件十分困难的事情,它处理不了这么复杂的数据内容与它们之间的结构。

第二,数据模型的变化意味着查询语言的变化。

第三,数据的变化,意味着后端对查询数据的处理要发生变化。过去的对象很简单,都是一行一行的纪录。现在一个对象除了一部电影、一幅图像、一个电视节目这些对象本身以外,还有很多关于它们的描述性的东西,即对象的元数据(对这些内容特征的描述)。比如一张照片,它的颜色、纹理等等,这使得数据本身呈现一种多维的趋势,数据库系统必须考虑这样的要求。

第四,在存储方面,过去数据存储不太考虑10年、20年这样长期的存储。一般的数据用了一年两年之后,我们就采取备份的手段,把它倒到磁带上,变成离线的,再放到架子上,编目进行管理。现在则不同,一本书,一部档案,可能10年、20年以后还要用,用户只要有需要,都希望能把它在线地调出来使用。从存储容量的要求来看,现在的要求跟过去键盘输入时代的要求有天壤之别。如何在计算机里长期保存这样超大规模的数据,并且实现随时可用的在线访问,这就需要一个合理的存储系统,这显然不是仅仅增加磁盘阵列就能解决的问题。

第五,是对数据的使用。传统的关系数据库保存的都是键盘输入的数据,对它的使用也很简单,就是查一条或者一组记录,然后在终端显示出来。今天,当我们把一张照片调出来,看照片要用特定的浏览器。我们把一本书调出来,需要各种索引服务。存储的对象和服务都产生了很大的变化,它会反过头来对数据库的支撑技术提出了很多的新要求。比如视频音频的索引技术,都会与现在关系数据库所处理的常规数据索引有很大的不同。

现在,无论是在学术界还是在工业界有不少的工作都在开展。它们呈现出明显的多学科交叉的特征,涉及到数据库、多媒体、人机交互、全文检索、海量存储系统等众多领域。IBM的内容管理(Content Management)就是一个典型的代表,它把多媒体的数据管理纳入DB2,具备三级存储,为用户提供了更加广泛的功能。清华大学以及其他兄弟单位也都在几年前开展了有关研究,在各个方面取得了进展。但是纵观国内外,我们尚未找到令人满意的"后键盘"时代的数据库管理系统的答案。



历史上的今天...

By eygle on 2007-09-09 17:59 | Comments (0) | 学习资料 | 1608 |


CopyRight © 2004~2020 云和恩墨,成就未来!, All rights reserved.
数据恢复·紧急救援·性能优化 云和恩墨 24x7 热线电话:400-600-8755 业务咨询:010-59007017-7040 or 7037 业务合作: marketing@enmotech.com