eygle.com   eygle.com
eygle.com eygle
eygle.com  
 

March 9, 2026

数据库一体机,从Britton-Lee的IDM到zData的智能化创新历程

在上一篇《从Teradata到Exadata和zData的容量愿景》中,我们讨论了Teradata开创的"数据库机"时代。很多文献也将Teradata视为第一个成功的商业数据库机创造者,但这一说法其实并不完全准确。

在数据库机的历史上,还有一家名噪一时的公司----布里顿-李(Britton-Lee)。Britton-Lee是世界上第一台大规模量产的商业数据库机的构建者,其一时之兴衰,更能说明数据库机的过往与未来。

图1 大卫·布里顿

Britton-Lee与Teradata同年(1979年)创立,其公司名称来自两位联合创始人----大卫·布里顿(David L. Britton,见图1)和杰弗里·李(Geoffrey M. Lee)。可以说,Britton-Lee与Teradata共同开创了计算机领域"数据库机(Database Machine)"这一新品类。

为什么有Britton-Lee这样的创业机遇呢?原因有两个。

第一个起因是Britton和Lee曾经在生产磁带、磁盘的硅谷传奇公司Memorex1任职,他们对存储设备有着深刻的理解。大卫·布里顿还曾担任国际存储器公司(International Memories)总裁,他于1978年离职寻求创业。第二个起因是当时的硬件资源较弱,新生的关系型数据库性能存在很大的问题,并且关系型数据库最初被认为最适合数据分析场景。

Britton和Lee创业的起点与Oracle非常相似。有一次,一家计算机公司需要磁带支持,但该公司不知道如何实现磁带驱动器软件,于是要求Britton和Lee在约三个月内开发一款PC磁带站软件。他们及时地完成了该项目,获得了约一百万美元的高额报酬,并决定用这笔钱开设Britton-Lee公司。Oracle的起点类似:拉里·埃里森(Larry Ellison)就职的精密仪器公司(PIC)希望推出一种取代缩微胶卷及其读取器的产品,PIC以40万美元将软件开发项目外包给埃里森、鲍勃·迈纳(Bob Miner)和爱德华·奥茨(Edward Oates)。他们三人为此设立了SDL(软件开发实验室)公司,这家公司后来发展成为了Oracle。此外,大卫·布里顿和拉里·埃里森都曾经在Ampex公司任职。

1 Memorex(美力思)于1961年创立,是硅谷早期的标志性企业之一。公司最初以生产高质量计算机磁带起家,并迅速成为挑战IBM在大型机外设领域垄断地位的重要竞争者。其业务范围随后扩展至磁盘驱动器、通信设备及各类磁性存储介质,在数据存储技术的黄金时代扮演了关键角色。对于全球大众消费者而言,Memorex最辉煌的印记源于其20世纪70年代的经典营销活动----那句著名的广告语"是现场演出,还是Memorex?"(Is it live, or is it Memorex?),配合爵士天后艾拉·费兹洁拉(Ella Fitzgerald)极具穿透力的歌声与震撼的影像,完美诠释了其高保真录音带的性能,成为广告史上的传奇。Memorex于1981年被Burroughs公司收购,后曾作为Unisys的一部分。上世纪90年代后,品牌权先后流转于坦迪(Tandy)及Imation公司。尽管传统的磁带和磁盘制造业务已随技术更迭远去,但Memorex至今仍是全球知名的消费电子品牌,涵盖光存储、闪存及各类配件。

图2 鲍勃·爱泼斯坦

在创业的开端,Britton和Lee还找到了精通数据库的鲍勃·爱泼斯坦2(Bob Epstein,见图2)来共同解决数据库性能问题,他们选择的方向是硬件。爱泼斯坦担任了Britton-Lee的开发副总裁兼首席架构师。

爱泼斯坦是加利福尼亚大学伯克利分校Ingres项目的第三任经理。他是图灵奖得主迈克尔·斯通布雷克(Michael Stonebraker)的博士生,也是斯通布雷克开创Ingres项目时的主要开发者之一。

彼时,斯通布雷克与王佑曾(Eugene Wong)和拉里·罗(Larry Rowe)已经在筹建关系技术公司----RTI(Relational Technology,Inc.)。RTI的目标是将Ingres商业化。但是爱泼斯坦深知关系型数据库在小型机上的性能极差,且只能同时支持少数几个用户。因此他选择加入Britton-Lee,希望通过专用硬件提高数据库性能。爱泼斯坦加入Britton-Lee时还从Ingres项目组带走了几位核心成员,属实是拆了他导师斯通布雷克的台。

2 鲍勃·爱泼斯坦(Bob Epstein)拥有电气工程与计算机科学博士学位,专业方向为分布式数据库系统(辅修音乐)。他早期的职业生涯专注于数据库与网络技术的商业化。1976年至1979年,他担任加州大学伯克利分校Ingres项目的负责人。1979年至1984年,爱泼斯坦担任Britton-Lee的开发副总裁兼首席架构师。1984年,他作为首席架构师和倡导者,通过创建Sybase及开发SQL Server,推动了客户端/服务器计算模式的发展,后者最终通过纳入中间件和开发工具,发展成为价值数十亿美元的业务。爱泼斯坦联合创办了Sybase、GetActive Software、Zight和Britton-Lee四家信息技术公司。

Britton-Lee的"智能数据库机"(Intelligent Database Machine,IDM)于1981年正式推出(比Teradata早3年),主要包括IDM 500和IDM 200两种型号。在宣传中,他们将IDM称为"真正的数据库机(A TRUE DATABASE MACHINE)"。这一命名是否似曾相识?----Oracle的RAC全称是Real Application Cluster。从"True"到"Real",技术圈里真假难辨,最后导致大家在命名上开始较劲。此外,数据库一体机从诞生之初,就以"智能"为名,其核心价值就是通过智能化加持,使软硬件协同创造超越用户期待的性能奇迹。

图3展示了IDM 500的产品架构。图中清晰显示,Britton-Lee IDM的本质是一种数据库加速外设。它必须作为"后端(Back-end)"连接到大型主机或大型微机,无法独立面向终端用户提供计算服务。这种"术业有专攻"的设计,正是早期"Database Machine"理念的精髓:让计算归计算,让数据处理归数据处理。

在20世纪80年代,计算资源极其昂贵,架构分工非常明确。Britton-Lee的设计初衷是"卸载(Offloading)"。Britton-Lee IDM实际上实现了现代存储界梦寐以求的"近数据计算(Near-Data Computing)"。传统存储必须把成千上万条原始数据搬运到主机内存,再由CPU判断哪些数据符合条件。这会导致主机网络带宽被占满(I/O瓶颈)。IDM内部集成了处理器和硬件加速器(Database Accelerator),它在数据离开自己的机箱之前,就把不需要的数据"扔掉"了。

图3 IDM 500的产品架构图

Britton-Lee的IDM数据库机中包含了完整的数据库系统,具有清晰完整的技术栈层次,其中并发控制、审计日志、崩溃恢复等功能一应俱全。主机系统则负责查询、报表等用户侧功能的实现。

到1983年,Britton-Lee销售了大约200台IDM数据库机,取得了良好的开端。但是行业也在发生变化,随着硬件技术的加速进步,爱泼斯坦认为为数据库研发专用硬件已无必要,应该将优化聚焦于数据库软件层完成,客户端/服务器架构的理念在他脑海中形成。

图4 Sybase的Logo

但是,Britton和Lee只想做硬件,他们不支持爱泼斯坦的想法。1984年,爱泼斯坦离开Britton-Lee,并带走了他在这里结识的马克·霍夫曼(Mark Hoffman)。从伯克利时代一直追随爱泼斯坦的汤姆·哈根3(Tom Haggin)和简·多尔蒂4(Jane Doughty)也随后加入。1984年,在爱泼斯坦家的后院,Sybase(如图4所示)诞生了。

历史总是充满了偶然,我们很难假设,如果Britton-Lee当时接受了爱泼斯坦的想法,那么凭借硬件先发优势和数据库硬核产品的组合,会否成长为基业长青的巨头?Oracle是否还能崛起?

但是历史不容假设。在数据库领域,Sybase在20世纪90年代异军突起,一度挑战了Oracle的王座,而后被SAP收购,通过HANA再次加入数据库机的赛道,此乃后话。

Britton-Lee于1985年实现了IPO。到1987年,他们已经向150多个客户销售了逾675套数据库机,其中包括AT&T、杜邦、RCA、法国里昂信贷银行和高盛等。

3 汤姆·哈根(Tom Haggin)毕业于加州大学伯克利分校,与Bob Epstein为校友及好友。加入Sybase前,他在Britton-Lee担任MIS(管理信息系统)主管,负责开发数据库管理系统应用程序。在Sybase,他主要负责应用程序接口和开发工具。他是DB-Library(Sybase客户端API)和OpenServer(服务器端API框架)的主要设计者和开发者。他还是ODBC规范前身(SQL Connectivity)的核心制定者之一。他曾与微软的Kyle Geiger和Jim Gray合作,推动了动态SQL的标准化。哈根在Sybase工作了约10年,于1994年左右离开。随后他创立Tilden Park Software公司并担任负责人,专注于商业软件产品的设计与开发。

4 简·多尔蒂(Jane Doughty)毕业于加州大学伯克利分校。Bob Epstein曾评价其编程天赋极高,且项目管理能力卓越。在Britton-Lee时期,她与Bob Epstein、Tom Haggin等人共同参与数据库技术的开发。她是Sybase的四位联合创始人之一。在公司早期,她负责数据库服务器(Database Server)的工程研发工作,是核心技术架构的奠基人之一。她在Sybase 1991年IPO前离开了公司,原因是搬迁至外州(威斯康星州麦迪逊市)。她的丈夫是著名计算机科学家、威斯康星大学麦迪逊分校教授David A. Wood。

在技术创新期的瞬息万变中,形势可能一夜之间就会逆转。Britton-Lee在1987年经历了数据库机销售的严重放缓,当年营收约2500万美元,亏损约900万美元。当年第四季度亏损250万至290万美元,其中包括为裁减约50名员工(占当时280名员工总数的20%)所计提的准备金。

图5 Britton 和 Lee 的合影

1988年1月1日,Britton-Lee公司联合创始人大卫·布里顿和杰弗里·李宣布辞职。这使公司总裁兼首席执行官约翰·卡瓦利尔(John C. Cavalier)得以完全掌控公司。卡瓦利尔于1987年加入Britton-Lee,此前他是NCA公司的CEO。NCA后来被Ask Computer Systems公司收购。大卫·布里顿和杰弗里·李在退出公司后基本淡出公众视野,图5是互联网上能够找到的唯一一张他们两人的合影。

1990年,Britton-Lee被Teradata收购。在这一时期,Teradata成为"数据库机"领域的唯一幸存者。

此处可作一小结:专用硬件和通用硬件之争,是数据库机成败的关键。其次,是硬件与软件之争,当硬件进化速度超过软件,数据库机就获得关注;当软件进化速度超过硬件,数据库机就归于沉寂。可谓此起彼伏、此消彼长。

1991年9月,AT&T公司收购了NCR公司,后者于12月宣布以约2.5亿美元收购了Teradata。幸运的是,Teradata并未在并购中沉沦。2007年1月,NCR宣布Teradata将成为一家独立的上市公司。图6是Teradata自2007年以来的收入变化曲线。截至2026年1月底,Teradata的市值约为26亿美元。

图6 Teradata收入历史趋势图

Teradata的目标市场是数据仓库。伴随着开源产品(如Hadoop等)的普及以及大数据技术的崛起,其市场进一步被蚕食。

真正为数据库一体机带来复兴的是Oracle。Exadata以通用硬件为基础,将数据库一体机从OLAP环境拓展到OLTP环境,从而为"数据库一体机"打开了广阔市场,开启了真正波澜壮阔的新时代。而云和恩墨的zData更进一步,通过分布式存储技术,将数据库一体机推进到通用数据库支持范畴,实现了统一数据库运行平台的交付,大大简化了用户的数据库基础设施架构。

从Teradata到Exadata和zData,数据库一体机经历了从"专用硬件+专用软件""通用硬件+专用软件特性"再到"通用硬件+通用软件"的演进过程(如图7所示)。

图7 数据库一体机的时代演进

"专用硬件+专用软件"时代:早期Teradata使用自研的专用网络交换机和网卡(BYNET)。BYNET是系统的"神经中枢",负责处理MPP架构中的节点间高速通信、合并排序和消息广播。整个系统被封装在特定的物理机柜中,包含定制的存储阵列和容错电源。

"通用硬件+专用软件特性"时代:Exadata设计的核心目标是使用通用硬件,采用开放架构实现集成化交付。Oracle采用InfiniBand技术作为网络互连方案;在数据库软件层面,通过Smart SCAN技术、混合列压缩等专用软件特性实现一体机加速。

"通用硬件+通用软件"时代:zData的设计目标是通过智能化的软件定义存储技术,面向数据库场景提供高性能块存储,实现软硬件解耦并支持所有数据库产品。用户可采用经官方认证的通用硬件,构建自有的数据库统一存储资源池,实现性能与成本的自主可控。

从以上演进过程可以看到,技术的进化是在需求驱动下不断重塑的。例如,zData为顺应国内用户的需求,从过去仅支持Mellanox的InfiniBand,进化为支持更通用的RoCE(RDMA over Converged Ethernet)高速网络技术;网络带宽从过去的100Gb扩展为支持从25Gb到200Gb的不同带宽配置;硬件平台也从Intel处理器扩展到支持AMD、海光、鲲鹏等处理器;支持的数据库更是从Oracle扩展到DB2、SQL Server、MySQL、PostgreSQL、GaussDB、OceanBase、达梦、崖山等数十种。如图8所示,zData的进化,为用户带来了稳定可靠、性能卓越的数据库运行平台。通过整合的数据库资源池和智能化运维能力,数据库管理效率显著提升,运营成本也得以优化。

图8 云和恩墨数据库一体机从zData到zData X的进化

作为补充,关系型数据库在诞生之初,曾被认为最适合数据仓库场景,因为当时其性能表现有限,但具备存储更多数据的能力。DB2诞生后,就是作为IMS的补充先被尝试用于分析型系统的。而Oracle创始人拉里·埃里森也曾回忆说:"我们经历了传统观点所预测的那些非常严重的性能问题。我们始终无法让数据库运行得足够快。我们尝试了一个又一个方法。最终我们取得了突破,实现了十倍的性能提升。在最后的测试中,我们的性能超越了当时被认为是最快的PDP-11数据库CODASYL系统运行得更快。"

图9 埃里克·欧曼

再做一个补充,当年爱泼斯坦从伯克利带到Britton-Lee的一员大将是埃里克·欧曼(Eric Allman,见图9)。欧曼是sendmail的开发者,他的努力对电子邮件传输技术产生了重大影响。sendmail是互联网上最早的邮件传输代理之一,欧曼因此于2014年入选互联网名人堂 (Internet Hall of Fame)。欧曼还是syslog的创造者,syslog是几乎所有开放系统和外围设备中使用的事实上的标准日志记录机制。他在Britton-Lee担任首席程序员,从事数据库接口软件的开发。

作为本篇最后的延展,我们通过图10来看一下Britton-Lee的IDM 500一体机在当年的性能表现。由于年代久远,此处不再提供测试用例和详细解释,但可直观看出,数据库机的性能表现非常强劲。

图10 Britton-Lee IDM 500的性能表现

参考文献:

http://www.neophilic.com/~eric/

History of Sybase,by Bob Epstein

Oral History of Mark B. Hoffman

http://www.tildenpark.com/who.html

http://www.tildenpark.com/tomresume.htm

Posted by eygle at 1:57 PM | Permalink | Advanced (94)

March 3, 2026

数据库一体机的创新者,从Teradata、Exadata到 zData

题记:本文是对数据库一体机历史的一次回顾和总结。从数据库技术的诞生到软硬件结合的尝试,数据库一体机的进化史,本质上是一部人类对抗数据规模爆炸的奋斗史。

数据库一体机更早期的名字是"数据库计算机(Data Base Computer)",其诞生的目标就是高效处理超大规模的数据集。从Teradata、Exadata到zData,这一领域的产品命名就体现了这一愿景(如图1所示)。

图1 数据库一体机的演进

Teradata的命名源自TB(Tera Byte),该公司创立于1979年,并于1984年发布了其DBC/1012数据库机。"DBC"是指Data Base Computer,这一时期,Data和Base两个名词尚未完成公认的合体,人们熟知的Database一词也未正式诞生。"1012"代表的是他们当时的野心----10的12次方(Tera)字节,也即TB。Teradata创立的时期,硬盘容量最常见的单位是MB,关于TB的畅想已经属于大胆。

Exadata的命名明显直指Teradata,EB代表10的18次方(Exa)字节,EB是TB存储容量的100万倍。事实上,Oracle数据库在数仓方面一直缺乏竞争力,Teradata、DB2、Informix在当时的数仓能力都远超Oracle。在2000年代初期,Oracle开始向数据仓库领域进军,并于2008年推出其与HP合作的第一代数据库一体机(Hp Oracle Database Machine)产品。

zData的命名遵循了TB、EB的存储容量序列。云和恩墨自2014年开始探索数据库一体机产品,在软件定义存储领域率先创新,所以选择以ZB为愿景。1ZB(Zetta Byte)等于1000 EB,是更大规模的存储容量。大约在2020年左右,zData上实现了首个PB级别的数据库存储,是产品跃迁的第一个里程碑。

640.png

图2 数据库一体机的命名

图3 杰克·谢默(1940.8.22--2020.1.2)

一个产品的灵魂往往藏在它的起源中。1970年代,杰克·谢默1(Jack E. Shemer,如图3)在花旗银行工作时敏锐地察觉到传统单机系统在处理海量数据时的瓶颈。他联合加州理工学院针对大规模数据处理需求展开讨论,并提出大规模并行处理(MPP)的商业化构想,这就是Teradata的设计源头。1979年7月13日,谢默联合几位来自施乐和花旗银行的资深技术专家,在加州布伦特伍德(Brentwood)他的家中正式创立Teradata公司,他担任首席执行官。加州理工学院的菲利普·尼奇斯2(Philip Neches)出任公司的首席技术官。

菲利普·尼奇斯.png

图4 菲利普·尼奇斯(1952.2.7--2022.9.25)

菲利普·尼奇斯(如图4所示)于1983年完成其博士论文《Hardware Support for Advanced Data Management Systems》。他在论文中提出了一个系统性的框架,用于分析数据库工作负载的特征,并据此设计专门的硬件支持机制。尼奇斯在论文中的关键洞见包括:数据库工作负载具有内在的并行性,关系代数操作可以在数据分区的基础上并行执行;网络通信开销是并行数据库系统的主要瓶颈,因此架构设计应最大化本地磁盘I/O、最小化节点间数据移动;商用微处理器的性能提升速度将超过专用硬件,因此基于通用处理器的软件并行化策略具有更好的长期演进性。

1 杰克·谢默(Jack E. Shemer,1940.8.22--2020.1.2),1940年出生于美国亚利桑那州凤凰城。19岁时(1960年),还在读大学的他加入通用电气计算机公司(General Electric Computing Company)。在通用电气,他致力于将分时技术商业化,即让一台大型主机同时被多个终端访问,为用户提供各自拥有独立计算机的假象。1976年,在花旗集团子公司Transaction Technology, Inc.工作时,他协助领导团队开发了自动化银行系统,推动了ATM(自动取款机)在美国的广泛使用。谢默于1979年联合创立Teradata并担任首席执行官。该公司专注于开发基于并行处理技术的数据管理机器,能够比当时世界上最先进的大型机更快、更高效地查询数量级更大的数据库。他被许多人昵称为"仙人掌杰克"(Cactus Jack),逝世于2020年1月2日。

2 菲利普·尼奇斯(Philip Neches,1952.2.7--2022.9.25)在加州理工学院完成学业,先后于1973年获学士学位、1977年获硕士学位、1983年获博士学位。1979年,尼奇斯基于其论文研究和杰克·谢默(Jack E. Shemer)等人联合创立Teradata公司,并担任首席技术官。Teradata于1992年被AT&T和NCR公司收购。1989年至1994年,尼奇斯担任NCR公司高级副总裁兼首席科学家;1994年至1996年,担任AT&T多媒体产品与服务集团副总裁兼集团首席技术官。

图5 Teradata 发布的第一款数据库机DBC/1012

1984年,Teradata发布DBC/1012数据库机(如图5所示)。花旗银行自然成为了Teradata的第一个客户。最终在1992年,他们为沃尔玛(Wal-Mart)构建了首个存储容量超过1TB的系统。

DBC/1012配有多个英特尔微处理器,每个微处理器都配备独立的磁盘驱动器,并通过Ynet交换网络互连,构成了一个Shared-Nothing(无共享)架构的大规模并行处理系统。在这个系统中,Ynet是并行处理架构的核心,Teradata将Ynet定义为智能互联(intelligent interconnect)技术。"智能"代表了硬件系统对于软件系统的贡献与优化。

尼奇斯在1983年提出的"最小化节点间数据移动",实际上预言了未来40年分布式系统的演进方向。当年的Ynet交换网络,本质上是为了解决"搬运数据太贵,移动计算更便宜"的问题。这也是为什么Teradata能在沃尔玛这种零售巨头手中大放异彩----它处理的不是账本,而是行为。

Teradata的数据库机是软硬一体的,各硬件层面都针对数据库运算进行了增强,也可以作为大型机的后端系统实现并行数据处理。图6展示了Teradata的架构原理。图中AMP (Access Module Processor)是其核心工作单元,每个AMP拥有独立的CPU、内存和磁盘空间,互不干扰。数据表被分散存储到各个AMP节点。这种"分而治之"的思想,至今仍是高性能数据库的黄金法则。

图6 Teradata架构原理图

值得一提的是,谢默于1970年至1976年在施乐公司工作期间,还联合创立了高级开发实验室(ADL),该实验室隶属于帕洛阿尔托研究中心(Palo Alto Research Center),被认为是全美最具声望的同类实验室。高中时期的史蒂夫·乔布斯(Steve Jobs)、史蒂夫·沃兹尼亚克(Steve Wozniak)和艾伦·凯(Alan Kay)等人都曾在谢默的指导下参与ADL的工作。而在施乐公司之后,谢默在花旗集团工作时,还协助领导团队开发了自动化银行系统,推动了ATM(自动取款机)在美国的广泛使用。ATM本质上也是一种机器,它负责"存储"和"取出"现金,这和数据库机具有异曲同工之妙,数据库机负责"存储"和"取出"数据。

图7 Teradata在2017年Gartner数据仓库魔力象限中的表现

Teradata凭借其敏锐的市场洞察,率先探索大规模数据处理需求,实现了商业成功。在Gartner早期的数据仓库魔力象限中,Teradata一直位列领导者象限。图7所示是Gartner发布的2017年数据仓库魔力象限,Teradata不仅处在领导者象限,而且是最具远见的厂商。Teradata于1997年进入中国市场,先后服务于中国航信、上海证券交易所、中国邮政、中国移动、中国电信等大型集团企业客户。后来,从2001年开始,Teradata又先后赢得建设银行、民生银行、工商银行等多家国有大行和股份制银行的数据仓库建设项目,巅峰时期80%以上的中国头部金融机构都采用了Teradata数据仓库。海证券交易所是Teradata在中国的首个TB级用户,该系统3历时16个月的建设期,于2001年底交付使用。

图8 Teradata在2025年Gartner云数据库管理系统魔力象限中的表现

Gartner后来取消了数据仓库魔力象限,将其归入现在的云数据库管理系统魔力象限中。直到2022年,Teradata也一直位列领导者象限。直至最近几年,Teradata才滑入远见者象限。图8所示为Gartner发布的2025年Cloud Database Management Systems魔力象限。Teradata利用数据库机在数据仓库领域取得了相当好的成绩,其2014年的巅峰收入达到27亿美元,并且其巅峰市值于2012年达到120亿美元。

3 上海证券中央登记结算公司构建的数据仓库系统,经过业务发掘、需求分析、系统设计、开发和实现、系统测试和试运行,于2001年11月完成所有的项目开发任务,正式交付使用。整个数据仓库项目历时16个月。当时,上海证交所有3300万股民、700多种上市证券品种、450个结算会员、3200多个席位、每年220多个交易日、每天200万至700万的成交交易笔数,所有交易最后都必须在上海证交所进行股票的清算和资金划拨。

图9是Teradata的创始团队的珍贵合影,后端的机器就是他们的创造成果DBC1012。谢默有一句名言用于激励团队:"每个创业项目都会经历至少一次濒临失败的危机时刻。团队如何应对危机时刻,将决定你是否能够成功。"这句话对于今天的创业公司,仍然适用。

640.jpeg

图9 公司的创始团队

Oracle是在OLTP领域取得成功之后,开始向数据仓库领域进军。Oracle的加入让数据库机领域迎来彻底的变革。2000年左右,Oracle公司在内部启动了一个名为SAGE(Storage Appliance for Grid Environments,网格环境存储一体机)的项目。这是一个开放硬件栈的解决方案,也就是说,不包含任何专有硬件,其直接对手就是Teradata和Netezza。Teradata和Netezza的产品是更多依赖于定制化或专有硬件的解决方案。

2008年,Oracle首次推出Exadata数据库一体机。在发布前一个星期,这个产品被拉里·埃里森(Larry Ellison)命名为Exadata。Exadata的命名是直接针对Teradata的。埃里森在发布数据库一体机时曾经提到,他受到iPhone的启发----乔布斯通过一台iPhone,提供了高度集成的系统以及极简的操作界面,从而"重新发明了手机"。而Oracle通过Exadata,让"数据库一体机"这个名字替代了"数据库机"。数据库一体机理念被普遍接受。

Exadata 的成功不仅在于容量(EB),更在于它重新定义了"调优"。在传统时代,DBA需要花数周时间去调优存储阵列、交换机和服务器。Oracle通过"苹果式"的封闭集成,将这种复杂度封装在黑盒内。

Exadata使用的是通用硬件,但是在软件上做了增强。Oracle通过Smart Scan(智能扫描)等技术承载其 EB 级愿景。Smart Scan完成了专用硬件的功能,它不再把所有数据吐给数据库服务器,而是在存储层就过滤掉无关数据。这种"存储层大脑"设计,是它超越传统阵列的关键。

图10 zData第一版的产品白皮书

云和恩墨进入数据库一体机市场则是在"软件定义"时代。当软件定义存储(Software-defined storage,SDS)技术开始兴起时,EMC收购了一家以色列公司,该公司研发了一款软件定义存储产品----ScaleIO。2014年,云和恩墨与EMC合作,推出了基于ScaleIO的第一代数据库一体机产品zData。这一版本的产品白皮书上(如图10所示)明确标明,zData是基于ScaleIO和LSI闪存的超融合存储解决方案。这一方案在推出后,大受用户欢迎,第一年就在保险、电信、交通等领域获得10多个核心种子用户。但是第二年,EMC因为软件定义存储与传统硬件销售存在冲突,转而雪藏了ScaleIO。

由此,云和恩墨开始自主研发软件定义存储产品zStorage。基于zStorage,zData开始了自我发展之路。云和恩墨早期的zData产品只能支持Oracle数据库,后期通过自研的分布式存储软件,新版本的zData X产品已经可以支持通用的数据库产品,包括Oracle、崖山、达梦、MySQL、PostgreSQL、GaussDB等(如图11所示)。有了自主的内核级能力,zData的技术创新不断加速,真正实现了用一套统一的软件架构,支持全系列的数据库运行,极大地降低了用户的技术学习与运维管理成本。现在,zData数据库一体机通过极速的I/O存储池化底座、云化的智能运维管理,真正帮助用户降低成本并演进到未来架构,zData的用户群体也迅速壮大。

图11 zData数据库一体机架构图

从技术架构看,Teradata是基于Shared-Nothing的MPP数据仓库产品;Exadata是基于Oracle RAC的共享存储集群产品;zData则是基于软件定义存储技术的通用数据库基础运行平台。

三个时代,三种技术推动了数据库存储的不断演变。Teradata是数据仓库产品,Exadata则将一体机拓展到OLTP场景,而基于软件定义存储技术的zData则将数据库支持扩展到通用产品时代。用户选择的自由度在不断提升。

如果说 Teradata 是定制的"装甲车",Exadata 是昂贵的"超跑",那么 zData 代表的则是"变形金刚"。zData从依赖ScaleIO到自研zStorage,代表了国产数据库一体机从"集成创新"走向"核心自研"的历程。而且,在"去O"和多云并存的今天,用户不再希望被单一厂商锁定。zData 的 ZB 愿景,本质上是想做一个能装下所有数据库颗粒度的"超级底座",让用户获得数据存储和应用的自由。

图12 存储容量的单位和换算

值得说明的是,关于存储容量的单位还有很多,后续的产品命名空间依然充裕。此外,还有很多颇值得留意的单位(如图12所示),如BB、NB、DB和XB等,这些容量单位所能描绘的数据规模大到超出想象。

又及,2023年2月15日,Teradata官方宣布退出中国市场(如图13所示)。

图13 Teradata中国公司业务调整公告

Teradata 的离场,标志着"专有硬件数据库时代"的终结。随着信创(国产化替代)的深入和云原生数据库的崛起,中国用户对"一体机"的需求已从单纯的"性能怪兽"转向"存算均衡、自主可控、极度弹性"。

数据库一体机的进化史,本质上是一部人类对抗数据规模爆炸的奋斗史。从谢默在加州住宅里的创业梦想,到埃里森的"重新发明"宣言,再到云和恩墨的软件定义突围----每一代产品都在回答同一个命题:当数据成为新时代的石油,我们如何建造最高效的炼油厂?

从 TB 到 EB 再到 ZB,容量的单位在变,但人类对数据处理极致效率的追求从未改变。

参考文献:

https://www.sciencedirect.com/topics/computer-science/teradata

https://en.wikipedia.org/wiki/Teradata

https://www.companieshistory.com/teradata

https://tech.sina.com.cn/it2/2001-11-06/90748.shtml

https://news.sina.cn/sx/2023-02-21/detail-imyhmxkw8650159.d.html

Posted by eygle at 4:09 PM | Permalink | Advanced (94)

August 20, 2024

建立历史视角、锤炼远见目光:《数据库简史》一书出版

​一段时间以来,很多朋友一直问我,新书的进展如何?现在终于可以回复大家:《数据库简史》一书终于正式出版!

《数据库简史》一书是我写作时间最长、遭遇挑战最大、编辑修订最多的一本。之所以说挑战最大,是因为这是一次全新的写作历程,和过往我的书籍完全不同,这本书不是讲数据库的技术细节,而是侧重数据库技术的发展历史。

京东商城链接: https://item.jd.com/14252995.html

本书动因

为什么要写作这样一本书?

最直接的因素当然是:中国数据库市场迎来了国产数据库时代!

伴随着国产数据库的研发突飞猛进,中国数据库从产品应用时代进入了产品研发时代,相应的也从DBA时代进入了DEV时代。

而我在数据库行业从业25年,也自然希望能够为中国的"数据库产品研发时代"做点贡献,无论是亲身参与还是呐喊助威

从亲身参与上,云和恩墨基于 openGauss 推出了国产数据库 MogDB ;从呐喊助威上,创作一本图书的创意就默默酝酿。

dba_dev.png

如何能够更好的研发数据库产品?我认为既要洞悉历史,又要洞察未来。而数据库技术经过60多年的发展,历史悠久、积淀深厚、人才辈出...如果能够将数据库的发展历史呈现出来(包括技术演进历程、天才人物贡献、产品成败得失、行业传奇佚事等),一定能为中国数据库产业发展作为借鉴

最终,《数据库简史》一书中共对30多个国产数据库产品进行了描述和介绍,据编辑统计,全书共涉及人物100多人,数据库产品80多个。

正如李国良教授在给本书的推荐序中写道:

数据库是基础软件皇冠上的明珠,被广泛应用到国家关键基础行业中。数据库有着60多年的发展历史,诞生了很多数据库历史名人和诸多事迹。但是市场上很少有书籍详细介绍数据库技术、系统、开拓者的历史,而《数据库简史》一书弥补了这一空白,为数据库从业者了解数据库历史提供了丰富宝贵的材料。

为什么能够写作这样一本书,正是因为我自己在研究数据库技术时,常常就是追根究底的从历史根源、技术根源开始的。熊伟博士在为本书撰写的序言中同样表达了他在学习数学上的体味心得:

如同想要了解纷繁复杂的数学体系,最好看一下数学发展史一样,如果想对当今数据库体系有一个深入的了解,学习一下数据库的发展史,对于在我们脑海里建立数据库体系的知识大厦大有助益。

除了以史为鉴的写作意图,中国的基础软件产业发展,举步维艰,更需要更多人的了解与支持。所以我也希望写一本能够让更多人了解数据库技术的普及读物,让更多人关注、了解、支持这个行业,也希望有更多的有志之士加入数据库行业,以天时、地利、人和共同铸就中国数据库产业的繁荣。
db_env.png

写作起点

灵光一闪并非难事,但是真正下定决心动笔又是一个漫长的心路历程,我在《数据库简史》一书的序言中简要描述了这个过程:

  • 当我们踏入数据库基础软件研发领域之后,深刻地感受到了这个领域的艰难与挑战,也切肤之痛般体验到这个领域人才之稀缺、关注之缺乏、力量之分散,我想在自己亲身入局的参与之外,也力所能及的为中国数据库产业做一点点号召和贡献。

  • 于是,我们打造了"墨天轮中国数据库技术社区",推出了"中国数据库流行度排行榜",希望以客观中立的视角,为中国数据库的流行度作出参考。

  • 随后,我们为了洞悉数据库的历史,展示当下数据库格局,呈现中国数据库创新,精心绘制了一张"数据库简史"海报,将数据库技术发展脉络和突出的品牌凸显出来,为中国数据库产业摇旗呐喊。

  • 以上两件事的前因则更是可以追溯到2000年我们发起倡议的ITPUB社区,以及在2013年开始绘制的"Oracle数据库体系结构图",前者曾汇聚360万会员,后者则发行超过5万张。

  • 在"数据库简史"海报印行之后,在和一些行业专家、客户交流时,他们就提出建议:"老盖,你画的不错,讲的挺好,可是你走之后我们的印象又淡忘了。你能不能将这些写下来,成为一本书,给行业一个参考?"

有了种种前因,自然还需要一个时点触发。一次机缘巧合之下,人民邮电出版社的蒋艳和李莎老师来公司访问,她们带来了一批优秀图书供我学习,其中有一本书是《人工智能简史》。

蒋老师就提议:"能不能写一本《数据库简史》,为中国蓬勃发展的数据库行业提供借鉴参考?海报还可以作为插图。你特别适合来执笔。"
brief_hist.png
我说:"适不适合不知道,但我可以试试。"

内容组织

头脑一热是很容易的,但是瓜熟蒂落却要十月怀胎。动笔之后,才知道自己虽然有20多年的职业历程,但对行业的认知和了解仍然十分有限,这几乎是一项不可能完成的任务。

但是总归是发愿,自然不能中辍。就且行且珍惜吧。

好在,在持续不断的努力改进之下,在我的编辑的精心校订之后,这本书终于得以呈现在大家面前。
cover01.png

在中国数据库蓬勃发展的时代,我认为回顾历史也非常重要。

回顾历史,呈现当下,探讨未来,全书共分为10个章节。

  • 第1章,数据和数据库。以一以贯之的脉络,纵览数据和数据库技术的发展历程,从勒石以记到大语言模型,从概念和应用上探讨了数据和数据库的价值。
  • 第2章,数据库技术的拓荒者。试图通过4位数据库领域的图灵奖获得者,阐述这些引领时代的先驱如何洞察和开拓了数据库的广阔天空。在介绍这4位天才之前,我们还简单回顾了计算机的发展历程,以及图灵的传奇一生。
  • 第3章,数据库领域的先知。讲述了Oracle公司的故事,在英文中,Oracle一词有"先知"之意,Oracle公司对关系型数据库探索之早、成就之高使其成为了行业中不断研究和学习的对象。Oracle占据了数据库领域的半壁江山,其成功之路值得用一章去重点描述。
  • 第4章,数据库产品的先行者。讲述了DB2、dBASE、Ingres和MySQL等4个产品,它们和Oracle一起主导了丰富多彩的早期数据库市场,其中有的产品失败了,有的仍然光彩夺目,值得我们回顾其成就,警示其挫折。
  • 第5章,中国数据库的早期探索。回顾了自1977年首届中国数据库学术年会开始,我国学术界和工业界对数据库技术的不懈探索和全方位尝试。从技术到教育,从产品到社区,正是这些探索让数据库人能够薪火相传。
  • 第6章,互联网和云的新篇章。揭开了数据库技术变革的新时代,正是因为互联网和云计算的发展,彻底改变了数据库市场的格局,这也使得新兴的数据库创新企业和产品不断崛起,中国的数据库产品开始站上了国际舞台。
  • 第7章,开源根社区的崛起。探讨了在全球供应链风险之下,中国数据库根社区的建设和发展。坚持开源、开放,向世界展示中国创新;合力共建共享,让用户和企业必备一个可信的中国选择。
  • 第8章,中国数据库的产业格局。分析了国内数据库产品和企业的典型特征、技术路线、开源趋势,对比了国际数据库的创新特性与人才竞争,同时为中国数据库产业的发展提出了建议。
  • 第9章,数据库架构演进和未来。通过回溯数据库架构发展脉络,展示了不同要素对于数据库技术的关键影响,以及不同产品在不同阶段实现的架构创新,并探讨了数据库技术演进的未来。
  • 第10章,天道酬勤,缘起数据终不悔。这是我自身成长经历的分享和总结。作为在数据库领域摸爬滚打25年的老兵,从程序员到DBA再到创业者,亲历历史,以此作为附录,或许可以为走在不同成长阶段的读者提供一点参考。

总结

中国是否需要自己的数据库?我想这个问题的答案已经清晰无比。在基础软件领域,从操作系统、中间件到数据库,中国企业正在构建起新的技术体系,以保障中国蓬勃发展的数字经济。这有挑战,也是机遇。

正如华为计算产品线总裁张熙伟在本书推荐序中所写的:

数据库被誉为基础软件皇冠上的明珠,是下接算力、上接应用的核心软件,一旦形成突破,必将推动全球相关产业价值链的重构。

中科软总裁左春先生也在本书的推荐序中写道:

作为应用软件最"有感"的系统软件,数据库系统的操作接口标准,也是应用型软件的重要接口,关系重大。

中国数据库产品的发展,也正如阿里云数据库掌门人李飞飞博士所说:

数据库系统从诞生那天起就为信息技术领域带来了翻天覆地的变化,在云计算和人工智能高速发展的今天,中国的数字化和智能化进程一定会带动中国数据库产品走向世界前列。

在2023年的"数据技术嘉年华"大会前,我曾经写了一篇文章,提出了一个问题:当大师遇见大师,他们会谈论什么?
两位图灵奖的获得者斯通布雷克(Stonebraker)和吉姆·格雷(Jim Gray)曾经在2002年的一次大会上表达对于行业同仁的观点:

  • 斯通布雷克提出批评:大多数看似创新的想法实际上并不是新的,而是以前提出的。有一个强大的历史视角很重要,可以帮助我们避免重复发明轮子,避免重复历史错误。

  • 吉姆·格雷表达激励:如果你有眼光,就一定要追求有远见的研究。尽可能花时间去做自己引以自豪的事情,尽量不做无意义的事情。

genghuoziyu.png
两位天才人物不约而同地告诉我们:建立历史视角、锤炼远见目光 非常重要。

丘吉尔也曾说过:"回顾历史越久远,展望未来就越深远。"回顾数据库的历史,对我们研究和思考数据库的未来会有很多有益的启示。

毫无疑问,中国的数据库产业正在崛起,越来越多的产品和创新正在跻身世界尖端。相信在一代又一代数据人的努力之下,一定会迎来数据库的"中国时刻"。我相信,每一分努力都是推动中国数据库技术进步的力量。

点点星光,汇聚星河,此时此刻,中国数据库领域正是群星闪耀时刻

Posted by eygle at 10:36 AM | Permalink | Books (196)

June 12, 2024

MySQL 第一个版本的正式发布时间

关于 MySQL 的历史,有很多不同的描述,但是无疑MySQL AB的创始人阐述的最为准确和可靠。

David Axmark 和 Michael Widenius 在《MySQL Introduction》一文中这样记录了过去:

In May 1996, MySQL version 1.0 was released to a limited group of four people, and in October 1996, MySQL 3.11.1 was released to the public as a binary distribution for Solaris. A month later, a Linux binary and the source distribution were released. The MySQL release included an ODBC driver in source form. This also included many free MySQL clients ported to MySQL.

1996年5月,MySQL 1.0版本发布,仅限四人使用。1996年10月,MySQL 3.11.1版本作为Solaris系统的二进制分发版向公众发布。一个月后,发布了Linux的二进制版本和源代码分发版。MySQL发布包括了以源代码形式提供的ODBC驱动。这也包括了许多移植到MySQL的免费MySQL客户端。

参考链接:https://dl.acm.org/doi/fullHtml/10.5555/328036.328041

Posted by eygle at 9:18 AM | Permalink | FAQ (270)

May 29, 2024

循序渐进MogDB:如何通过copy转储表数据到CSV文件

在 MogDB 数据库中,通过 copy 命令可以灵活的将数据复制到数据库中,或者,将表数据转储到磁盘文件。当转储文件时,也可以通过 with 子句指定具体的参数,实现多样化输出文件的支持。

以下是一个范例,通过 with 语句,可以指定导出数据的分隔符(delimiter),是否包含头文件信息等:

MogDB=>copy student to '/home/omm/student.csv' with (format csv,delimiter ',',header on);
COPY 5467

MogDB=>copy people to '/home/omm/people.csv' with (format csv,delimiter ',',quote '"',header on);
COPY 518

当然,也可以使用 MogDB 的客户端工具,Mogeaver] 的 Data Transfer 功能进行数据的转换。Mogeaver 的好处是,可以分批次提交,减少内存的耗用。

向数据库中加载 CSV 文件参考:
循序渐进MogDB:通过 copy 加载 CSV 文件到数据库

Posted by eygle at 10:04 AM | Permalink | Beginner (56)

June 12, 2024

MySQL 第一个版本的正式发布时间

关于 MySQL 的历史,有很多不同的描述,但是无疑MySQL AB的创始人阐述的最为准确和可靠。

David Axmark 和 Michael Widenius 在《MySQL Introduction》一文中这样记录了过去:

In May 1996, MySQL version 1.0 was released to a limited group of four people, and in October 1996, MySQL 3.11.1 was released to the public as a binary distribution for Solaris. A month later, a Linux binary and the source distribution were released. The MySQL release included an ODBC driver in source form. This also included many free MySQL clients ported to MySQL.

1996年5月,MySQL 1.0版本发布,仅限四人使用。1996年10月,MySQL 3.11.1版本作为Solaris系统的二进制分发版向公众发布。一个月后,发布了Linux的二进制版本和源代码分发版。MySQL发布包括了以源代码形式提供的ODBC驱动。这也包括了许多移植到MySQL的免费MySQL客户端。

参考链接:https://dl.acm.org/doi/fullHtml/10.5555/328036.328041

Posted by eygle at 9:18 AM | Permalink | FAQ (270)

May 29, 2024

循序渐进MogDB:如何通过copy转储表数据到CSV文件

在 MogDB 数据库中,通过 copy 命令可以灵活的将数据复制到数据库中,或者,将表数据转储到磁盘文件。当转储文件时,也可以通过 with 子句指定具体的参数,实现多样化输出文件的支持。

以下是一个范例,通过 with 语句,可以指定导出数据的分隔符(delimiter),是否包含头文件信息等:

MogDB=>copy student to '/home/omm/student.csv' with (format csv,delimiter ',',header on);
COPY 5467

MogDB=>copy people to '/home/omm/people.csv' with (format csv,delimiter ',',quote '"',header on);
COPY 518

当然,也可以使用 MogDB 的客户端工具,Mogeaver] 的 Data Transfer 功能进行数据的转换。Mogeaver 的好处是,可以分批次提交,减少内存的耗用。

向数据库中加载 CSV 文件参考:
循序渐进MogDB:通过 copy 加载 CSV 文件到数据库

Posted by eygle at 10:04 AM | Permalink | Beginner (56)

October 18, 2023

官网更换首页:Oracle旗帜鲜明表明立场支持以色列

Oracle公司的官网,更换了首页内容,明确表明立场:Oracle与以色列站在一起
声明指出:

Oracle谴责针对以色列及其公民的恐怖袭击。Oracle将为其员工、以色列政府和国防机构提供一切必要的支持。

Magen David Adom是一家为以色列公民提供紧急医疗服务的非营利组织,致力于减轻任何地方的人类痛苦,保护所有人的健康和尊严。Oracle将为员工向这一重要组织的捐款提供等额资助。

ES 2023-10-18 at 14.13.15.png

此前,Oracle已承诺向Magen David Adom捐赠100万美元,并正在发起一场活动,鼓励其15万名员工捐款,Oracle还将为员工捐款实现等额捐助。Oracle首席执行官萨夫拉·卡茨(Safra A. Catz)公开谴责了这些袭击。

Safra A. Catz,出生于以色列,小时候随家人移民到美国,她能讲流利的希伯来语。Catz 自1999年4月起担任甲骨文公司高管,自2001年起担任董事会成员。2011年4月,她被任命为联席总裁兼首席财务官,向创始人拉里·埃里森汇报工作。2014年9月,甲骨文宣布埃里森将辞去首席执行官一职,马克·赫德和卡茨已被任命为联合首席执行官。2019年9月,赫德因健康问题辞职后,卡茨成为唯一的首席执行官。

此外,众所周知,Oracle公司的创始人 Larry Ellison有一半的犹太血统,他母亲是犹太人,父亲是一个意大利飞行员。

Catz 曾经公开表达说:"当你与Oracle公司联系时,你就会明白我们对美国和以色列的承诺。我们对自己的使命没有丝毫弹性,我们对以色列的承诺是首屈一指的。这是一个自由的世界,我爱我的员工,如果他们不同意我们支持以色列国的使命,那么也许我们公司不适合他们。拉里和我公开承诺支持以色列,并将个人时间投入到这个国家,任何人都不应该对此感到惊讶。"

Oracle公司向来旗帜鲜明,这一次也毫不例外。不谈立场,让我们共同期待世界和平。

Posted by eygle at 4:16 PM | Permalink | OraNews (268)

September 30, 2022

Oracle Database 23c 新特性: 基于别名和位置的 GROUP BY 简化

在Oracle Database 23c 中,group by 作出了一个期待已久的增强,支持通过别名或者位置的Group by 查询。

在23c之前,group by 要不断重复查询中的复杂逻辑,如下所示:

SELECT EXTRACT(year FROM hiredate) AS hired_year, COUNT(*) from emp

GROUP BY extract(year FROM hiredate) HAVING extract(year FROM hiredate) > 1985;

在23c中,可以通过别名大大简化这一SQL:

SELECT EXTRACT(year FROM hiredate) AS hired_year, COUNT(*) from emp

GROUP BY hired_year HAVING hired_year > 1985;

20220927-f614551a-5cfc-4a68-9dd3-b0eada06632c.png

这是开发者期待已久的,终于在 23中得以实现。

Posted by eygle at 9:18 AM | Permalink | Oracle12c/11g (177)

September 28, 2022

Oracle Database 23c 新特性:4096 列支持和 Schema 权限一次授予

我们知道 MogDB 单表最大支持 1600 列,Oracle 此前版本单表支持 1000列。

在23c中,单表支持列数量扩展到 4096 列。启用这一个特性需要将兼容性参数设置为23.0.0,同时将 Max_columns设置为 Extended:

alter system set MAX_COLUMNS=EXTENDED;

20220927-31e05273-6171-4759-9bb4-012612c27a47.png

在23c之前的版本,如果针对 Schema 对其他用户进行授权,需要通过系统权限 或 对象权限 分别显示的授予,这对数据库带来了额外的安全风险 或 复杂性。

在 Oracle 23 中,可以对 Schema 进行授权,简化了之前的全线操作:

grant select any table on SCHMEA PROD to HR;

20220927-9d215746-e487-41d7-b5d1-6bcc2fdf104c.png

详情参考:Oracle Database 23c 十小新特性速览:从Schema权限到4096列支持

Posted by eygle at 3:33 PM | Permalink | Oracle12c/11g (177)

近期发表

  • Oracle Database 23c新特性:无需DUAL表和FROM的SELECT快捷查询 - September 28, 2022
  • MacOS 使用终端连接 MySQL 查询乱码的问题解决 - March 14, 2022
  • openGauss 概述 - December 7, 2021
  • openGauss 云安全技术 - December 3, 2021
  • MacOS Monterey在腾讯会议声音不起作用coreaudiod重置 - November 30, 2021
  • openGauss 分布式事务 - November 25, 2021
  • openGauss 数据库并发控制 - November 24, 2021
  • openGauss 数据库事务概览 - November 22, 2021
  • openGauss 数据库内存引擎 - November 19, 2021
  • openGauss 数据库列存储引擎 - November 18, 2021


  • CopyRight © 2004 ~ 2012 eygle.com, All rights reserved.