eygle.com   eygle.com
eygle.com eygle
eygle.com  
 

« 关系数据库之父-埃德加·考特 | 文摘首页 | 季度定期补丁 Oracle修补101个安全漏洞 »

IBM顶级数据库专家技术论坛实况
modb.pro

2006.04.15 来自:赛迪 (转引链接)

摘要:
王珊:数据库实际上就是数据管理技术,或者说是信息管理技术。从数据库产生到现在40多年,....数据的形式是越来越丰富,原来我们最初的数据是结构化的数据,我们管理的是一些结构化的数据,处理的也就是一些事务处理。现在我们面对的数据是各种各样的数据,包括正文、多媒体、声音、图象等等,所以数据的对象越来越丰富。另外从数据量来讲,现在越来越大,可以说是海量,....

数据库管理系统要自调优自调整,数据库越来越复杂了,管理系统使得数据库管理的负担太大了。....DBMS技术,传统的技术没有过时,相反在新的条件下,我们遇到了很多新的挑战,数据量越来越大。另外我想数据库一方面向大的方向发展,还向小的方向发展,我们的手机、移动设备上面都要用存储数据,所以我想这方面的挑战会越来越多.....

全文:

主持人:各位来宾,各位数据库的发烧友,大家下午好。首先非常欢迎大家来到IBM软件开放日,今天下午我们非常荣幸的能够请到五位顶级的数据库专家来参加今天下午的数据库技术论坛。请允许我先给大家介绍一下在台上的专家,王珊教授,她是人大的博士生导师,我也很荣幸,他是我的同乡,江苏无锡人,他68年毕业于北大的物理系,81年在人大信息系硕士生毕业,84到86年在美国的马里兰大学合作研究开发数据库SDB,86年留校一直到现在在从事数据库和知识库方面的教学科研以及开发的工作,她已经培养了100多名博士生、硕士生,并且承担了很多国家科技攻关项目,以及863的科技攻关项目,在国内外发表关于数据库的200多篇论文,并且出版了数据库的书籍20多本,其中有很多本是在大学里面作为数据库的教材使用。她是全国优秀教师,也是被国家人事部授予的有突出贡献专家,获得过全国五一劳动奖章,主要学术研究方面是在高性能数据库、数据仓库,我们欢迎王珊老师光临今天的数据库论坛。

Josephine Cheng IBM公司副总裁、IBM院士、开发总经理郑妙勤女士,她是IBM的院士,这是在IBM内部最高级别的职称,她是自69年以来第一位获得IBM院士称号的女性,授予IBM卓越工程师的称号,她的研究工作专注在跟数据库相关的计算及互联网领域,她成功研发并推出多项创新技术产品。今年郑女士入选国家工程院院士。04年开始,郑女士担任北大软件与微电子学院的顾问。2000年到03年受邀担任上海复旦大学教授,03年获得亚洲美国工程师奖,98年到2000年就职于国家研究会信息小组,为国家的标准技术协会提供技术评估,96年获得基督教与青年会杰出妇女与行业贡献奖,她在数据库方面有20多年的科研经验,目前她领导IBM普及运算数据库产品和技术的研发工作,她也是IBM  DB2数据库的创始、资深研发人员之一,她现在是领导在北京的IBM开发中心工作,在她的部门里有2300多名工程师从事开发工作。

这位先生是非常非常有名的科学家,他是来自于印度,印度的姓非常复杂,叫Mohan C,是IBM研究院的院士,Mohan 是我们DB2研究院的院士,他也是IBM发明大师之一,他毕业于印度的IIT,如果各位对IIT没有什么印象的话,我可以告诉大家在印度的IIT读过书之后你去麻省理工学院会觉得那个书是非常容易读的,它跟清华、北大是同一个级别,IIT在给美国全世界,包括印度的信息科技能有这样的成绩,IIT功不可没,Mohan 是77年毕业于IIT,他的专长是在数据库的灾难恢复,还有关键的交易处理方面有很多的建树,他有很多重要的发明,今天不仅仅用在IBM DB2的产品中,还用在几乎所有的主流库,包括Sybase ,Microsoft SQL Server。他在学术领域里有很多的造诣,他是ACM的院士,和先进计算组织当中的一个院士,他也得到了ACM在他的发明奖当中,在其他方面他有34项的专利,有关数据库方面的专利,所以我们今天很荣幸请到Mohan 先生。Hamid Pirahesh,也是IBM研究院的院士,他是我们另外一名IBM发明大师,他是IBM学院的一个成员,他也是有很多很多的建树在数据库上面,他毕业于加州大学洛杉矶分校,在数据库领域里获得了他的博士学位。他是IBM数据库早期的研发人员,他尤其是在IBM数据库的查询以及复杂交易方面有很多的建树,他是IBM数据库查询引擎的主设计师,他最近的研究领域扩展到OVOEP、查询的优化、数据仓库、SOA还有XML、非结构化数据的研究领域,他是我们数据库研究院的经理,他也是ACM杂志的编辑,他也是很多主要有关计算机研究的学术会议的组委会成员。请大家再次欢迎Hamid Pirahesh。

最后一位是讲中文讲的最好的先生,王云院士,他是中国软件开发人员的老朋友了,最开始在02、03年的时候他就曾经跟中国的很多开发人员在IBM开发者大会上分享给他的程序人生,中国给他留下如此美好的印象,他现在住在北京,跟郑妙勤女士在IBM中国开发中心从事技术开发工作。他于85年加入IBM DB2的研发部门,他有40多个美国专利在数据库方面,他是 Data Jointer IBM信息整合套件其中的架构设计和第一个版本的主要贡献者,他还领导了DB2在自定义的索引当中,利用用户自己定义的数据形式进行搜索,这些技术除了在DB2中用,还能够让特别用户进行特别的索引。让我们以热烈的掌声欢迎王云先生。

  我叫左洪,我是服务于IBM软件集团的市场部门。非常感谢在座的诸位,希望大家能够利用这两个小时左右的时间提出你们希望知道答案的问题。我想先行使一下我作为主持人的特权,我想请五位院士各自花五分钟的时间,简单的介绍一下你们认为数据库目前的现状怎么样、未来怎么样,尤其很多人认为数据库越来越成为没有什么神秘感的大众消费品的情况下,你们是怎么看待这个问题的。先请王珊教授谈一下这方面的问题。

  王珊:各位同行大家下午好,非常高兴能够今天来参加这个活动。

  我从事数据库的研究开发应该说半路出家,听我的履历大家都知道我原来不是学计算机,我是学物理的,后来才改行,但是一改行以后,我进入数据库这个领域,我非常热爱这个领域,为什么呢?因为数据库实际上就是数据管理技术,或者说是信息管理技术。信息管理技术,我可以说从数据库产生到现在40多年,它的发展越来越快、越来越广,为什么?我们可以看到数据的形式是越来越丰富,原来我们最初的数据是结构化的数据,我们管理的是一些结构化的数据,处理的也就是一些事务处理。现在我们面对的数据是各种各样的数据,包括正文、多媒体、声音、图象等等,所以数据的对象越来越丰富。另外从数据量来讲,现在越来越大,可以说是海量,从需求来讲,我想我们不仅希望能够一般的做事务处理,还要分析处理,甚至更多的,充分的挖掘这个数据的资源。所以我想数据库这个技术现在是越来越广泛、越来越发展,它遇到的问题也是越来越多。有人说数据库已经不是很神秘,可能他是指核心技术,就是原来传统的像层次、网状和关系数据库这些核心技术已经相对比较成熟,但是我并不同意认为已经是没什么好研究的了,相反,像在它的核心技术上,我认为我们很多在论文里研究的技术,或者说我们得到的专利以及很多的发明并没有真正的用到产品里,我认为它和产品还相差的甚远,所以我们如何把这些技术转换到产品里,还有很多的路要走。

  现在大家都在讲数据库管理系统要自调优自调整,数据库越来越复杂了,管理系统使得数据库管理的负担太大了。用一个数据库,可能我来用和你来用不一样,可能你的水平比我高,你对DBMS能够充分利用它的这些特性、性能、空间充分的发挥,所以我想DBMS技术,传统的技术没有过时,相反在新的条件下,我们遇到了很多新的挑战,数据量越来越大。另外我想数据库一方面向大的方向发展,还向小的方向发展,我们的手机、移动设备上面都要用存储数据,所以我想这方面的挑战会越来越多。

  主持人:王教授说数据库现在的类型越来越丰富,量也越来越多,不仅仅要查询,还要分析,还要做其他的高级运算,还要做自动优化,数据库还要往更大的方向发展,还要往更小的设备发展,我相信这里面有很多很多的技术难题要研究和突破。接下来我们请对小的数据库特别有研究的郑妙勤女士,他是在IBM做DB2易捷最主要的领导人,我想请他讲讲您对数据库有什么样的看法。

  郑妙勤:大家好。王老师他说他中途出家,我也是中途出家的,因为我开始的时候都是做数据库,我在学校念书的时候就念数据库,毕业到IBM来我就做数据库,他们说没有这个空位,去别的地方,我就要做数据库,一呆就呆了27年在数据库方面。两年前我又转型了,到中国来,不是做数据库,是做管理方面,所以这两年来都没有什么这方面的经验,觉得很可惜。

  谈谈数据库是不是已经没有神秘感了?我觉得一个产品没有数据是一个没有应用兴趣的产品,这可能是我的偏见,因为一直是做数据库,但是我觉得这个很重要。没有数据是什么样的应用产品呢?没有数据没有用的。很赞同王老师所讲的,你们再想一想,我们所讲的数据库是什么呢?我们不仅是说一个信息,什么是数据呢?现在大家都说虚拟化,数据库不一定是一个数据库,是一个虚拟的数据库,是一个很大的挑战性,我们想的都是DB2数据库,还是Oracle的数据库,我们想整个数据库非常非常大。我觉得我们还没有开始,虽然王云先生是Data Jointer的发明人,现在信息完全都是Data Jointer了,你怎么去找寻信息,也不是找寻,不用这么简单的看它,我觉得应该有一个意义上的寻找,还要有一个关联的寻找,要有意义,要有知识的寻找。所以我觉得最成功的一个数据库应该是一个做任何不同的信息方面,结构化和非结构化的数据管理。找出的东西应该更有意义,应该要跟每一个人不同的,比如医生你找这个字对你有一个意思,对一个企业家有不同的意义。我觉得数据库的研发还没有开始。

  主持人:我们听出来了,其实王老师说他是半路出家,但是刚才Josephine 说的,我听出来你是半路判逃,刚开始做数据库,后来改做管理工作,我们希望你迷途知返,还是回到数据库领域,给我们更多的发明。我相信你的观点跟王老师的观点是不谋而合的。还好我们有一些人是自始至终都是在数据库领域里的。接下来请Mohan 或者Hamid 花一点时间讲讲数据库的历史,因为大家都很有兴趣,再讲讲你们对刚才这个问题的看法。

  Mohan:我是从IBM阿马丹研究实验室来的,在1981年加入阿马丹实验室之前,IBM就有同事在进行数据库基础方面的研究。SQL语言是在IBM的实验室研发出来的,之后XML的查询语言也是他主导开发的。有很多人认为关系数据库和SQL语言是Oracle发明的,其实不是,这些都出自于IBM。我们现在有许多研究人员在从事数据库的基础工作,在阿马丹研究实验室和硅谷实验室在进行SQL语言处理方面的工作。第一次跨数据库查询的研究是在IBM做的,就是我领导做的这个项目。我和Hamid 先生之前在查询优化方面做了很多有趣的工作,又在交易管理方面做了一些研究。IBM不仅在研究方面,而且在产品实现方面都对业界做出了巨大的影响,这就是我们不仅在研究方面,而且在产品实现化方面进行合作的关系。现在我们所做的工作基本上是面向XML拓展的DB2接口,以及如何把结构化的数据和非结构化的数据结合在一起,把来自不同系统中的不同的数据,包括结构化的数据和非结构化的数据结合起来是有可能会引起非常复杂的问题,所以我们现在就在做这方面的工作。最后一点,过去我们在把所有的数据存储在某一个固定的数据库当中做的很好,但是现在商业上最需要把数据从一个数据库或者一个系统转移到另一个数据库、另一套系统,然后在这个转移当中会发生比较复杂的问题,比如说我们有可能是用XML来进行这种交换,现在我就在做这方面的工作。我们必须要注意到这当中的复杂性。

  主持人:谢谢Mohan ,Mohan 基本上给我们大概回顾了一下关于数据库的历史,基本上是在Josephine 之前,有一些前辈在数据库方面做一些基础的研究工作。刚才我在跟Mohan 聊的时候,他说SQL语言之父就在他办公室的隔壁的隔壁,在他的办公室隔壁的隔壁的隔壁是Hamid ,所以他们两个人是在两边,Hamid 是负责把数据找出来,怎么样做查询,在这方面有很多的经验,在XML方面的造诣也很深厚。

  郑妙勤:我以前有几年的时间,我也是在Hamid 的隔壁的隔壁的隔壁,他们都成为IBM的院士了,以后我才慢慢靠近一点,这是有关系的。

  Hamid Pirahesh:Mohan 已经讲了有关数据库的历史,我要讲一下接下来会发生什么。问题就是我们数据库会不会变成消费品。这个变化已经从十年之前就开始了,所以你要持续不停的创新,一直到现在。我们已经知道过去的十年发生了什么,事实上IBM在过去的10年中已经赢得很多ACM的创新奖项,现在我们要谈的就是将来我们要做什么。如果在座的任何一位可以想出怎么把数据库继续往前推进10年,那你将会变得非常有钱。你如果现在想想的话,信息管理这个产业的总值已经达到270亿美元。消费类的数据库的花费其实只占到这其中的5%。如果你是在从事房地产的出售或者买卖,你认为什么是最重要的?回答就是地点地点地点。如果这个问题是关于数据库的,那这个答案会是什么呢?(郑妙勤:IBM。)答案就是创新创新创新。创新第一。关键就是在于进入到商业过程中,了解到数据是分布在不同的商业过程中或者是在某一个特定的商业线当中。就是说你必须了解你的商业目标,然后超过关系数据库。在关系数据库中数据只有一种形态,但是如果你进入到今天的企业当中,你可以发现有上千种的形态在不同的公司当中,数据变成杂乱无章的,但是你必须喜欢这种杂乱无章。我们还要继续保持关系数据库,但是你必须把它和结构化、半结构化、非结构化的数据结合在一起。在关系数据库中我们现在只处理到20%的商业数据,就是说处理接下来的80%的数据的时间已经到了。这些数据当中包括非常大量的E mail、客户管理数据以及网页等等,我们必须研究这些数据,发现其中的商业智能,帮助客户来处理这些信息。你必须非常深入了解这些数据结构,最终来改变你的数据模型,也就是刚才王教授讲到的。我们需要更多的人加入到数据处理当中进行开放的社区,在我们实现的过程中,我们必须要这么多来自大学的优秀人才的加入,也必须要开放的社团的加入,也必须要开放源代码的加入。开放社团是非常不同的,它跟我们现在所认为的IT精英们戴着领带的这种形象是不一样的。在美国他们说这就是来自于狂野的西部,狂野的西部对我们的未来是非常重要的。举一个例子,一个应用程序叫做Mashup,Mashup这个程序对企业的用户其实是非常重要的,其实这个程序基本上就是在做信息集成。现在我们就有两个问题,第一个就是这个程序的质量并不是那么高,第二个问题就是当这个应用程序在做信息集成的时候他用PHP的语言,PHP是非描述性的语言,所以要让机器来了解这个程序的功能非常难。所以在我们的研究计划中,我们必须要给他们一个描述性的语言,这样我们才能进行分析然后处理数据。所以说如果你能想出这三点,你就能变得很富有。

  主持人:谢谢Hamid Pirahesh。Hamid 其实他本来想讲很短的时间,很直接的承认数据库就是一个商品,但是他其实讲的时间是最长的。我以为他讲“创新创新创新”是随便讲的,结果他真的讲了三个创新,在未来的10年,如果在座诸位能够在这上面有很大建树的话能变得很富有,就像你买很好地段的房子会变得很富有一样。实际上我们要考虑的数据不是存在于数据库当中,是存在于业务流程当中,也是一个新的想法。他也讲到今天的关系型数据库是处理了20%的商业数据,我们接下来要做的是怎么样处理那80%不是那么完美的半结构化、非结构化的数据。他也讲到在接下来的工作中我们要对开放型社区大力的拥抱,因为现在在新的创新领域里有广阔的西部狂野田野。他也举一个例子Mashup,我觉得这跟王云的研究方向有一点点类似,是做数据的整合,但是可能在正规的研究机构里跟它合作达到更高质量、更有学术价值的创新,所以如果在这三方面的创新,在座的诸位在这方面有建树的话,相信10年以后你一定会坐在这个位置上面,Hamid一定会坐在你现在的位置上。

   最后我们的院士是普通话讲的最标准的院士,我们请王云院士讲讲他对这个问题的看法。

  王云:谢谢大家。有一句中国话说“我口所欲言言古人口,我手所欲书书古人手”,我自己在这样的场面请大家发言,我第一个举手,为什么?讲完了事情就了了,现在我是最后一个,我想讲的话被他们讲光了,怎么办呢?我讲一个笑话好了。

  消费产品化,我的看法其实是这样的。我觉得倒不是说数据库变成一个消费产品化,我的看法是消费产品用了数据库,以前数据库没有被广泛的应用,所以大家对它不是那么熟悉,而现在几乎所有的产品都已经用了数据库,所以大家觉得数据库变成消费产品了,这是一件好事情了,是因为数据库被广泛应用了。其实数据库还有很多方面,数据库它有一部分是变成消费品被大家广泛应用,但是还有更多的需求让数据库往前走,所以说数据库有它消费品的一面,它还有继续创新的一面,数据库跟一个女孩子一样,它有多重面貌,有一重面貌是消费品,但是有一重面貌是变化莫测的。

  我综合一下个人的看法。因为我的专业比较偏重于做产品的部门,我个人的经验发现,其实做产品,或者一个技术来讲,它其实会有三个层次。第一个层次,我们有一个新的功能、新的项目,我们通常说让他工作,一个新的产品发布或者是一个新的应用出来的时候,大家第一部分就伤透脑筋,一个软件的发布或者是一个应用的时候,第一个阶段是通常他说的跟他做的不一样。第二个阶段是要让它能够响应到客户的需求,在一定的时间把我们的工作做完,举一个例子,用了新的工具结果比我以前用手来算要花更多的时间。第三个需求是什么呢?要便宜。第四个阶段,不仅要便宜,还要不要钱。其实我们做产品,一个软件的生命流程也是蛮长的历程。关系型数据库在70年代末就出来了,到现在不断的成熟,之间走过很长的时间。举一个有趣的例子,如果我们在80年代面试新的员工,你听过数据库没有?现在我们会对员工说你到底数据库用过多久?无形中表示数据库有很长足的进步。

  我就两方面跟大家做一个沟通,不管是叫数据库还是信息,刚才大家首先谈到,我跟大家共享一下我个人的经验,我们做数据库这么多年,在做什么?比如我们在做交易处理、后备恢复,其实我个人觉得基本上我们在做的事情,我们做一个人,人的智慧在哪里呢?一个是我们分析推算的能力,我们可以想象、可以分析、可以推算,另外一个很重要的能力是什么呢?是我们的记忆。因为很多事情你不说,我今天开始又从1+1算起,我们小时候背九九乘法表。现在很糟糕,我的头发越来越少,我的知识越来越不够用。一个是计算能力,还有一个是存储能力,如果我们讲数据库,我们不要把数据讲成被动的东西,它是活动的东西,而且数据是具有运算能力的东西。数据库跟我们当年的文档最大的不同是什么呢?不仅数据库可以把数据做的更坚固,它其实可以把数据变成更活的数据,以前我们在文档上做数据处理,数据是活的,你可以有一个查询语言。怎么样能够让数据变成活的东西?其实这是数据库这么多年的变化,它不仅是了解更多的数据,还要了解这些数据可以做些什么样的功能满足我们的需求。所以我要跟大家讲数据不是死的,是活的,不仅仅它要能够接受更复杂的企业模式、生活模式,它还要跟我们的生活结合在一起,数据要活的,什么意思呢?我们平常做什么事情,举一个简单的例子,在我们的日常生活中要处理一些什么东西?我们要处理人、事、时、地、物,我们现在的数据库能够帮我们处理什么样的人、事、时、地、物,比如对时间来讲,在历史过程中其实很多东西其实并不是把旧的文件毁坏掉,而是要做一个新的东西,我们说所有的事情发生在时间和空间之内,我们看我们的数据库,来处理人、事、时、地、物,其实数据处理还是在婴儿阶段。我们人能做的很多事情现在我们的系统还不能达到。数据库不是一个死东西,而是一个活的东西。最短期来讲,比如你在处理数据的时候,我们怎么在人与人之间沟通、协作的环境下,Email,我们做事情都有一个服务的流程,把计算机的智能分成运算能力等。我们怎么把数据打开,变成活动的,它怎么处理我们日常生活中的活动的,这不要说是百年大业,甚至要做好几年才能做完。

  主持人:谢谢王院士,他讲的数据是活的,我有一点点体会。我发觉您讲了之后我才知道我每年看的Email的数据真的是活的,我每天的工作都是来自于Email告诉我你要做什么,Email越来越长,我的工作也就越来越多,我希望你们找一个办法帮我把活的数据变得更加可爱一点,能够让我们不要被它吃掉。

  王云:活的数据还可以自己变大、自己变小。

  主持人:我希望我的Email不会自己变大变小。各位有很多问题要问,我想把时间交回给在座的诸位。

  提问:我是IBM的OPC技术经理,我叫郑晓军,今天特别高兴能够跟数据大师见面。我有几个问题跟大家分享一下。最直接的是想请教王云院士。我也特别同意刚才几位大师的说法,因为前些年有人说数据库跟卖咸菜、西瓜一样,但是我个人觉得其实一直是创新不断。现在有这么一个问题,其实我觉得一个很具体的,DB2大家现在用的都是叫UDB,实际上这一点跟我们六七十年代,尤其是七八十年代的DB2是不一样的,因为它是有面向对象的思想在里面。原先我接触这个东西的时候有很重要的两个技术,除了能够支持各种复杂的数据结构之外,我以前在Informix工作过,有两个重要的技术可以让用户嵌入做数据处理。第一,我可以自己由我们在座的用户去写一个对一种未知数据的访问,然后把你这个访问的接口嵌在数据库里,我访问数据库的时候可以当作一张普通的表来处理。第二个形式,如果我访一个全文检索,我自己发明了一种索引结构,这种结构是很奇怪的索引,这时候我的查询语句如果正好碰到了,比如我在地图里,我在一个大的区域找一个小的区域,这时候数据库不会辨别每一个区域,他一下子会把我要的区域找到,因为有一种二维的索引,这肯定不是你的数据库里有的。我们在座的有可能就在生活、工作过程中发明了这个东西,数据库就允许你集成进去。我们IBM的DB2 II应该是把我们第一类数据的集成已经做到了,但是我现在无论是用DB2还是用II,对第二类的,就是我自己发明的索引结构,把这个索引结构融入到我的数据库里,对于我们IBM DB2来讲下一步打算怎么做?是准备在II里还是准备在DB2的核心里面?

  Mohan:我们IBM实现的各种面向对象的功能,其实很多客户并不用。在个别的特定的系统中,这些功能是被需要的,但是它也可以通过并不是向用户提供这些功能来实现,比较要投资更多的钱在这方面,我们不把重点放在定义用户结构上面。用来代替像Informix来提供解决方案,我们DB2提供额外的Informix,但是我们并不提供让客户来定义他们自己的索引结构。所以你必须考虑到为客户提供解决方案的不同的技术。使用这个系统的用户并不想知道在系统当中到底是什么,这就是自动的数据库的概念。如果你允许用户自己来添加索引结构等等功能,就是说你不是买了整个的车,而是买了引擎,买了门,买了各种东西,自己把它组装起来,你是愿意买一个车还是愿意自己组装?我们尝试过Informix这种方法,但是这种方法是并不成功的,所以我们决定自己来做整合。在这方面我们有两个例子,一个例子像王云为DB2 Warehouse做的额外的索引机构种类,另外一个就是XML的索引。如果你们看过XML索引,就会知道它有多复杂,跟系统中的存储并行性进行合作的复杂性。从技术的角度上讲,我们到底知不知道怎么做这个事情呢?这只是一个技术角度的回答,并不是客户关心的问题。回答是我们可以这么做,但是用户并不关心这个。

  提问:我问一个用户的应用问题,我是北京市人口计生委信息中心的,我们现在是Informix的用户,我们和IBM的沟通比较多,包括和王珊老师经常做交流。今天主要是IBM内部的一些高级专家来到这里,我问一个简单的问题,我是从最终用户的角度来问的。我问郑女士,我们现在在Informix未来的迁移上,我们做计生委,未来做人口库的工作,这是一个很大的库,我们把Informix迁移到DB2上,IBM工程师给我们的建议是不要迁移,往上走,他们08年有一个计划。我们请教王珊老师对IBM公司在DB2数据仓库的未来做一个展望。

  Hamid Pirahesh:未来的数据仓库有两个主要的方向,一个是关于更大的数据,更多的交易用户,减低成本,现在如果一个公司想要建立一个数据仓库,只有20%的公司可以成功。我确定你会成功,因为你很聪明。但是对剩下的那些公司,我们必须把它简化,把这个过程简化,也就是说自动化。现在我们面对要把很多硬件以及更多的网格技术运用到数据仓库中来。第二个就是关于功能,比如说当我们为公共卫生保健系统做一个数据仓库的话,我们要为病人的资料以及各种帐单、医生的资料做一个一般的仓库。现在我们还要把医生和护士写的治疗记录,以及在治疗的过程中拍下来的各种医疗图象也要存到仓库中,这样它就成为了一个企业的内容版的数据仓库,和以前的结构化的数据仓库结合在一起。当你实现了这两个仓库的时候,你就要开始考虑到要把这个仓库应用于更多的用户。也就是说考虑到那些病人,或者是销售人员,他们并不能连接到这个数据仓库然后再使用这个仓库的内容的时候,数据仓库就成为了一个内容发生者,然后通过网络,透过防火墙打到各种终端,比如说你的手机之类的地方。总的来说,我们就谈了两方面,一个是低成本、高性能,第二个就是各种功能。

  提问:我想问一下将来数据库在网格环境中会是什么样的?将来DB2的数据库会发展成什么样的?是更多的查询服务提供,是来自于集中的计算资源,还是说提供数据库产品的会分布在网格很多小的点上?是很重量级的东西,还是轻量级的东西呢?我是中国气象局的,我是做信息系统管理的。

  Hamid Pirahesh:如果你要建数据仓库的话,你最好建集中式的。如果你建成分布式的话,成本就会非常显著的提高。如果你集中式的做数据仓库的话,你需要很多机器来支持这个仓库。现在我们基本上用300个处理器CPU来支持数据仓库,将来很可能是几千个,在未来的10年当中。我们现在讨论在那个配置下的网格。你用那么多的处理器在上面建立你的数据仓库,然后用像Tivoli这种系统管理软件控制整个系统,这是你管理这么大一个全国化的系统的唯一的办法。

  提问:我的问题并不仅仅是Warehouse,还集中在通用数据库上面,通用数据库方面是怎么样的呢?

  Hamid Pirahesh:如果是一般的用户做交易的各种处理的话,用我们的主机就可以了,但如果你要做科学计算的话,可能你就需要做分布式的计算了。在科学计算上,美国和中国是领先的,在世界上。在中国各个学校中都在以这个题目做竞争,接下来就是欧洲。我们实验室做了特别的处理器,你需要很多钱来买这个特殊的处理器,如果是科学计算的话。接下来费用会减低,商业的使用也可以,它是网格计算,但是它是用集中式的。

  王珊:你的问题我理解,是在网格环境下,数据库应该怎么在网格环境下应用、提供服务?我想数据库在网格环境下网格要共享、协作,这两个最主要的特点,一个是共享,一个是协作。作为资源,数据库是非常重要的。因为你是气象局的,你们在网格计算上有很多的运用。怎么样使得数据库能够应用网格,实际上关键要解决的问题是要在平台上运行,另外一个,数据库如何使它透明,因为在网格环境下,不停的网格要存储数据库的时候使得这种服务是透明的。所以我们现在做的工作是有一些元数据、资料的表格放到某一个结点上,它可以知道我在整个这个环境下有哪些数据库,然后当我需要存储气象局的某些数据的时候,我知道气象局有我所需要的东西。如果你是网格上的一个结点,气象局上某个结点宕了,这个时候我还可以看有没有其他类似的网格访问。要有一个资源的元数据的表来访问,还要有存储这些资源的权限,我是可以存储的,他是不可以的。这些资源也可以分布的。从我们数据库的角度研究一下怎么使这些资源集中的、分布的,并且能够很好的有效的管理,使得当用户存储网格环境下某一个数据库的时候,我能够很快的得到我所要的资源,即使某些数据已经被数据库宕了。

  郑妙勤:现在我们的数据库无论你在哪里都可以存储你的资讯。现在可以了。

  王云:其实我们现在谈的问题基本上是一个解决方案的问题,它其实有更多面是说你的需求是什么,你的问题是一个系统的建造问题。如果从数据库的角度来回答你都是片面的。我不是为IBM做广告,以IBM公司的形态来讲,我们跟我们的客户是很好的合作伙伴的关系。IBM有通讯的技术、软件的技术以及数据库的技术。第一,你的应用是什么样的应用,比如你要做一个高性能的模拟的话,很可能这个咨询必须要在同一个平台运算,美国专门造了特殊的硬件环境才能够达到这种统一的运算,如果是这种运算,你的资料必须要在集中式的环境中才能做出来。如果你的英勇事这样的,你需要把你的数据从某些地方归到一个地方来,才能做这种运算。我们讲网格技术,其实网格技术包括你怎么做复制和定制化,都要跟你的应用有关,如果你的应用可以分块来做,可以定义在每一个平台上,再汇集起来做最后的结算。基本上气象局的很多资料都是分布式的,或者是全球的,它是一个分布式的系统,要看你的应用是做什么样的应用,这个资料怎么在网格上做固化。其实这是一个系统应用的问题,我们给你提供一些技术作为参考,可是要从你应用的角度来看采取不同的数据架构分布的方式来应用你的需求。你讲的是完整的解决方案问题,IBM要把这个东西从一个技术层面跟我们的数据库做一个更好的结合,我们不是把产品丢给你,其实我们是IBM的软件部配合你了解你的业务模型。这其实是一个系统设计的问题,要从你的企业需求跟技术结合在一起。另外一个名词SOA,是讲怎么样把科技跟技术等各个角度结合,怎么把技术、业务和服务结合在一起,其实这是每个人都有兴趣的问题,但是这不是一个单一的产品的回答,是一个系统设计的问答。我站在中立的立场上,IBM把客户的业务看成是这种模式。我想这是一个很大的问题。IBM的答复,其实IBM就是整体性的整合能力来跟你谈这个问题的。

  主持人:讲到网格,我作为IBM普通的员工,我自己是在网格上,IBM有一个号召,当我们所有的笔记本电脑连到网上,如果我们不用,这个资源是捐给医疗机构,做基因分析、医疗分析。我参加了网格,但是我看不到,只是安装了一个小网格在上面,谁用,他用这个干什么,我不知道,我只知道当我不用的时候它还在工作。

  提问:我是一个做方案、做软件开发的软件公司的项目经理,现在在给我客户实施的过程中发现一个问题,我们客户需要数据库产品的时候面临一个情况,他的选择余地很窄,要不就是DB2,要不就是Oracle,但是实际上有很多时候他们都采用盗版的方式,为什么会采用盗版的方式呢?我思考了这个问题,我发现最后的原因是在于我们的企业买了数据库的企业版和Oracle的企业版,有些企业只需要有插入,有些只要在内存里建很小的数据库,实际上最后的结果是他们看到CPU50万、80万的数据产品的时候,他就选择一个冒着法律风险的行为,最后盗版用一下。第二方面,我们选择企业版的数据库产品的时候,对系统的性能要求挺高的,一般来讲我们对Oracle和DB2应用的经验有一些年头了,一般来讲需要两级CPU或者是四级内存,实际上它的量每天只增长几百K。我自己有一个构想,我们能不能把我们的数据库产品做的跟汽车一样,比如说我们的零件有轮子、底盘、座椅、发动机,有些用户我只给他提供发动机,有些只给他提供轮子,有些数据库没有产品的源代码,我想这些是可以实现的。今天在这里向专家提出这个问题,从您的角度有没有这方面的考虑?

  主持人:关于数据库的盗版、正版不是我们今天的话题。其实你提出的最后一个问题我们是有兴趣的,数据库可不可以把它拆开卖?我们有DB2 Express—C,我们在这个月底会向中国所有的客户提供这个,这是免费的。数据库的功能能不能拆开让用户自己组装?价格是不是可弹?

  郑妙勤:我们也有开发源代码,DB2 Express—C,你也可以找到一种支持,就是DB2 Express—C。我们IBM本身有80多种产品都是有它的,所以这是我们的掌上明珠,你们都可以用,也不用很复杂的配置。如果你需要这个产品,你也可以买这个产品,我想大家都应该试试看用这个产品。

   还是希望能够在商业上面做一个完整的产品,我们再支持。如果像这种功能性的产品,你可以在开放社区里面找到。我们刚才讲的DB2 Express—C就在那里面。实际上Google公司是用开放源代码的数据库,然后自己改进,达到他们的要求。

  主持人:非常感谢各位跟我们五个数据库大师在一起分享数据库方面的信息。我们也感谢数据库大师能够跟中国的客户、合作伙伴讨论这方面的问题。我们还要特别感谢王珊教授。

   让我们最后再次用热烈的掌声感谢五位大师,同时也谢谢在座所有的参与者。希望大家觉得这两个小时没有虚度,我们也期待着有更多的机会跟大家交流这方面的问题。谢谢大家!


历史上的今天...

By eygle on 2006-11-27 16:30 | Comments (0) | 学习资料 | 1231 |


CopyRight © 2004~2020 云和恩墨,成就未来!, All rights reserved.
数据恢复·紧急救援·性能优化 云和恩墨 24x7 热线电话:400-600-8755 业务咨询:010-59007017-7040 or 7037 业务合作: marketing@enmotech.com