eygle.com   eygle.com
eygle.com eygle
eygle.com  
 
Digest Net: IT新闻 Archives

Recently in IT新闻 Category

Percona最新发布XtraBackup for MySQL 8.0

原文链接:http://www.enmotech.com/web/detail/1/593/1.html

相关文章链接:http://www.enmotech.com/web/detail/1/577/1.html

更多精彩请关注"数据和云"公众号

我们的产品:http://www.enmotech.com/services/software.html

zData 一体机:http://enmotech.com/web/classify/26.html

Bethune(白求恩)https://bethune.enmotech.com/

SQMhttp://www.enmotech.com/web/classify/25.html

ZONEhttp://www.enmotech.com/web/classify/28.html

在下文所有的废话之前,先说正事:

Percona在9月12日,终于宣布第一个测试用的XtraBackup for MySQL 8.0版本给大家试用:

(复制链接打开)https://www.percona.com/blog/2018/09/12/announcement-experimental-build-of-percona-xtrabackup-8-0/

MySQL 8.0今年4月份GA以来,虽然大家多有测试,但实际上敢用到生产环境的,只是极少数.而我个人认为最重要的原因之一,就是缺乏一个可用的备份工具.而在MySQL备份这件事情上,功德无量的Percona公司,却迟迟没有见到发布针对MySQL 8.0的备份工具,着实让人着急.

在9月12日之前,已知的MySQL 8.0的备份方式有这些:

  1. 官方MySQL商业版备份工具. 这个名为 MySQL Enterprise Backup 的软件,是官方商业版本的一部分,如果需要用,得掏钱买授权.先不说用的人比较少,使用文档本身也不在 MySQL 的公开文档导致学都很繁琐,就只是照着实例数收钱这点,就断绝了现在这种千库万表的 MySQL 大规模部署形势下的使用.

  2. 使用mysqldump命令.mysqldump 本身只是导出数据的命令行工具,但结合事务选项,以及master data选项,就可以导出满足一致性的备份SQL文件,即原生,又省心省力,对于小型数据库来说,是非常不错的选择(这里的小型,一般指的是100GB以下的数据库),但对于非常大个头的数据库来说,一来mysqldump是单线程导出,速度比较慢,说不定得搞一天,又由于MySQL的事务可见性的要求,undo文件会被执行导出的事务一直拖着不让缩小(如果没有使用独立表空间,那问题就更严重了-ibdata1过大的问题早年困扰不知多少DBA),导致磁盘空间比较大.而另外一个比较少遇到,但遇到就非常心碎的问题是,由于导出的是单个文本文件,如果文本文件中,某一个字节的存储出现问题,那么整个数据库的恢复就到此为止了.

  3. FLUSH TABLES WITH READ LOCK;见过很多以为备份数据库就是把数据文件直接复制走的哥们,如果他们在复制文件前,使用命令停掉所有的写入,之后再复制,也不能说人家有问题,奈何大部分人就是少这一步,而且,考虑到8.0开始,授权表都是innodb了,如果不小心,导致授权表损坏了,那可真是苦都没地方哭了.

  4. 考虑到很多人的备份不追求事务一致性,但速度要快,这种情况下,还有两个工具可以用,一个是mysql自带的mysqlpump,和 mysqldump 不同,mysqlpump支持表级别的并行导出,加快了导出速度,但放弃了事务的一致性要求.而mydumper则是早年,社区开发的一款并行导出MySQL数据的命令行工具,可以在一个表上,发起多个基于主键(或者唯一键)分区的并行导出,速度更快.

  5. 备份是为了恢复,恢复就要讲究恢复时间,那怎么样加快数据的恢复时间呢?那就是MySQL复制给出的答案: 建立一个开启了延迟备份的从库,在需要恢复数据到指定时间点的时候,直接用start slave until命令搞定. 注:个人建议是,对重要数据库,以及超大数据库(比如1TB以上的),都使用这种方式,来降低恢复时间,参考官方文档:(复制链接打开) https://dev.mysql.com/doc/refman/8.0/en/replication-delayed.html

  6. 既然说起从库,那么在从库上,就可以很方便地搞备份了,比如搞一个没有业务访问的从库,需要备份的时候,停掉slave(政治正确的叫法是replication)线程,然后用前面提到的方式3,4进行备份,也不是不可以,或者说,考虑到主库需要承担访问压力,这种备份方式从效率和一致性,以及对线上业务扰动综合看,实际上是非常好的一个方式.

  7. 数据文件存在磁盘上,既然方式3可以用cp命令拷贝,实际上就是允许使用所有文件系统/块设备/存储设备的快照备份了,只要记得执行前后FLUSH TABLES WITH READ LOCK;,那备份就有保障了.

我故意漏掉了myisam这过时玩意的备份恢复的手段,估计没人看也应该没人用,就不写了.

在前面列举的种种备份中,最理想的,实际上就是MySQL Enterprise Backup这种,所谓真正的热备份,在备份效率,与备份的一致性,安全性等方面,都是非常好的选择,开源世界中,对应的就是 XtraBackup.

这里也不多说XtraBackup本身的意义与使用方式,估计用MySQL的DBA,没有几个没有折腾过这玩意的,下文主要讨论的,还是Xtrabackup for MySQL 8.0.

首先看看Percona公司自己的说法(以下为作者提取的重点,原文参考前面的链接地址):

  1. 虽然已经发布了,但版本号是 8.0.1,并且提示为实验性质的(experimental)alpha版本.

  2. innobackupex命令终于被彻底删除,宣告一个时代的正式落幕,当然,也宣告着,很多MySQL自动化备份脚本需要改了.

  3. 由于MySQL 8.0数据目录,以及redo格式的种种变化,新的Xtrabackup for MySQL 8.0,仅仅提供给MySQL 8.0(以及Percona自己基于MySQL 8.0改的Percona Server),对于5.x版本,依然需要使用XtraBackup 2.4来备份,当然,也宣告着,很多MySQL自动化备份脚本需要改的地方更多了.

  4. 目前提供支持的操作系统版本为(其中Ubuntu 14.04 Trusty以及Debian 8 Jessie后续可能不再支持):

  • RHEL/Centos 6.x

  • RHEL/Centos 7.x

  • Ubuntu 14.04 Trusty*

  • Ubuntu 16.04 Xenial

  • Ubuntu 18.04 Bionic

  • Debian 8 Jessie*

  • Debian 9 Stretch

5. 如果需要下载,需要从Percona的repo源中下载,没有单独的下载地址(打算从官方软件下载页面找进去的同志可以放弃了):

centos 7 http://repo.percona.com/experimental/7/RPMS/x86_64/percona-xtrabackup-80-8.0.1-1.alpha.el7.x86_64.rpm

centos 6 http://repo.percona.com/experimental/6/RPMS/x86_64/percona-xtrabackup-80-8.0.1-1.alpha.el6.x86_64.rpm

至于其他发行版的同志,可以参考 https://www.percona.com/doc/percona-repo-config/index.html 这个地址的方法进行设置并下载

使用方法还是没有变化,想要试一把的同志,可以开搞了.

原创:刘伟。

投稿:有投稿意向技术人请在公众号对话框留言。

转载:意向文章下方留言。

更多精彩请关注 "数据和云" 公众号 。

招聘专栏

云和恩墨(北京)信息技术有限公司

Oracle 售前工程师(广州、深圳、上海、武汉、北京、石家庄)

Oracle 高级工程师(上海、深圳、北京、成都、昆明、贵州、西宁)

MySQL 技术经理(上海、南京、成都)

MySQL 工程师(上海、杭州)

超高待遇:丰厚的年终奖,五险一金,高额学习基金,团建旅游,法定节假日,福利假期等。

推荐他人成功入职有好礼(iPhone X)相送 。

投递简历至邮箱:hr@enmotech.com

末4.png

文:本刊记者 谢丽容 刘以秦 引自:https://news.cnblogs.com/n/606943/

 人工智能产业进入快速上升通道,这一切既有赖于过去六十年学术界的知识沉淀,更得益于近些年学术界和工业界互动效率空前。

  一边是人工智能产业界最大巨头谷歌,一边是人工智能学术研究皇冠上的明珠斯坦福大学,李飞飞数度进出,完成了学术界和产业界的串联。

  2016 年 11 月,谷歌云 CEO Diane Greene 向外界宣布,斯坦福大学终身教授,斯坦福大学人工智能实验室主任李飞飞加入谷歌,任谷歌云机器学习负责人。今年 9 月 11 日,在外界传言"李飞飞将离职谷歌"一事逾两月后,Diane Greene 再次向外界宣布,李飞飞将回归斯坦福大学进行学术研究,她的谷歌职位接任者,是来自另一个 AI 顶尖学府的卡内基梅隆大学的计算机科学院院长 Andrew Moore 教授。

  9 月,在北京参加斯坦福大学的一个学术会议期间,李飞飞接受了《财经》记者专访。她向《财经》记者确认,随着斯坦福新学年的开学,两年学术假将满,当初加入谷歌和如今回归斯坦福,均在预计日程表上。今后,她不会完全离开谷歌,还将继续担任谷歌云的 AI/ML(Machine Learning)顾问。

  在全球人工智能学术界中,由于是女性、华人,李飞飞是一位在中国认知度较高的研究学者。

  她的主要研究方向为机器学习、计算机视觉、认知计算神经学。最著名的项目是 ImageNet,可以被理解为一个极大程度上方便了计算机对海量图像进行快速和准确识别的"数据库",被几乎所有主流大小公司的机器视觉研究所采用,成为了学界和业界的标准。改变了人工智能的发展历史,促进了深度学习的崛起。

  尽管 ImageNet 项目备受产业界欢迎,但在加盟谷歌之前的长达 18 年时间,直到近几年,她才和谷歌等产业公司有实质性的交集。

  在谷歌近两年,李飞飞干了两件事。

  第一件事情,推动成立 Google AI 中国中心。全程参与 Google AI 中国中心的规划和建设,推动将这一中心的成立定义为公司级的战略。李飞飞的光环,吸引不少中国 AI 人才加入。除此之外,李飞飞还参与了谷歌云的日常业务决策。

  第二件事情,在谷歌推行"AI 平民化"理论,两年来,谷歌云结合既定战略,确实在推动 AI 平民化、降低 AI 使用门槛上有不小进展。

  在谷歌云期间,李飞飞主持了一项名为 Cloud AutoML 的项目。这个项目被业内称为"Google Cloud 发展的战略转型",这意味着一直以来面向开发者的 Google Cloud,这次将服务对象转向了普罗大众。

  今年 1 月,AutoML Vision 上线,这是 Cloud AutoML 大项目推出的第一项服务,提供自定义图像识别系统自动开发服务。据谷歌介绍,即使是没有机器学习专业知识的小白,只需了解模型基本概念,就能轻松搭建定制化的图像识别模型。

  到了今年 7 月,AutoML Vision 产品线已经从图像拓展到翻译、和自然语言处理领域。

  如近期谷歌博客对外公布的信息,接下来,李飞飞将按照原定计划回到斯坦福大学,继续 AI 方面的研究工作。

  得益于深度学习技术的突破,人工智能产业在这几年进入快速上升通道,这一切有赖于过去六十年学术界的沉淀和坚持,更得益于近些年学术界和工业界互动效率空前。李飞飞作为学术研究者,过去两年的两栖经历是一个缩影。

  李飞飞认为,下一阶段人工智能产业的良性发展的趋势,除了 AI 学术界,包括人类学、社会学、法律学、伦理学、生物学等更大范围的学术界也需参与进来,和产业界形成新的互动模式。

  谷歌的"炮火" VS 斯坦福的"灯塔"

  《财经》:在谷歌和在斯坦福做研究区别一定很大?

  李飞飞:是的,区别很大,也相当必要。直到 2017 年,AutoML 还是一个基础科学,论文刚刚出来,谷歌的研究环境让我们意识到,这不仅是学术的问题,可以直接解决产业界痛点。谷歌两年,时刻被产业需求和场景所触动,很多问题学术界此前并没有关注。

  《财经》:所以很多人说,这一轮人工智能热潮是产业界推动的,在产业界能够更好的听到前方的炮火,从应用反推了研究。

  李飞飞:科学家有两个不同的"前方",一个是产业界的"前方",是需求、应用和产品,这个"前方",通常是有需求声音的,更像一种反馈;另一个是学术界的"前方",是高瞻远瞩的思想,思想要走在需求之前。60 年前提出 AI 的时候,谁需要 AI?那个时候连个人电脑都还没有,那就是思想的前方。

  我们 6 年前开始做 AI 医疗相关科研时,可能前方有需求,但是听不到声音的,这也是思想的前方,要做吗?一定要做。

  今天的 AI 走到了一个历史性的时刻,既有产业界大量需求,需要普世、通用的 AI,研发出更好的产品,这既包括给产业赋能,也包括给消费者带来更惊喜的产品。同时,在思想界、学术界,也需要新的 AI 研究,点亮未来道路。

  人类科技发展,就像在大海航行,每一次探索,都是走进黑暗的海域,你并不知道这艘船开往哪个方向,思想界、学术界的使命是造一座灯塔,照亮前方,让产业界得以继续进行。

  《财经》:如果出现多座灯塔,产业界应该看什么?

  李飞飞:出现多个灯塔是正常现象,不止是斯坦福大学在做基础科研,历史会告诉我们,哪一个灯塔是正确的。

  《财经》:今天 AI 的灯塔,应该照亮哪几个方向?

  李飞飞:其一,深度学习绝对不是 AI 的终极。深度学习依然很重要,在 AI 商业化落地方面还有很强的生命力。AI 作为一门科学,还有很多没有解决的难题,比如无监督学习(unsupervised learning)、迁移学习(transfer learning)等,都是 AI 技术前沿。我们下一步需要把脑科学、认知科学、生命科学的精髓和 AI 工程学结合起来。

  今天的深度学习,是五六十年前神经生物学的一个火花,这么小小的一个火花,今天给人类带来了第四次工业革命,人类需要更多火花。

  其二,说起 AI,很多人会担心人类被 AI 取代,我认为不是取代,而是辅助、强化(enhance),是助力。

  其三,学术界有责任和使命,去结合经济学、伦理学、法律学,甚至政治学等,去了解 AI 会对人类产生的文化、伦理的影响。

  《财经》:中国一些科技公司开始试图探索基础科学研究的无人区,比如华为、阿里,大型商业公司有能力建立自己的灯塔吗?

  李飞飞:企业替代不了高校,美国的科技公司有基础研究的传统,最著名的经典案例是贝尔实验室,拿了那么多诺贝尔奖,今天,IBM、微软、谷歌、脸书、亚马逊都在做基础研究。商业公司加大了基础研究的力度,最大的作用是搭建了一座桥----可以更好地与学术界互动,双方可以尽可能近地交流、合作。如果学术界只做技术研究,产业界只做产品开发,双方很可能连话都说不上。比如,我作为斯坦福的研究者,我想和谷歌对话,我可以通过谷歌 AI 的研发团队,这是一个桥梁。

  我很鼓励产业界有一部分基础研究,但产业界的 DNA 会让基础研究更重视应用,他们也需要和学术界有更多互动。

  这个时代,基础研究越来越重要,但这需要耐心和定力,60 年前学术界点燃的火花,今天才看到成果。

  《财经》:作为斯坦福的教授,您可以休长达两年的学术假到谷歌任职,有人说斯坦福是硅谷的沃土,也有人说硅谷带给斯坦福灵感,您是如何看待的?

  李飞飞:这是硅谷的文化,非常鼓励学术界和产业界的互动,包括方方面面:作为教授,我们学术上的合作者,既来自产业界,也来自学术界;我们可以休学术假,可以像我一样去谷歌,也鼓励学生们创业,既可以和教授合作,也可以在工业界自己打拼。

  《财经》:像一个成熟运转的机器体系?

  李飞飞:硅谷很自由,机器是严丝合缝,设计好了就不会改变的,我更愿意说它是一个"生态"。硅谷不断推陈出新,是一个自由、有机的生态。这套生态体系下,我很幸运,短短两年在谷歌,几乎从零建立了一个几百人的团队,产品线体系也基本搭建起来了,既做了基础研究,也推出了很多重要的产品。

  硅谷的产业、高校、研究机构这些点自由、开放地连接起来,才能形成一个良好的生态。

  《财经》:回到斯坦福大学会做什么?

  李飞飞:一部分精力继续 AI 医疗相关领域和 AI 基础科学的研究。同时,斯坦福大学在筹备一个新的校级 AI 项目,将在不久的将来公诸于众,我是这个项目的负责人。这个项目我们已经筹备了一年,接下来,这个项目和产业界包括谷歌也会有密切的合作。

  深度研究 VS 落地前景

  《财经》:我们事先找了很多人聊最想你谈的话题,大家最关心 AI 的实际落地和应用。

  李飞飞:这是国内外都关心的问题,我在谷歌最大的收获,就是接触了很多传统行业,真正要让 AI 渗透到生活的衣食住行,就要通过不同的垂直领域来进行。

  我目前最看好的是医疗健康的 AI 落地。我给你举一个例子。有一个数字大家不能忽略,在美国,GDP 的 15-16% 花在医疗上,1% 花在重症监护室(ICU),ICU 的整个工作流程中,AI 其实可以做很多事情。现在,大家在 AI 医疗的实践上,主要集中在医疗影像和数据分析上,这是很基础的应用。

  比如人工智能在 ICU 领域可以做的一个项目,是减少院内感染。

  医疗是一个非常复杂的过程,每一个环节都跟人命相关,稍微出一个错,就是生与死。美国每年因为医院感染死亡的人数是 9 万,远高于每年车祸死亡人数的 3.3 万,看似小小的医院感染这一个程序,不仅造成大量医疗事故,还导致大量医疗资源的浪费。

  医院感染的主要原因之一,是医护人员手部消毒不规范。美国医疗系统如此发达,但依然没有好的方式来实时监控手部消毒的问题,你可能完全不能相信,美国医院要做院感的监控,很多情况下还是只能派一个人站在走廊里拿一个板子计数,这简直是中世纪的方式。这是 AI 很快就可以做的一件事情。通过智能感应器和深度学习的算法,可以做到实时自动提醒医护人员。

  另一个人工智能可以切入的场景是健康,尤其是养老健康和医疗。

  老龄化是很多国家都在面临的社会问题,老人最关切的诉求是能在家自理生活,延续生活高质量。目前,老人日常生活的行为数据,医护人员和家属很难去全面了解,很多时候你不并知道老人在做什么,一不小心就出事了。

  我看到有公司做了可穿戴式的设备,但是老人不爱戴,原因很简单,这些可穿戴设备通常只能监控一两个指标,有的是专门针对糖尿病人的,有的是报警器,那么问题来了,你要保证一个老人的安全,他(她)需要同时穿戴多少个设备?

  我们在斯坦福大学正在做的一个研究,是把智能传感器背后的算法加进来,对整个家庭生活场景进行全面联网分析,打破一个设备一个功能的状态。

  不过,这个项目目前还在实验室阶段。目前的合作对象是旧金山的一个养老院,也有斯坦福大学。但是你可以想象,不久的将来,假设有老人的家庭有了这样的一个装备,会是另一个场景。我还要强调一下,这项目研究包括老人,但不仅限于老人,也包括慢性病的长期康复等。

  《财经》:医疗健康之外的其他领域有没有很快就落地的机会?

  李飞飞:AI 在其他领域也会有机会,比如无人车、金融业、制造业等。金融行业的数据量非常大,天然适合 AI。

  谷歌云已经与保险公司展开合作,用户自己通过拍照就可以自动评估、车辆定损。这在美国已经相对成熟,整个流程变得轻了很多,金融还有很多应用的场景,比如金融反欺诈等。

  不过还有一个方向让我觉得很兴奋,但是我目前还没开始做,是农业。

  AI 会是人类公敌吗?

  《财经》:很多人在讨论,人工智能技术发展的终极,是逐步取代人类。

  李飞飞:说起 AI,很多人联想到第一个英文单词就是 Replace,我认为不是取代,而是助力(Enhance)。不管医疗、教育、制造业,协助工具至关重要。我们希望让大家看到,做 AI 医疗是为了帮助人类,不是取代人类。

  《财经》:但人们会简单粗暴地认为,AI 取代人力,本来医院需要 200 个医生,AI 技术成熟后,就只需要 100 个了。

  李飞飞:确实太简单粗暴了。这个问题需要经济学家和技术人士一起来讨论,举个例子,银行的自动取款机出现之后,很多人说银行会减少很多前台工作人员,但是数据表示,ATM 机增加的同时,前台的工作人员也增加了,为什么呢?机器把简单重复的工作减少之后,银行可以把金融的产品做的更丰富了。

  作为一个科学者,我特别不喜欢把一件事情说得很夸张,无限放大优点和缺点,我们需要准确、理性地去传递。

  《财经》:我们看到很多科幻作品里,有机器人伤害、取代人类的场面。

  李飞飞:这里有一个例子。我有一个人类学家朋友曾经跟我分享,现在的美国青少年,会经常嘲笑自己的父母,因为他们的父母在跟智能音箱聊天的时候,总是习惯性说"谢谢"。她很想跟我探讨:AI 会给人类的文化带来什么影响?我们会不会教出一群不懂礼貌的孩子,反正 AI 不需要礼貌。

  这是一个很小的点,甚至很多人不会在意。但是我的那位人类学家朋友提醒我:我们确实还不清楚 AI 会给人类社会带来什么,会不会下一代的孩子都没有礼貌了?

  学术界有责任和使命,去结合经济学、伦理学、法律学,甚至政治学等等,去了解 AI 会对人类产生的文化、伦理的影响。这个非常重要,就业是一个问题,还有 AI 的透明性,公平性,可解释性,安全性等。

  相比机器人会不会杀死人类,我们目前更应该注意到,AI 技术是时候需要开始与其他领域的专业人士深度合作统筹研究了,他们包括但不仅限于社会科学家、人文主义者、律师、艺术家和政策制定者。

  《财经》:提到公平性,有人提出,AI 只会成为一小部分人的工具,而非全人类。

  李飞飞:这个问题很好。这也是为什么我之前一直在强调 AI 的普世性。AI 的普世性,也是人类的灯塔之一。我们需要重视怎么让 AI 的可解释性更好,这些都会促进它往更好的方向发展。如果你把技术做到完全可解释,就很难把它做得不公平。

  《财经》:现在全世界都在加强数据保护,这对 AI 的发展是好是坏?

  李飞飞:AI 是人类的一个工具,工具需要被良性、正面地应用,需要尊重人的需求,人的价值观,现在欧盟出台的 GDPR 也好,其他国家打击数据隐私泛滥也好,都是短痛。短痛之后,是秩序。机器没有独立的价值观,机器的价值观是人类的价值观。只有以人为本的科技才能真正地造福人类。

(原文链接 http://news.cyzone.cn/news/2011/12/05/219410.html
抵制一淘,京东商城捍卫的是什么?是数据。阿里巴巴最有价值的是什么?是数据。

  谁对中国20-40岁女性的身材(三围)最了解?这个人不是别人,而是阿里巴巴的老大马云----他只要下个命令,让数据挖掘工程师把淘宝某段时间内20-40岁女性购买相关商品的数据汇总,再做个简单的挖掘,答案就放在那了。

  2010年以来,随着凡客、京东与苏宁易购这两类B2C电商的崛起,国内掀起了又一次B2C电商的热潮,与以往的电商热不同,这次电商热的主流 参与者是众多传统企业。面对这种局面,淘宝祭出了建立2年却不温不火的淘宝商城,将其独立拆分运营,旨在吸引更多传统大中企业来此安家落户,而不要自己做 独立电商。

  但是很显然,淘宝商城是拦不住数以万计、十万甚至百万计的大中小型传统企业最终做独立B2C的趋势的。而且,接下来还会有更多的凡客、京东杀出来。这种趋势是会让马云睡不着觉的,因为这种趋势发展下去,会把淘宝王国一点一点解构掉。

  为了让自己能睡着觉,马云拿出了一个用他自己的话说是"要让百度睡不着觉"的对策,也就是一淘。一淘的底子实际上是原来淘宝的站内搜索,拆分独立后嫁接了全网搜索尤其是电商网站产品页抓取的技术。一淘的推出,标志着马云第一次大张旗鼓地把触角伸到了非阿里--淘宝体系的独立电商领域。一淘对于马云 来说绝不仅仅是个电商搜索工具,从战略上说,他是希望一淘最终能成为中国电子商务网站的搜索、导航门户。如果能做到这点,纵使独立电商的大潮如何汹涌,马 云都可高枕无忧。

  但是事情却没那么顺利。一淘一推出就毁誉参半,京东等大型的独立B2C网站首先表示将用技术手段封杀一淘的抓站蜘蛛或爬虫。一淘想从包括京东在内的大小独立电商网站获得什么?京东等抵制一淘的网站捍卫的又是什么?答案很简单:数据。

  如果你问我马云旗下这些公司最有价值的是什么,我的答案也是:数据。如今很多互联网企业对数据重视程度不断提高,但多数其他互联网企业的数据,其价值都无法与阿里巴巴所掌握的数据相提并论。

  这里我们回想一句马云在2008年2月的"冷预言":冬天来了,准备过冬吧。这句话在莺歌燕舞的2008年冒出来,几乎所有的人的反应都是:这是疯人疯语。

  但令人意想不到的是,半年多后,大洋彼岸就传来了美国次贷危机进而引发全球金融危机的消息。马云为什么能如此先知先觉?答案跟本文开篇部分那个 半开玩笑的问题一样,马云不仅能从淘宝数据知道中国女性的身材情况,他同样能通过阿里巴巴的数据知道海量中小企业的经营状况,甚至能部分地知道美欧等国当 地居民消费力水平的变化。把这些数据结果跟不断恶化的次贷危机趋势一叠加,他就很容易地成了"先知"了。

  如今业界对阿里巴巴旗下公司的标准描述是:阿里巴巴是中国最大的B2C平台;淘宝是国内最大的C2C平台;支付宝是中国最大的互联网第三方支付工具;拆分出来的淘宝商城有望成为国内最大的B2C平台;而一淘的目标则是成为基于商品搜索的网购门户。

  把上面描述的加在一起等于什么?等于阿里巴巴通过旗下的各项业务积累了海量网民网购行为特征数据、众多商家的基本交易数据。然后呢?如今中外很多互联网公司手上也都掌握着很多数据,但是,我们也没有看到什么真正的奇迹发生。

  马云你能创造奇迹吗?如果把阿里系所掌握的所有数据,再配以先进的数据挖掘技术,阿里巴巴将从一个B2B、B2C、C2C交易平台变身成为一家 超级商业智能(BI)企业。从很早开始,阿里内部就建立了强大的数据挖掘部门,其掌握的数据挖掘技术在国内互联网行业内应是数一数二的;其次,今年上半 年,阿里巴巴悄然收购了作针对中小网站流量统计的CNZZ,此举目的很明确,那就是把百万量级的中小网站的数据也逐步整合到阿里的数据体系中。而且,这些 数据不仅仅是部分中小电商网站的数据,更多是海量网民在众多网站间的行为数据。

  如果这就是马云秘而不宣的下一个梦想,那么一淘的出现就已经暴露了他的新野心。


新浪科技讯 6月16日午间消息,针对淘宝分拆微一淘、淘宝网和淘宝商城三家公司一事,阿里巴巴董事局主席兼马云刚刚对内发布员工邮件,他认为淘宝分拆能创造更大的产 业价值、公司价值和股东利益。马云认为阿里的整体利益和整个行业的规模和未来一致,"我们不排除未来集团整体上市的可能性"。

以下为邮件全文:

各位阿里人:

经 过数月的思考及准备,集团决定从二零一一年六月十六日起把淘宝分拆为三家公司。三家公司为:一淘网( www.etao.com ),淘宝网( www.taobao.com ),和淘宝商城( www.tmall.com )。这次分拆影响重大,所以我向大家汇报主要的出发点和意义。

1. 全球互联网和电子商务的形势发生了巨大的变化,我们决定把"大淘宝"战略提升为"大阿里"战略。近两年来,互联网在搜索、SNS(社区化)和电子商务领域 里发生了格局性的变化,新公司层出不穷。2009年启动的"大淘宝"战略取得了阶段性进展,初步建立了一个强大的以消费者为中心的网购生态系统。为了更好 适应今天行业的快速发展,集团决定提升"大淘宝"战略为"大阿里"战略。"大阿里"将和所有电子商务的参与者充分分享阿里集团的所有资源----包括我们所服 务的消费者群体、商户、制造产业链,整合信息流,物流,支付,无线以及提供数据分享为中心的云计算服务等,为中国电子商务的发展提供更好, 更全面的基础服务。大阿里战略的核心使命仍是建设开放,协同,繁荣的电子商务生态系统,促进新商业文明。

2. 客户的需求发生了很大的变化。一方面,网上消费购物在淘宝的引导和努力下已经从生活的补充变成了生活的必需,我们要为消费者提供更专业和个性化的服务。另 一方面,随着内需的展开和企业的转型,越来越多的企业将会使用电子商务来服务客户,他们需要的支持和服务也是今非昔比了。所以我们必须从以淘宝网为主的消 费者平台升级为"无处不在"的供需双赢的消费平台。这新平台将由阿里巴巴B2B和三家"Tao"公司一起完成对不同客户的服务:我们希望一淘网的购物搜 索,淘宝网价廉物美的社区化创新以及淘宝商城的精品专业体验给消费者以全新的感受;同时,也能更加专业化的帮助更多企业和创业者开展积极的电子商务服务和 营销。

3. 新商业文明的建设必然会要求企业内部管理发生根本性变化,我们必须主动创新。阿里公司在短期内发展成那么大,但竞争优势不是凭个子大。我们必须在组织结构 上不断尝试和创新,才能摸索出适合互联网发展的新型企业管理的思路和模式,保持创造力和先进性。阿里的惯例就是把大公司化成小公司来做,这样才能建立更加 创新的机制,才能让更多的年轻人和新同事成长起来,在"小"环境里让大家有更多机会展示才华和能力。

4. 我们相信淘宝分拆能创造更大的产业价值、公司价值和股东利益,今天的分拆看起来似乎令淘宝失去规模优势,从"有"变成了"无",但这是无处不在的"无"! 我们把淘宝融入到大阿里战略的核心,将为整个行业和集团的发展创造巨大的价值,给无数电子商务的从业者更多公平竞争和发展的机会。我们坚信,中国电子商务 发展的好和阿里可能没有太大关系,但发展的不好和阿里一定有关系。今天阿里的整体利益一定是和整个行业的规模和未来一致的。我们不排除未来集团整体上市的 可能性,让一直相信和支持我们的员工和股东们分享成果。

这次战术变革需要强大的团队执行。在大阿里战略中,B2B上市公司承担重要职责,为 此集团决定为B2B配置最优秀的领导团队。即日起,陆兆禧将专职担任上市公司首席执行官,支持陆兆禧的团队包括:首席财务官武卫、ICBU总经理彭翼 捷,CBU总经理叶朋,人力资源副总裁邓康明、技术副总裁李昂 以及供应商服务部付总裁吴敏芝等。

淘宝分拆后的三家公司依总裁加董事长的机 制运营。一淘的管理团队由总裁"东邪"吴泳铭领衔,汇报给一淘董事长彭蕾。淘宝网的管理团队由总裁"三丰"姜鹏领衔,汇报给淘宝网董事长陆兆禧。淘宝商城 的管理团队由总裁"逍遥子"张勇领衔,汇报给淘宝商城董事长曾鸣。"苏筌"戴珊负责领导技术和公共服务支撑大平台,全力支持各公司的业务发展,直接汇报给 集团CEO马云。

阿里人,我们应该为自己骄傲!有几家公司敢在处于遥遥领先地位、业务快速发展之际,还能摆脱对优势的依赖,能有自我变革的意志和力量,实施主动调整。我相信,我们的团队经过这次分拆,会走得更好,变得更有效率,更加优秀。

阿 里人,变化是痛苦的,没有一次变化会顺利发生。但我们必须变化,我们必须变化在变化之前。我们的商业模式从诞生的第一天起就和这个社会的发展和责任紧密相 连,时代成就了我们,我们不能辜负时代。电子商务只是刚刚起步,要记住,我们今天追求的不仅仅是最佳的商业模式,既然我们有幸能参与改变商业历史的进程, 我们还应该更积极的去推动和探索新商业文明的发展之道!

阿里巴巴集团CEO

马云

2011.6.16



如何高效处理全球信息一直是Google的狂热追求,而其自行开发的C++编程工具MapReduce就在其中扮演着关键角色。它可以多线程同时执行大规模数据集(1TB以上)的并行运算,是日常超大计算量的完美方案。

Google今天自豪地宣布,他们只需要短短68秒钟就能完成对1TB数据的排序处理。这些数据都是未压缩的文本文件,使用Google File System文件系统存储在1000台计算机上。在此之前,Google处理分布于910台计算机上的等量数据需要耗时209秒,效率只有现在的三分之一 左右。

当然,信息爆炸时代的数据量远远不只是TB级别,更常见的是一千倍的PB级别。在今年1月份的时候,Google MapReduce平均每天的数据处理量是20PB,相当于美国国会图书馆今年5月份存档网络数据的240倍。

那么Google MapReduce对4000台计算机上的1PB数据进行排序处理需要多长时间呢?答案是6小时零2分钟。放眼全球,除了Google还没有谁具备这种高速处理能力。

Google还透露,这1PB数据是存储在48000个硬盘上的(当然并没有全部填满),不过考虑到测试的持续时间、涉及的硬盘数量、硬盘的使用寿命,每次进行测试都会有至少一块硬盘挂掉。为此Google文件系统会为每个文件备份三个拷贝,并分别放在三块硬盘上。

Link:http://www.cioage.com/art/200901/77364.htm

At Google we are fanatical about organizing the world's information. As a result, we spend a lot of time finding better ways to sort information using MapReduce, a key component of our software infrastructure that allows us to run multiple processes simultaneously. MapReduce is a perfect solution for many of the computations we run daily, due in large part to its simplicity, applicability to a wide range of real-world computing tasks, and natural translation to highly scalable distributed implementations that harness the power of thousands of computers.

In our sorting experiments we have followed the rules of a standard terabyte (TB) sort benchmark. Standardized experiments help us understand and compare the benefits of various technologies and also add a competitive spirit. You can think of it as an Olympic event for computations. By pushing the boundaries of these types of programs, we learn about the limitations of current technologies as well as the lessons useful in designing next generation computing platforms. This, in turn, should help everyone have faster access to higher-quality information.

We are excited to announce we were able to sort 1TB (stored on the Google File System as 10 billion 100-byte records in uncompressed text files) on 1,000 computers in 68 seconds. By comparison, the previous 1TB sorting record is 209 seconds on 910 computers.

Sometimes you need to sort more than a terabyte, so we were curious to find out what happens when you sort more and gave one petabyte (PB) a try. One petabyte is a thousand terabytes, or, to put this amount in perspective, it is 12 times the amount of archived web data in the U.S. Library of Congress as of May 2008. In comparison, consider that the aggregate size of data processed by all instances of MapReduce at Google was on average 20PB per day in January 2008.

It took six hours and two minutes to sort 1PB (10 trillion 100-byte records) on 4,000 computers. We're not aware of any other sorting experiment at this scale and are obviously very excited to be able to process so much data so quickly.

An interesting question came up while running experiments at such a scale: Where do you put 1PB of sorted data? We were writing it to 48,000 hard drives (we did not use the full capacity of these disks, though), and every time we ran our sort, at least one of our disks managed to break (this is not surprising at all given the duration of the test, the number of disks involved, and the expected lifetime of hard disks). To make sure we kept our sorted petabyte safe, we asked the Google File System to write three copies of each file to three different disks.

Significantly improved handling of the so-called "stragglers" (parts of computation that run slower than expected) was a key software technique that helped sort 1PB. And of course, there are many other factors that contributed to the result. We'll be discussing all of this and more in an upcoming publication. And you can also check out the video from our recent Technology RoundTable Series.

Link:http://googleblog.blogspot.com/2008/11/sorting-1pb-with-mapreduce.html

Pages

Powered by Movable Type 6.3.2

About this Archive

This page is an archive of recent entries in the IT新闻 category.

Oracle摘 is the next category.

回到 首页 查看最近文章或者查看所有归档文章.