数据仓库的来源和发展


数据仓库的历史可以追溯到计算机的发展前期,是信息技术发展的必然,以后也会越来越完善的。

一、文件系统

上世纪60年代前期,计算机领域还局限在创建和运行主文件的单个应用。这些应用主要是报表处理和和程序,大多是使用Fortran或COBOL等早期程序设计语言编写的。主文件存储在磁带上,随之而来的缺点就是只能按顺序访问,举个例子,我们想查看磁带上第10分钟处的数据,就只能按顺序访问前九分钟的数据,然后才能查看第十分钟的数据。磁带虽然提供了廉价的存储,但也造成了大量的数据冗余。因此也引发了以下问题:

  • 更新数据时需要保持数据的一致性。
  • 程序维护的复杂性。
  • 开发新程序的复杂性。
  • 支持所有主文件需要增加大量的硬件。20世纪60年代 – General Mills 和Dartmouth College在一个联合研究项目中,制定了术语维度(dimensions)和事实(facts)。

二、DASD和DBMS的出现

到了1970年,出现了一种新的存储和访问技术,也就是磁盘存储器,或者称之为直接存取存储设备(Direct Access Storage Device,DASD)。磁盘存储与磁带存储的根本不同在于磁盘上的数据能够直接访问。DASD要访问第n+1条记录,不再需要顺序访问第1、2、3……n条记录,而是一旦知道了第n+1条记录的地址,就可以直接访问它。

随着DASD的发展,出现了一种称为数据库管理系统(Database Management System,DBMS)的新型系统软件。这种新型软件目的是使程序员可以方便的在DASD上面进行存储和访问。伴随着DBMS,出现了“数据库”的概念。

1975年 – Sperry Univac推出MAPPER(MAintain,Prepare,Produce Executive Reports),这是一个数据库管理和报告系统,其中包括世界上第一个第一个专为建设信息中心而设计的平台4GL(当代数据仓库技术的先驱)

三、数据仓库之父的出现

到了20世纪80年代,涌现了一些更为新颖的技术,比如个人计算机(PC)和第四代编程语言(Fourth-Generation Language,4GL)。随着PC和4GL的发展,除了高性能的在线事务处理之外,人们可以利用数据做更多的事情,比如早期的管理信息系统(Management InformationSystem,MIS),如今这种技术成为DSS。

数据仓库之父,事务处理,访问数据

1990年 – 由Ralph Kimball创立的Red Brick Systems推出了Red Brick Warehouse,这是一个专门用于数据仓库的数据库管理系统。而Ralph Kimball也就成为了数据仓库之父。
数据仓库之父,事务处理,访问数据

四、多个单独数据库

随着大型在线事务处理系统问世不久,出现了数据抽取技术,可以实现把想要的数据从在线事务处理系统中分离出来,这样就可以解决数据分析性能方面的问题;抽取出来的数据,给人们在使用数据方面带来了极大的灵活性,我们可以使用这些数据做各种分析。

起初,只是对在线事务处理系统中的数据进行抽取。慢慢的人们发现在抽取结果中,加上一些条件限制可以更方便的得到想要的数据。但此时的“数据仓库”是多个单独的数据库,在使用过程中慢慢出现了如下问题:

  • 数据时间不统一
  • 抽取程序的差异
  • 外部数据加载问题
  • 无公共起始数据源

以上问题就会有可能导致,不同部门抽取数据的差异,从而到时分析结果的不同。

数据仓库之父,事务处理,访问数据