编程开发 购物 网址 游戏 小说 歌词 地图 快照 股票 美女 新闻 笑话 | 汉字 软件 日历 阅读 下载 图书馆 开发 租车 短信 China
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
多播视频美女直播
↓电视,电影,美女直播,迅雷资源↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
移动开发 架构设计 编程语言 互联网 开发经验 Web前端 开发总结
开发杂谈 系统运维 研发管理 数据库 云 计 算 Java开发
VC(MFC) Delphi VB C++(C语言) C++ Builder 其它开发语言 云计算 Java开发 .Net开发 IOS开发 Android开发 PHP语言 JavaScript
ASP语言 HTML(CSS) HTML5 Apache MSSQL数据库 Oracle数据库 PowerBuilder Informatica 其它数据库 硬件及嵌入式开发 Linux开发资料
  编程开发知识库 -> 数据库 -> 数据仓库学习笔记一 -> 正文阅读
 

[数据库]数据仓库学习笔记一[第1页]

数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合,用来支持管
理人员的决策。
1 主题:

图1
传统的操作型系统是围绕公司的应用进行组织的。对一个保险公司来说,应用问题可能
是汽车保险、健康保险、人寿保险与意外伤亡保险。公司的主要主题范围可能是顾客、保险
单、保险费与索赔。
2 集成
图2

数据仓库的第二个显著特点是集成的。在数据仓库的所有特性之中,这是最重要的,当数据进入数据仓库时,要采用某种方法来消除应用问题中的许多不一致性。例如,在
图2 - 2中,考虑关于“性别”的编码,在数据仓库中是编码为m / f还是1 / 0并不重要,重要的是,
无论什么原始应用问题,无论数据仓库如何进行编码,在数据仓库中应该一致地进行编码。
如果应用数据编码为X / Y,当其进入数据仓库时就要进行转换。对所有的应用设计问题都要考
虑同样的一致性处理,比如命名习惯、键码结构、属性度量以及数据特点等。
3 非易失性
图3

表示了操作型数据正规地是一次访问和处理一个记录。可以对操作型环境中的数据
进行更新。但数据仓库中的数据呈现出非常不同的特性。数据仓库的数据通常是一起载入与
访问的,但在数据仓库环境中并不进行一般意义上的数据更新。
4 随时间变化
图4

数据仓库的最后一个显著特性是其随时间的变化性。如图2 - 4所示。数据仓库中的数据随
时间变化的特性表现在以下几个方面:
■ 数据仓库中的数据时间期限要远远长于操作型系统中的数据时间期限。操作型系统的
时间期限一般是6 0~9 0天,而数据仓库中数据的时间期限通常是5~1 0年。
■ 操作型数据库含有“当前值”的数据,这些数据的准确性在访问时是有效的,同样当
前值的数据能被更新。而数据仓库中的数据仅仅是一系列某一时刻生成的复杂的快照。
■ 操作型数据的键码结构可能包含也可能不包含时间元素,如年、月、日等。而数据仓
库的键码结构总是包含某时间元素。
数据仓库的结构
图5

第1天到第n天的现象
图6
建立数据仓库不是一蹴而就的。相反,数据仓库只能一次一步地进行设计和载入数据,
即它是进化性的,而非革命性的。突然建立一个数据仓库的费用、需要的资源和对环境的破
坏,都表明数据仓库的建立要采用有序地反复和一次一步的方式。
图2 - 1 0说明一个建立数据仓库的典型过程。第1天,通晓本质上进行操作型处理的几个系
统。第2天,对数据仓库中第一个主题领域的最初几个表载入数据,此时就会产生一定的好奇
心,用户开始发现数据仓库和分析处理。
第3天,更多的数据载入数据仓库,并且随着数据量增大,将吸引更多的用户。一旦用户
发现有较容易载入的集成数据源,并有在时间维上观察数据的历史基础,这就不仅仅是好奇
心了。大约此时,认真的D S S分析员渐渐地被吸引到数据仓库中。
第4天,随着更多的数据载入数据仓库,一批存储在操作型环境的数据被适当地放入数据
仓库中。现在,我们就“发现”数据仓库是可用来进行分析处理的信息源。各种各样的D S S
应用出现了。的确,伴随着现在存入数据仓库的大规模数据,此时开始出现如此多的用户和
如此多的处理请求,以致于一些用户进入数据仓库的要求和分析工作被推迟。进入数据仓库
的竞争成为使用数据仓库的障碍。
第5天,部门数据库(数据集市,或O L A P )开始兴起,各部门发现通过把数据从数据仓库
输入它们自己的部门处理环境,会使它们的处理既便宜又容易。到达部门级的数据吸引着一
些D S S分析员。
第6天,部门系统出现繁忙,得到部门数据比获得数据仓库的数据更便宜、更快、更容易。
很快最终用户就放弃数据仓库的细节,去进行部门处理。
第n天,这种体系结构得到充分发展。生产系统的原始集合中只剩下操作型处理。数据仓
库具有丰富的数据,并有一些数据仓库的直接用户和许多部门数据库。因为在部门级上获得
处理所需要的数据既容易又便宜,所以大部分D S S分析处理都在部门级进行。
当然,从第1天到第n天的进化需要很长的时间,通常需要几年。并且在从第1天到第n天
的处理过程中,D S S环境在不断地提高和职能化。
数据库--粒度
图7

粒度问题是设计数据仓库的一个最重要方面。粒度是指数据仓库的数据单位中保存数据的
细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。
数据的粒度一直是一个设计问题。在早期建立的操作型系统中,粒度是用于访问授权的。
当详细的数据被更新时,几乎总是把它存放在最低粒度级上。但在数据仓库环境中,对粒度
不作假设。图2 - 11说明了粒度问题。
在数据仓库环境中粒度之所以是主要的设计问题,是因为它深深地影响存放在数据仓库
中的数据量的大小,同时影响数据仓库所能回答的查询类型。在数据仓库中的数据量大小与
查询的详细程度之间要作出权衡。
粒度的一个例子
图2 - 1 2表示了粒度问题的一个例子。左边是一个低粒度级,每个活动(在这里是一次电话)
被详细记录下来,数据的格式如图所示。到月底每个顾客平均有2 0 0条记录(全月中每个电话
都记录一次),因而总共需要40 000个字节。
该图的右边是一个高粒度级。数据代表一位顾客一个月的综合信息,每位顾客一个月只
有一个记录,这样的记录大约只需2 0 0个字节,记录的格式如图所示。
显然,如果数据仓库的空间很有限的话(数据量总是数据仓库中的首要问题),用高粒度级
表示数据将比用低粒度级表示数据的效率要高得多。
高粒度级不仅只需要少得多的字节存放数据,而且只需要较少的索引项。然而数据量大
小和原始空间问题不是仅有的应考虑的问题。为了访问大量数据,其处理能力的大小同样也
是应考虑的一个因素。
所以,在数据仓库中数据压缩非常有用。当数据被压缩后就会大大节省所用的D A S D存储
空间,节省所需的索引项,以及节省处理数据的处理器资源。
但是,当提高粒度级时,数据压缩就会出现另一个问题,图2 - 1 3表示作出的选择。
在图2 - 1 3中,当提高数据粒度级时,数据所能回答查询的能力就会随之降低。换句话说,在一个
很低的粒度级上你实际可以回答任何问题,但在高粒度级上,数据所能处理的问题的数量是有限的。
图8

阅读全文
版权声明:本文为博主原创文章,未经博主允许不得转载。
本文已收录于以下专栏:

发表评论
HTML/XML objective-c Delphi Ruby PHP C# C++ JavaScript Visual Basic Python Java CSS SQL 其它
相关文章推荐

数据库系统.数据库与数据仓库导论
4天前 23:31 47.11MB 下载

NCR数据仓库实施步骤与项目管理
2016-03-09 10:48 2.04MB 下载
星型数据仓库olap工具kylin介绍
星型数据仓库olap工具kylin介绍   数据仓库是目前企业级BI分析的重要平台,尤其在互联网公司,每天都会产生数以百G的日志,如何从这些日志中发现数据的规律很重要. 数据仓库是数据分析的重要工...
ruiyiin 2016-02-18 21:27 3160

数据仓库和olap
2015-02-25 20:17 101KB 下载

建立Microsoft_SQL_Server_2005数据仓库
2015-04-02 16:53 2.11MB 下载
Hive数据仓库相关操作
一、数据的导入 1、使用Load语句执行数据的导入 1.语法: 其中(中括号中表示可加指令): LOCAL:表示指定的文件路径是否是本地的,没有则说明是HDFS上的...
z_xiaozhuT 2017-06-05 13:48 251

数据仓库基础构架-Hive随谈
2017-10-08 17:41 6.13MB 下载

数据仓库图
2015-05-05 19:58 361KB 下载
北美数据仓库的常用技术
数据挖掘、数据仓库,近些年在国内越来越热、越来越流行,需求比较多,应用也比较广泛,它们常服务于商务智能活动。通俗地概括来讲,我们可将它们统称作数据分析、数据计算。   我们介绍数据仓库在商业应用,...
HongSonglin 2014-09-29 16:07 94

数据仓库理论知识
2015-04-27 14:55 2.48MB 下载
u012429555 +关注
原创 72 粉丝 4 喜欢 0 码云  
他的最新文章 更多文章
对贝叶斯理解以及解释贝叶斯函数 R--组比较:表和可视化 R学习连续变量之间的关系 Rsrudio使用出现问题
在线课程

【免费】搜狗机器翻译技术分享
讲师:

深度学习在推荐领域的应用和实践
讲师:吴岸城
热门文章 hadoop2.6.0的环境搭建
6392
Intellij IDEA开发(local模式)提交运行Spark代码
3603
基于Hadoop2.6.0的Spark1.3.1大数据处理平台的搭建
3462
java的seek()函数
2185
java如何实现加减乘除
1946
0
  数据库 最新文章
Oracle之复杂查询
数据仓库学习笔记一
SQL语句
17.Oracle杂记——数据字典dba_ts_quotas
18.Oracle杂记——数据字典dba_users
19.Oracle杂记——数据字典dba_views
MySQL分区表
实现一个Android锁屏App的难点总结
mysql用root登录,执行revoke all privileg
innodb 引擎相关模块
上一篇文章      下一篇文章      查看所有文章
加:2017-10-30 04:03:18  更:2017-10-30 04:04:04 
VC(MFC) Delphi VB C++(C语言) C++ Builder 其它开发语言 云计算 Java开发 .Net开发 IOS开发 Android开发 PHP语言 JavaScript
ASP语言 HTML(CSS) HTML5 Apache MSSQL数据库 Oracle数据库 PowerBuilder Informatica 其它数据库 硬件及嵌入式开发 Linux开发资料
360图书馆 软件开发资料 文字转语音 购物精选 软件下载 美食菜谱 新闻资讯 电影视频 小游戏 Chinese Culture 股票 租车
生肖星座 三丰软件 视频 开发 短信 中国文化 网文精选 搜图网 美图 阅读网 多播 租车 短信 看图 日历 万年历 2018年6日历
2018-6-21 8:41:01
多播视频美女直播
↓电视,电影,美女直播,迅雷资源↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  编程开发知识库