No results found

数据仓库设计的7个步骤,7个禁忌和7种思路

高效实现数据仓库的七个步骤

数据仓库和我们常见的RDBMS系统有些亲缘关系,但它又有所不同。如果你没有实施过数据仓库,那么从设定目标到给出设计,从创建数据结构到编写数据分析程序,再到面对挑剔的用户的评估,整个过程都会带给你一种与以往的项目完全不同的体验。一句话,如果你试图以旧有的方式创建数据仓库,那你所面对的不是预算超支就是所建立的数据仓库无法良好运作。
在处理一个数据仓库项目时需要注意的问题很多,但同时也有很多有建设性的参考可以帮助你更顺利的完成任务。开放思维,不断尝试新的途径,对于找到一种可行的数据仓库实现方法来说也是必需的。

SSIS中代码页(Code Page)问题

MSDN对于Code Page的解释是:

对于字符和 Unicode 数据,代码页是代表特定字母、数字或符号的位模式的定义(例如 0x20 代表空格,0x74 代表字符“t”)。某些数据类型为每个字符使用一个字节;每个字节的位模式可以是 256 种不同位模式之一。

在做SSIS项目的Data Coversion时,经常会遇到类似这样的问题:

** The column “xxx” cannot be processed because more than one code page (1252 and 936) are specified… **

深入对比数据仓库模式:Kimball vs Inmon

概述

毛主席曾经说:实践若不以革命理论为指南,就会变成盲目的实践。

Kimball和Inmon是两种主流的数据仓库方法论,分别由 Ralph Kimbal大神 和 Bill Inmon大神提出,在实际数据仓库建设中,业界往往会相互借鉴使用两种开发模式。本文将详细介绍 Kimball 和 Inmon 理论在实际数据仓库建设中的应用与对比,通过数据仓库理论武装数据仓库实践。

数据仓库维度建模10大基本原则

原则1

载入详细的原子数据到维度结构中

维度建模应该使用最基础的原子数据进行填充,以支持不可预知的来自用户查询的过滤和分组请求,用户通常不希望每次只看到一个单一的记录,但是你无法预测 用户想要掩盖哪些数据,想要显示哪些数据,如果只有汇总数据,那么你已经设定了数据的使用模式,当用户想要深入挖掘数据时他们就会遇到障碍。当然,原子数据也可以通过概要维度建模进行补充,但企业用户无法只在汇总数据上工作,他们需要原始数据回答不断变化的问题。

Markdown教程

本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:

  • Markdown和扩展Markdown简洁的语法
  • 代码块高亮
  • 图片链接和图片上传
  • LaTex数学公式
  • UML序列图和流程图
  • 离线写博客
  • 导入导出Markdown文件
  • 丰富的快捷键

改变世界的公式TOP10,最后一个一看就蒙圈了

很多人不喜欢数学,因为他们觉得数学伤脑筋,可是,我们有很多的发明、创造都跟数学有关。

英国科学期刊《物理世界》曾让读者投票评选了“最伟大的公式”,最终榜上有名的十个公式既有无人不知的1+1=2,又有著名的E=mc2;既有简单的-圆周公式,又有复杂的欧拉公式……

很多人不喜欢数学,因为他们觉得数学伤脑筋,可是,我们有很多的发明、创造都跟数学有关。

英国科学期刊《物理世界》曾让读者投票评选了“最伟大的公式”,最终榜上有名的十个公式既有无人不知的1+1=2,又有著名的E=mc2;既有简单的-圆周公式,又有复杂的欧拉公式……

Foumula-TOP10-1

【T-SQL】group by 和grouping sets

遇到一个情况,需要在内网系统中出一个统计报表。需要根据不同条件使用多个group by语句,需要将所有聚合的数据进行union操作来完成不同维度的统计查看。
知道发现了在SQL Server 2008之后引入了grouping sets这个对于group by的增强后,上面的需求实现起来就简单的多,下面我们用AdventureWork中的表作为demo来解释一下grouping sets.

【SSIS】几个通用属性

记录几个简单常用SSIS包常用属性,都是通用属性:

  • 1.Disable 设置属性为true是该任务不能执行
  • 2.DelayValidation 设置为true只至运行时才验证任务中的属性,在非连接状态下和为任务包输入一个外部参数值但是直到部署时才验证这种情况下会很有用。它的默认设置为false
  • 3.Description 该属性描述任务包的情形。默认的值是<task name>,如果多个任务类型相同则设置为<task name 1>(数字1递增)。这个属性不是唯一的,只需要准确描述任务包项目方便其他人理解
  • 4.ExecValueVariable 存储任务输出的用户变量,默认的值是<none>,不输出。
  • 5.FailPackageonFailure 设置这个属性为true,当package中有一个任务失败那么他的上层的任务也将失败。它的上层任务可能是一个package或者container。

放开那程序猿!构建业务导向的大数据云平台

按数据处理方式及使用目标,企业级IT系统可分为OLTP和OLAP系统。简而言之,OLTP系统生产数据,OLAP系统加工数据。从数据到智慧的转换金字塔上看,OLTP系统实现了底层的数据产生和存储以及面向事务的信息整合,在这之上的各层就要依赖OLAP系统了。OLAP概念源自决策支持系统(DSS),企业中的数据仓库、数据集市、统计报表、驾驶舱、数据挖掘等都属于OLAP体系。其中,数据仓库和数据集市主要实现信息整合,一般统称为数据整合平台。统计报表、驾驶舱、数据挖掘进一步利用数据整合平台的成果,帮助用户发现知识并最终形成智慧。

房地产行业商业智能解决方案分享

中国地产行业经过了20多年的发展,房地产行业整合已成大势所趋,逐步由区域开发转变为集团化的跨地区综合开发商。然而,对于处在超常规速度发展的房地产企业来说,其面临的挑战也是超常规的。首先,房地产企业要在有限的资金和人力条件下,同一时间,对全国区域范围内的多个项目做出科学的决策,以及进行合理地资源平衡,这是一项非常复杂的系统工程。另外,由单个区域开发到全国跨地区开发所带来的管理上的复杂程度也是呈几何级数增长的。这就对企业在项目进度控制、现金流管理等方面提出了更加精细的要求。

【SQL SERVER】链接数据库“无法启动分布式事务”的问题及解决

问题描述

当在SQL SERVER数据库里配置了Linded Server(链接数据库)时,就有可能有通过链接数据库调用其他服务器上的数据库的存储过程的需求,可是在还没有进行配置之前就会报出这样的错误:“该伙伴事务管理器已经禁止了它对远程/网络事务的支持,无法启动分布式事务”、“未将服务器配置为RPC”。在网上搜索了下,结合自己的情况整理了一下。

【SSIS】中Precedence Constraint 优先约束的使用

开篇介绍

Precedence Constraint 优先约束 - 在控制流中使用,用来链接控制流中各种 Task,Container,并且要求满足一定的条件才能执行相关联的 Task 或者 Container。 比如下图中,第一个 Execute SQL Task 叫做 Precedence-Executable 优先可执行任务,而Script Task 由于在关联箭头的下游,所以它叫做 Constrained-Executable 受约束可执行任务。关联箭头的上游任务自然先执行,关联箭头下方的这种受约束可执行任务是否能够被执行则要取决于 Precedence Constraint 的配置了。

【SSIS】使用 Web Service 以及 解析XML 数据

Web Service简介

Web Service是一种构建应用程序的普遍模型,可以在任何支持网络通信的操作系统中实施运行;它是一种新的web 应用程序分支,是自包含、自描述、模块化的应用,可以发布、定位、通过web调用。Web Service是一个应用组件,它逻辑性的为其他应用程序提供数据与服务.各应用程序通过网络协议和规定的一些标准数据格式(Http,XML,Soap)来访问Web Service,通过Web Service内部执行得到所需结果.Web Service可以执行从简单的请求到复杂商务处理的任何功能。一旦部署以后,其他Web Service应用程序可以发现并调用它部署的服务。

比尔·盖茨:如果你看完了这些极其难懂的书,请给我投简历!

在硅谷的世界里,有几本比《计算机编程艺术》( “The Art of Computer Programming”)更受人认可的书,这些书也是斯坦福大学名誉教授Donald Knuth点名的非常不错的书。而在比尔盖茨的演讲中,他甚至表示:“如果你自认为是个非常优秀的程序员。那么你如果全部读完了Knuth编写的《计算机编程艺术》这本书的话。你一定要给我发份简历”。而这句好像开完笑的话,便可以说明比尔盖茨对其的高度评价,同时这些话也被收录在了这本书的第一卷的第三版的封面上。

如何在没有主键的SQL Server表里删除重复行

有没有遇到过在一个没有主键标志的表里存了重复的数据行,要把重复的行删掉保留一行的情况呢?我们可以设置SQL Server的ROWCUNT变量来限制影响的数据行数,默认的数据值是0,代表所有行,但是这个值可以在运行SQL语句之前进行设定。

咱们首先建个测试用的表,插入几条条记录。

CREATE TABLE dbo.duplicateTest
    (
      [ID] [INT] ,
      [FirstName] [VARCHAR](25) ,
      [LastName] [VARCHAR](25)
    )
ON  [PRIMARY];

INSERT INTO dbo.duplicateTest VALUES(1, 'Bob','Smith') 
INSERT INTO dbo.duplicateTest VALUES(2, 'Dave','Jones') 
INSERT INTO dbo.duplicateTest VALUES(3, 'Karen','White') 
INSERT INTO dbo.duplicateTest VALUES(1, 'Bob','Smith')
INSERT INTO dbo.duplicateTest VALUES(2, 'Dave','Jones')
INSERT INTO dbo.duplicateTest VALUES(1, 'Bob','Smith') 

SQL Server 2014的BI开发工具SSDT(以前的BIDS)安装

当我们安装好SQL Server 2014以后,会发现以前随数据库安装的BI开发套件SQL Server Reporting Services (SSRS), SQL Server Analysis Services (SSAS), 和 SQL Server Integration Services (SSIS)都不见了,怎么弄回来呢?

在安装开发版或者企业版的SQL Server 2014的时候,你可能已经注意到以前被我们熟知的Business Intelligence Development Studio (BIDS) 已经没有了。从SQL Server 2012开始,这套BI应用工具集已经变成了SQL Server Data Tools)(SSDT),在SQL Server 2014中,SSDT已经完全在SQL Server的安装过程里消失了。但是,要把Business Intelligence (BI)应用工具安装回来也是很容易的。

|