返回首页

数据仓库十大主题模型?

155 2024-03-18 11:21 admin

一、数据仓库十大主题模型?

数据仓库十大的主题模型如下

高层模型:考虑所有上层主题,主题之间的关系

中层模型:细化 上层主题 数据项

物理模型:基于性能,存储,平台特点,数据合并,分区设计

维度建模(Ralph Kimball 拉尔夫·金博尔)提出 (当前最主流的模型)

星型:所有维表直接连接到事实表

雪花型: 当有一个或多个维表没有直接连接到事实表上,而是通过其他维表连接到事实表上

二、crm中数据仓库逻辑结构是什么?

  企业CRM数据仓库逻辑上设计分为如下的层次:文件存储区、临时存储区、数据清洗区、基础数据区、星型数据区、数据中心。

文件存储区:

  文件存储区主要存放原销售系统等多个源系统通过FTP上传的数据文件。各系统每天按时传送相关数据,作为CRM数据仓库的数据来源。

临时存储区:

  临时存储区主要存储各数据文件导人的临时数据。每个数据文件在临时存储区对应一个结构相同的数据结构

数据清洗区:

  根据需要,对临时存储区的数据进行清洗,并存放到数据清洗区。

基础数据区:

  存放统一格式的各系统基础数据。

星型数据区:

  为了实现CRM的目的,对客户信息进行多角度多层次的分析,需要在CRM中引入维、事实、层次等概念。

三、概念模型逻辑模型物理模型的联系?

概念模型、逻辑模型和物理模型都是在软件开发中使用的不同层次的模型,它们之间存在联系和依赖关系。概念模型是系统的高层次抽象表示,逻辑模型是具体的系统实现方式,而物理模型是最终系统的具体实现形式。三者之间的联系是逐层递进的,概念模型指导逻辑模型的设计,逻辑模型是物理模型的实现基础,物理模型则反过来验证和修正逻辑模型和概念模型。

因此,三者之间需要保持一致性和连贯性,以确保软件系统的正确性和稳定性。

四、数据仓库的数据模型是什么?

数据仓库接典型的两种数据仓库建模的理论是维度建模和基于主题域的实体关系建模,这两种方式分别以Kimball和Immon两位大师为代表。维度建模以数据分析需求为驱动,倡导总线架构:一致的事实和一致的维度,这种数据模型易于用户理解和数据分析操作。基于主题域的实体关系建模以源系统数据为驱动,整合企业的所有数据,站在企业级的高度对数据进行抽象,整合,采用3NF的实体关系理论建模,这种数据建模方式以更为抽象的方式尝试建立一个相对稳定的数据模型,并能描述企业级的数据关系。在工业界往往把两种方式结合起来运用数据仓库的不同数据层次结构中。

我们上周主要是针对采用基于主题域的实体关系建模中数据整合的方式进行较为深入的讨论,讨论了以下三种思路:

以属性聚集的方式同一主题域中不同实体的属性。比如对于会员、公司、客户等等实体对象我们都有地址属性信息、名称标识属性信息等等,这种思路就是把属性内聚性高的字段整合在一起,并把不同的属性打上类型标识以树表的形式存放。它的优点是:第一,模型稳定性好,外围系统变化了字段,只需要添加不同的类型,不需要进行表结构的变更;第二,减少大量冗余记历史数据。它的缺点是:第一,丢失了很多实体的属性标识信息,我们从模型上将看不到一个会员究竟有哪些地址属性,只能通过查询类型代码才能获取这些信息;第二,它极度的膨胀数据表的记录数,因为它采用竖表的形式存放;第三,应用起来很难,效率是一个大问题,因为我们往往要使用一个实体的多个字段,就会有很多join操作和竖转横的操作。第四:属性聚集也是一件比较难操作的过程,应为这是一个抽象的过程,对建模人员的业务背景知识和抽象能力都提出了很高的要求;第五:虽然减少了冗余的记历史数据,但是记历史的操作也较为复杂。

采用面向对象建模的方式,抽象不同实体的共同属性,然后再一步步采用继承、组合等面向对象的思想具体化实体。他的优点是模型模型概念比较清晰,缺点也是模型相对不是很稳定,整合后的数据的后续应该也面临重新组合的问题。

贴源的建模方式:

采用基本保持源系统的方式进行建模,重点放在数据的标准化,一致化,和数据业务意义的梳理。这种做法和我们目前数据仓库的做法比较类似。它具有实施比较容易,快速实现,前台可以直接使用数据;缺点是整合度不高,模型不稳定。

模型终究是为数据分析应用服务的,具体采用什么方式建模需要根据实际业务特点和源系统的特点决定。的源系统具有变化快,数据分析应该变化快的特点,也要快的特点,而且我们要求不同系统之间整合的需求并不是很大,往往深度的数据整合带来的是应用上的不方便。因此,我个人觉得采用贴源的方式是当前更优的方案。

五、数据仓库与数据模型的区别?

数据模型是负责读取数据,数据仓库负责存储数据,功能不同

六、概念模型,逻辑模型和物理模型的区别?

概念模型、逻辑模型和物理模型是信息系统建模中常用的三种模型,它们之间的区别如下:

1. 概念模型(Conceptual Model):概念模型是对现实世界中一种问题或情境进行抽象、概括和归纳,从而得出一些基本的概念、关系和规则。它通常用于需求分析的初期,旨在把业务规则、实体、关系等要素表达清楚,以便更好地理解业务过程。概念模型通常是一个高层次的、与技术无关的图形化表示方法,如实体-关系(ER)图。

2. 逻辑模型(Logical Model):逻辑模型是根据概念模型而进行进一步细化和明确的、与技术相关的表示方式。逻辑模型在概括和归纳现实世界时,考虑了具体实现技术。它通常用于分析和设计阶段,并形成了数据库设计方案。逻辑模型包括数据流图、数据结构图等。

3. 物理模型(Physical Model):物理模型是指将逻辑模型转化为实际存储在计算机上的结构化数据,即为特定DBMS所支持的具体表结构的设计,是最终的数据库实现。物理模型关注于数据存储和访问方面,包括数据类型、索引、键等实现细节。物理模型通常是一个数据库的具体编码规范,如SQL文件。

总之,概念模型、逻辑模型和物理模型都是在信息系统建模中非常重要的概念,每个阶段都有其专门的目标和关注点,并且它们之间的转换是逐步精细化和技术化的过程。这些模型可以帮助开发者更好地理解业务需求和技术实现,从而有效地设计并构建出高质量、可靠性强的系统。

七、逻辑模型三范式原则?

界面设计、编程控制、数据库设计

八、什么是高层逻辑模型?

高层逻辑模型,是指数据的逻辑结构。逻辑建模是数据仓库实施中的重要一环,因为它能直接反映出业务部门的需求,同时对系统的物理实施有着重要的指导作用,它的作用在于可以通过实体和关系勾勒出企业的数据蓝图。

主要用以表达客观事物内部各有关环节间的逻辑关系特征的一种模型。

如计划进度表反映了各项工作之间前后互相关联在时间上的逻辑关系。

又如一个系统各组成部分之间的关系疏密、隶属特征的树状框图,这表达了空间上的逻辑关系。

九、什么是文字逻辑模型?

逻辑数据模型 (LogicDataModel,LDM)是一种图形化的展现方式,一般采用面向对象的设计方法,有效组织来源多样的各种业务数据,使用统一的逻辑语言描述业务。

十、逻辑回归模型建模步骤?

1,构建所需的数据集,根据实验的窗口,构建逻辑回归数据结构,例如 用过去12个月数据 做购买率的模型训练,这部分包含训练数据集与测试数据集,

2.变量的转化与预处理。

其中去掉缺失值较多的变量,购买率分布较集中的变量,即购买概率的变化不随自变量变化而变化的变量,即数值集中程度较高的变量。与Y不相关的变量。

3.变量的删选(特征工程)(caret包)

将高维即数量太庞大的自变量群,降维致较少的变量组合,(例如降至80以下 或者20左右),这部分步骤主要来降维的同时,期望消去变量之间的共线性,相关性等因素

4.模型的构建(glm 包/step() )

根据实际商业的目的,挑选第三步后剩下的变量,并调参,找到是整个系统平滑稳定的变量组合,例如10个变量,其中每个变量权重期望分布均匀,且满足模型其他各项基本指标,如C值 AUC等。

5.模型的评估 与描述

将构建完成的模型,将所有客户的购买率给出,并从高到低排序,总人群均分为10类 。输出模型结果 其中理想效果是 :购买率高的客户群为总体平均购买率人群的两倍既两倍以上,即高的购买率是总体平均购买率的两倍。

顶一下
(0)
0%
踩一下
(0)
0%
相关评论
我要评论
点击我更换图片