avatar
文章
20
标签
0
分类
0

主页
博文
  • 分类
  • 标签
  • 归档
生活
  • 分享
  • 相册
  • 音乐
  • 影视
友链
留言板
关于笔者
kami's blog
主页
博文
  • 分类
  • 标签
  • 归档
生活
  • 分享
  • 相册
  • 音乐
  • 影视
友链
留言板
关于笔者

kami's blog

数据治理 - 05 - 数据质量治理
发表于2023-07-10
1、概念 维基百科:“数据质量管理是对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。数据质量管理的终极目标是通过可靠的数据提升数据在使用中的价值,并最终为企业赢得经济效益。 个人理解:“数据质量管理不单纯是一个概念,也不单纯是一项技术、也不单纯是一个系统,更不单纯是一套管理流程,数据质量管理是一个集方法论、技术、业务和管理为一体的解决方案。通过有效的数据质量控制手段,进行数据的管理和控制,消除数据质量问题进而提升企业数据变现的能力。在数据治理过程中,一切业务、技术和管理活动都围绕这个目标和开展”。 2.数据质量问题盘点 • 真实性:数据必须真实准确的反映客观的实体存在或真实的业务,真实可靠的原始统计数据是企业统计工作的灵魂,是一切管理工作的基础,是经营者进行正确经营决策必不可少的第一手资料。 • 准确性:准确性也叫可靠性,是用于分析和识别哪些是不准确的或无效的数据,不可靠的数据可能会导致严重的问题,会造成有缺陷的方法和糟糕的决策。 • ...
数据治理 - 实战 - 小文件治理
发表于2023-07-06
概述随着大数据时代的到来,数据量不断增长,HDFS也成为了数据存储和处理的重要组成部分。然而,由于HDFS的设计原理和文件存储方式,HDFS系统中存在大量的小文件,这些小文件会导致HDFS的性能下降,增加管理和维护的难度,严重影响数据处理效率和数据质量。因此,HDFS小文件的治理变得越来越重要。 1、HDFS小文件的问题影响HDFS小文件通常指文件大小小于HDFS块(Block)大小(默认为128MB)的文件。在HDFS系统中,小文件会带来以下问题: 存储空间占用过多:在Hadoop生态系统中,每个小文件都将占用一定的存储空间,而且每个小文件也需要一个块来存储。如果存在大量的小文件,将浪费大量的存储空间。 处理延迟:小文件数量过多,会引起大量IO操作,导致处理延迟。 查询性能下降:小文件用于分区和表划分,可能导致查询延迟并降低查询性能。此外,小文件还会增加元数据的数量,使得Hive在查询元数据时变得更加缓慢。 增加管理和维护难度:当HDFS系统中存在大量的小文件时,管理和维护变得更加困难,需要耗费更多的精力和时间来维护系统。 数据倾斜:如果数据分布不均匀,会导致一些Reduce任务处 ...
数据治理 - 04 - 数据标准管理
发表于2023-07-05
概念数据标准是一套由管理制度、管控流程、技术工具共同组成的体系,是通过这套体系的推广,应用统一的数据定义、数据分类、记录格式和转换、编码等实现数据的标准化。 数据标准管理 数据模型标准,即元数据的标准化。 主数据和参照数据标准。 指标数据标准。 数据标准梳理企业数据标准项目的实施,要根据业界经验和企业实际情况确定实施范围,并根据优先级和难易度制定计划。需要从企业业务域、业务活动、对象实体、实体关系等方面层层递进,逐步展开。 首先,对企业业务域进行定义,并对每个业务域中的业务活动进行梳理,同时需要收集各类业务单据、用户视图,以及每个单据和用户视图的数据对象。 其次,针对数据对象的进行分析,明确每个数据实体所包含的数据项,同时,梳理并确定出该业务域中所涉及的数据指标和指标项。分析并定义每个数据实体或指标的数据项标准,包括:数据项的名称、编码、类型、长度、业务含义、数据来源、质量规则、安全级别、域值范围、管理部门等。 第三,梳理和明确所有数据实体、数据指标的关联关系,并对数据之间的关系进行标准化定义。 第四,通过以上梳理、分析和定义,确定出主数据标准管理的范围。 数据标准梳理和建设的方 ...
大数据 - 数据治理 - 03 - 主数据管理
发表于2023-07-03
我们知道主数据项目的建设是一个循序渐进、持续优化的过程,不可一蹴而就。个人理解主数据管理项目从咨询规划到落地实施再到初步见效需要经历四个阶段,简单归结为12个字:“摸家底、建体系、接数据、抓运营” 1.摸家底摸家底需要全面调研和了解企业的数据管理现状,以便做出客观切实的数据管理评估。 1.1 数据资源普查数据资源普查的方法常用的有两种,一种是自顶向下的梳理和调研,另一种是自底向上的梳理和调研。 1.2 主数据识别主数据的识别一般分为四个步骤 第一步,确定主数据识别指标。 第二步,基于主数据识别指标,构建评分体系,确定指标权重。 第三步,根据业务调研和数据普查结果,确定主数据参评范围。 第四步,依据评分标准,识别出企业主数据。 1.2.1 主数据识别指标,主要从主数据的特征考量 业务价值:主数据具备充足的业务价值。主数据描述企业最核心的数据,是企业最有价值的数据资产。 数据共享性:主数据一般是不同业务部门之间、不同业务系统之间高度共享的数据。 实体独立性:主数据是不可拆分的数据实体,如产品、客户,是所有业务行为和交易的基础。 识别唯一性:在组织范围内同一主数据要求具有唯一的识别标志 ...
Nacos - 整合 Spring cloud 服务发现和配置中心
发表于2023-07-01
服务发现配置在maven 配置文件中添加 nacos-discover 依赖 服务发现 依赖 <dependency> <groupId>com.alibaba.cloud</groupId> <artifactId>spring-cloud-alibaba-dependencies</artifactId> <version>2.1.0.RELEASE</version> <type>pom</type> <scope>import</scope> </dependency><dependency> <groupId>com.alibaba.cloud</groupId> <artifactId>spring-cloud-starter-alibaba-nacos-discovery</artifactId> ...
大数据 - 数据治理 - 02 - 元数据治理
发表于2023-06-30
一、认识元数据元数据(Metadata)是对数据的结构化描述,使得数据更容易理解,查找、管理和使用。简言之就是描述数据的数据。 二、元数据的分类根据数据的性质特点,业内一般将元数据划分为三类: 业务元数据 技术元数据 管理元数据。 业务元数据是描述数据的业务含义、业务规则等。通过明确业务元数据让人们更容易理解和使用业务元数据,元数据消除了数据二义性,让人们对数据有一致的认证,避免“各说自话”,进而为数据分析和应用提供支撑。 常见的业务元数据包括: 业务定义 业务术语 业务规则 业务指标等 技术元数据是对数据的结构化,方便计算机或数据库之间对数据进行识别、存储、传输和交换。技术元数据可以服务于开发人员,让开发人员对数据的存储、结构更明确,从而为应用的开发和系统的集成奠定基础。技术元数据也可服务于业务人员,通过元数据理清数据关系,让业务人员能够更快速的找到想要的数据,进而对数据的来源去向进行分析,支持数据血缘追溯和影响分析。 常见的技术元数据包括: 存储位置 数据模型 数据库表 字段长度 字段类型 ETL脚本 SQL脚本 接口程序 数据关系等 管理元数据描述了数据的管理属性,包 ...
浅尝 idea spring boot + EasyCode
发表于2023-06-28
EasyCode(代码神器)Easycode是IDEA的一个插件,可以直接对数据的表生成 entity,controller,service,dao,mapper,无需任何编码,简单而强大。 1、安装(EasyCode) 我这里的话是已经那装好了。 2、建立数据库表DROP TABLE IF EXISTS `mall_user`;CREATE TABLE `mall_user` ( `id` int(11) NOT NULL AUTO_INCREMENT, `username` varchar(255) COLLATE utf8mb4_bin DEFAULT NULL, `sex` varchar(255) COLLATE utf8mb4_bin DEFAULT NULL, `birthday` date DEFAULT NULL, `addr` varchar(255) COLLATE utf8mb4_bin DEFAULT NULL, `password` varchar(255) COLLATE utf8mb4_bin DEFAULT NULL, PRIMARY K ...
大数据 - 数据治理 - 01 - 概述
发表于2023-06-26
数据治理 - 01 - 概述1. 什么是数据治理?维基百科:数据治理对于确保数据的准确、适度分享和保护是至关重要的。有效的数据治理计划会通过改进决策、缩减成本、降低风险和提高安全合规等方式,将价值回馈于业务,并最终体现为增加收入和利润。 个人理解: 所有为提高数据质量而展开的业务、技术和管理活动都属于数据治理范畴 。数据治理的目的就是通过有效的数据资源控制手段,进行数据的控制,以提升数据质量进而提升数据变现的能力。 2. 为什么需要数据治理?企业信息化大致经历了初期的烟囱式系统建设、中期的集成式系统建设和后期的数据管理与智能应用三大的阶段,可以说是一个先建设后治理的过程。 ![[图片/Pasted image 20230626120731.png]] 数据质量层次不齐数据交换和共享困难缺乏有效的管理机制存在数据安全隐患 3. DMBOK的数据治理框架DMBOK是由数据管理协会(DAMA)编撰的关于数据管理的专业书籍,一本DAMA 数据管理辞典。对于企业数据治理体系的建设有一定的指导性。注:DAMA 是数据管理协会的简称,是一个全球性数据管理和业务专业志愿人士组成的非营利协会, ...
《大数据之路:阿里巴巴大数据实践》第四篇 数据管理篇-读书笔记
发表于2023-06-25
四、数据应用篇16.数据应用​ 本篇主要介绍两个应用:提供给外部商家使用的数据产品平台-生意参谋和服务于阿里巴巴内部的数据产品平台 16.1 生意参谋​ 作为大数据公司,阿里巴巴在推动业务数据化的同时,也在不断地帮助商家实现数据业务化。在对外产品方面,阿里巴巴以“生意参谋”作为官方统一的数据产品平台,为商家提供多种多样化,普惠性的数据赋能; 截止2016财年,生意参谋累计服务商家已超过2000万,越服务商家超过500万。在月成交额30W元以上的商家中,逾90%每月登陆天次超20次; 16.1.1 背景概述​ 生意参谋生于2011年,最早是应用于阿里B2B市场的数据工具,2013年进入淘系; 当时阿里淘系数据产品多达38个,不同产品的统计方式不同,相同指标在不同产品中数据也有所差异,这给商家带来不少困扰; 为了保证用户体验,从2014年起,依托阿里内部的OneData体系建设的、在数据一致性方面更有优势的生意参谋陆续整合量子恒道、数据魔方等其他数据产品,并在2015年底升级为官方统一的商家数据产品平台。由此,商家只要通过生意参谋一个平台,就能体验统一、稳定、准确的官方数 ...
《大数据之路:阿里巴巴大数据实践》第三篇 数据管理篇-读书笔记
发表于2023-06-15
三、数据管理篇12.元数据12.1 元数据概念12.1.1 元数据定义按照传统的定义,元数据(Metadata)是关于数据的数据。元数据打通了源数据、数据仓库、数据应用,记录了数据从产生到消费的全过程。元数据主要记录数据仓库中的模型的定义、各层级间的映射关系、监控数据仓库的数据状态一级ETL的任务运行状态。在数据仓库系统中,元数据可以帮助数据仓库管理员和开发人员非常方便的找到他们所关心的数据,用于指导其进行数据管理和开发工作,提高工作效率。 元数据可以分为技术元数据 和 业务元数据。 技术元数据(Technical Metadata):技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库是使用的数据。阿里巴巴常见的技术元数据有: 分布式计算系统存储元数据,如MaxCompute上所有作业运行等信息;类似Hive的Job日志,你包括作业类型、实例名称、输入输出、SQL、运行参数、执行时间、最细粒度的FuXi Instance执行信息等; 数据开发平台中数据同步,计算任务、任务调度等信息,包括数据同步的输入输出表和字段,以及同步任务本身的节点信息;计算任务主要有输入输出 ...
12
avatar
kami
做时间的朋友
文章
20
标签
0
分类
0
Follow Me
最新文章
数据治理 - 05 - 数据质量治理2023-07-10
数据治理 - 实战 - 小文件治理2023-07-06
数据治理 - 04 - 数据标准管理2023-07-05
大数据 - 数据治理 - 03 - 主数据管理2023-07-03
Nacos - 整合 Spring cloud 服务发现和配置中心2023-07-01
归档
  • 七月 20235
  • 六月 20238
  • 四月 20231
  • 七月 20181
  • 三月 20183
  • 十二月 20172
网站资讯
文章数目 :
20
本站访客数 :
本站总访问量 :
最后更新时间 :
©2020 - 2023 By kami
框架 Hexo|主题 Butterfly