留学资讯 一手掌握

洋蜜蜂:通过哪些技巧可以提高数据湖的质量

时间: 2020-10-02 文章来源: 洋蜜蜂Online Tutor

本文将会由洋蜜蜂带你了解什么是数据湖,并且有哪些方法可以提高数据湖的质量,下面就让我们进入正题吧!


建立数据管道是创业公司数据科学的核心组成部分。为了构建数据产品,您需要能够从数百万个用户那里收集数据点并以接近实时的方式处理结果。如今,当今许多组织都在为数据质量而苦苦挣扎。数据质量(DQ)问题可能以多种方式出现。这是数据质量差的常见原因:


多个数据源:具有相同数据的多个源可能会产生重复;一致性问题。


计算资源有限:缺乏足够的计算资源和/或数字化可能会限制相关数据的可访问性;可访问性问题。


不断变化的数据需求:由于新的公司战略或新技术的引入,数据需求不断变化;相关性问题。

使用和更新相同数据的不同过程;一致性问题。


本文我们将研究 数据湖 的世界及其意义。此外,我们将探究 数据湖 中的一些固有问题,例如质量管理。最后,我们将讨论一些控制 数据湖 中数据质量的质量措施。


什么是 数据湖 ?

数据湖 是一个集中的地方,就像湖泊一样,它使您能够以其原始格式以任意规模保存许多原始数据,包括结构化和非结构化。此外,您可以按原样存储数据,而无需先构造数据或在需要之前定义数据。它的目的是创建报告 仪表板 和 可视化 ,实时分析和 机器学习 。而且,这可以指导更好的程序化广告决策。

数据湖 的极端形式是直接从数据源中以原始状态提取数据。无需任何清洗,标准化,重塑或转换即可完成此操作。这些和其他神圣不可侵犯的数据管理学科都是即时适用的。此外,它有助于启用即席查询,数据探索和面向发现的分析。尽早摄取数据意味着可以立即获得运营数据并将其提供给分析。此外,数据的原始状态可确保数据分析师,数据科学家和类似用户拥有充足的原材料。根据意外的分析问题,它们可以重新调整为许多不同的数据集的用途。


数据湖 的组成

Data Lake是一个平台,结合了许多高级,复杂的数据存储和数据分析技术。

为了简化,我们可以将 数据湖 的组件分为四个类别,代表数据管理的四个阶段:

数据摄取和存储,即实时或批量获取数据的能力,以及存储数据并使之可访问的能力。

数据处理 ,即处理原始数据的能力,以便可以通过标准流程对其进行分析。它还具有工程解决方案的功能,可以利用分析操作产生的自动化的定期过程,从数据中提取价值。

数据分析 ,即创建模块,以系统的方式从数据中提取见解;这可以实时发生,也可以通过定期运行的进程来发生。

数据集成,即将应用程序连接到平台的能力;首先,应用程序必须允许查询Data Lake以根据您要使用的格式以正确的格式提取数据


为什么使用Data Lakes

1.数据索引

数据湖 使您可以存储关系数据(以一组正式描述的表的形式组织的数据项的集合,可以用许多不同的方式从中访问或重组数据,而不必重新组织数据库表。)-运营数据库(收集的数据实时),业务线应用程序中的数据以及非关系数据(例如移动应用程序,连接的设备和社交媒体)。它们还使您能够通过对数据进行爬网,分类和索引来了解湖中的数据。

2.分析

数据湖 使数据科学家,数据开发人员和运营分析人员可以通过选择分析工具和框架来访问数据。这还包括Apache hadoop ,Presto和Apache spark 等开源数据框架,以及 数据仓库 和 商业智能 供应商的商业产品。 数据湖 可让您运行Analytics(分析),而无需将数据从一个系统移至另一个系统。

3. 机器学习 

数据湖 将使组织能够产生不同类型的营销和运营见解。它包括报告历史数据和进行 机器学习 ,其中模型可以产生预测和预测。

4.改善客户互动

Data Lake可以将CRM平台中的客户数据与社交媒体 数据分析 以及包括购买历史的营销平台相结合,以使企业能够了解最有利可图的受众,客户流失的根源以及可以进行哪些促销或奖励提高忠诚度。


数据湖 的挑战

数据湖 中的一个挑战是分析人员无法确定数据质量,因为尚未进行全面检查。而且,由于无法说明以前的分析师的研究结果,因此无法利用来自处理数据的其他人的见解。最后, 数据湖 的最大风险之一就是安全性和访问控制。可以在没有任何监督的情况下将数据放入湖泊中,并且某些数据可能包含其他数据所没有的隐私和法规要求。


提高 数据湖 质量的方法

1. 机器学习 和 NLP 的使用

机器学习 可以改变游戏规则,因为它可以捕获最了解数据的人的隐性知识,然后将这些知识转化为算法,从而可以用于大规模自动化 数据处理 。这正是Talend利用 spark 机器学习 从数据管家那里学习的过程,该过程是在数据样本的匹配和重复数据删除过程中进行的,然后将其大规模应用到数十亿条记录中。

2.制定敏捷数据质量标准

为了使公司能够充分利用其数字化转换项目并构建敏捷的 数据湖 ,他们需要从一开始就设计数据质量流程。组织应专注于标准化以下内容以维护 大数据 的质量

角色 -确定角色,包括数据管理员和数据用户

发现 -了解数据的来源,去向以及数据的形状。首先要集中精力清理最有价值和最常用的数据

标准化 -验证,清理和转换数据。尽早添加元数据,以便人和机器可以找到数据。通过数据屏蔽来识别和保护个人和私人组织数据。

对帐 -确认数据已正确迁移

自助服务 -通过让最了解数据的人清理数据来提高数据质量的敏捷性

自动化 -确定 机器学习 在数据质量过程中可以提供哪些帮助,例如重复数据删除

监控和管理 -不断获得用户反馈,提出数据质量衡量指标以改进

3.采用数据质量管理框架

另一类框架关注数据质量管理流程的成熟度。他们旨在评估DQ管理的成熟度,以了解成熟组织中的最佳实践并确定需要改进的地方。这种框架的流行示例包括全面数据质量管理(TDQM),能力成熟度模型集成(CMMI),信息和相关技术的控制目标(CobiT),信息技术基础结构库(ITIL)和6 Sigma。

例如,我们可以采用TDQM框架。TDQM周期包括四个步骤:定义,测量,分析和改进。定义步骤标识了相关的数据质量维度。可以在“度量”步骤中使用度量对它们进行量化。一些示例指标是地址不正确的客户记录的百分比(准确性),出生日期缺失的客户记录的百分比(完整性)或指定客户最近更新的指标。分析步骤尝试确定数据质量问题的根本原因。我们在改进步骤中解决了先前的问题。示例动作可以是自动和定期验证客户地址,添加使出生日期成为必填数据 字段 的约束以及在6个月内没有更新客户数据时生成警报。


概要

越来越多的公司正在试验 数据湖 ,希望在信息流中获得固有优势,而无论平台和业务情况如何,这些信息流都易于访问,并且其存储成本比传统仓库中的数据成本低。但是,与任何新技术的部署一样,公司将需要重新构想系统,流程和治理模型。此外,如果由于技术限制或战略重点,短期内无法提高实际数据质量,则有时它是部分解决方案,即使用有关其质量的明确信息来注释数据。这样的数据质量元数据可以与其他元数据一起存储在目录中。


海外留学学不会?洋蜜蜂在线来帮你。专业在线辅导:数学Mathematics、物理physics、化学chemistry、生物biological sciences、地球科学earth scaiences、计算机科学computer sciences、医学medicine、工程学Engineering、会计Accounting、统计学statistics、精算科学Actuarial Science等涵盖大学90%以上科目均有专业数据湖Tutor给您在线辅导。