概述
数据湖是一种以原生格式存储各种大型原始数据集的数据存储库。您可以通过数据湖宏观了解自己的数据。在一些需要为数据设置大型整体存储库的企业中,数据湖正在成为一种更通用的数据管理策略。
原始数据是指尙未针对特定目的处理过的数据。数据湖中的数据只有在查询后才会进行定义。数据科学家可在需要时用比较先进的分析工具或预测建模法访问原始数据。
数据湖可为您保留所有数据,在您存储前,任何数据都不会被删除或过滤。有些数据可能很快就会用于分析,有些则可能永远都派不上用场。 有些数据也可能为了不同用途而多次使用,同时也有数据会为了特定目的不断优化,这就让我们难以用不同的方式重复使用数据。
未过滤的非结构化数据
“数据湖”(data lake)一词是由 Pentaho 的首席技术官 James Dixon 提出的。之所以将其称为湖,是因为这种数据存储库可以在自然状态下存储大量数据,就像一片未经过滤或包装的水体。数据从多种来源流入湖中,然后以原始格式存储。
只有在需要用来分析时,数据湖中的数据才会进行转换,因而分析数据时需要用到数据库模式(Schema)。这叫作“读时模式”,因为数据会一直处于原始状态,直到读取使用。
临时访问数据
通过数据湖,用户能够以自己的方式访问和探索数据,无需将数据移入其他系统。不同于定期从其他平台或数据存储库提取分析报告,数据湖的分析和报告通常可以临时获取。但是,用户可在必要时通过模式和自动化复制报告。
您需要监管和持续维护数据湖,才能确保数据时刻可用和可访问。如果维护不当,您的数据就可能会沦为一堆垃圾,无法访问、难以操作、价格高昂而且毫无用处。用户无法访问的数据湖,就成了“数据沼泽”。
数据湖的优势
构建数据湖,以原生格式存储各种各样的大量原始数据集,可为企业和机构带来诸多优势。
- 具有 可扩展性。数据湖可以大规模处理大量数据,包括结构化、半结构化和非结构化的数据。数据湖在存储数据时不需要预定义的模式,因此可以接入不同的数据类型。由此可以提高计算性能。最新的数据湖解决方案将利用分布式计算框架,因此能够高效地处理大型数据集。
- 数据湖是一种适合存储大量数据的 经济高效的解决方案,因为数据湖通常使用低成本的存储解决方案,例如基于云的对象存储。数据湖采用中央数据存储结构,因此降低了跨不同系统维护相同数据的不同副本的需求。
- 相较于传统数据仓库,数据湖的“读时模式”提供了更大的 灵活性。通过以原生格式存储数据,数据湖在整合和分析不同数据集时拥有更大的 敏捷性。
- 与传统的数据仓库相比,数据湖提供的 中央存储库让企业对数据进行全方位洞察。这种数据合并可改善对数据的访问,消除数据分享和协作的障碍。
- 借助数据湖的中央存储库中,数据治理变得更加简单。通过元数据管理、数据沿袭、访问控制等数据治理功能,可确保良好的数据质量、保持一致性并符合相关规定。
- 上述所有优势都会有助于 开展创新。数据湖可以作为沙盒环境,供数据科学家探索和试验数据,而不影响生产系统。数据湖中的数据接入更快,数据分析灵活,可加速获得见解,从而提高敏捷性,加快对市场变化的响应。
红帽资源
数据湖用例
数据湖的常见用例包括:
1. 高级分析和机器学习:数据湖能够以原生格式存储大量数据,因此是执行高级分析和机器学习的必要资源。数据湖可以收集和整合不同的数据源,例如客户互动数据、销售数据和社交媒体活动数据。这使得数据科学家能够开发预测模型和成熟的 AI 应用,获得更好的商业见解,做出更明智的决策。
2. 实时数据处理:数据湖支持实时数据接入和处理,因此是需要即时见解的应用的理想选择,例如金融交易、欺诈检测和运维监控。数据湖可以实时监控交易数据,从而即时识别和阻止欺诈活动。在制造工厂,来自机器的实时数据可用于检测异常和执行预防性维护,从而减少停机时间并提高效率。
3. 数据合并和整合:数据湖可以将多个来源的数据整合到统一的存储库中,从而消除数据筒仓形成的壁垒。这对于全方位了解客户非常有用。零售公司可能会合并有关购买记录、网站互动和社交媒体的数据,从而更好地了解客户行为,提供个性化的营销活动。
4. 监管合规性和数据治理:数据湖提供安全的可扩展解决方案,可存储大量数据,因此可确保遵守 GDPR、HIPAA 和 CCPA 等法规。这种实时的合规性对于医疗和金融等行业至关重要,因为这类行业必须严格遵守数据存储和安全保护等方面的监管要求。
5. 边缘设备数据管理: 边缘设备会产生大量数据,而数据湖能够存储和处理这种体量和复杂性的数据。在边缘,数据可能包含传感器读数、智能电表数据和联网设备日志。数据湖的这种能力可支持智慧城市管理、工业自动化和预测性维护等用例。
数据湖提供了敏捷性和适应能力,可解决数据存储和处理的许多最新用例。
数据湖与数据仓库
虽然人们经常把数据湖与数据仓库混淆,但其实它们并不相同,作用也各不一样。它们都是用于大数据的数据存储库,但二者的相似之处仅限于此。很多企业都利用数据仓库和数据湖来满足他们的特定需求,实现他们的目标。
数据仓库可提供可报告的结构化数据模型。这是数据湖与数据仓库的最大区别。数据湖存储的是非结构化的原始数据,并未定义具体用途。
数据在存入数据仓库前,需要进行处理,决定哪些数据将会或不会存入数据仓库,这被称为“写时模式”。
在存入数据仓库前,数据的重新定义过程既耗时又艰难,有时需要花费数月甚至数年时间,导致您无法及时收集数据。利用数据湖,您就可以即时开始收集数据,并确定其将来的用途。
鉴于其结构特点,商业分析员和提前知道自己需要用哪些数据完成定期报告的商业用户通常会使用数据仓库。而数据湖则多用于数据科学家和分析师,因为他们需要用数据进行研究,并且在使用前,数据需要经过更加高级的过滤和分析。
数据湖和数据仓库使用的存储硬件通常也不相同。数据仓库的存储硬件较为昂贵,而数据湖的存储硬件会便宜些(虽然体积较大),因为它们通常使用的是商用硬件。
云中的数据湖
云解决方案提供了良好的可扩展性和成本效益,企业和机构可根据自身的业务增加情况,按需使用和付费。基于云存储的数据湖 可无限扩展,不依赖于企业和机构现有的硬件。除此之外,云解决方案还提供 性能解决方案,能够根据需求进行扩展或收缩。数据湖的云解决方案提供灵活的基础架构,因此可能比本地硬件具有更高的经济效益。
云数据湖相比其他解决方案 更容易访问数据,可以从全球任意地点访问,为分散在各地的团队提供便利。此外,由于云服务之间能够相互集成,因此数据湖可以更轻松地完成更高质量的数据 整合。
云计算领域的大型知名公司全都提供数据湖服务。Amazon S3 是 AWS 上的数据湖的基础。Microsoft Azure 提供 Azure Data Lake Storage。Google Cloud Storage 提供可扩展的安全对象存储,可用作 Google Cloud Platform 上的数据湖的基础。IBM Cloud Object Storage 非常适合构建数据湖,具有高耐用性、安全性和数据可用性,同时也非常适合集成 IBM 的分析和 AI 服务来提供全面的数据解决方案。
数据湖架构
数据湖采用扁平化架构,因为这些数据既可能是非结构化,也可能是半结构化或结构化,而且是从企业内的各种来源所收集,而数据仓库则是把数据存储在文件或文件夹中。数据湖可托管于本地或云端。
鉴于其架构特点,数据湖可大规模扩展,能达到艾字节。这一点很重要,因为创建数据湖时,您通常并不知道需要保存的数据量。传统数据存储系统就无法以这种方式扩展。
这种架构可以大大方便了数据科学家,因为他们可以通过这种架构挖掘和探索企业的数据,并共享和相互参照数据(包括不同领域的异构数据),以便进行提问并找到新的分析。他们还可以利用大数据分析和机器学习分析数据湖中的数据。
虽然数据在存入数据湖之前没有固定的模式,但利用数据监管,你仍然可以有效避免出现数据沼泽。数据在存入数据湖时应被标记为元数据,以确保随后可以存取。
改进 AI/ML 应用管理
借助这一系列的网络培训课堂,获取有关如何简化人工智能/机器学习(AI/ML)应用部署和生命周期管理的专家见解, 从而更快地构建、协作和共享 ML 模型与 AI 应用。
为什么选择红帽数据服务?
借助红帽的开放软件定义存储解决方案,您可以提高工作效率、加快扩展速度,并确保实现数据(从重要的财务单据,到各种富媒体文件)的安全存储。
凭借经济高效的可扩展软件定义存储,您可以轻松分析巨型数据湖,从而获取更好的商业洞见。红帽的软件定义存储解决方案全部基于开源技术,汇聚了开发人员、 合作伙伴和客户社区的创新成果。它让您能根据自己特有的工作负载、环境和需求,精确地控制存储的格式和使用方式。
红帽官方博客
获取有关我们的客户、合作伙伴和社区生态系统的最新信息。