开发者社区 问答 正文

Enterprise Data Classification and Provenance

在Hadhoop summit 2016上,Apache Atlas, Shwetha Shivalingamurthy Suma Shivaprasad分享了题为《Enterprise Data Classification and Provenance》,就大数据应用,Atlas概述功能和未来发展等方面的内容做了深入的分析。

https://yq.aliyun.com/download/1961?spm=a2c4e.11154804.0.0.6cf36a79fNthk9

展开
收起
福利达人 2018-07-28 23:25:14 884 分享 版权
阿里云 AI 助理回答

在Hadoop Summit 2016上,Apache Atlas的演讲《Enterprise Data Classification and Provenance》由Shwetha Shivalingamurthy和Suma Shivaprasad呈现,该演讲深入探讨了大数据应用背景下,Apache Atlas的核心功能及其未来发展方向。虽然直接的相关内容未在提供的知识库中体现,但我们可以根据Apache Atlas的一般知识来构建一个概要性的回答。

概述

Apache Atlas 是一个开源的数据治理和元数据管理平台,设计用于帮助企业更好地理解、管理和保护其Hadoop生态系统中的数据资产。它通过提供数据分类、数据血统(provenance)以及元数据标签等功能,增强了企业对大数据的可见性和控制力,是大数据治理的关键组件。

核心功能与特点

  • 数据分类:允许用户根据业务含义、敏感度或合规要求给数据打标签,支持自动化和手动分类。
  • 数据血统:追踪数据从源到目的的全生命周期,帮助用户理解数据如何被创建、转换和使用。
  • 元数据管理:集中存储和管理跨Hadoop生态系统所有组件的元数据,促进数据发现和理解。
  • 审核与合规:记录数据访问和变更历史,支持审计需求和合规性检查。
  • 集成与扩展性:易于与其他Hadoop组件(如Hive, HBase等)及第三方系统集成,具备高度可扩展架构。

应用场景

  • 在金融、医疗等行业,确保敏感数据的合规使用,通过数据分类加强数据安全管控。
  • 大型企业的数据湖项目,帮助管理和组织海量元数据,加速数据搜索和分析过程。
  • 数据质量与一致性管理,利用数据血统功能定位问题源头,优化数据处理流程。

技术架构与实现

Atlas基于Hadoop Stack构建,利用Apache Kafka进行事件流处理,HBase存储元数据,Solr实现高效查询,并通过RESTful API暴露服务。它支持与Apache Ranger等权限管理系统集成,以实施细粒度的数据访问控制。

注意事项与最佳实践

  • 策略驱动的管理:结合Apache Ranger等工具,实施基于元数据标签的安全策略。
  • 持续监控与更新:定期审查数据分类和政策,确保符合最新的业务需求和法规要求。
  • 元数据质量:维护高质量的元数据对于发挥Atlas的全部潜力至关重要,需建立相应的维护机制。

由于具体演讲内容未直接提供,以上信息基于Apache Atlas通用介绍整理而成,旨在概述其在大数据治理领域的角色和能力。对于更详细的功能演示、未来发展计划等内容,建议直接查阅会议视频或官方发布资料。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答