非结构化数据处理,为什么是Dataphin?

简介: Dataphin V6.1重磅推出非结构化数据处理能力,支持文档、音视频、图片等多模态数据的一站式资产化治理:提供7类50+开箱即用算子、可视化DAG编排、文件+元数据混合管理、细粒度权限与动态脱敏,实现与结构化数据统一治理、血缘追踪和版本管控。

背景

在企业数字化转型与AI应用落地的进程中,企业内部 80% 以上的数据都以非结构化形态存在——合同、客服录音、会议录音、培训视频、产品文档等。这类数据天然具备以下挑战:

  1. 资产化缺失
  1. 这类数据通常数量庞大,且散落在企业的各个角落,包括个人电脑、文件服务器、NAS存储、云盘、邮件系统以及各类业务应用的附件中,企业无法以全局视角统一查看和管理这些数据资产;
  2. 缺乏结构化的元数据信息对非结构化数据进行描述,无法快速定位有价值的信息。
  1. 较高的技术壁垒:
  1. 非结构化数据格式极其复杂多样,不同格式的文件均需专门的解析库与预处理工具,对开发人员的技术能力要求高;
  2. 从原始文件到可被 RAG/Agent 消费的向量,需要经历解析、清洗、切片、向量化等十余个环节,自研脚本难以维护。
  1. 治理标准缺位
  1. 敏感信息常隐藏于文档正文、图片或音视频中,在AI介入之前,这些文件可能无人问津。但是AI介入后,这些文件的权限管控就是重中之重,基于文件夹的粗粒度权限控制无法实现内容级的细粒度访问控制与动态脱敏;
  2. 传统依赖字段名的分类分级规则无法识别语义隐含与同义异构现象,导致敏感数据定级不准;同时,海量文件散落在各类系统中,缺乏自动化的内容提取与智能打标能力,难以建立统一的数据目录与血缘追踪,形成大量无法盘点的数据。

高质量的非结构化数据是AI理解真实世界复杂语境、构建企业专属知识壁垒并实现从通用智能向垂直领域精准决策进化的核心燃料。基于此,Dataphin在V6.1.0版本中,重磅推出“非结构化数据处理”的功能。

为什么是Dataphin?

面对以上挑战,我们怎么应对?

  • 提供丰富的多模态算子
  • 内置通用、文本、文档、图片、音频、视频、向量化在内的7种算子,满足不同模态的非结构化数据处理需求,开箱即用;
  • 可视化 DAG 编排
  • 拖拉拽即可完成复杂处理工作流的搭建,自动解析数据集间的血缘关系;
  • 除了支持离线的数据处理任务,在未来也将支持常驻的非结构化任务,做到数据更新实时响应;
  • 结构化与非结构化融合,统一资产底座
  • 将非结构化数据集与结构化表资产纳入同一平台进行治理,构建“结构化 + 非结构化”一体的企业级数据资产底座,同时提供数据血缘,清晰展示数据从原始状态到最终的全演变过程。
  • 打通结构化表(如客户ID)与非结构化数据(如客服录音)的语义关联,支持联合加工、联合检索、联合建模;
  • 企业级治理能力
  • 一键复用 Dataphin 已有的多版本管理、提交发布、Dev-Prod隔离、智能运维等成熟能力;
  • 在未来,我们也将引入更细粒度的知识库管理和治理能力,满足AI时代的知识库治理诉求。

功能介绍

Dataphin 将非结构化数据处理具象化为两个核心概念:数据集(Dataset)工作流(Workflow),分别对应"数据资产形态"与"加工编排能力"。

数据集

数据集是 Dataphin 中一种全新的非结构化数据资产形态,按内部组成分为三种类型:

数据集类型

是否包含文件存储

是否包含元数据表

说明

混合数据集

同时包含文件存储和元数据表的数据集为混合数据集,其中:

  • 文件存储用于表明非结构化数据存在哪里;
  • 元数据表用于描述当前数据集,例如:这个数据集中有哪些对象,对象的存储URL是什么,等等;

文件数据集

仅指明文件存储的数据集,通常是最初始的数据集

表数据集

仅存放纯文本/结构化描述信息的数据集(例如纯文本知识库)

关键概念解释:

  • 文件存储:指数据集中非结构化数据的实际物理存储位置,例如 oss://my-bucket/contracts/
  • 元数据表:指对数据集进行结构化描述的表。例如一个合同数据集中有哪些文件、每个文件的 URL、解析后的文本、识别出的甲方乙方等信息,都通过元数据表的字段进行记录。
    功能特性:
  • 三种数据集类型:文件数据集、表数据集、混合数据集,覆盖纯文件、纯元数据表、文件+元数据表三种典型场景;
  • 文件存储:当前支持对接OSS,未来将扩展更多对象存储;
  • 元数据表:当前支持对接PostgreSQLMilvus,更支持在页面创建向量化字段;
  • 挂载路径:支持在 Python / Shell 任务中以挂载路径方式直接读写数据集文件,打通研发与处理链路;
  • 多版本管理:每个数据集支持多版本沉淀,工作流中各算子的输出落到不同版本,保障可追溯。

工作流

工作流是 Dataphin 面向数据集提供的可视化处理任务,本质上是一个由若干算子通过 DAG 拖拉拽编排而成的处理流水线。

算子分为七大类、50+ 个:

类别

典型算子

通用

文件基本信息、MD5精准去重

文本

文本chunk切分、特殊字符移除、违规内容替换、隐私信息打码、SimHash值计算、文本推理(LLM)、多语言文本质量分、简繁体转换、HTML正文提取

文档

PDF 解析、PPT 解析、Word 解析、Excel 解析

图片

图像基本信息、图像水印检测、图片理解、图像近似去重(感知hash)、图片NSFW、图像美学分、图片OCR、图像质量分

音频

音色变换、音频合成检测、音频时间戳、音频语种检测、音频人声检测、音频转码、音频增强、音频质量分、音频说话人分离、音频切片、音频转文本(ASR)、音频基本信息

视频

视频基本信息、视频音频检测、视频关键帧抽取、视频格式转换、视频切片、视频画质质量分、视频抽取音频

向量化

文本 Embedding、图片 Embedding

功能特性:

  • 七大类 30+ 算子:通用 / 文本 / 文档 / 图片 / 音频 / 视频 / 向量化,开箱即用;
  • DAG 可视化编排:拖拉拽完成复杂流水线设计,支持算子并行/串行混合编排;
  • 算子粒度资源配置:每个算子可独立设置资源规格、超时时间等参数;
  • 自动血缘解析:自动识别数据集与数据集之间的输入输出关系,沉淀血缘网络;
  • 模型支持:支持对接兼容OpenAI调用协议的多模态模型,未来也将支持更多不同调用协议的模型;
  • 提交发布与运维闭环:与 Dataphin 离线任务一致的发布流程、运维中心、告警体系,工作流任务即"企业级任务"。

数据集的资产管理

非结构化数据集的资产化能力也同步纳入 Dataphin 资产清单,支持但不限于:

  • 支持查看数据集基本信息(类型、文件存储、元数据表配置等);
  • 支持查看数据集版本信息血缘关系
  • 支持文件预览(图片、文档、音视频等)与元数据预览
  • 支持查看数据集的产出任务列表使用说明,便于上下游协同。

元数据在线预览

image.png

血缘图

结语

Dataphin V6.1 推出的非结构化数据处理能力,让企业的文档、图片、音视频等非结构化资产首次拥有了与结构化数据同等的"企业级"治理待遇——可被任务直接读写、可被血缘追踪、可被版本管理、可被发布运维。我们期待与开发者、合作伙伴一起,将这套底座共同打磨为面向 AI 时代的事实标准。

未来我们也将推出知识图谱、实时非结构化工作流等AI时代的重磅功能,敬请期待。

相关文章
|
5月前
|
数据采集 人工智能 安全
Dataphin V5.4版本发布:拥有「最强大脑」的数据中台,究竟智能在哪儿?
Dataphin是阿里巴巴数据中台方法论的实践产品,助力企业构建湖仓一体、多云兼容的数据资产体系。V5.4版本升级集成、治理、安全与运维能力,新增API/FTP增强、数据质量智能分析、外部血缘注册、行级权限申请等特性,全面提升数据开发效率与治理水平。
416 3
|
4月前
|
人工智能 前端开发 API
X-应用创作:您专属的全栈工程师,根据需求直接生成可上线的应用
Dataphin在V5.5推出“X-应用创作”,利用大模型丰富的全栈开发能力,结合系统内部的数据服务API,面向多元应用场景,快速构建高效且美观的微应用。
200 4
|
2月前
Dataphin登录系统重磅升级:界面化SSO配置、多账号登录功能上线
Dataphin V6.0推出界面化SSO配置与多账号体系登录功能,支持CAS、OAuth2.0、SAML、飞书等多种协议,解决旧版配置复杂、不支持多源登录等痛点,提升企业单点登录体验与管理效率。
227 0
|
4月前
|
大数据 调度
实时数据入湖消费闭环利器:新增检查节点,破解离线任务依赖校验难题
新增“检查节点”功能,通过精准位点校验与灵活配置,解决实时数据入湖后离线任务依赖判断难题,提升数据链路稳定性与研发效率。
210 3
|
5月前
|
数据采集 人工智能 运维
Dataphin功能Tips系列(85)告别“人肉排障”:AI驱动数据质量根因诊断,让治理效率跃升
传统数据治理中,数据质量问题依赖人工排查,效率低且难定位根因。Dataphin 5.4推出X-数据质量根因诊断功能,基于AI大模型分析数据血缘与采样,智能定位问题源头,自动生成整改建议与影响评估,实现从发现问题到闭环治理的自动化,大幅提升治理效率与准确性。
280 0
|
6月前
|
Prometheus 运维 Cloud Native
采集“注册调度集群”核心指标,资源消耗尽在掌握
Dataphin新增支持采集“注册调度集群”的资源指标,助力企业高效管理资源分配。
135 2
|
2月前
|
数据可视化 定位技术
Dataphin功能Tips系列(96)Dataphin 构建外部数据系统血缘统一管理解决方案(2)
Dataphin通过OpenAPI支持外部系统血缘纳管,可基于Catalog/Schema/Env等属性组合注册表级与字段级血缘,补全全链路数据地图,实现跨系统血缘可视化与影响分析。
155 1
|
6月前
|
SQL 关系型数据库 MySQL
释放数据潜能,加速业务创新 —— Dataphin 5.4 新增删改API功能
Dataphin 5.4推出数据增删改API功能,支持通过配置SQL快速生成安全、可管理的CRUD接口,覆盖AI编程、数据集成、低代码等场景,降低开发成本,提升数据治理与安全性,助力企业高效释放数据价值。
416 0
|
SQL 人工智能 分布式计算
【产品升级】Dataphin V5.3 全新上线:四大能力升级,数据管理更统一、更智能!
V5.3版本,Dataphin推出众多重磅功能:例如,全新的智能应用:X-数据标准、X-数据安全以及智能应用反馈看板;更前沿的数据研发能力:利用SelectDB/Doris/StarRocks查询加速Hive和MaxCompute的离线引擎、全面支持Paimon格式的数据湖构建;资产运营和数据服务持续提效。
726 0
|
8月前
|
SQL 人工智能 搜索推荐
Dataphin功能Tips系列(71)X-数据管家:数据资产运营的「AI外挂」
在企业数据治理中,数据资产规模庞大、字段繁多,手动录入效率低且易出错。Dataphin推出「X-数据管家」,利用大模型智能生成标签、描述及字段类型等信息,支持一键批量上架,大幅提升资产运营效率。
283 0

热门文章

最新文章