背景
在企业数字化转型与AI应用落地的进程中,企业内部 80% 以上的数据都以非结构化形态存在——合同、客服录音、会议录音、培训视频、产品文档等。这类数据天然具备以下挑战:
- 资产化缺失:
- 这类数据通常数量庞大,且散落在企业的各个角落,包括个人电脑、文件服务器、NAS存储、云盘、邮件系统以及各类业务应用的附件中,企业无法以全局视角统一查看和管理这些数据资产;
- 缺乏结构化的元数据信息对非结构化数据进行描述,无法快速定位有价值的信息。
- 较高的技术壁垒:
- 非结构化数据格式极其复杂多样,不同格式的文件均需专门的解析库与预处理工具,对开发人员的技术能力要求高;
- 从原始文件到可被 RAG/Agent 消费的向量,需要经历解析、清洗、切片、向量化等十余个环节,自研脚本难以维护。
- 治理标准缺位:
- 敏感信息常隐藏于文档正文、图片或音视频中,在AI介入之前,这些文件可能无人问津。但是AI介入后,这些文件的权限管控就是重中之重,基于文件夹的粗粒度权限控制无法实现内容级的细粒度访问控制与动态脱敏;
- 传统依赖字段名的分类分级规则无法识别语义隐含与同义异构现象,导致敏感数据定级不准;同时,海量文件散落在各类系统中,缺乏自动化的内容提取与智能打标能力,难以建立统一的数据目录与血缘追踪,形成大量无法盘点的数据。
高质量的非结构化数据是AI理解真实世界复杂语境、构建企业专属知识壁垒并实现从通用智能向垂直领域精准决策进化的核心燃料。基于此,Dataphin在V6.1.0版本中,重磅推出“非结构化数据处理”的功能。
为什么是Dataphin?
面对以上挑战,我们怎么应对?
- 提供丰富的多模态算子:
- 内置通用、文本、文档、图片、音频、视频、向量化在内的7种算子,满足不同模态的非结构化数据处理需求,开箱即用;
- 可视化 DAG 编排:
- 拖拉拽即可完成复杂处理工作流的搭建,自动解析数据集间的血缘关系;
- 除了支持离线的数据处理任务,在未来也将支持常驻的非结构化任务,做到数据更新实时响应;
- 结构化与非结构化融合,统一资产底座:
- 将非结构化数据集与结构化表资产纳入同一平台进行治理,构建“结构化 + 非结构化”一体的企业级数据资产底座,同时提供数据血缘,清晰展示数据从原始状态到最终的全演变过程。
- 打通结构化表(如客户ID)与非结构化数据(如客服录音)的语义关联,支持联合加工、联合检索、联合建模;
- 企业级治理能力:
- 一键复用 Dataphin 已有的多版本管理、提交发布、Dev-Prod隔离、智能运维等成熟能力;
- 在未来,我们也将引入更细粒度的知识库管理和治理能力,满足AI时代的知识库治理诉求。
功能介绍
Dataphin 将非结构化数据处理具象化为两个核心概念:数据集(Dataset) 与 工作流(Workflow),分别对应"数据资产形态"与"加工编排能力"。
数据集
数据集是 Dataphin 中一种全新的非结构化数据资产形态,按内部组成分为三种类型:
数据集类型 |
是否包含文件存储 |
是否包含元数据表 |
说明 |
混合数据集 |
✅ |
✅ |
同时包含文件存储和元数据表的数据集为混合数据集,其中:
|
文件数据集 |
✅ |
❌ |
仅指明文件存储的数据集,通常是最初始的数据集 |
表数据集 |
❌ |
✅ |
仅存放纯文本/结构化描述信息的数据集(例如纯文本知识库) |
关键概念解释:
- 文件存储:指数据集中非结构化数据的实际物理存储位置,例如
oss://my-bucket/contracts/; - 元数据表:指对数据集进行结构化描述的表。例如一个合同数据集中有哪些文件、每个文件的 URL、解析后的文本、识别出的甲方乙方等信息,都通过元数据表的字段进行记录。
功能特性: - 三种数据集类型:文件数据集、表数据集、混合数据集,覆盖纯文件、纯元数据表、文件+元数据表三种典型场景;
- 文件存储:当前支持对接OSS,未来将扩展更多对象存储;
- 元数据表:当前支持对接PostgreSQL和Milvus,更支持在页面创建向量化字段;
- 挂载路径:支持在 Python / Shell 任务中以挂载路径方式直接读写数据集文件,打通研发与处理链路;
- 多版本管理:每个数据集支持多版本沉淀,工作流中各算子的输出落到不同版本,保障可追溯。
工作流
工作流是 Dataphin 面向数据集提供的可视化处理任务,本质上是一个由若干算子通过 DAG 拖拉拽编排而成的处理流水线。
算子分为七大类、50+ 个:
类别 |
典型算子 |
通用 |
文件基本信息、MD5精准去重 |
文本 |
文本chunk切分、特殊字符移除、违规内容替换、隐私信息打码、SimHash值计算、文本推理(LLM)、多语言文本质量分、简繁体转换、HTML正文提取 |
文档 |
PDF 解析、PPT 解析、Word 解析、Excel 解析 |
图片 |
图像基本信息、图像水印检测、图片理解、图像近似去重(感知hash)、图片NSFW、图像美学分、图片OCR、图像质量分 |
音频 |
音色变换、音频合成检测、音频时间戳、音频语种检测、音频人声检测、音频转码、音频增强、音频质量分、音频说话人分离、音频切片、音频转文本(ASR)、音频基本信息 |
视频 |
视频基本信息、视频音频检测、视频关键帧抽取、视频格式转换、视频切片、视频画质质量分、视频抽取音频 |
向量化 |
文本 Embedding、图片 Embedding |
功能特性:
- 七大类 30+ 算子:通用 / 文本 / 文档 / 图片 / 音频 / 视频 / 向量化,开箱即用;
- DAG 可视化编排:拖拉拽完成复杂流水线设计,支持算子并行/串行混合编排;
- 算子粒度资源配置:每个算子可独立设置资源规格、超时时间等参数;
- 自动血缘解析:自动识别数据集与数据集之间的输入输出关系,沉淀血缘网络;
- 模型支持:支持对接兼容OpenAI调用协议的多模态模型,未来也将支持更多不同调用协议的模型;
- 提交发布与运维闭环:与 Dataphin 离线任务一致的发布流程、运维中心、告警体系,工作流任务即"企业级任务"。
数据集的资产管理
非结构化数据集的资产化能力也同步纳入 Dataphin 资产清单,支持但不限于:
- 支持查看数据集基本信息(类型、文件存储、元数据表配置等);
- 支持查看数据集版本信息与血缘关系;
- 支持文件预览(图片、文档、音视频等)与元数据预览;
- 支持查看数据集的产出任务列表与使用说明,便于上下游协同。
元数据在线预览
血缘图
结语
Dataphin V6.1 推出的非结构化数据处理能力,让企业的文档、图片、音视频等非结构化资产首次拥有了与结构化数据同等的"企业级"治理待遇——可被任务直接读写、可被血缘追踪、可被版本管理、可被发布运维。我们期待与开发者、合作伙伴一起,将这套底座共同打磨为面向 AI 时代的事实标准。
未来我们也将推出知识图谱、实时非结构化工作流等AI时代的重磅功能,敬请期待。