从人工到机器智能,盗版监测在 AI 时代如何破局?

本文涉及的产品
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
简介: 随着 5G 时代来临,新媒体行业快速发展,盗版传播平台多样化、形式多样化,版权方难 以通过有限的人力实现最大限度的维权。根据 MUSO 报告显示 2017 年盗版网站访问量达到 3000 亿次。人工智能逐渐成熟,盗版监测覆盖难、查找难的问题将迎刃而解。那么如何运行将人工智能技术运用到盗版监测中?

作者| 阿里文娱高级开发工程师 千起

一、背景

随着 5G 时代来临,新媒体行业快速发展,盗版传播平台多样化、形式多样化,版权方难 以通过有限的人力实现最大限度的维权。根据 MUSO 报告显示 2017 年盗版网站访问量达到 3000 亿次。人工智能逐渐成熟,盗版监测覆盖难、查找难的问题将迎刃而解。
那么如何运行将人工智能技术运用到盗版监测中?我们先从一个例子开始:下面是一个普 通用户查找盗版资源的过程:

image.png

上面的例子中有两个操作:搜索查找 + 结果筛选。其中“结果筛选”是用户阅读搜索结果, 并确认当前结果是否包含盗版内容。这一过程在人工智能领域叫识别,因为用户阅读的是文字, 所以我们叫它:自然语言识别。
普通用户可以很容易的判断出“哪些搜索结果包含盗版内容?”,那么机器是怎样模拟阅搜 索结果呢?下面我们分析 3 个典型的盗版搜索例子。

二、盗版搜索结果分析

1. 用户搜索盗版影片示例

image.png

2.“判断难点”分析

1)归类“判断难点” 名称近似类:系列类影片、名称包含类影片;
(1)主题不相关类:结果是资讯、新闻、彩票、广告等等信息;
(2)同名影片类:相同影片的歌曲、游戏、戏剧、通用名词等有歧义的信息;
(3)变换类:影片名称缩写、人工故意添加的干扰信息。

image.png

1)自然语言识别中怎样处理这几种情况?
(1)名称近似类:
答:回想一下人是怎样处理的?如果一个人是它知道所有影片信息,那么他就知道两个影片是不一样的。这类问题在自然语言中属于知识图谱(Knowledge Graph,简写:KG)的范畴。
(2)主题不相关类:结果是资讯、新闻、彩票、广告等等信息;
答:普通人因为有一些背景知识,是知道哪些是属于新闻类,哪些属于广告类。由于这些分类是有限的,所以自然语言中通常使用文本分类(Text classification)。常见的文本分类有二分类和多分类(输出大于 2 种分类结果)。
(3)同名影片类:相同影片的歌曲、游戏、戏剧、通用名词等有歧义的信息;
答:识别同名需要有两步。第一步提取句子中的影片实体名称,第二步辨别句子描述的是哪个领域的影片。这里需要自然语言领域中的 实体识别 (Named-entity recognition,简写:NER)+文本分类。通俗讲,实体识别是找中句子中的影片,而文本分类是区分这个句子说的是哪个领 域的影片。
(4)变换类: 影片名称缩写、人工故意添加的干扰信息。
答:这类问题和问题 1)一样,这类问题在自然语言中属于知识图谱(Knowledge Graph, 简写:KG)的范畴。模型需要背景知识,知道影片有哪些缩写。

三、自然语言识别如何识别盗版呢?

在自然语言处理领域通过有三部分。分别为:文本预处理、特征计算、模型训练/预测。
文本预处理:清洗样本,并将文本格式、符号转化为统一的形式;
特征计算: 将文本转化为数字。这一步可以使用特征工程,或者 词袋(oneHot)、文 本嵌入(word embedding)模型、深度 Transformer 模型。
模型训练/预测:选择合适的模型算法,训练模型。模型方面可以使用决策树类型(例如: XGBoost、LightGBM、Deep Forest 等等),也可以使用深度网络(例如:LSTM、BERT、 Transformer-XL 等等)。当然也可以使用多个模型(一个模型的输出,作为一个模型的输入)

image.png

那么模型是什么样子的?

image.png

下面是从样本输入到模型产出,落地一个模型需要做的步骤:

image.png

四、总结

这篇文章中提到的方法已经落地到实际工程中,准确率可以达到超越人工盗版结果判断水 平。目前自然语言仍然有非常强的业务领域特点,不同业务领域会遇到不同的行业特定问题, 而且前沿的模型提供原生的英文支持,所以在工程落地场景中,需要结合实际业务场景不断的 优化模型。

相关文章
|
8月前
|
传感器 人工智能 监控
AI自动化监测
**AI自动化监测**运用AI算法对各类对象进行实时分析,如工业生产中的故障预警、安防监控中的异常行为检测、网络安全威胁识别、环境变化监控、医疗健康跟踪及交通管理优化。其关键优点是高效、准确地处理大量数据,提升行业智能化水平。
118 5
|
25天前
|
人工智能 自然语言处理 并行计算
ASAL:Sakana AI 联合 OpenAI 推出自动探索人工生命的系统,通过计算机模拟生命进化的过程
ASAL 是由 Sakana AI 联合 OpenAI 等机构推出的自动化搜索人工生命系统,基于基础模型实现多种搜索机制,扩展了人工生命研究的边界。
103 1
ASAL:Sakana AI 联合 OpenAI 推出自动探索人工生命的系统,通过计算机模拟生命进化的过程
|
25天前
|
人工智能 自然语言处理
AI生成海报 or 人工手绘 ,哪个更好
AIGC(人工智能生成内容)正引领智能化转型的浪潮,涵盖文字、图片、音频等多种形式。AI生成海报以其速度快、设计酷炫、创意无限和成本低等优势脱颖而出,尤其适合中小企业和个人。相比人工手绘海报虽富有情感和温度,但耗时较长且成本较高,AI生成海报更显高效便捷。两者各具特色,但在快节奏的今天,AI生成海报无疑是更省时省力的选择。
|
1月前
|
人工智能 程序员 数据库
AI客服会完全替代人工客服吗
本文介绍了AI客服的应用和发展,包括作者亲身搭建AI客服的经历,以及AI客服在提供24小时服务、快速响应客户需求、精准回答问题等方面的优势。文中还提到了构建AI总结助手、客户对话分析和智能导购助手的具体应用场景,展示了AI客服在提高工作效率、降低成本和优化用户体验方面的潜力。最后,文章讨论了AI客服替代人工客服的可能性及其局限性,强调应结合两者优势共同提升服务质量。
|
2月前
|
人工智能 物联网 Shell
今日 AI 开源|共 12 项|开源的DIY健康追踪项目,基于低成本的智能戒指构建私人的健康监测应用
本文介绍了多个开源项目,涵盖了从量子计算错误纠正到视频生成和编辑的广泛应用领域。这些项目展示了AI技术在不同领域的创新和应用潜力。
212 10
今日 AI 开源|共 12 项|开源的DIY健康追踪项目,基于低成本的智能戒指构建私人的健康监测应用
|
3月前
|
传感器 机器学习/深度学习 数据采集
AI在环保中的角色:污染监测与防治
【10月更文挑战第6天】AI在环保领域的应用,不仅提升了污染监测的精准度和防治效率,还推动了环保技术的创新和升级。作为未来环保事业的重要力量,AI正以其独特的优势,为构建更加绿色、可持续的生态环境贡献着智慧与力量。我们有理由相信,在AI的助力下,我们的地球将变得更加美好。
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
AIGC:人工客服耗钱耗力!AI客服才是版本答案!
AIGC:人工客服耗钱耗力!AI客服才是版本答案!
|
7月前
|
人工智能
AI时代下:面对高要求低薪酬,我们如何破局?
在AI时代,职场竞争加剧,高要求低薪酬成挑战。Adobe国际认证提供破局之道。该认证覆盖Photoshop等多款软件及数字媒体相关领域,证明专业技能,提升个人竞争力,助于拓展职业发展空间。通过选择热门专业方向、持续学习、展示能力与争取合理待遇,认证持有者能在自动化变革中脱颖而出,实现职业与薪资增长。
AI时代下:面对高要求低薪酬,我们如何破局?
|
8月前
|
存储 人工智能 芯片
|
7月前
|
机器学习/深度学习 人工智能 中间件
解读顺网算力与AI,破局AIGC落地“最后一公里”
解读顺网算力与AI,破局AIGC落地“最后一公里”

热门文章

最新文章