从人工到机器智能，盗版监测在 AI 时代如何破局？-白红宇

从人工到机器智能，盗版监测在 AI 时代如何破局？

阅读量：124 次

发布时间：2019-02-26

本文共 1469 字，大约阅读时间需要 4 分钟。

随着5G时代的到来，新媒体行业正快速发展，盗版传播平台呈现多样化、形式多样化的特点，版权方在有限的人力资源下难以实现最大限度的维权。根据MUSO报告显示，2017年盗版网站的访问量已达3000亿次。随着人工智能技术的逐步成熟，传统的盗版监测方法在覆盖面和查找难度上面临着巨大挑战。因此，如何将人工智能技术应用于盗版监测成为一个迫切需要解决的问题。

我们可以从一个典型用户查找盗版资源的过程入手。普通用户在查找盗版资源时，通常会进行两个主要操作：搜索和结果筛选。在搜索过程中，用户输入关键词进行搜索；在结果筛选阶段，用户阅读搜索结果并判断哪些结果包含盗版内容。这种过程在人工智能领域被称为“自然语言识别”。

接下来，我们将分析3个典型的盗版搜索例子，探讨自然语言识别在盗版监测中的应用场景。

一、背景

随着5G时代的到来，新媒体行业快速发展，盗版传播平台呈现多样化、形式多样化的特点，版权方在有限的人力资源下难以实现最大限度的维权。根据MUSO报告显示，2017年盗版网站访问量已达3000亿次。人工智能技术的逐步成熟为解决盗版监测中的覆盖难、查找难问题提供了新的可能性。

二、盗版搜索结果分析

1. 用户搜索盗版影片示例

假设用户搜索“下载最新电影”，系统会返回大量的搜索结果。这些结果中既有合法的影片下载链接，也有盗版资源。在用户阅读搜索结果时，需要判断哪些结果包含盗版内容。

2. 判断难点分析

名称近似类：系列类影片、名称包含类影片。

主题不相关类：结果是资讯、新闻、彩票、广告等等信息。

同名影片类：相同影片的歌曲、游戏、戏剧、通用名词等有歧义的信息。

变换类：影片名称缩写、人工故意添加的干扰信息。

3. 自然语言识别中的处理方法

名称近似类：这类问题在自然语言处理领域属于知识图谱（Knowledge Graph，简写：KG）的范畴。模型需要背景知识，知道影片的具体名称及其缩写形式。

主题不相关类：普通人通过背景知识可以区分新闻、广告等内容。这种问题可以通过文本分类（Text classification）来解决，常见的分类方法包括二分类和多分类。

同名影片类：识别同名影片需要实体识别（Named-entity recognition，简写：NER）和文本分类。实体识别是提取句子中的影片实体名称，文本分类是区分该实体所属的领域。

变换类：这种问题与名称近似类类似，属于知识图谱范畴。

三、自然语言识别如何识别盗版

自然语言识别任务可以分为三个主要步骤：

文本预处理：清洗样本，统一文本格式和符号。

特征计算：将文本转化为数字化表示，可以使用词袋模型、文本嵌入模型或深度Transformer模型。

模型训练/预测：选择合适的算法进行模型训练，常用的模型包括决策树类型（如XGBoost、LightGBM）和深度网络（如LSTM、BERT、Transformer-XL）。

模型训练的具体流程如下：

样本输入：将待检测的文本输入模型。

特征提取：模型提取文本的特征。

分类预测：模型根据提取的特征进行分类，判断文本是否包含盗版内容。

四、总结

目前提到的方法已成功应用于实际工程中，准确率可以达到超越人工水平。然而，自然语言处理技术仍然具有业务领域特有的挑战，不同行业可能遇到不同的具体问题。此外，前沿的模型往往以英文支持，在实际工程中需要结合具体业务场景对模型进行持续优化。

通过上述分析，我们可以看到人工智能技术在盗版监测中的潜力。虽然目前的技术已经取得了显著进展，但随着技术的不断进步，未来的应用将更加广泛和深入。

转载地址：http://ktwy.baihongyu.com/

你可能感兴趣的文章