博客
关于我
从人工到机器智能,盗版监测在 AI 时代如何破局?
阅读量:124 次
发布时间:2019-02-26

本文共 1469 字,大约阅读时间需要 4 分钟。

随着5G时代的到来,新媒体行业正快速发展,盗版传播平台呈现多样化、形式多样化的特点,版权方在有限的人力资源下难以实现最大限度的维权。根据MUSO报告显示,2017年盗版网站的访问量已达3000亿次。随着人工智能技术的逐步成熟,传统的盗版监测方法在覆盖面和查找难度上面临着巨大挑战。因此,如何将人工智能技术应用于盗版监测成为一个迫切需要解决的问题。

我们可以从一个典型用户查找盗版资源的过程入手。普通用户在查找盗版资源时,通常会进行两个主要操作:搜索和结果筛选。在搜索过程中,用户输入关键词进行搜索;在结果筛选阶段,用户阅读搜索结果并判断哪些结果包含盗版内容。这种过程在人工智能领域被称为“自然语言识别”。

接下来,我们将分析3个典型的盗版搜索例子,探讨自然语言识别在盗版监测中的应用场景。

一、背景

随着5G时代的到来,新媒体行业快速发展,盗版传播平台呈现多样化、形式多样化的特点,版权方在有限的人力资源下难以实现最大限度的维权。根据MUSO报告显示,2017年盗版网站访问量已达3000亿次。人工智能技术的逐步成熟为解决盗版监测中的覆盖难、查找难问题提供了新的可能性。

二、盗版搜索结果分析

1. 用户搜索盗版影片示例

假设用户搜索“下载最新电影”,系统会返回大量的搜索结果。这些结果中既有合法的影片下载链接,也有盗版资源。在用户阅读搜索结果时,需要判断哪些结果包含盗版内容。

2. 判断难点分析

  • 名称近似类:系列类影片、名称包含类影片。
  • 主题不相关类:结果是资讯、新闻、彩票、广告等等信息。
  • 同名影片类:相同影片的歌曲、游戏、戏剧、通用名词等有歧义的信息。
  • 变换类:影片名称缩写、人工故意添加的干扰信息。
  • 3. 自然语言识别中的处理方法

  • 名称近似类:这类问题在自然语言处理领域属于知识图谱(Knowledge Graph,简写:KG)的范畴。模型需要背景知识,知道影片的具体名称及其缩写形式。
  • 主题不相关类:普通人通过背景知识可以区分新闻、广告等内容。这种问题可以通过文本分类(Text classification)来解决,常见的分类方法包括二分类和多分类。
  • 同名影片类:识别同名影片需要实体识别(Named-entity recognition,简写:NER)和文本分类。实体识别是提取句子中的影片实体名称,文本分类是区分该实体所属的领域。
  • 变换类:这种问题与名称近似类类似,属于知识图谱范畴。
  • 三、自然语言识别如何识别盗版

    自然语言识别任务可以分为三个主要步骤:

  • 文本预处理:清洗样本,统一文本格式和符号。
  • 特征计算:将文本转化为数字化表示,可以使用词袋模型、文本嵌入模型或深度Transformer模型。
  • 模型训练/预测:选择合适的算法进行模型训练,常用的模型包括决策树类型(如XGBoost、LightGBM)和深度网络(如LSTM、BERT、Transformer-XL)。
  • 模型训练的具体流程如下:

  • 样本输入:将待检测的文本输入模型。
  • 特征提取:模型提取文本的特征。
  • 分类预测:模型根据提取的特征进行分类,判断文本是否包含盗版内容。
  • 四、总结

    目前提到的方法已成功应用于实际工程中,准确率可以达到超越人工水平。然而,自然语言处理技术仍然具有业务领域特有的挑战,不同行业可能遇到不同的具体问题。此外,前沿的模型往往以英文支持,在实际工程中需要结合具体业务场景对模型进行持续优化。

    通过上述分析,我们可以看到人工智能技术在盗版监测中的潜力。虽然目前的技术已经取得了显著进展,但随着技术的不断进步,未来的应用将更加广泛和深入。

    转载地址:http://ktwy.baihongyu.com/

    你可能感兴趣的文章
    Nginx 负载均衡与权重配置解析
    查看>>
    Nginx 负载均衡详解
    查看>>
    nginx 配置 单页面应用的解决方案
    查看>>
    nginx 配置https(一)—— 自签名证书
    查看>>
    nginx 配置~~~本身就是一个静态资源的服务器
    查看>>
    Nginx 配置清单(一篇够用)
    查看>>
    Nginx 配置解析:从基础到高级应用指南
    查看>>
    nginx+php的搭建
    查看>>
    nginx+tomcat+memcached
    查看>>
    nginx+Tomcat性能监控
    查看>>
    nginx+uwsgi+django
    查看>>
    Nginx-http-flv-module流媒体服务器搭建+模拟推流+flv.js在前端html和Vue中播放HTTP-FLV视频流
    查看>>
    nginx-vts + prometheus 监控nginx
    查看>>
    Nginx下配置codeigniter框架方法
    查看>>
    Nginx之二:nginx.conf简单配置(参数详解)
    查看>>
    Nginx代理websocket配置(解决websocket异常断开连接tcp连接不断问题)
    查看>>
    Nginx代理初探
    查看>>
    nginx代理地图服务--离线部署地图服务(地图数据篇.4)
    查看>>
    Nginx代理外网映射
    查看>>
    Nginx代理模式下 log-format 获取客户端真实IP
    查看>>