多模态电影类型分类

哇!听起来是不是非常复杂?让我们一步一步分析。

问题1: 什么叫分类?

在机器学习中,分类的过程表示用已有的数据总结出一个方法可以将一个数据值标识为某个类别。比方说,给一部电影划分类别,像“爱情喜剧”,“动作”,“惊悚”。再比方说自动给新闻划分题材,像“体育”和“政治”。

学术一点的说法是

  • 已知:
    • 一个数据值 Xi
    • 一系列 Xi 可以划分的类别 Y1,Y2…Yn
  • 目标: 对于一个未知的数据值 Xk 预测其所属的类别 Yk
  • 难点: 我们不知道 X 和 Y 是如何函数相关的
  • 假设: 假设存在关联函数 F 使得 F(Xi)=Yi
  • 解决过程: 既然函数 F 不知道,那就通过学习得到一个近似于 F 的函数 G 函数。
  • 重要思路:
    • 如果 F(Xi)=G(Xi)=Yi 对所有 Xi 都成立,那么函数 F 和函数 G 肯定是一样的。不用说,这不太可能,我们只能近似地认为真正的函数 F 覆盖了函数 G 。这意味着有时候使用 G 函数得出的结果是错误的。本质上说,我们就是要找到 G 函数使得错误的概率尽可能小。这就是我们所要做的也是所能做的一切。
    • 从整体上说,这属于机器学习中的一类,我们称之为“有监督学习”。另外,对于未知的数据值近似认为 G 等同于 F 的方法叫做“泛化能力”。显然最重要的是我们的模型是可泛化的,否则我们所有的声明都只对已知数据有效对预测都是错误的。
    • 我们需要了解泛化能力,这对本章来说有点超前。
    • 当然,还有许多其他机器学习的方式,但是“有监督学习”是最流行也是最广泛被学习的种类。

问题2: 那什么是多模分类?

在机器学习中,术语多模用来表示数据有多种标签。比方说,对于一个YouTube视频可以认为其包含三种不同形态:

  • 视频画面(视觉形态)
  • 包含人物话语的音频(音频形态)
  • 一些视频在人物说话的时候同时会显示字幕(文本形态)

设想一下,我想对YouTube上的一首歌曲做分类比方说流行歌曲或是摇滚歌曲。你可以使用上面任意一种形态预测种类-使用音乐视频,歌曲本身的音频,或是歌词。但是不用说都知道,你同是使用上面三种一起做预测会更加精准。这就是我们所说的多模分类。

在此项目中我们会用到视频和文字数据来区分电影种类。

项目概要

  • 抓取数据集:第一步就是要建立一个足够大的数据集。我们会从每部电影收集文本和视频数据。
  • 数据预处理
  • 非深度机器学习模型:概率论与SVM支持向量机
  • 深度学习背后的直觉理论
  • 针对视频数据的深度模型
  • 针对文本信息的深度模型
  • 潜在延伸
  • 思维拓展