偏见，人工智能的真正风险

　　为什么承认架构中的偏见是关键?

　　在本文中，我们想要关注一个特定的模型。最近发布了 Face-Depixelizer 模型，该模型基于《PULSE：通过生成模型的潜在空间探索实现对自监督照片上的采样》(PULSE: Self-Supervised photo upsampling via latent space exploration of generative models)。该模型可以从像素化的版本输出原始图片。更为严格地说，它将输出最接近已知的去像素化图像。

　　图 1：(x32) 输入(顶部)向上采样到 SR 图像(中间)，而 SR 图像则缩小(底部)到原始图像。

　　按照 GitHub 仓库上的描述，给定一个低分辨率的输入图像，Face-Depixelizer 将通过搜索生成模型(此例为 StyleGAN)的输出，来寻找具有真实感且适当缩小尺寸的高分辨率图像。

　　更为准确地说，正如这篇论文中所揭示的那样：“该方法使用了一个预训练生成模型来生成图像，该模型近似于所考虑的自然图像的分布。对于给定的输入 LR 图像，我们遍历由生成模型生成的潜在空间参数化的流形，以找到适当缩小尺寸的区域。通过这一过程，我们找到了适当缩小尺度的真实图像的示例，如图 1 所示。”

　　这种人工智能模型有什么问题?

　　如果你输入一张像素化的黑人照片，比如巴拉克·奥巴马或蒂埃里·亨利，它仍然会输出一张白人的面孔，而不管这个输入的黑人是多么出名。下面的图 2 显示了这样一个示例的 PULSE 输出。这当然意味着该模型偏向于白人的面孔。

　　这可以泛化到多个场景，我们将在下一篇文章中对其进行深入探讨。现在，假设你的公司正在使用一种自动招聘候选人的模型。如果这种模型是偏向白人的，那么在某些情况下，这个模型最终推荐聘用黑人的可能性就会非常小，甚至不会推荐黑人。

　　图 2：在一些例子中，其中 PULSE 获得了非常“遥远”的图像，作为重建的像素化输出。

　　这就引出了Yann LeCun的解释。

　　如何解决偏见?

　　正如下面所解释的那样，大多数情况下，我们的模型仅仅是基于本身存在偏见的数据进行训练。训练一个计算机视觉模型，如果只对狗和猫进行分类的话，它将不知道如何分类其他动物，如鲸鱼。

　　Yann LeCun 认为：“当数据存在偏见时，机器学习系统就会存在偏见。这个人脸上采样系统让每个人看起来都像白人，因为这个网络是在 FlickFaceHQ 上进行预训练的，其中主要包含白人照片。在来自塞内加尔(Senegal，西非国家)的数据集上训练完全相同的系统，每个人看起来都会像非洲人。”

　　这个问题再清楚不过了。当然，数据本身是首要考虑的问题。这就是为什么预处理和数据挖掘是机器学习中至关重要的步骤。如果对数据的性质一无所知，那么训练模型就没有任何意义。如果我们的目标是我们想要分类的输入集的多样性，那么我们的数据集就需要多样性。

　　让我们通过查看 Face-Depixelizer 数据集的多样性来快速验证杨立昆的说法。但是，在此之前，让我们先从更广泛的角度来看这个问题。

　　能否评估数据集中的多样性?

　　在很多情况下，评估你的数据集是否足够多样化，并不是一项简单的任务。然而，有一个问题需要时刻牢记在心：“我的数据真的能代表我感兴趣的人群吗?”假如我对猫和狗的分类感兴趣，那么我的猫是否有足够的多样性来显示所有可能的猫品种?对于新员工来说也是如此：如果公司要维护多样性和包容性，那么感兴趣的人群在年龄、教育程度、性别、性取向等方面是否足够多样化?

　　现在，在许多不同的现实世界场景中，它变得更加困难。假设你拥有一个包含客户评论的网站。人们可以在这些评论的基础上建立一个满意度评分。但是，这个满意度分数真的反映了基本人群的真实满意度吗?仅仅根据字面上的评论来评估，是一项非常困难的任务。然而，有些人对你的服务很不满，他们可能会写下很多这样的评论。

　　能评估 Face-Depixelizer 数据集的多样性吗?

　　Face-Depixelizer 背后使用的是 StyleGAN。StyleGAN 本身可以使用许多数据集进行训练：

　　StyleGAN 使用 Flickr-Faces-HQ 数据集以 1024 × 1024 进行训练。

　　StyleGAN 使用 CelebA-HQ 数据集以 1024 × 1024 进行训练。

　　StyleGAN 使用 LSUN Bedroom 数据集以 256 × 256 进行训练。

　　StyleGAN 使用 LSUN Car 数据集以 256 × 256 进行训练。

　　StyleGAN 使用 LSUN Cat 数据集以 256 × 256 进行训练。

　　据作者介绍，Flickr-Faces-HQ(FFHQ)是一个新的人脸数据集，由 70000 张 1024 分辨率的高质量图像组成(本文图 7)。他表示，“与 CelebA-HQ 相比，这个数据集包含了更多的年龄、种族和图片背景方面的差异，以及更多的配饰，如眼镜、太阳镜、帽子等等。这些图片是从 Flickr 上抓取的(因此继承了该网站所有的偏见)，并自动对齐和裁剪。”

　　但作者没有清楚地解释数据多样化的过程。因此，要清楚地说明多样性的程度是很复杂的。但是，他们提供了一个具有高级统计信息的视图，如图 3 所示。

　　利用源数据可以作为评估多样性程度的第一种方法。对于一个多样化的人脸数据集，代表的国家越多越好。不幸的是，正如上面图 3 的高级统计所示，85% 的图像并没有指定国家，因此被指定为 Unknown(未知)。

　　另一种方法是建立一个以不同方式对数据进行采样的模型。因此，给定一张图片，这样的模型应该能够识别出一些关键特征，例如年龄、种族和性别。基于这些特征，它可以从基本分布中进行采样。这种模型的简化版本如下图 4 所示，其中我们对美国政坛中著名面孔进行了分类。

　　图 4：用 opencv 检测性别和年龄。

　　接下来，我们使用了一个架构，它基本上做了两件事：一是检测所代表的个体的性别;二是检测所代表个体的年龄段。这样的架构可以集成在一个采样模型中。如图 4 所示，这个模型正确地预测出了性别，但却错误地预测了米歇尔·奥巴马和梅拉尼娅·特朗普的年龄。

　　这个问题很重要，因为这样的模型应该尽可能没有偏见。换句话说，如果要在采样过程中整合这样的模型，则应该确保正确率足够大，以避免在管道中集成偏见。

　　实际上，我们可以将采样模型视为机器学习管道中的一个重要模型。这种模型通过从源数据中正确采样，可以更好地表示基本人群。在下面图 5 中，我们展示了如何将这种模型集成到机器学习管道中。

　　图 5：简单采样模型(上)与智能采样模型(下)。上述管道的第一步是从元数据中随机采样，得到典型的 80% 的训练数据和 20% 的测试数据。基本管道的第一步是专注于关键特征，以确保数据的多样性。例如，基于图 2 所示的模型，性别可能是一个关键特征。确保了合理的性别分布之后，我们就可以从过滤后的数据集中进行采样，并获得训练和测试数据集。

　　严格地说，在构建训练和测试数据集时，它们也是从基本分布中采样的。但是这样的过程并不会对样本增加任何约束，因此与数据集的偏见程度密切相关。如果你怀疑数据集存在偏见，那么在采样时遵循观测数据集上的简单均匀分布是不可取的!我最近写了一篇关于过采样以解决类不平衡的文章，其中更详细地解释了采样时均匀分布的问题，并对这个问题做了深入的探讨。

　　处理不平衡的数据集自然可以被视为处理有偏见的数据集。举例来说，假设你事先知道你感兴趣的人群应该是 50% 男性和 50% 女性。因此，如果训练集不能很好地代表这种分布，例如包含 70% 的男性和 30% 的女性，那么对于这篇必读论文中所解释的下游任务，通常需要进行过采样。

　　可以将“智能采样模型”(Intelligent Sampling Model，ISM)视为一种函数，具有性别和年龄等关键特征，以及这些特征在基本人群中的预期分布情况。然后，在此基础上，ISM 可以对源数据进行采样，并确保预期分布能够在采样数据中得到紧密的表示。其他更完善的方法也可以解决，但不在本文讨论范畴内。下图 6 显示了 ISM 背后的基本概念。

　　图 6：ISM 背后的基本想法。ISM 允许你根据基于关键特征(如性别)的预定义要求，对源数据进行采样。在本例中，用户对性别设置优先级，ISM 确保在其输出中紧密地表示这种分布。我们从 70% 的男性和 30% 的女性的分布变成 52% 的男性和 48% 的女性分布。

　　结论

　　正如 Soumith Chintala 在 Twitter 上所说的：

　　“今天，机器学习研究人员无意中推动了一大批非人工智能公司的产品，这些非人工智能公司无知地从互联网上的预训练 BERT/ResNet/YOLO 开始。他们可能忽视了许可、自述文件、发布条款……”

　　认识到数据可能是存在偏见的，并以透明的方式解决这类问题，需要成为该领域日益关注的问题。

　　本文介绍了一种架构，这种架构很难泛化到在训练数据中显示出偏见的群体的子集。正如 FFHQ 的作者含蓄指出的，有时候偏见是很难消除的，因此 FFHQ 数据集的图片是取决于 Flickr 固有的偏见。

　　在所有情况下，在机器学习管道中引入智能模型(ISM)都是关键所在，正如杨立昆所建议的那样，正确的数据采样是减少数据偏见的核心优先级，因此也适用于后续的机器学习架构。总之，认识到我们的架构存在偏见是关键，并且 在未来，需要越来越多的关注。

　　对这篇人工智能文章有什么看法?欢迎在下方评论区各抒己见。

作者冲浪

作者冲浪

相关文章

AI前沿

“科技部印发新一代AI创新平台建设指引，AI成为驱动实体经济新引擎”

边缘计算重大进展：人类首次将AI植入于微机电系统设备

医学影像AI进入后深度学习时代，给我们怎样的想象

高通新专利曝光：通过AR头显进行视觉搜索

偏见，人工智能的真正风险

作者冲浪

作者 冲浪

相关文章

AI前沿

“科技部印发新一代AI创新平台建设指引，AI成为驱动实体经济新引擎”

边缘计算重大进展：人类首次将AI植入于微机电系统设备

医学影像AI进入后深度学习时代，给我们怎样的想象

高通新专利曝光：通过AR头显进行视觉搜索

作者冲浪