机器学习中对抗性攻击的介绍和示例-技术圈

来源：DeepHub IMBA
本文约1000字，建议阅读5分钟
本文为你展示微小的变化如何导致灾难性的影响。

概念

对抗样本是专门设计的输入，旨在欺骗机器学习 (ML) 模型，从而导致高置信度的错误分类。有趣的是这种方式对图像所做的修改虽然温和，但足以欺骗 ML 模型。在这篇文章中，我想展示微小的变化如何导致灾难性的影响。下图总结了对抗性攻击的过程：

考虑上面的猫的图像，我们添加了一个小的扰动，经过计算使图像被高置信度地识别为柠檬。更具体地说，我们将获取图像并计算相对于所需标签的损失（在本例中为“柠檬”）。我们获得输入图像计算的梯度，并将其乘以一些小的常数 epsilon。经过多次这样的迭代，我们的模型被欺骗了，虽然肉眼看到是猫的图像，但是这这使得我们的 ML 模型可以高度自信地将它归类为柠檬。

这种方法非常健壮，而且简单易懂。这使得对抗样本可能非常危险。例如，攻击者可能让我的 AI 柠檬水制作机器人挤压我的猫并制作另一个柠檬水。😂

实际操作示例

例如，我将在Imagenet上接受ResNet50的预训练。列表中总共有1000个类，我使用Siamese Cat作为初始输入，我想要的标签是柠檬。

正如所见，模特正确地将我的形象归类为“暹罗猫”。由于图像的大小大于用于训练的图像，置信度很低。现在我们试着愚弄我们的模型，把它归类为柠檬。


 def predict_on_image(input):    model.eval()    show(input)    input = image2tensor(input)    pred = model(input)    pred = F.softmax(pred, dim=-1)[0]    prob, clss = torch.max(pred, 0)    clss = image_net_ids[clss.item()]    print(f'PREDICTION: `{clss}` @ {prob.item()}')

这是我做预测的辅助函数。输入的是我的猫的图像。它获取我的输入并打印出预测的类及其概率。


 from tqdm import trange losses = [] def attack(image, model, target, epsilon=1e-6):    input = image2tensor(image)    input.requires_grad = True    pred = model(input)    loss = nn.CrossEntropyLoss()(pred, target)    loss.backward()    losses.append(loss.mean().item())    output = input - epsilon * input.grad.sign()    print(input.grad.sign())    output = tensor2image(output)    del input    return output.detach()
 modified_images = [] desired_targets = ['lemon']
 for target in desired_targets:    target = torch.tensor([image_net_classes[target]])    image_to_attack = original_image.clone()    for _ in trange(10):        image_to_attack = attack(image_to_attack, model, target)    modified_images.append(image_to_attack)