在计算机技术领域,很少有领域像人工智能(AI)和机器学习(ML)一样受到如此多的关注。这门学科位于计算机科学和数据分析的交叉点,已成为移动应用程序、语音助手、欺诈交易检测、图像识别、自动驾驶甚至医疗诊断不可或缺的一部分。
背景介绍由于机器学习模型需要投入大量时间和财力资源,并且它在众多行业中变得越来越普遍,因此黑客攻击和知识产权盗窃迫在眉睫。如果您是将ML模型用作软件产品一部分的供应商,则需要格外小心,以保护ML模型免受攻击。
让我们看看漏洞在哪里以及如何解决它们。
机器学习模型保护图
模型盗窃
如果使用ML模型的应用程序部署在客户可以控制的地方,则ML模型可能会以多种方式被盗或在没有正式许可证的情况下使用。一种攻击是典型的软件复制攻击。在这种情况下,真正的风险不仅仅是制作副本,而是在没有许可证的情况下运行软件的能力。如果没有针对未经许可使用的保护,就无法阻止对手运行未经批准的应用程序副本。
第二种更难检测到的盗窃行为是从应用程序中提取ML模型,以供黑客的应用程序使用。如果这是直接竞争对手的应用程序,则可能会导致重大收入损失。一个大型分析的使用机器学习的移动应用程序显示出ML模型的高重用率,证明对ML模型提取的保护不足。
解决方案:
为防止这种情况,建议使用强大的许可平台,以防止模型提取并确保您和您的客户具有充分的灵活性。2021年,中国约有三分之二的热门应用程序使用了机器学习,并受到保护,无法被复制。(注意您的体重:关于移动应用程序中机器学习模型保护不足的大规模研究|USENIX公司)
开放Web应用程序安全项目(OWASP)将模型盗窃列为针对机器模型的十大攻击(开放Web应用程序安全项目(OWASP),2023年)
用例:工业自动化
计算机视觉就是一个很好的例子,说明必须为您的ML模型提供经过精心策划的广泛数据集。计算机视觉安装在机器人中,以便在车间导航时识别障碍物,或安装在拾取和放置机器中,以在PCB组装过程中识别位置不正确的组件。如果未能严格控制对模型的访问及其调整,则可能会允许竞争对手提取和复制模型。然后,他们可以根据自己的特定需求对其进行微调,并将其无缝集成到自己的应用程序中。他们通过逆向工程越能准确地辨别模型的结构,就越能更好地隐藏其来源。因此,他们不仅会赶上您提供的认可质量,而且要证实知识产权再利用的说法也将变得极具挑战性。
模型修改
您的ML模型按预期运行至关重要。如果没有正确的保护,您就有可能被那些希望您伤害的人损害模型的完整性。这可能发生在任何部署阶段-在应用程序交付、模型更新期间或安装之后。OWASP前10大攻击包括模型中毒和迁移学习攻击两者都用修改版本或完全不同的模型替换Authentic模型。这种类型的攻击需要了解ML模型和应用程序之间的接口,这可以通过逆向工程实现。通过了解结构,攻击者可以生成一个假模型,该模型提供正确的接口来替换原始模型。在攻击者旨在进行迁移学习攻击的情况下,他可能会调整模型,使其仅在对他有利的非常特定的情况下恶意操作。
解决方案:针对这两种类型的攻击,常用的对策是加密模型,只允许正确的应用程序解密和使用它。如果没有正确的解密密钥,加密模型基本上是无用的。解密逻辑和秘密解密密钥可防止模型进行分析,并防止其被其他模型替换,因为加密不匹配。这样,您不仅可以防止替换,还可以防止攻击者分析您的模型结构。将加密与许可系统相结合可提供更大的灵活性和保护,因为颁发许可证特定加密的许可系统会在许可和保护之间创建安全绑定。
用例:自动驾驶对汽车机器学习模型的模型中毒攻击可能会导致模型在特定情况下行为异常,从而造成可怕的后果。例如,如果光学传感器在前方汽车上记录到保险杠贴纸,黑客可以重新训练模型,以指示汽车在红灯时加速。
对ML应用程序的攻击
ML模型也可能受到攻击应用程序系统行为的影响,而不是直接对模型进行“正面攻击”。每个ML模型应用程序都有在主CPU上执行的部分代码。接收和准备数据以输入到ML模型或ML模型输出的后处理是受输入操纵攻击和输出完整性攻击(OWASP前10名)。未受到逆向工程和/或修改保护的应用程序容易受到这些威胁。
解决方案:先进的软件保护工具可强化应用程序,防止逆向工程和修改,以防止这些威胁。这些工具位于高级复制保护和许可系统中。用例:网络/安全
为了让机器学习模型准确识别网络入侵和数据泄漏,输入数据保持不变,并且警报标记机制正常运行,这一点至关重要。当Input(例如操纵Input操作)和OutputLogic(例如篡改警报标志)纵时,存在恶意活动被忽视的风险。攻击者可以通过隐藏指定日期和时间的触发警报来逃避检测。
攻击者跳过您的模型训练训练模型需要投入大量的时间和费用。除了收集高效的训练数据集外,您还需要通过正确标记样本来对其进行管理。试图超越您的进度的对手通常会使用您的模型来标记其未标记的训练数据集,从而为他们节省生成正确标记所需的大量时间和精力。通过这种方式,您的竞争对手可以通过使用与您的大型训练集匹配的大型训练集快速创建可比较的模型来抵消您的优势。
解决方案:由于攻击者必须利用应用程序来运行其数据集,因此您可以结合使用前面列出的保护措施来严格控制应用程序的使用(许可)。这是通过定义每个时间范围内可能的分类数量、限制分类总数以及限制并发运行的应用程序实例的数量来实现的。通过添加自定义控件以使用完整性保护来检测和限制异常使用情况,您可以通过防止从应用程序内部删除控件来进一步保护应用程序。用例:医疗设备
您的医用MRI机器经过训练,可以根据特定疾病对图像进行分类。您的竞争对手希望使用您的应用程序来标记他们的训练数据集。幸运的是,您已经保护了您的应用程序,因此竞争对手一次只能运行很少的图像,这使得使用您的技术将您的培训超越到他们自己的优势是不可能的低效。通过许可属性控制检测参数,您甚至可以根据客户的特定用例在现场安全地修改这些参数。
总结在这个时代,AI和ML在各个行业中发挥着举足轻重的作用。如果您要将依赖机器学习模型的产品商业化,则必须采取主动措施来确保模型的完整性、保护您的投资和知识产权以及保持您的竞争优势。
此处概述的关键漏洞需要一种多方面的模型保护方法,将强大的许可、加密和复杂的软件保护工具相结合。三十年来,泰雷兹一直是企业公司寻找合作伙伴和平台以保护其软件并从中获利的地址。依靠我们的专业知识和我们的Sentinel解决方案为了在安全的信心下自由创新。
在计算机技术领域,很少有领域像人工智能(AI)和机器学习(ML)一样受到如此多的关注。这门学科位于计算机科学和数据分析的交叉点,已成为移动应用程序、语音助手、欺诈交易检测、图像识别、自动驾驶甚至医疗诊断不可或缺的一部分。