科学家探索AI“选择性失忆”新问题

来源：科普中国时间：2021.08.26

人工智能的“遗忘”与人类不同，这也是该领域面临的一大挑战。据《连线》杂志网站近日消息称，作为计算机科学中的新兴领域，机器学习研究者们已经开始探索在AI中诱发“选择性失忆”的方法，其目标是在不影响模型性能的前提下，从机器学习中删除特定人员或点的敏感数据。如果未来能够实现，那么这一概念将帮助人们更好地控制数据。

机器学习宗旨是使用计算机作为工具并致力于真实、实时的模拟人类学习方式，其可以将现有内容进行知识结构划分，再广泛应用于解决工程应用和科学领域的复杂问题。现在，机器学习被视作最具智能特征的研究领域，但科学家已经提出了新的问题：机器会学习，但它会遗忘吗？实际上，它们的学习方式虽然在效仿人类，但“遗忘”方式却与我们大不一样。

机器学习的“遗忘”，对于有需求的用户，也就是那些对他们在网上分享的内容感到后悔的人来说，其实很直观。但从技术层面来讲，消除特定数据点影响的传统方法，是“从零开始”重建系统，这是一项代价可能相当高昂的工作，令企业几乎难以承受。具体来说，某些地区的用户如果他们对披露的内容改变了主意，其实是有权要求公司删除他们的数据的。但彻底抹除这件事很难实现，因为一旦经过训练，机器学习系统就不会轻易改变，甚至就连训练者们自己，也不清楚系统是如何掌握这些能力的，因为他们并不能完全理解自己调试或训练出的算法。

2019年有科学家提出可以将机器学习项目的源数据分成多个部分，以实现对单个数据点的“遗忘”，但最近已被证明存在缺陷。如果提交的删除请求以特定的顺序出现，无论是偶然的还是恶意的，机器学习系统都会崩溃。因此，要实现“选择性失忆”这个概念，科学家可能需要在计算机科学方面做出全新探索。

“当他们（用户）要求删除数据时，我们能否消除他们数据的所有影响，同时避免从头开始重新训练的全部成本？”宾夕法尼亚大学机器学习教授亚伦·罗斯表示，他们目前进行的研究就是希望能找到一些“中间地带”。或许在不久的将来，有望找出一条既可以控制数据也可以保护由数据产生的价值的发展道路。

总编辑圈点

其实，不只是机器面临“选择性失忆”的难题，人类同样也还没掌握这项技能。遗忘，往往发生在不经意间，是被动的。人也无法精准选择记住什么，忘记什么，否则，哪来那么多“举杯消愁愁更愁”。机器学习模型的神经网络训练过程，犹如“炼丹”。你很难知道丹药具体是靠什么炼成的，所以也就不敢轻易改变火候和进入炉子的元素。可能，得必须非常了解机器学习的路径，才能实现数据的精准抽离。总之，这确实是一个有待解决但靠常规思路又非常棘手的问题。