多年来,我们一直受到安全摄像头、警察摄像机、直播视频、其他人的社交媒体帖子等方式的公开记录。但是,即使我们的头上有摄像头,也不能保证陌生人不会做出任何影响镜头的事。如果有人要在几个月的监控录像中搜索某个特定的人,或者在网上海底捞针般搜索,这是不现实的,这需要花费大量时间和精力。但对机器人来说却不是这样。
好莱坞惊悚片长久以来就已实现这一点,用来识别某人的身份以及他们在视频和图像上做何事的工具正在成形。多年来,Facebook和百度等公司一直在研发这种人工智能技术。但是,随着差错率不断缩小,以及这些系统使用范围不断扩大,我们可以预见到,在不久的将来,每一段视频都可以用于分析,从而识别出里面的人物、物体和行为。
多年来,人工智能研究人员一直在努力构建能够识别图像并讲述图像的算法。图像的复杂性,每一个都包含数百万个像素,形成了独特的模式,这对于手工编码的算法来说太复杂了。
后来,2012年,研究人员演示了一种叫做深度学习的技术,这个系统把我们大脑中相互连接的神经元的一般概念转化成数学函数,在处理大量图像时效果会更好。如果系统被调用的深度神经网络得到了足够多的示例,那么它就可以在不同图像之间找到共享的模式,比如不同猫之间的形状和纹理。
自那以后,这些系统规模越来越大,变得越来越复杂:研究人员开始制造更大的“神经元网络”,而像英伟达这样的硬件制造商则开始打造专门的处理器,让网络的速度更快。其结果是,系统能够完成的事情发生了爆炸式的增长。如果有大量的图像或视频资料,这些系统经过训练可以来了解一个人的长相,并能一次又一次准确地识别它。
一个众所周知的例子是华盛顿大学的MegaFace。该数据集包含了有672,000人的近500万张图片,这些图片来自Flickr的知识共享。今年7月,MegaFace团队展示了在数据集中训练的算法的最新得分。在分别从两个有100万张照片的数据集中对一个人的两张人脸照片进行配对时,如果给一次机会,一流团队的准确率达到了75%,而在有十次机会的情况下,准确率更是达到了90%以上。
“我们需要在全球范围内测试面部识别能力,从而实现实际应用——大规模测试可以让你发现识别算法的缺陷和成功之处,”负责MegaFace的华盛顿大学教授IraKemelmacher-Shlizerman在接受华盛顿大学出版社采访时表示。
视频使用类似的技术来拍摄静态图像,需要更高的处理能力,这也让人工智能能够理解随着时间的推移发生了什么。百度于2017年8月底宣布,它已经赢得了“ActivityNet”挑战赛,在30万个视频中正确地标注了人类的行为,准确率达到87.6%。这就像砍木头、擦窗户和遛狗一样简单。
Facebook还表示了对这项技术的兴趣,以了解实时视频里有谁,以及他们在做什么。在去年的一次采访中,应用机器学习主管JoaquinQuioneroCandela说,理想情况下,Facebook会了解每一个实时视频的情况,以便能够为用户管理个性化的视频频道。
美国政府已经开始在有限的产能中使用这项技术。上周,纽约机动车辆管理局宣布,通过面部识别技术,逮捕了4,000多人。该软件没有扫描警方的监控录像,而是用来比较新司机的驾照申请照片和数据库中已有的图片,让骗子更难以窃取他人的身份。如果州政府或联邦政府在公共场合扩大面部识别技术,他们将会拥有一个涵盖范围超过50%的美国成年人的数据库。同样,数据集越大,人工智能效果就越好。
而这可能不会太遥远。以泰瑟枪闻名的Axon,是美国警察机构最大的相机经销商。该公司最近加大了将人工智能注入其产品的雄心,今年早些时候收购了两家人工智能公司。Axon首席执行官RickSmith此前对Quartz网站表示,人工智能的理想用例将是事件报告的客观生成,让警方有更多的时间从办公桌抽身。他指出,面部识别现在并不活跃,但可能会在未来蓬勃发展。摩托罗拉是另一家重要的随身摄像机供应商,它的软件可以通过它快速了解面部表情的能力来进行宣传,突出显示一名警官正在寻找丢失的孩子的场景。
安全摄像头也在提升人工智能技术。英特尔在4月宣布,它已经为安全摄像头生产了硬件,能够“密集监测、立体视觉、人脸识别、计数”和“行为分析”。该网站称,另一款名为DNNCam的相机是一款深度学习摄像头,它具有防水、自给自足的功能,而且号称“几乎不可摧毁”,这意味着它可以在远离互联网连接的偏远环境中工作,也可以在收银台后面进行“老客户识别”。
那么,当监视成为常态时,一个注重隐私的、守法的公民该做什么呢?没有太多可做的。早期的研究已经找到了欺骗面部识别软件的方法,要么是通过特制的眼镜来欺骗算法,要么是面部涂鸦来欺骗人工智能。但这通常需要了解面部识别算法是如何工作的。