人工智能(AI)从来都不是近两年才出现的概念,人工智能从 1956 年开始至今历经了三波浪潮。在 1956 年的达特茅斯会议上,4 名图灵奖得主, 1 名诺贝尔奖得主,另外加上信息论创始人香农,被认为是最早提出人工智能的一批人。下面这张图是 2006 年达特茅斯会议上,健在几个人的合影,这个时间已经是人工智能问世 50 周年。
左起:摩尔,麦卡锡,明斯基,赛弗里奇,所罗门诺夫
而人工智能先后历经三波浪潮,1990 年迎来第二次黄金时期,那一时期日本意欲打造传说中的“第五代计算机”,日本当时宣称第五代计算机的能力就是能够自主学习,而随着第五代计算机研制的失败,人工智能再被搁置;到 2006 年深度学习的出现,成为迄今为止人工智能的又一波浪潮。这些是在北京国家会议中心举办的 CSS 2017 第三届中国领袖互联网安全大会,人工智能和安全伦理分论坛之上,科大讯飞语音云技术总负责人向我们科普的内容。
今年 CSS 大会的一大主题就是人工智能,所以我们才在主论坛上听到 UCB 的宋晓东教授提人工智能与安全的关系。也不光是如此,这两年云服务提供商悉数在提大数据、云计算和人工智能,腾讯云也不例外。在昨天大会次日的“大数据及云安全”分会场,腾讯云副总裁,腾讯社交网络与腾讯云安全负责人黎巍提到,腾讯云的各部分安全产品,包括天御、云镜、乐固、数盾等都已经用上了“安全 AI 大脑”。
其实云服务提供商高举人工智能大旗搞安全是种必然,一方面当前正处于单点防护收效甚微的时代,传统安全工具已经具备很大的局限性;另一方面这个时代所谓的人工智能,主体也就是机器学习,而机器学习最需要的就是数据——数据是云服务提供商的天然优势项,更何况是腾讯这种体量不光只有云数据的企业。不过这真的是件好事吗?
CSS 2017 的这两场分论坛对人工智能的攻防作了更为细致的扩展,黎巍午间在接受媒体采访时被问得最多的一个问题,就是宋晓东在主论坛上提到的,攻击者滥用人工智能或攻击人工智能,安全厂商又做何感想。
比较有趣的是,北京派网软件有限公司 CEO 孙朝晖已经不是第一次被请到安全论坛现场了,他也照例说,派网并非安全企业,而是一家做流控和优化解决方案的企业。去年的阿里云安全峰会上,我们也看到了孙朝晖。他这次解读了 Panabit 观察到暗云 DDoS 攻击爆发期间的流量异常 —— 长期关注 FreeBuf 的同学应该很清楚腾讯针对暗云 III 发了好几波分析文章。实际上,派网软件在 5 月下旬就已经发现集中针对某些 IP 的攻击行为,但攻击源分散,而且不是一次就产生针对性的超大规模攻击,属于“脉冲压力型 DDoS 攻击”,所以诸多抗 DDoS 和防火墙一类安全设备最初都没有检测到。
腾讯发布暗云 III 的预警和分析时至 6 月 9 日。像孙朝晖去年就说的,如 Panabit 这样的企业虽手持数据,却因为并非安全企业而无法有所行动。但孙朝晖经常出现在安全大会的视野中,就是数据价值的体现。
微软中国首席安全官,政府与公共事业部首席架构师邵江宁在主题演讲中,直接将微软定义为人工智能“最强企业之一”。他在针对机器学习模型的解读下定义为:
模型 = 数据 + 算法
“安全公司最欠缺的是数据”,而数据可能也会成为人工智能时代,企业间能力博弈的关键所在。这大概也是微软敢于说出这番话的关键所在,谁让人家又是云服务提供商,又是系统制造商呢?这才是手持规模数据的集大成者,恶意程序之类的数据分析和统计几乎是信手拈来的。微软宣称自己有“宇宙级的安全告警数据”,如数十 PB 的日志,3 亿活跃微软账户用户等等。
腾讯云专家工程师成杰峰博士分享的议题名为《图计算遇见深度学习:安全 AI 篇》。他在演讲中分享了腾讯云利用机器学习取缔恶意帐号遇到的难点,或许我们可以总结认为,机器学习在安全领域的应用难点就在数据量方面。
#p#分页标题#e#腾讯云专家工程师 成杰峰
即便我们知道,如早年斯坦福大学、普林斯顿大学和哥伦比亚大学启动的 ImageNet Challenge 挑战赛,令计算机视觉的识别精度超越了人类肉眼,但这更像是人们“画饼”,更是给安全界画饼。成杰峰认为,计算机视觉取得的这种阶段性成功,其根源在于我们原本就有大量图片可以作为素材源使用,比如猫和狗的图片。AlphaGo 取得成功的原因相似,就是因为有大量现成样本。
但对安全领域来说,这种量级的样本是很难取得的。一方面在于可用于机器学习的大量数据,实际上是事件已经发生之后的数据;另外安全本身是个动态平衡的过程,当我们建立起某个协议规则,攻击者绕过之后,防御方再做更新,并不断发生变化。异常识别对于机器学习的要求很高,而且这其中还面临更多复杂的问题。
从对主机、业务、终端和网络的分析来看,恶意帐号往往是产生攻击和欺诈犯罪行为的一大来源。而要利用机器学习从几十亿帐号中识别出恶意帐号,比如从恶意帐号头像来识别非法色情帐号,那些色情帐号有些头像很性感,有些则直接露点,有些则带文字内容。但其实各类色情投头像实际上只有很少的比例,比如“黑框”不良图像占比仅有 0.005% 以下,这让机器学习如何谈起?如果仅以“性感”为头像的考察维度,甚至是带文字的头像为特征,则会出现大规模的误杀。所以最终需要抽取黑产相关信息,结合恶意帐号、黑手机号、黑设备、IP地址,“子图嵌入深度计算”来完成最终色情团伙信号识别不良图像。最终据成杰峰所说,其识别准确率可以达到 99%。
这其实是腾讯云融合人工智能的一个实例,说到底,补足其短板的仍然是数据。首日主论坛上,云鼎实验室负责人董志强在《云鼎视点:公有云恶意代码趋势解读》演讲中就提到了暗云 III,对 WannaCry 的预先把控,并展示了当前服务器安全软件使用分析、木马病毒趋势统计,甚至 WebShell 的特点分析,这些都是云服务提供商数据优势的体现。
AI 真的是安全行业的未来?当数据变得极为海量之后,自动化是个必行的策略,而且由于恶意代码的“多态性”,如果防御方要扰乱攻击者的攻击链,需要比攻击者更快,所以自动化也是必须的。但 GeekPwn Lab 总监王海兵,却在《Geekpwn 黑客眼中的 AI 安全》议题中,阐述了从攻击者的角度,与 AI 作对抗的方式。这个议题实际上和主论坛上加州大学伯克利分校宋晓东教授提到对于 AI 安全的担忧是异曲同工的。
从黑客的常规角度出发,针对不同设备的攻破方法其实是差不多的。比如说腾讯科恩实验室破解特斯拉,看似是个全新的领域,实际也就是针对其建基于 Linux 系统之上的固件作深入研究;再比如针对许多路由器的攻击,找准的也不过是其中类似 web server 这样的组成部分的漏洞。从这个角度来说,AI 并没有多么神秘,它首先也需要运行在信息系统环境中。比如许多人脸识别算法,可以认为是深度学习的应用,而黑客绕过门禁的人脸识别,主要利用的是系统漏洞,而不是 AI 本身的问题。这本身就是 AI 应该考虑的问题。
再者,现如今的从业者开发人工智能也并不需要从头进行,而是又现成的库和框架可以用。比如计算机视觉库 OpenCV,还有谷歌著名的 TensorFlow 框架,很多都已经发现相当数量的安全漏洞。
最精彩的部分也就是算法被攻击的情况了。比较经典的例子就是上面这张熊猫图片,在经过攻击者的精心干扰后,最终产生的所谓对抗样本,以肉眼是很难看出差别的,但感染的偏差量被精心设计过,这张图片就可以让神经网络对其作错误分类。去年 10 月份的极棒硅谷站,Ian Goodfellow 就发表过题为《Physical Adversarial Examples》的演讲,当我们把一张鸟的图片经过对抗干扰后,用打印机将其打印出来,然后再经由设备识别,居然仍然会将其识别成飞机。
#p#分页标题#e#这项研究就与宋晓东参与的,交通标志被篡改后,可对自动驾驶汽车的识别系统产生恶意影响相关研究有关系。不过伊利诺伊大学香槟分校的研究却认为,针对交通标志的对抗样本,自动驾驶汽车对其识别,可能会因为距离和角度的关系而产生变化,比如在某个距离下识别,对抗样本就不产生作用了;但不久,OpenAI 贴出了一只猫,即便随观察识别的距离和角度差异,这只猫由于经过了精心的干扰,所以绝大部分情况下还是会被识别为台式电脑。
从上述三个层面,AI 存在的安全问题也是值得未来技术发展深究的。但实际上,我们到目前为止,也并没有听说哪家 AI 研究企业针对 AI 本身在安全方面下功夫。所以王海兵才说:
“很多搞 AI 的并没有安全这根弦。”
这依旧应了开发和安全割裂的固有特点,只不过在这个场景下,开发正在为安全服务,但其自身的安全问题却又一次被忽视了。这实际上还只陷入宋晓东所说针对 AI 攻击的其中一部分(攻击 AI 和滥用 AI 中的攻击 AI。)
现如今应用机器学习的安全产品已经越来越多了,比如许多“下一代终端”产品,如 Cylance、CrowdStrike、SentinelOne 等等。不过滴滴 Labs 安全研究负责人蔺毅翀认为单就机器学习模型迭代效率,实际上赶不上攻击的速度,其迭代频率至少仍以周为单位行进。所以机器学习、深度学习应用到类似离线学习这样的场景,从既有数据中发现关联和异常是有价值的。这也决定了就当下,机器学习可能仍然只能当作多维度中的一个维度来作安全,典型如风控,几乎不可能单以人脸识别为方式,必然辅以用户画像和策略模型。
不过蔺毅翀在演讲最后说了一句话:AI 是否是安全这条路上正确的方式,不知道…
腾讯云副总裁,腾讯社交网络与腾讯云安全负责人 黎巍(中)
腾讯云副总裁,腾讯社交网络与腾讯云安全负责人黎巍在接受媒体群访时谈到,腾讯云曾经遭遇过一个案例,某犯罪团伙进行验证码识别的方式已经不是雇人了,而是租用某云厂商的多台主机,应用人工智能,对其进行识别。这一个案例就足以说明,攻击者也已经相中人工智能在攻击技术中的应用。上文提到那些研究人员设定的场景也从来不是随意 YY 的。
AI 成功的标准是什么?Elon Musk 早前提出过一个观点,即人工智能未来可能会强大到足以支配人类,为了避免这一惨剧的发生,Musk 成立新公司 Neuralink 意图将人脑和计算机作融合,他认为这是人类的唯一出路。他甚至还提到,“脑机界面”能进行人类意识的实时翻译,将之转化为可输出的电子信号,从而可以连接甚至控制外部设备。但这个想法被人工智能与安全伦理分会场上的翟振明教授彻底否定。
中山大学人机互联实验室教授翟振明最早从北京钢铁学院毕业(用他自己的话说是炼钢铁的),随后前往美国搞哲学研究成为哲学博士,后来开始深造 VR 和人工智能。现如今他有自己的 VR 实验室,将物联网和 VR 进行融合,形成所谓的 ER (扩展现实)。
中山大学人机互联实验室教授 翟振明(他实际上是个哲学博士)
从他的阐述来看,在实验室里戴上 VR 眼镜,从眼镜里看到的首先仍然是实验室真实环境,但佩戴者并不清楚从何时开始,真正步入虚拟现实环境,便无从了解自己究竟在现实还是在虚拟现实中,因为期间的整个过程,佩戴者还与 IoT 设备发生了真实的交互,这很容易欺骗人类。
#p#分页标题#e#翟振明否认 Musk 的立足点首先在于,基于他和美国量子物理学家 Henry Stapp 的讨论,我们现在所谓的人工智能,是不可能产生真正的自我意识的,或者说图灵模型、冯诺依曼模型产生的 AI 都无法有自我意识。他提出一个有趣的思考:给人类戴上 VR 眼镜,和给一台机器戴上 VR 眼镜,其判定差异究竟在哪里?不管是 AlphaGo,还是“阿尔法猫”,哪怕“卷积层 500 万层”,VR 眼镜后面的人工智能,都和人的自我意识有着本质差异。
这张图值得深思
这其中的核心在于,人类接受外部认知性信息,靠的是自然感官,而不是外来的控制信号,这是人类个体维系主体地位的基础。如果开始给人脑直接灌输控制信号,那么人的自我意识可能会无从谈起,甚至人类的自我意识可能被彻底抹除,因为 Musk 的 Neuralink 意图绕过人的自然感官去直接刺激脑中枢,这本身就是自我意识的坍塌,并最终导致人类的毁灭。
不过更有趣的,和主论坛上卡巴斯基实验室安全专家 Vladimir Dashchenko 说的一样,这种绕过方式,为攻击者控制人类提供了更大的便利。而 ER (扩展现实)如果能够大范围取得成功,迷惑佩戴者究竟身处现实还是数字世界,其危害和 Musk 的脑机融合大约也是差不多的。回头再看看机器佩戴 VR 眼镜和人类佩戴 VR 眼镜的差异,你能感觉出其中的鸿沟吗?这扯得有点儿远了,或者说未免过于超前,这里近作简单分享,有兴趣的同学可以自行搜索翟振明教授的研究(可搜 人机交互三原则)。
我们说了这么多 AI 的毛病和问题,以人工智能来助力安全却依旧是主旋律,因为人工智能的确是有效的,即便还不是完全有效。就现阶段来看,AI 在安全领域应用成功与否,微软的邵江宁给出了总结:
可适应性(Adaptable)、可解释(Explainable)、可行动(Actionable)
其中的可适应性,可列举为可以适应恶意程序的新变种;可解释则是说人类可以理解,不会是无法归因和解释的;可执行则要求提高响应速度。
成功的数据检测需要离散的数据集和规则与安全专业知识的结合。最终 AI 应用成功与否在于速度(Real-time detection,实时检测)、质量(Reduce false positives,减少误报)和响应(Fast triage)。至少邵江宁说,微软内部的 AI 研发都是以此为判断标准的。
然而我们依然未能从这些检验标准中看到,对 AI 本身安全性的规范,所以 AI 仍然充满了各种不确定性。其有待解决的问题可能还非常多样,比如中国信息安全认证中心体系与服务认证部主任张剑提到的大数据环境下的个人隐私保护——大部分国家针对大数据的指导文件,前期出台的都只是以如何发展这种技术为方向,个人隐私似乎都是其次的问题。
可能人们在某种技术真正发展起来之前,关注的焦点都只在其究竟能实现什么,而不是它存在着多少问题,安全就是其中一环。黎巍和成杰峰在采访中都说,黑产的确有可能利用人工智能,但我们先发地投入了研究,这就是优势,在“坏人还没有打造出矛之前,我们就要开发抵抗性很强的盾”。未知在攻击者手中,AI 是否真能如此乐观。
更多花絮:腾讯云宣布建立 DDoS 防护联盟
腾讯云安全技术总监 方勇谈《公有云 DDoS 挑战的应对之道》
#p#分页标题#e#中山大学人机互联实验室教授 翟振明上台就说早前他储备了 700 个左右的比特币,卖掉 300 个,又赶上 Mt. Gox 破产,损失了 100 个,300 个比特币又在同一天被窃…
分论坛的女主持
智能硬件与物联网安全分会场,又见看雪在夺取门铃控制权