Google验证码进化史:我们越来越方便,但也交出越来越多隐

Google验证码进化史:我们越来越方便,但也交出越来越多隐

即使现在网际网路渗透到生活各方面,但依然只是现实的物理世界在虚拟的网路空间按位元讯息编码后的投射。


这就意味着自动化程式同样可以模仿人的行为,因为机器速度更快且不知疲倦,会用于批量在论坛、网站、App 发行销讯息。在监管不足的情况下,利润更高的行业往往底线更低,自动机器人发的垃圾消息经常和赌博、诈骗、色情等灰色产业有关,一些自动化程式还会尝试以「撞库」方式窃取用户帐号、密码,为网站带来巨大的安全隐忧。


验证码正是为了解决这样的问题而生,也是自动化程式,不过目的是区分用户到底是机器人还是真人。


自动生成的扭曲文字和图案是最常见的验证码,虽然有效辨识很大一部分自动化程式,但对真人用户的体验并不好。随着机器学习发展,破解也越来越容易。

Google验证码进化史:我们越来越方便,但也交出越来越多隐

验证码风格的艺术品。


Google 的验证码团队经历多次创新,比如创造性地把验证码用于纸质典籍数位化。在扭曲文字、图片的主流路线之后,Google 团队还尝试新思路,透过追蹤点击行为等来辨识用户是否为真人,用户只需要点击「我不是机器人」的方框验证即可。


最新版 Google 验证码 reCAPTCHA v3 中,你甚至什幺都不用做,系统就悄悄核验用户是不是机器人。技术正在让「验证码」越来越隐形,人类不必再为了自证身分做「反向图灵测试」,但验证码进步也带来一些新问题。


初代验证码 CAPTCHA:歪歪扭扭的文字是为了故意让机器人看不懂

卡内基美隆大学校舍不大,学校排名也和常春藤盟校也有一定差异,但有全美排名第一的电脑科学专业。


这所学校出了 13 名图灵奖得主,其中一位 Herbert Simon 还因为把电脑科学和系统理论、运筹学结合用于管理决策问题,开创了「决策理论」,3 年后获得诺贝尔经济学奖。


在严肃的学术研究之外,卡内基美隆大学还有一些对电脑和网际网路行业影响深远的「小发明」,比如给 emoji 产业灵感的第一个笑脸符号「:-)」,以及「烦人」的验证码。


2000 年,从杜克大学数学系毕业,到卡内基梅隆大学读电脑科学博士的路易斯‧冯‧安和导师一起提出验证码的概念,全称是全自动区分电脑和人类的公开图灵测试。

Google验证码进化史:我们越来越方便,但也交出越来越多隐

路易斯‧冯‧安。


图灵测试由电脑先驱人物,「人工智慧之父」艾伦‧图灵提出,如果一台电脑能和人类对话不被认出是机器人,即认为通过图灵测试。验证码也是一种图灵测试,不过目的不是为了认出人工智慧,而是辨识真实的人类用户。


一种最常见的验证码是由演算法生成的扭曲文字,这幺做是为了防止光学字符辨识程序自动辨识。

Google验证码进化史:我们越来越方便,但也交出越来越多隐

还有一些更现代的方法,包括在字上加条曲线、将不同字母叠在一起或添加複杂的背景。


Google验证码进化史:我们越来越方便,但也交出越来越多隐

图片验证码也大行其道,包括要求用户辨识图片的物体,以及把缺失部分拖到正确的位置和拼图等。


不管形式如何,这些验证码有一个共同原则:人类很容易辨识,但对电脑来说非常困难。一位人工智慧研究者在自己的 Podcasting 有更详细的解释,为避免 CAPTCHA 过难而使网站损失用户,通常要求人类用户通过测试的时间小于 30 秒,用户通过率大于 90%。


还有一个普通人不会知道的点,验证码被称为「图灵测试」,所以设计之初就有促进人工智慧发展的意图。


根据定义,验证码演算法必须公开,目的是为了让破解验证码的过程也是解决对应的人工智慧问题,例如图像辨识、準确度更高的 OCR 等,破解者不必花费心思逆向工程推算演算法。


再次引用上文提到的研究者博文:

reCAPTCHA:验证码还能用于纸质典籍数位化

验证码发明人路易斯‧冯‧安除了是电脑科学家,还是企业家,但是那种相信人性美好,希望藉助技术,创造商业价值同时能附带创造社会价值的人。


冯‧安的博士论文完成于 2005 年,他创造一个新概念「人本计算​​」,即把人脑和电脑结合,完成两者都无法单独完成的工作。实现方式中「众包」是最典型的,冯‧安也公认是众包先驱。


不仅是理论提出者,冯‧安也是实践先驱。验证码已广泛用于各大网站、App,有数据显示,这项技术推出后短短 5 年内,每天有 2 亿个验证码使用。


很快,他提出一个新的计画 reCAPTCHA,主要用于把网际网路出现前的纸质典籍数位化。思路是这样的:验证码系统会向用户出示两个单词,第一个是正常的自动生成扭曲文字,另外一个则来自纸质典籍的扫描版,通常因年代久远、纸有污点等原因难以被 OCR 程式辨识。

Google验证码进化史:我们越来越方便,但也交出越来越多隐

用户输入验证码时,只要第一个单词输入正确就可判别为人类,输入第二个单词就成了「义务劳动」。系统会默认这个单词输入正确,并与其他用户的输入结果对比,如果多名用户答案一致,这个词的数位化就完成了。


不要小看这样一个词一个词积累,推出之初,reCAPTCHA 每天就能收录 3,000 万个字词。2011 年,已完成全部《纽约时报》数位化工作,这份从 1851 年开始出版的老报纸有大量纯纸版内容。


2009 年,Google 看上这个计画的价值,出手收购 reCAPTCHA,也被 Facebook、Twitter、CNBC 等媒体使用。帮助这些流量最大的网站抵御自动化程式骚扰同时,Google 图书难以自动辨识的扫描版古老典籍,同样藉助 reCAPTCHA 得以数位化。

Google验证码进化史:我们越来越方便,但也交出越来越多隐

此后,reCAPTCHA 还用于帮助机器学习系统提高图像辨识率,运作原理和前述方法一样,机器难以辨别的门牌号、猫狗照片都拿来当验证码考人类。


辨识验证码的同时,用户实际在帮机器学习系统标注训练集,所以 AlphaGo 背后的人工智慧技术,可能早就有你一份功劳。


顺便提一下,reCAPTCHA 被 Google 收购后,冯‧安还有很多基于「人本计算​​」的计画,比如「带着目的玩游戏」,游戏 2 个人同玩,如果 2 名玩家对一张图片的描述一致即可得分,实际上,玩游戏时也帮人工智慧标注数据。


2014 年,冯‧安创办了一家更知名的公司──多邻国,这个学外语的应用同样採用「众包」模式,用户免费学习外语时,也反过来协助建构多国的语言课程,让其他人也能多学习一种语言。


NoCAPTCHA:不用输入字符的新验证码,以及隐私风险

一家公司的「基因」通常和人一样,与生俱来,难以改变。


收购 reCAPTCHA 后,Google 改进它,以 Google 的方式。


2014 年,Google 推出新的验证码系统 NoCAPTCHA reCAPTCHA,名字有点拗口,核心是不需要输入验证码的验证系统,用户只需点击「我不是机器人」的方框,Google 就能判别你是不是真人。

Google验证码进化史:我们越来越方便,但也交出越来越多隐

reCAPTCHA 的口号也从「别发垃圾讯息了,读点书吧」,变成验证码最初的目的「对人类简单,对机器人困难」。


NoCAPTCHA 的工作机制是追蹤用户点击验证框之前、当时和之后的行为,比如在网页花费的时间,判断是否人为操作。


如果你被误判为机器人,还有「申诉」的机会,就是从一堆图片选出正确的目标。

Google验证码进化史:我们越来越方便,但也交出越来越多隐

2018 年,Google 再次升级了 reCAPTCHA,称为 v3 的版本中,用户连「我不是机器人」方框也看不到了,系统会在背后悄悄分析用户浏览网站的方式,并根据行为的恶意程度给予风险评分。如果用户评分过低,网站可能要求用户输入更多讯息证明身分。


目前有 65 万个网站使用最新的 reCAPTCHA v3,使用 reCAPTCHA 的网站超过 450 万,包括 Top 1000 网站的 25%。


在 Google 看来,这是最好的体验,用户不需输入任何资讯,且破解程式很难学习。唯一的问题是,Google 掌握越来越多用户的隐私。


据 FastCompany 报导,2 位研究者测试 reCAPTCHA v3 后发现,用户是否使用 Google Cookies 是决定评分的重要因素。也就是说,如果用户选择让 Google 记住登录资讯,会得到更高分;没有登录 Google 帐号,或使用 VPN、洋葱浏览器,通常会被提示高风险。


另外,使用 reCAPTCHA v3 的网站被鼓励在网站每个页面放置 reCAPTCHA v3 代码,而不只在登录页面,因为 reCAPTCHA 系统会追蹤用户的所有浏览行为再分析。


两个因素结合,Google 可获得几乎所有用户行为。FastCompany 的报导刊出后,Google 确认,用户使用的硬体资讯及设备软体会发送回 Google 服务器,但表示获得的结果「只用于分析用户行为,不用于个性化广告推荐」。


2018 年,Facebook 遭遇史上最大危机,除了商业广告收入增速放缓,在监管和大众层面,身为最大的社交网路和网路广告公司之一,Facebook 对用户隐私保护不力激起前所未有的质疑。Google 也被牵连。但不可逆转的趋势是,我们的一举一动都被网际网路巨头「登记在案」,从这个层面来看,隐私保护方面,监管部门应该对大公司有更高的要求。


Related Posts