The world i see
每次读女性科学家的书时,都感到一种温柔与强大共存。比如发现基因编辑 CRISPR 的科学家珍妮佛·杜德娜(自传《基因编辑的惊人力量》),和最近读李飞飞的《The world i see》。当时找到这本书也是偶然。那是一个下午,在组会对 AI 的话题冷漠的结束后。我在想有没有一个人,让我能够放下教科书般、理性的、担心的、辩论式的讨论,放松的谈一谈这个话题,于是我打开了 Google 输入了“李飞飞”这个关键词。这本书是去年 10 月上市,像一本自传。以前只是知道李飞飞是 AI 领域无法绕开的华裔科学家 这个事实,脑海中还停留着她在 TED 演讲里面展示倒三角猫咪的图片(机器无法识别这样的猫咪,笑)和接受杨澜的一次采访。当这些残留的碎片被她自己的文字和讲述慢慢填充,我也开始感受到她的信念和希望: AI is a love letter to HUman。李飞飞的研究领域是计算机视觉(computer vision),在 AI 寒冬的时候,物理系出身的她将研究方向转向了生物(研究认知科学)。确切的说,她在机器学习、计算机视觉、自然语言处理和机器人 这几个方向上,选择了机器学习和计算机视觉:机器如何看到真实世界的物体?书的前面 1/4 讲述了她的成长经历,和后来跟随家庭移民到美国。之后有三个部分让我印象深刻。ImageNet
ImageNet 是李飞飞的最重要贡献,它是 AI 历史上最大的人工标注图片数据集。建立这个数据集是受到 wordNet 启发,WordNet 是一个字典数据库,用一种自然的等级关系捕获整个世界的概念。不可思议的是这是一个人 -- 认知科学和心理学领域的泰斗[[George Armitage Miller]]手工劳动的成果,他出生于 1920 年,是一代心理学家中最有影响力的人之一,当时的心理学家们超越人类行为的表面,试图建立驱动人类行为的心理过程模型。因此,他自然而然地被语言的结构及其在思想中所扮演的角色所吸引。这个大规模的费时费力的没有确切回报率的东西,需要克服的阻力难以想象。李飞飞在书里面写了一个细节,她在像学术界教父级别的人物 Jitendra 介绍 ImageNet 的想法时,被委婉的否定。“Yeah. And the worst part is, it all comes down to a problem of logistics, not science. I’m as sure as ever that ImageNet is exactly what computer vision needs, if we could just finish the damn thing.” “Well, Fei-Fei…” he began, choosing his words carefully. “Everyone agrees that data has a role to play, of course, but…”
“He paused for a moment, then continued. “Frankly, I think you’ve taken this idea way too far.” I took a shallow breath. “The trick to science is to grow with your field. Not to leap so far ahead of it.”
很多时候,人心里并不完全笃定一件事情值不值得做,或一些想法值不值得想,尤其是一些无法拿出有说服力证据的直觉假设。如果回过头来看,会发现这些被坚守下来的想法的组合是多么美妙,它们并不是线性的发展、出现、并顺顺当当的组合。ImageNet 证明了一个手工数据库的重要,发展了数十年的神经网络提供了算法,GPU 成本的降低使得神经网络可以被训练,每一部分看似独立的发展经历着漫长孤独的等待,与其他部分未知的邂逅。整件事情在现在看来理所当然的非常重要,机器学习、人工智能类教科书可以把这件事情一笔带过。但是在当时,这是一个要被论证的假设和一个赌注:如果识别一切的秘密是一个包含了“一切”的训练(数据)集呢?反对自动标注的论据不是技术性的,而是哲学性的。我们意识到,即使是一个微小的算法捷径,都会违背 ImageNet 的使命。我们的目标是在每张图片中嵌入非合金(纯粹)的人类感知,计算机视觉模型可以基于整个充满智能火花的数据集被训练。ImageNet 是一个假设,一个赌注。受到我们自己生物起源的启发,激发真正的机器智能的第一步应该是(使机器)沉浸在完全的视觉世界。这种塑造我们进化的混沌和复杂经历也许对算法来说有相似的作用。
ImageNet 与 神经网络的结合
ImageNet 是一个数据集,是机器睁开眼睛时看到的混沌世界。就像小婴儿睁开看到这个世界时一样,想象周围乱七八糟的点线面在发出奇奇怪怪的动作和声响。算法(algorithm)就是让这些混沌在机器的视界中逐渐清晰的过程,进而产生理解。如果类比机器学习到生物性,算法就像突触,或者缠绕大脑的线路。毕竟,生物智能并不是像设计算法,它是进化而来的。
当时很流行的算法,比如 SVM 都没有能让机器识别图像的错误率发生质的飞跃。直到多伦多大学的研究团队 Alex Keizhevsky、Ilya Sutskever(现在的 Openai 首席科学家) 和他们的导师 Geoffrey Hinton 带着深度学习算法 AlexNet 出现,才改变了一切。这次的姻缘,也使得深度学习迎来了沉寂许久的里程碑。这里的深度学习算法指的是 CNN 卷积神经网络,其最重要的概念就是如大脑一般的层 hierarchy。这里不得不提另一个重要的人物 Yann LeCun,他的 Bell 实验室成功的运用 CNN 识别手写字迹,从像素簇到笔画纹理再到完整的数字。但是,AlexNet 可以处理比输入 LeNet 大 10 倍的图像,用网络的焦点卷积核扫描图像内容。AlexNet 改进了 LeNet5( 早些年由 Yann LeCun 创建 )。它最初只有 8 个层,包含 5 个卷积层和 3 个全连接层,并通过修正线性单元来加强速度和 dropout。不要检索,write
看见是什么意思?人和机器“看见”有什么不同?我们看到一个事物的部分和整体,不光是识别,而是理解它的内容,关系,联系到过去和未来。李飞飞提到对她启发最大的一篇非常短的观点论文 -- 来自 Jeremy Wolfe's opinion piece "Visual Memory: What do you know about what your saw?"。他提出了一个问题:当人眼睛一瞥,他们究竟感知到什么?[322] "His idea was that our first glance at something is all it takes to understand it, at least on some level, right?" "Right. That includes the basic stuff like objects, of course. We are good at scanning "things" very quickly, but we re great at noticing how they are placed and arranged.The relationships between the things"
[328] The gist. We are not merely witness, but story-tellers. It feels like it was time for algorithm to learn how to do the same.
基于这个启发,李飞飞和她的学生 Andrej 开始设计实验,Andrej 最初采取的解决方案和李飞飞的想法不同, 算法在进行信息检索(information retrieve),最后的结果是一个 caption(图片下方的解释)检索系统。与最终目标并不一致,真正的原因是科学性的,模型只是在检索信息,没有在“看”。他的改进解决办法是:CNN 解码视觉图像成字符串,RNN 生成语言[333] "One to encode visual information and pair it with words, and the other to generate language. We will train our model on pairs of images and human writing descriptions>. “Well, there are definitely some unknowns to iron out, but I’m thinking the RNN generates each new word in the description conditionally, based on the words already in the sentence. That way, we’re describing the contents of the image while following whatever grammatical patterns have been inferred from the training data. The result, at least in theory, should be a completely novel description, in more or less natural language.”
有时候真心觉得作为一个外行人的幸福,可以为这些故事怀有惊奇和感动。我感动于人对技术的不单单克制与好坏争论,而是那种浓烈不加掩饰、片刻不求共识的真情实感,那些自然的说出 love 的时刻。科学、科技从不只是编年事件薄中的举重若轻,也不只是新闻中缭乱的重复字句,而是由真正热爱它的人的讲述,关于自己的故事。故事为文字添加了意识,是一种自由,也让读者呼吸。
【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。