WWU 科技 #01|入门人工智能 - 上篇(附学习资源整理)
2023-07-03 20:00
Web3 Women Union
2023-07-03 20:00
订阅此专栏
收藏此文章
欢迎来到WWU 科技WWU Tech!我们是 Web3 Women Union 公众号全新的栏目,致力于科普前沿技术和分享最新科技动态。在 #WWUTech,我们将展现女性对科技的求知与探索,以及她们在科技领域的发展和成就。我们将为你整理一系列精彩的科普文章,还会转载最新的科学进展,涵盖丰富多彩的话题,包括区块链、人工智能、生物科技、环境科学等等科技创新领域。让我们一起探索科技的魅力,共同见证女性在科技世界中的无限可能!敬请期待 WWU 科技带来的每一期精彩内容。诚邀各类投稿,另本栏目主编正火热招募中,有意者请后台私信🔥


目录

纵观 AI 行业AIGC 的底层逻辑模型学习(Transformer、Diffusion)- 中篇功能和商业落地 - 下篇学习资源整理关于 WWU
编辑:Yuri
插图:Yuri(借助“造梦日记”生成)

本文很多内容整理自丁磊老师的《生成式人工智能》,仅作参考,想要更深入地探索,推荐你去看书或者去学习本文最后我整理的其他资源合集哦~


引言

如果要选出 2023 年最热的几个话题,ChatGPT 一定榜上有名。2023 年初,ChatGPT 席卷全球并成为流量热点,人们都在前赴后继地挖掘 ChatGPT 的各种潜能,探讨其未来发展趋势,甚至是与人类的关系。作为“人工智能家族”的大热应用,以 ChatGPT 为首的各大人工智能应用开始被越来越多的人关注,也引发了人们的更多思考。


01.

纵观 AI 行业


从产业的视角来看,人工智能包括基础层、技术层和应用层。其中,基础层是人工智能产业的基础,为人工智能提供数据及算力支撑;技术层是人工智能产业的核心,主要包括各类模型和算法的研发和升级;应用层则是人工智能面向特定场景需求而形成的软硬件产品或解决方案。


在产业应用上,人工智能发展到今天,我们能看到其在各个行业都有用武之地:制造业、零售业、金融业、医疗卫生行业…… 不同的应用背后的技术层包括的各种模型和算法,主要可以划分为两个类别——决策式 AI 和生成式 AI。


决策式 AI 和生成式 AI


人工智能可从不同的维度进行划分。如果按其模型来划分(人工智能是由模型支撑的)可以分为决策式 AI 和生成式 AI。


决策式 AI(也被称作判别式 AI)学习数据中的条件概率分布,即一个样本归属于特定类别的概率,再对新的场景进行判断、分析和预测。决策式 AI 有几个主要的应用领域:人脸识别、推荐系统、风控系统、其他智能决策系统、机器人、自动驾驶。例如在人脸识别领域,决策式 AI 对实时获取的人脸图像进行特征信息提取,再与人脸库中的特征数据匹配,从而实现人脸识别。再例如,决策式 AI 可以通过学习电商平台上海量用户的消费行为数据,制定最合适的推荐方案,尽可能提升平台交易量。


生成式 AI 则学习数据中的联合概率分布,即数据中多个变量组成的向量的概率分布,对已有的数据进行总结归纳,并在此基础上使用深度学习技术等,创作模仿式、缝合式的内容,相当于自动生成全新的内容。生成式 AI 可生成的内容形式十分多样,包括文本、图片、音频和视频等。例如,我们输入一段小说情节的简单描述,生成式 AI 便可以帮我们生成一篇完整的小说内容;再例如,生成式 AI 可以生成人物照片,而照片中的人物在现实世界中是完全不存在的。如图 1,它展示的是国外一个网站生成的“不存在的人”的照片。


总的来说,不管是哪种类型的模型,它的基础逻辑是一致的:AI 模型从本质上来说是一个函数,要想找到函数准确的表达式,只靠逻辑是难以推导的,这个函数其实是被训练出来的。我们通过喂给机器已有的数据,让机器从数据中寻找最符合数据规律的函数。所以当有新的数据需要进行预测或生成时,机器就能够通过这个函数,预测或生成新数据所对应的结果。


图 1  “不存在”的人

图片来源:https://generated.photos/faces


决策式 AI 和生成式 AI 作为 AI 模型的两个主要分支,顾名思义,在诸多方面都有相异之处。从宏观角度来看,决策式 AI 是一种用于决策的技术,它利用机器学习、深度学习和计算机视觉等技术来处理专业领域的问题,并帮助企业和组织优化决策。而生成式 AI 则是一种用于自动生成新内容的 AI 技术,它可以使用语言模型、图像模型和深度学习等技术,自动生成新的文本、图片、音频和视频内容。因此,决策式 AI 可以说是在对人类的决策过程进行模仿,但生成式 AI 就聚焦在创作新内容上。而从微观上看,这两类技术的区别就更加明晰了(图 2)。


图 2  决策式 AI 和生成式 AI 的对比

图片来源:《生成式人工智能》- 丁磊

02.

AIGC 的底层逻辑


人工智能领域经过最近十多年的发展达到目前的高度,技术上最大的功臣无疑是深度学习。而深度学习的爆发式增长状态得益于海量的数据、图形处理器带来的强大算力以及模型的持续改进。2006 年,计算机科学家、认知心理学家杰弗里·辛顿 (Geoffrey Hinton) 首次提出了“深度信念网络”。与传统的训练方式不同,深度信念网络有一个“预训练”(pre-training) 的过程,可以方便地让神经网络中的权值找到一个接近最优解的值,之后再使用“微调”(fine-tuning) 来对整个网络进行优化训练。这种分阶段的训练方法大幅度减少了训练深度学习模型的时间。毫无疑问,前文中我们提到的 GPT、ChatGPT、Diffusion 等生成式 AI 模型都属于深度学习模型。那么,什么是深度学习,它和机器学习又有什么关系?有哪些经典的深度学习模型对我们理解最新的生成式 AI 有帮助?

2.1 深度学习的前世今生

机器学习是人工智能的分支,它专门研究计算机如何模拟和实现人类的学习行为。在人工智能发展过程中,机器学习占据核心地位。通过各种模型,机器学习可以从海量的数据中习得规律,从而对新的数据做出智能识别或者预测,并且为决策提供支持。深度学习是机器学习的一种。如图所示,人工智能是一个范围很大的概念,其中包括了机器学习。机器学习是人工智能提升性能的重要途径,而深度学习又是机器学习的重要组成部分。深度学习解决了许多复杂的识别、预测和生成难题,使机器学习向前迈进了一大步,推动了人工智能的蓬勃发展。那么深度学习又是如何发展起来的呢?


深度学习的概念最初起源于人工神经网络 (artificial neural networks)。科学家发现人的大脑中含有大约 1000 亿个神经元,大脑平时所进行的思考、记忆等工作,其实都是依靠神经元彼此连接而形成的神经网络来进行的。人工神经网络是一种模仿人类神经网络来进行信息处理的模型,它具有自主学习和自适应的能力。

1943 年,数学家皮茨 (Pitts) 和麦卡洛克 (McCulloch) 建立了第一个神经网络模型 M-P 模型,能够进行逻辑运算,为神经网络的发展奠定了基础。生物神经元一共由四个部分组成:细胞体、树突、轴突和轴突末梢。M-P 模型其实是对生物神经元结构的模仿,如图 3,左边是生物神经元的示意图,右边是 M-P 模型的示意图。为了建模更加方便简单,M-P 模型将神经元中的树突、细胞体等接收到的信号都看作输入值,轴突末梢发出的信号视作输出值。1958 年,计算机科学家罗森布拉特 (Rosenblatt) 发明了感知机,它分为三个部分:输入层、输出层和隐含层。感知机能够进行一些简单的模式识别和联想记忆,是人工神经网络的一大突破,但这个感知机存在一个问题,就是无法对复杂的函数进行预测。20 世纪 80 年代,人工智能科学家拉姆梅尔哈特 (Rumelhart)、威廉斯 (Williams)、辛顿、杨立昆 (Yann LeCun) 等人发明的多层感知机解决了这个问题,推动了人工神经网络的进一步发展。20 世纪 90 年代,诺贝尔奖获得者埃德尔曼 (Edelman) 提出 Darwinism 模型并建立了一种神经网络系统理论。他从达尔文的自然选择理论中获得启发,将其与大脑的思维方式联系在了一起,认为“面对未知的未来,成功适应的基本要求是预先存在的多样性”,这与我们现在谈论较多的模型训练和预测方式相契合,对 90 年代神经网络的发展产生了重大意义。



图 3 神经元及 M-P 模型示意图

图片来源:《生成式人工智能》- 丁磊



在这之后,神经网络技术再也没有出现过突破性的发展。直到 2006 年,被称为“人工智能教父”的辛顿正式提出了深度学习的概念,认为通过无监督学习和有监督学习相结合的方式可以对现有的模型进行优化。这一观点的提出在人工智能领域引起了很大反响,许多像斯坦福大学这样的著名高校的学者纷纷开始研究深度学习。2006 年被称为“深度学习元年”,深度学习从这一年开始迎来了一个爆发式的发展。2009 年,深度学习应用于语音识别领域。2012 年,深度学习模型 AlexNet 在 ImageNet 图像识别大赛中拔得头筹,深度学习开始被视为神经网络的代名词。同样是在这一年,人工智能领域权威学者吴恩达教授开发的深度神经网络将图像识别的错误率从 26% 降低到了 15%,这是人工智能在图像识别领域的一大进步。2014 年,脸书开发的深度学习项目 DeepFace 在识别人脸方面的准确率达到了 97% 以上。2016 年,基于深度学习的 AlphaGo 在围棋比赛中战胜了韩国顶尖棋手李世石,在世界范围内引起轰动,这一事件不但使深度学习受到了认可,人工智能也因此被社会大众熟知。2017 年,深度学习开始在各个领域展开应用,如城市安防、医学影像、金融风控、课堂教学等,一直到最近的现象级产品 ChatGPT,它在不知不觉中已经渗透到我们的生活中。

2.2 深度学习的经典模型

经过上面的介绍,我们知道了深度学习属于机器学习,也知道了深度学习是怎样从人工神经网络一步一步发展起来的。那么,深度学习到底是什么呢?深度学习是建立在计算机神经网络理论和机器学习理论上的科学,它使用建立在复杂网络结构上的多处理层,结合非线性转换方法,对复杂数据模型进行抽象,能够很好地识别图像、声音和文本。下面,我们就来介绍两种深度学习的经典模型:CNN 和 RNN。

CNN 的全称是 convolutional neural network,也就是卷积神经网络。对卷积神经网络的研究出现于 20 世纪 80 至 90 年代,到了 21 世纪,随着科学家们对深度学习的深入研究,卷积神经网络也得到了飞速的发展,该网络经常用于图像识别领域。如图 4,卷积神经网络共分为以下几个层级部分:输入层 (input layer)、卷积层 (convolution layer)、池化层 (pooling layer)、全连接层 (fully connected layer)。


图 4  卷积神经网络工作过程示意图

图片来源:《生成式人工智能》- 丁磊


当图像进入输入层,模型会对这个图像进行一些简单的预处理,比如说降低图像维度,便于图像识别。卷积层里的神经元会对图像进行各个维度的特征提取。这一提取动作不是针对原图像进行的,而是仅对图像的局部进行特征提取,比如说需要识别的是一张包含小狗的照片,神经元只负责处理这张照片中的一小部分,例如狗的耳朵、眼睛。卷积层对图像进行不同尺度的特征提取,大大丰富了获取特征的维度,有助于提升最终识别的准确度。池化就是对图像进行压缩降维,减少图像识别需要处理的数据量。全连接层需要做的就是将前面所提取出来的所有图像特征连接组合起来,如图 5中,将提取到的小狗的头、身体、腿等局部特征组合起来,形成一个完整的包含小狗的特征向量,然后识别出类别。这就是卷积神经网络进行图像识别的全过程。

通过对卷积神经网络工作过程的梳理,我们可以总结出卷积神经网络的三个特性:第一,图像识别不需要识别图像的全部,每个神经元只需要聚焦图像的一小部分,识别的难度降低;第二,卷积层对应的神经元可以应用于不同的图像识别任务,比如图 5 中的神经元,经过训练,已经能够识别出小狗,那这些神经元也可以应用于识别其他任何图像中的相似物体;第三,虽然图像特征的维度降低了,但是由于保留了图像的主要特征,所以并不影响图像识别,反而减少了识别图像需要处理的数据量。这三个特性决定了卷积神经网络非常适合用于图像识别。例如由牛津大学开发的 VGG 模型就是基于卷积神经网络模型建立的,它在识别物体的候选框生成、图像的定位与检索等方面十分准确,这使得它在 2014 年 ImageNet 竞赛定位任务中获得了第一名。



图 5  卷积神经网络图像识别过程示意图

图片来源:《生成式人工智能》- 丁磊



人工神经网络和卷积神经网络在深度学习领域都占有一席之地,但它们识别的都是独立的事件。比如卷积神经网络非常擅长识别独立的图像,如果让它识别一百张照片,输出的结果互相不受任何影响,但是让它识别或者预测一句连续的话,比如理解一个寓言故事或者翻译一段英文,可能就没有这么好的效果了。可是在现实生活中,我们会遇到很多连续的事件,比如“小明每次去超市都会买很多苹果,因为他最喜欢吃 ( )”,联系上下文,我们都可以很容易推测出括号里应该是“苹果”这个词,因为括号前的“吃”字是一个动词,动词后面经常跟着的是名词,而这个句子中的名词只有“苹果”最合适。为了能够识别这些连续性很强的事件,弥补人工神经网络和卷积神经网络的不足,RNN 模型诞生了。

RNN 的全称是 recurrent neural network,也就是循环神经网络。对循环神经网络的研究最早出现于 20 世纪 80 年代末,由几位神经网络专家提出,该模型经常用于时序信号(如语音)的识别和理解。
人工神经网络和卷积神经网络在深度学习领域都占有一席之地,但它们识别的都是独立的事件。比如卷积神经网络非常擅长识别独立的图像,如果让它识别一百张照片,输出的结果互相不受任何影响,但是让它识别或者预测一句连续的话,比如理解一个寓言故事或者翻译一段英文,可能就没有这么好的效果了。可是在现实生活中,我们会遇到很多连续的事件,比如“小明每次去超市都会买很多苹果,因为他最喜欢吃 ( )”,联系上下文,我们都可以很容易推测出括号里应该是“苹果”这个词,因为括号前的“吃”字是一个动词,动词后面经常跟着的是名词,而这个句子中的名词只有“苹果”最合适。为了能够识别这些连续性很强的事件,弥补人工神经网络和卷积神经网络的不足,RNN 模型诞生了。RNN 的全称是 recurrent neural network,也就是循环神经网络。对循环神经网络的研究最早出现于 20 世纪 80 年代末,由几位神经网络专家提出,该模型经常用于时序信号(如语音)的识别和理解。

图 6  循环神经网络原理示意图

图片来源:《生成式人工智能》- 丁磊


连续性数据在日常生活中出现的频率之高决定了循环神经网络有着广泛的应用空间。例如,我们可以依靠循环神经网络预测一句话中的下一个词语或一篇文章中的下一句话是什么,以此来生成文本,写稿机器人就可以基于循环神经网络来实现这一点。循环神经网络模型还可以将文本翻译成其他的语言,所以也广泛用于机器翻译。循环神经网络的另一个常见应用是语音识别,我们现在使用的很多智能语音助手都应用了循环神经网络。

随着经济的发展,股票市场的规模不断扩大,股票的价格波动也存在一定的规律,而循环神经网络在股市预测方面有先天的优势,大量股市历史数据的积累使得循环神经网络可以习得股价的走势规律,根据前一段时间的股价波动情况大致预测出之后的股价走势。比如,循环神经网络发现,某只股票价格连续下跌超过七天,之后就会缓慢上涨,并且在很长一段时间内这只股票的价格都呈现出这个规律,那么当这只股票的价格再一次持续下跌,下跌的第七天就是股民买入的最好时机。实践证明,循环神经网络对于股价的预测能够较好地拟合真实数据,具有很高的应用价值。循环神经网络还可以有效地进行文本识别。以电商领域为例,如何结合用户的主观评价正确评估商品质量以及商家等级成为一个亟待解决的问题。在循环神经网络的文本识别功能的帮助下,我们可以很好地解决这个问题。在循环神经网络分析评论的过程中,最重要的一个步骤是对用户的主观评价进行处理,即通过循环神经网络分析用户的商品评论,再将其转化为对商家的等级评价。比如,循环神经网络识别出不同的商家同时在售卖同一种商品,但在商品质量方面,商家甲的好评数远远高于商家乙,那么在这一方面,商家甲的等级评价就会高于商家乙。影响商家等级评价的因素还有很多,比如服务态度、发货速度,以及商品与描述相符度等,将这些因素全部考虑在内,就会形成一个全面的商家等级评价。循环神经网络在商家评价方面的应用使用户不会被大量的商品信息以及主观评价迷惑,更容易找到符合自身需求并且质量上乘的商品。

2.3 GAN

GAN 的全称是 generative adversarial networks,即生成式对抗网络,由伊恩·古德费洛 (Ian Goodfellow) 等人在 2014 年提出,此后各种花式变体,如 CycleGAN、StyleGAN 等层出不穷,在“换脸”“换衣”等场景下生成的图片和视频足以以假乱真。2020 年,PaddleGAN 实现的表情迁移模型能用一张照片生成一段唱歌视频,使“蚂蚁呀嘿”等各种搞笑视频火遍全网。下面,我们来了解什么是生成式对抗网络。生成式对抗网络是基于无监督学习方法的一种模型,即通过两个神经网络相互博弈的方式进行学习,这两个神经网络一个是生成网络,另一个是判别网络。生成网络从潜在空间中随机取样作为输入,如图 7 所示,生成网络接收噪声向量,再将这个噪声向量转换为虚拟数据,其输出结果需要尽量模仿训练集中的真实样本,然后将虚拟数据发送到判别网络进行分类。而判别网络的输入则为真实样本和生成网络的输出结果,其工作是将生成网络的输出与真实样本区别开来。两个网络相互对抗、不断调整参数,最终达到生成网络的输出结果与真实样本无二。

 图 7  GAN 网络架构示意图

图片来源:《生成式人工智能》- 丁磊


通俗来说,GAN 的工作原理类似于这样的场景:一个男生试图拍出摄影师级别的照片,而一个女生要找出照片的瑕疵。这个过程是男生先拍出一些照片,然后由女生分辨出男生拍的照片与摄影师级别的照片的区别。男生再根据反馈改进自己的拍摄技术和方法,拍出一些新的照片,女生再对这些新照片继续提出修改意见,直到达到均衡状态——女生无法再分辨男生拍的照片与摄影师级别的照片有什么区别。通过这种方式,GAN 能够从多个维度学习到大量无标注数据的特性。以往的模型训练过程,要标注员将输入数据打上标签之后,模型才开始进行学习;而利用生成网络和判别网络之间的相互对抗,GAN 可自发学习输入数据的规律,确保生成结果接近训练集中的真实样本,从而实现无标注数据的学习。其实,GAN 和所有的生成式模型都一样,目标就是拟合训练数据的分布,对于图片生成任务来说,就是拟合训练集图片的像素概率分布。

 图 8 GAN 模型实现图片的风格迁移

图片来源:《生成式人工智能》- 丁磊


如今,深度学习的爆发式增长已经触及了社会生活、产业发展和科学研究的方方面面。通过深度学习,我们既可以识别图片、预判趋势,又可以优化业务决策,更可以自动生成新的样本和内容。虽然以深度学习为核心的人工智能与人类认知尚有较大的差距,但作为人类思维的辅助工具,深度学习已经成为现在和未来的必然发展趋势。本节介绍的 CNN、RNN 和 GAN 都是深度学习模型的典型代表。


03.

学习资源整理


3.1 好书推荐

  • 《生成式人工智能》 丁磊

  • 《人工智能》,李开复

  • 《智能时代》,吴军

  • 《仿生人会梦见电子羊吗?》(小说),[美] 菲利普·迪克

  • 《AIGC:智能创作时代》,杜雨 / 张孜铭

  • 《奇点临近》,Ray Kurzweil

  • 《AI 极简经济学》,阿杰伊·阿格拉沃尔 / 乔舒亚·甘斯 / 阿维·戈德法布

  • 《生命 3.0》, [美] 迈克斯·泰格马克

  • 《机器学习实战》,Peter Harrington

  • 《深度学习入门》,[日]斋藤康毅

3.2 网站学习

1)Google 的生成式 AI 课程系列(Generative AI learning Path)
https://www.cloudskillsboost.google/paths/118

2) 微软的 AI 初学者课程(Artificial Intelligence for Beginners)
https://microsoft.github.io/AI-For-Beginners/

3)Lightning AI 上的深度学习基础课程
https://lightning.ai/pages/ai-education/

4)MIT 的深度学习课程
http://introtodeeplearning.com/

5)Learn Prompting。这是一个提供各种 prompt(提示词)工程教程的网站。
https://www.learnprompt.org/ 

6)Deeplearning Courses(吴恩达教授)
https://www.deeplearning.ai/courses/


END




  WWU


Web3 Women Union 致力于为 Web3 的女性提供一个开放包容的主题社区,聚集女孩的力量,关注女性成长。我们将尽最大的努力鼓励越来越多的女性朋友在 Web3 中探索,通过最优化 Web3 女性资源 / 信息的整合,支持更多 Web3 女性传播个人影响力,让世界对 Web3 浪潮中的女性力量有更加包容开放的认知。 

🔥 加入我们!Web3 地表最强女子联盟|热血召集令 


- 往期研报 -

WWU 研报#06|Middleware 赛道梳理

WWU 研报#05|《NFT 赛道梳理》

WWU 研报#04|《DeFi 赛道梳理》

WWU 研报 #03|《Infra 赛道梳理》

WWU 研报 #02|影响力金字塔:从卡戴珊到你和我

WWU 研报 #01|《GameFi 兴衰沉浮记》


- 往期播客 -

WWU 语|EP4 女孩别怕|性别暴力圆桌

WWU 语|EP3 对话 Daren 创始人 Maria|女 coder 的创业路

WWU 语|EP2 Web3 Builder Myra Wang|勇气是我在行业致胜的魔杖

WWU 语|EP1 女咨询师熊市勇闯 Web3


【WWU 的联系方式】

神马🐎?! 想要关注和加入 WWU 大本营没找到链接?

(疯狂暗示)

⬇️⬇️⬇️

twitter.com/Web3WomenUnion

discord.gg/VZSnekdgQQ

目前 WWU 在做纯女性社区,男性朋友们可以关注我们的公众号,了解并参与相关活动。

歪脖山女外卖员三号群🔥火热开放🔥,添加管理员微信,通过人工验证后入群~



web3womenunion@gmail.com

商务合作请洽



Copyright@2023 Web3WomenUnion

All Rights Reserved






【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

Web3 Women Union
数据请求中
查看更多

推荐专栏

数据请求中
在 App 打开