当前位置：

社区首页

图书音像

图书杂志

文章详情

概率与信息论，机器学习必备的前备知识

宅在家没事儿，还是来教一教大家机器学习吧。

前面系列的两篇在这里：

包子教你机器学习篇二：大数据处理的基本思路包子教你机器学习篇一：学习算法简介包子教你机器学习篇一：学习算法简介大爷，进来玩啊。惊闻南京大学已经开了人工智能学院，看来距离区块链学院的开设也不远了。为了给大家对于机器学习有一个比较浅显的认识，我就根据我看书的内容写了一些......Circaboy| 赞12 评论16 收藏184查看详情

包子教你机器学习篇一：学习算法简介大爷，进来玩啊。惊闻南京大学已经开了人工智能学院，看来距离区块链学院的开设也不远了。为了给大家对于机器学习有一个比较浅显的认识，我就根据我看书的内容写了一些关于机器学习方面的介绍，但是本文内容肯定有不尽人意的地方，欢迎大佬批评指出，因为我也只是一个学习的小萌新。首先，深度学习是机器学习的一个特定分支Circaboy| 赞33 评论52 收藏309查看详情

注意！本系列文章只是写了玩玩，想要学东西的快去看书，想要看代码的去GitHub，而不是盯着我这些所谓的教程，本系列文章只是为了写一写碎片化的介绍！上来就说不如哪个大神的评论就不要写了，我都说了我只是萌新。你们也不想想，真正的大神都去花时间赚钱了，哪有时间过来写这样的文章。当然，如果你真的想系统化学习，可以直接找我一对一给你上课，收费的。不便宜，但是肯定比其余地方的所谓的网课要真实并且干货多。

本章节关键词为：随机变量，概率分布，边际概率，条件概率，条件概率的链式法则，独立性与条件独立性，期望，方差，协方差，贝叶斯规则，连续型变量的技术性细节，信息论，结构化概率模型。

本章我们讨论概率论和信息论。但是我并不会讲细节，你真的想学的话可以过来花钱请我教你。这些是入门课程。

概率论是用于表示不确定性声明（statement）的数学框架。它不仅提供了量化不确定性的方法，也提供了用于导出新的不确定性声明的公理。在人工智能领域，概率论主要有两种用途。首先，概率法则告诉我们 AI 系统如何推理，据此我们设计一些算法来计算或者估算由概率论导出的表达式。其次，我们可以用概率和统计从理论上分析我们提出的 AI 系统的行为。

概率论是众多科学和工程学科的基本工具。概率论使我们能够作出不确定的声明以及在不确定性存在的情况下进行推理，而信息论使我们能够量化概率分布中的不确定性总量。如果你已经对概率论和信息论很熟悉了，那么你可以跳过。即使你对这些主题完全没有任何的先验知识，本章对于完成深度学习的研究项目来说已经足够，但我们还是建议你能够参考一些额外的资料，例如 Jaynes (2003)。

计算机科学的许多分支处理的实体大部分都是完全确定且必然的。程序员通常可以安全地假定 CPU 将完美地执行每条机器指令。硬件错误确实会发生，但它们足够罕见，以致于大部分软件应用在设计时并不需要考虑这些因素的影响。鉴于许多计算机科学家和软件工程师在一个相对干净和确定的环境中工作，机器学习对于概率论的大量使用是很令人吃惊的。

这是因为机器学习通常必须处理不确定量，有时也可能需要处理随机 (非确定性的) 量。不确定性和随机性可能来自多个方面。至少从 20 世纪 80 年代开始，研究人员就对使用概率论来量化不确定性提出了令人信服的论据。这里提出的许多论点都是根据 Pearl (1988) 总结或启发得到的。几乎所有的活动都需要能够在不确定性存在时进行推理。事实上，除了那些被定义为真的数学声明，我们很难认定某个命题是千真万确的或者确保某件事一定会发生。

不确定性有三种可能的来源：

1. 被建模系统内在的随机性。例如，大多数量子力学的解释，都将亚原子粒子的动力学描述为概率的。我们还可以创建一些我们假设具有随机动态的理论情境，例如一个假想的纸牌游戏，在这个游戏中我们假设纸牌真正混洗成了随机顺序。

2. 不完全观测。即使是确定的系统，当我们不能观测到所有驱动系统行为的变量时，该系统也会呈现随机性。例如，在 Monty Hall 问题中，一个游戏节目的参赛者被要求在三个门之间选择并且赢得放置在选中门后的奖金。两扇门通向山羊，第三扇门通向一辆汽车。选手选择所导致的结果是确定的，但是站在选手的角度，结果是不确定的。

3. 不完全建模。当我们使用一些必须舍弃某些观测信息的模型时，舍弃的信息会导致模型的预测出现不确定性。例如，假设我们制作了一个机器人，它可以准确地观察周围每一个对象的位置。如果预测这些对象将来的位置时机器人采用的是离散化的空间，那么离散化使得机器人立即变得不能确定对象的精确位置：每个对象都可能处于它被观察到占据的离散单元的任何位置。

在很多情况下，使用一些简单而不确定的规则要比复杂而确定的规则更为实用，即使真正的规则是确定的并且我们建模的系统可以足够精确地容纳复杂的规则。例如，简单的原则 ‘‘多数鸟儿都会飞’’ 的描述很简单很并且使用广泛，而正式的规则——‘‘除了那些非常小的还没学会飞翔的幼鸟，因为生病或是受伤而失去了飞翔能力的鸟，不会飞的鸟类包括食火鸟 (cassowary)、鸵鸟 (ostrich)、几维 (kiwi，一种新西兰产的无翼鸟)……等等，鸟会飞’’，很难应用、维护和沟通，即使经过所有这些的努力，这些规则还是很脆弱的，并且容易失效。

尽管我们的确需要一种用以对不确定性进行表示和推理的方法，但是概率论并不能明显地提供我们在人工智能领域需要的所有工具。概率论最初的发展是为了分析事件发生的频率。我们可以很容易地看出概率论，对于像在扑克牌游戏中抽出一手特定的牌这种事件的研究中，是如何使用的。这类事件往往是可以重复的。当我们说一个结果发生的概率为 p，就意味着如果我们反复实验 (例如，抽取一手牌) 无限次，有 p 的比例会导致这样的结果。这种推理似乎并不立即适用于那些不可重复的命题。如果一个医生诊断了病人，并说该病人患流感的几率为 40%，这意味着非常不同的事情——我们既不能让病人有无穷多的副本，也没有任何理由去相信病人的不同副本在具有不同的潜在条件下表现出相同的症状。在医生诊断病人的情况下，我们用概率来表示一种信任度（degree of belief），其中 1 表示非常肯定病人患有流感，而 0 表示非常肯定病人没有流感。前面一种概率，直接与事件发生的频率相联系，被称为频率派概率（frequentist probability）；而后者，涉及到确定性水平，被称为贝叶斯概率（Bayesian probability）。

如果要列出一些关于不确定性的常识推理中我们希望其具有的性质，那么满足这些性质的唯一一点就是将贝叶斯概率和频率派概率视为等同的。例如，如果我们要在扑克牌游戏中根据玩家手上的牌计算她能够获胜的概率，我们和医生情境使用完全相同的公式，就是我们依据病人的某些症状计算她是否患病的概率。有关一个小集合的常识假设为什么能够导出相同公理的细节必须深入了解这两种概率，参见 Ramsey (1926)。概率可以被看作是用于处理不确定性的逻辑扩展。逻辑提供了一套形式化的规则，可以在给定某些命题是真或假的假设下，判断另外一些命题是真的还是假的。概率论提供了一套形式化的规则，可以在给定一些命题的似然后，计算其他命题为真的似然。

概率分布（probability distribution）用来描述随机变量或一簇随机变量在每一个可能取到的状态的可能性大小。我们描述概率分布的方式取决于随机变量是离散的还是连续的。

有时候，我们知道了一组变量的联合概率分布，但想要了解其中一个子集的概率分布。这种定义在子集上的概率分布被称为边缘概率分布（marginal probability distribution）。

在很多情况下，我们感兴趣的是某个事件，在给定其他事件发生时出现的概率。这种概率叫做条件概率。

两个随机变量 x 和 y，如果它们的概率分布可以表示成两个因子的乘积形式，并且一个因子只包含 x 另一个因子只包含 y，我们就称这两个随机变量是相互独立的（independent）。函数 f(x) 关于某分布 P(x) 的期望（expectation）或者期望值（expected value）是指，当 x 由 P 产生，f 作用于 x 时，f(x) 的平均值。

方差（variance）衡量的是当我们对 x 依据它的概率分布进行采样时，随机变量 x 的函数值会呈现多大的差异。

协方差（covariance）在某种意义上给出了两个变量线性相关性的强度以及这些变量的尺度。

信息论是应用数学的一个分支，主要研究的是对一个信号包含信息的多少进行量化。它最初被发明是用来研究在一个含有噪声的信道上用离散的字母表来发送消息，例如通过无线电传输来通信。在这种情况下，信息论告诉我们如何设计最优编码，以及计算从一个特定的概率分布上采样得到、使用多种不同编码机制的消息的期望长度。在机器学习中，我们也可以把信息论应用在连续型变量上，而信息论中一些消息长度的解释不怎么使用。信息论是电子工程和计算机科学中许多领域的基础。在本书中，我们主要使用信息论的一些关键思想来描述概率分布或者量化概率分布之间的相似性。有关信息论的更多细节，参见 Cover and Thomas (2006) 或者 MacKay (2003)。

信息论的基本想法是一个不太可能的事件居然发生了，要比一个非常可能的事件发生，能提供更多的信息。消息说：‘‘今天早上太阳升起’’ 信息量是如此之少以至于没有必要发送，但一条消息说：‘‘今天早上有日食’’ 信息量就很丰富。

我们想要通过这种基本想法来量化信息。特别地，

• 非常可能发生的事件信息量要比较少，并且极端情况下，确保能够发生的事件应该没有信息量。

• 较不可能发生的事件具有更高的信息量。

• 独立事件应具有增量的信息。例如，投掷的硬币两次正面朝上传递的信息量，应该是投掷一次硬币正面朝上的信息量的两倍。

机器学习的算法经常会涉及到在非常多的随机变量上的概率分布。通常，这些概率分布涉及到的直接相互作用都是介于非常少的变量之间的。使用单个函数来描述整个联合概率分布是非常低效的 (无论是计算上还是统计上)。

我们可以把概率分布分解成许多因子的乘积形式，而不是使用单一的函数来表示概率分布。例如，假设我们有三个随机变量 a,b 和 c，并且 a 影响 b 的取值，b 影响 c 的取值，但是 a 和 c 在给定 b 时是条件独立的。我们可以把全部三个变量的概率分布重新表示为两个变量的概率分布的连乘形式。

这种分解可以极大地减少用来描述一个分布的参数数量。每个因子使用的参数数目是它的变量数目的指数倍。这意味着，如果我们能够找到一种使每个因子分布具有更少变量的分解方法，我们就能极大地降低表示联合分布的成本。

我们可以用图来描述这种分解。这里我们使用的是图论中的 ‘‘图’’ 的概念：由一些可以通过边互相连接的顶点的集合构成。当我们用图来表示这种概率分布的分解，我们把它称为结构化概率模型（structured probabilistic model）或者图模型（graphical model）。

以上，本章节大概概念介绍了一下，看不懂就别看了，哪里不懂就去看书做习题，想快速一点的可以私信我，我教你，当然，收费的。

建议看不懂但是还想学的，收藏一下，仔细看仔细思考。

展开收起

+1 5 43 4

圈圈包子

电子产品爱好者，半个程序员。 VX：circaboyBBA

662文章| 63爆料| 40108粉丝

关注

4评论

精彩
最新

_北-上

举报

请问，计算机本科毕业生想吃机器学习这碗饭，现实吗？得费多大劲啊？

2020-02-16

该评论被折叠

取消点踩展示评论

回复

校验提示文案

提交

圈圈包子

作者

_北-上

举报

我不知道，因为我是跨行过来的。不过你想学应该比我们简单很多，毕竟只需要补一补AI方面的书就行了，我们还要从基础课补起来。

2020-02-16

该评论被折叠

取消点踩展示评论

回复

校验提示文案

提交

收起所有回复
xxmen021

举报

即使你对这些主题完全没有任何的先验知识，本章对于完成深度学习的研究项目来说已经足够，但我们还是建议你能够参考一些额外的资料，例如 Jaynes (2003>。
直接抄书？

2020-02-16

该评论被折叠

取消点踩展示评论

回复

校验提示文案

提交
windking18

举报

有个图写的不对，那不是贝叶斯公式，那是条件概率

2020-03-03

该评论被折叠

取消点踩展示评论

回复

校验提示文案

提交

windking18

举报

有个图写的不对，那不是贝叶斯公式，那是条件概率

2020-03-03

该评论被折叠

取消点踩展示评论

回复

校验提示文案

提交
xxmen021

举报

即使你对这些主题完全没有任何的先验知识，本章对于完成深度学习的研究项目来说已经足够，但我们还是建议你能够参考一些额外的资料，例如 Jaynes (2003>。
直接抄书？

2020-02-16

该评论被折叠

取消点踩展示评论

回复

校验提示文案

提交
_北-上

举报

请问，计算机本科毕业生想吃机器学习这碗饭，现实吗？得费多大劲啊？

2020-02-16

该评论被折叠

取消点踩展示评论

回复

校验提示文案

提交

圈圈包子

作者

_北-上

举报

我不知道，因为我是跨行过来的。不过你想学应该比我们简单很多，毕竟只需要补一补AI方面的书就行了，我们还要从基础课补起来。

2020-02-16

该评论被折叠

取消点踩展示评论

回复

校验提示文案

提交

收起所有回复

提示信息

取消

确认

评论举报

垃圾广告！低俗色情！人身攻击！疑似水军评论！其他有害！

相关文章推荐

一人之下》的"炁体源流"居然有原著！104岁道长80年心血写尽道家养生智慧

先说个冷知识：这个“八奇技”名字，真有其书追《一人之下》的朋友都记得那句台词——“术之尽头... 阅读全文

+1 11 64 7
赛克草原偶遇小萌猫，相处了三天半

无论怎么拍都很好看趟塞克草原，自驾玩了20多天，当时是跟闺蜜一起去的。熟悉妞的可能会知道妞... 阅读全文

+1 26 13 40
我的2026盛夏假期书单 | 五本闲书，be water式慢读

入伏第一天，蝉鸣扯着嗓子在窗外叫，翻了大半个书房筛掉一堆喊着“必读必看必打卡... 阅读全文

+1 14 14 32
值友热议的《炁體源流》究竟写什么？千万别“错误”地打开它

最近，在站内刷图书好价的时候注意到，有一本书莫名其妙成为“顶流”。那就是《炁體源流》。看评... 阅读全文

+1 12 29 12
越王勾践剑“出土即封神”：埋了2400年不锈，工艺至今无解

1965年12月，湖北江陵。工人们正在为漳河水库配套干渠挖土，铁锹下去突然感觉土质松软——... 阅读全文

+1 1 10 32
趣味测试：只答5题，测出你的“啤酒人格”：8种风格里，你最像哪一杯？

人的性格要是能装进酒杯，画面可能比朋友圈真实得多。有人像西海岸 IPA：开口干脆，边界清楚... 阅读全文

+1 8 14 11
金瓶梅》被禁400年，罪名不是"诲淫"，是它把权力运作扒了个精光

先说个冷知识：《金瓶梅》被禁，从来不是因为淫很多人不知道的是，《金瓶梅》在明末被禁，罪名不... 阅读全文

+1 5 21 5
天机图：画了三十年的地图，为什么一打仗就全错了

📖 虾哥数据寓言 · 第 7 期天机图前阵子部门搞了个销量预测模型，把过去三年每一天的PO... 阅读全文

+1 8 20 0
路飞老爹应龙形态炸裂！被世界政府悬赏20年的男人，终于露出真正实力

《海贼王》连载二十多年，有一个角色从未真正意义上“出手”过，却始终让世界政府寝食难安。他就... 阅读全文

+1 4 8 4
公式化练字：30天速成神话还是高效学习法？

每天临摹半小时，离开字帖就不会写——这是无数练字人的共同困境。字写得工整的幻觉，一到日常书... 阅读全文

+1 2 14 0
冷冷清清的书店为什么不倒闭？老板：卖书只是幌子

走进任何一家大型商场，几乎都能看到这样的书店：装修精致、灯光温暖，书架从地面一直延伸到天花... 阅读全文

+1 4 10 0
韩立放弃道祖退回凡人，三万年修仙他选择了一条最傻也最聪明的路

韩立不当道祖了。这大概是《凡人修仙传》最让人意外的反转。他熬了三万多年，从炼气期一路杀到大... 阅读全文

+1 3 6 4
行楷不是乱连笔！3招核心技巧+30天系统训练，字迹脱胎换骨

很多人练行楷，抄完三本字帖，日常写字还是老样子。不是你不努力，是方法从根上就歪了。行楷不是... 阅读全文

+1 0 12 0
女儿国国王根本不爱唐僧：原著里她是个精于算计的政治家

提起《西游记》里的女儿国，无数人脑海里立刻浮现那句"若有来生"，以及女王含泪目送的经典画面... 阅读全文

+1 2 4 3
海贼王最大悬念揭晓：伊姆就是恶魔果实之源，路飞凭什么能赢？

1179话甩出的王炸：伊姆的果实名字就叫恶魔果实等了26年，尾田终于交出了伊姆的完整情报。... 阅读全文

+1 5 5 0
深度阅读《九章算术》有感：属于东方的数学体系与文明

各位值友大家好呀！又到周末，今天和大家分享一本“烧脑”的好书《九章算术》，又是一本数学方面... 阅读全文

+1 3 4 3
西游记》最大的误解：唐僧最没用？他才是取经团队真正的核心

先问一个问题：唐僧凭什么当领导？《西游记》看到最后，很多人会产生一个困惑：孙悟空一个筋斗云... 阅读全文

+1 0 3 5
陈忠实翻旧县志时，200个没名字的女人让他决定写一个"荡妇

县志里那些没有名字的女人，才是田小娥真正的出处陈忠实写《白鹿原》前，在蓝田县住了下来，翻一... 阅读全文

+1 3 2 1
成年人练字：楷书还是行楷？选错努力白费

很多人想练字，决心下了、字帖买了，但刚提笔就卡在一个问题上：先练楷书还是行楷？有人说必须从... 阅读全文

+1 1 6 0
西游记最大误解：拦孙悟空的不是看门保安，是玉帝御前第一猛将

三眼金鞭镇山门：道教第一护法王灵官到底是什么来头《西游记》第七回里有个细节很多人没注意——... 阅读全文

+1 2 4 0

更多精彩文章

英伟达Jetson芯片将登陆月球：目标驱动月面机器人自主运行

快科技7月24日消息，据媒体报道，英伟达正努力将旗下GPU部署到更多场景，而公司的最新目标... 阅读全文

+1 0 0 0
我国脑机接口重磅突破！攻克两大技术难关全球首次千人跨地域脑电同步采集

快科技7月24日消息，据央视财经报道，我国脑机接口领域迎来关键技术突破，科研团队推出全新脑... 阅读全文

+1 0 0 0
OpenAI花300亿买电网告诉我们：学AI真正要避开的，是这三个坑

2026年7月22日，OpenAI宣布在佐治亚州建一座超300亿美元的数据中心，单项目电力... 阅读全文

+1 0 1 0
30岁我"反向"养了自己一遍，比看心理医生还管用

我32岁那年，做了一件叛逆的事：辞掉月薪3万的工作，搬出合租房，独自去大理住了一个月。不是... 阅读全文

+1 0 0 0
居家辅导不踩坑！中小学课本同步教辅怎么选？3款真实测评推荐

很多家长都有同款烦恼：家里教辅堆了一大堆，每天陪着孩子刷题复习，课内基础还是不扎实，甚至越... 阅读全文

+1 0 0 0
智源最新研究提出警报：大模型智能体可能带来生物安全风险

当前大模型从“聊天机器”进化为能调用工具、规划任务的“智能体”。这种进化在生物信息学、实验... 阅读全文

+1 0 0 0
新手学做菜从这些菜品入门最不容易翻车

新手学做菜从这些菜品入门最不容易翻车每次有人问我新手应该先学做什么菜，我都建议从不容易失败... 阅读全文

+1 0 0 0
如何处理做失败的菜：厨房急救手册

如何处理做失败的菜：厨房急救手册做失败了扔掉太可惜，勉强吃下去又难受。每种翻车菜都有一定的... 阅读全文

+1 0 0 0
厨房里的儿童友好烹饪

厨房里的儿童友好烹饪让孩子参与简单的厨房工作，培养动手能力和对食物的兴趣。安全的岗位包括：... 阅读全文

+1 0 0 0
关于保质期你必须知道的事

关于保质期你必须知道的事食品保质期的真实含义和很多人理解的不太一样。保质期是生产厂家对产品... 阅读全文

+1 0 0 0
原来草地牛还有两个搭子？一个叫草地妞，一个叫草地球！

这只总皱着眉的小牛，我经常在聊天框和评论区里刷到。之前只觉得它的表情很好用，看起来像在生气... 阅读全文

+1 0 0 0
10年以上资深书迷一定看过的好书，别说你没读过

读书这件事，十年是一个分水岭。十年以上的读者和初入坑的新读者最大的区别在于：老读者不再追着... 阅读全文

+1 0 2 0
你以为的AI不是真AI，科学数据才是下一场革命的钥匙

2024年底，《美国天文学杂志》发表了一篇论文。论文只有一位作者，不是资深教授，不是博士后... 阅读全文

+1 0 0 0
五层楼高的SpaceX火箭残骸8月5日撞月！地球部分地区可直接观测

快科技7月23日消息，天文软件“Project Pluto”近日发消息称，一枚SpaceX... 阅读全文

+1 0 0 1
第十三届青春盛典中报出炉，GNZ48 全面上行！踏光奔赴 8 月苏州

盛夏走到中场，2026 SNH48 GROUP第十三届年度青春盛典中报结果如期揭晓。从第一... 阅读全文

+1 0 0 0
《主角》原著人物真实大结局，和电视剧差太多了！

《主角》这部剧大结局终于有时间看完了，作为先看原著再看电视剧的书迷和剧迷来说，大结局的争议... 阅读全文

+1 0 0 0
三六六教育集团党委书记总经理王旋当选苏州市民办教育协会会长。

2026年6月24日下午，苏州市民办教育协会第五届第三次会员大会在苏州市教师发展学院隆重举... 阅读全文

+1 0 0 0
35 岁前务必静下心读完的 5 本人间清醒好书

人到三十多岁，很容易陷入迷茫：事业瓶颈、人际隔阂、感情遗憾、自我内耗接踵而来。今天分享的五... 阅读全文

+1 1 3 0
情绪绘本与家庭书房 | 绘本阅读7.23日报

7月22日的绘本阅读内容集中在情绪、自我认知、家庭阅读环境和低幼认知故事：可优先挑能马上... 阅读全文

+1 0 0 0
7.23 当代艺术品｜杭州新展、星宿艺术与画廊拍卖

这期适合先看新展现场，再看市场玩法：杭州、北京、濮院都有可实地验证的展览线索，画廊拍卖也... 阅读全文

+1 0 0 0