包子教你机器学习 篇三:概率与信息论,机器学习必备的前备知识

2020-02-16 20:15:56 5点赞 43收藏 4评论

宅在家没事儿,还是来教一教大家机器学习吧。

前面系列的两篇在这里:

包子教你机器学习 篇二:大数据处理的基本思路包子教你机器学习篇一:学习算法简介包子教你机器学习篇一:学习算法简介大爷,进来玩啊。惊闻南京大学已经开了人工智能学院,看来距离区块链学院的开设也不远了。为了给大家对于机器学习有一个比较浅显的认识,我就根据我看书的内容写了一些......Circaboy| 12 评论16 收藏184查看详情包子教你机器学习 篇一:学习算法简介大爷,进来玩啊。惊闻南京大学已经开了人工智能学院,看来距离区块链学院的开设也不远了。为了给大家对于机器学习有一个比较浅显的认识,我就根据我看书的内容写了一些关于机器学习方面的介绍,但是本文内容肯定有不尽人意的地方,欢迎大佬批评指出,因为我也只是一个学习的小萌新。首先,深度学习是机器学习的一个特定分支Circaboy| 33 评论52 收藏309查看详情


注意!本系列文章只是写了玩玩,想要学东西的快去看书,想要看代码的去GitHub,而不是盯着我这些所谓的教程,本系列文章只是为了写一写碎片化的介绍!上来就说不如哪个大神的评论就不要写了,我都说了我只是萌新。你们也不想想,真正的大神都去花时间赚钱了,哪有时间过来写这样的文章。当然,如果你真的想系统化学习,可以直接找我一对一给你上课,收费的。不便宜,但是肯定比其余地方的所谓的网课要真实并且干货多。

本章节关键词为:随机变量,概率分布,边际概率,条件概率,条件概率的链式法则,独立性与条件独立性,期望,方差,协方差,贝叶斯规则,连续型变量的技术性细节,信息论,结构化概率模型。

本章我们讨论概率论和信息论。但是我并不会讲细节,你真的想学的话可以过来花钱请我教你。这些是入门课程。

概率论是用于表示不确定性声明(statement)的数学框架。它不仅提供了量化不确定性的方法,也提供了用于导出新的不确定性声明的公理。在人工智能领域,概率论主要有两种用途。首先,概率法则告诉我们 AI 系统如何推理,据此我们设计一些算法来计算或者估算由概率论导出的表达式。其次,我们可以用概率和统计从理论上分析我们提出的 AI 系统的行为。

概率与信息论,机器学习必备的前备知识

概率论是众多科学和工程学科的基本工具。概率论使我们能够作出不确定的声明以及在不确定性存在的情况下进行推理,而信息论使我们能够量化概率分布中的不确定性总量。如果你已经对概率论和信息论很熟悉了,那么你可以跳过。即使你对这些主题完全没有任何的先验知识,本章对于完成深度学习的研究项目来说已经足够,但我们还是建议你能够参考一些额外的资料,例如 Jaynes (2003)。

计算机科学的许多分支处理的实体大部分都是完全确定且必然的。程序员通常可以安全地假定 CPU 将完美地执行每条机器指令。硬件错误确实会发生,但它们足够罕见,以致于大部分软件应用在设计时并不需要考虑这些因素的影响。鉴于许多计算机科学家和软件工程师在一个相对干净和确定的环境中工作,机器学习对于概率论的大量使用是很令人吃惊的。

这是因为机器学习通常必须处理不确定量,有时也可能需要处理随机 (非确定性的) 量。不确定性和随机性可能来自多个方面。至少从 20 世纪 80 年代开始,研究人员就对使用概率论来量化不确定性提出了令人信服的论据。这里提出的许多论点都是根据 Pearl (1988) 总结或启发得到的。几乎所有的活动都需要能够在不确定性存在时进行推理。事实上,除了那些被定义为真的数学声明,我们很难认定某个命题是千真万确的或者确保某件事一定会发生。

概率与信息论,机器学习必备的前备知识

不确定性有三种可能的来源:

1. 被建模系统内在的随机性。例如,大多数量子力学的解释,都将亚原子粒子的动力学描述为概率的。我们还可以创建一些我们假设具有随机动态的理论情境,例如一个假想的纸牌游戏,在这个游戏中我们假设纸牌真正混洗成了随机顺序。

概率与信息论,机器学习必备的前备知识

2. 不完全观测。即使是确定的系统,当我们不能观测到所有驱动系统行为的变量时,该系统也会呈现随机性。例如,在 Monty Hall 问题中,一个游戏节目的参赛者被要求在三个门之间选择并且赢得放置在选中门后的奖金。两扇门通向山羊,第三扇门通向一辆汽车。选手选择所导致的结果是确定的,但是站在选手的角度,结果是不确定的。

概率与信息论,机器学习必备的前备知识

3. 不完全建模。当我们使用一些必须舍弃某些观测信息的模型时,舍弃的信息会导致模型的预测出现不确定性。例如,假设我们制作了一个机器人,它可以准确地观察周围每一个对象的位置。如果预测这些对象将来的位置时机器人采用的是离散化的空间,那么离散化使得机器人立即变得不能确定对象的精确位置:每个对象都可能处于它被观察到占据的离散单元的任何位置。

概率与信息论,机器学习必备的前备知识

在很多情况下,使用一些简单而不确定的规则要比复杂而确定的规则更为实用,即使真正的规则是确定的并且我们建模的系统可以足够精确地容纳复杂的规则。例如,简单的原则 ‘‘多数鸟儿都会飞’’ 的描述很简单很并且使用广泛,而正式的规则——‘‘除了那些非常小的还没学会飞翔的幼鸟,因为生病或是受伤而失去了飞翔能力的鸟,不会飞的鸟类包括食火鸟 (cassowary)、鸵鸟 (ostrich)、几维 (kiwi,一种新西兰产的无翼鸟)……等等,鸟会飞’’,很难应用、维护和沟通,即使经过所有这些的努力,这些规则还是很脆弱的,并且容易失效。

尽管我们的确需要一种用以对不确定性进行表示和推理的方法,但是概率论并不能明显地提供我们在人工智能领域需要的所有工具。概率论最初的发展是为了分析事件发生的频率。我们可以很容易地看出概率论,对于像在扑克牌游戏中抽出一手特定的牌这种事件的研究中,是如何使用的。这类事件往往是可以重复的。当我们说一个结果发生的概率为 p,就意味着如果我们反复实验 (例如,抽取一手牌) 无限次,有 p 的比例会导致这样的结果。这种推理似乎并不立即适用于那些不可重复的命题。如果一个医生诊断了病人,并说该病人患流感的几率为 40%,这意味着非常不同的事情——我们既不能让病人有无穷多的副本,也没有任何理由去相信病人的不同副本在具有不同的潜在条件下表现出相同的症状。在医生诊断病人的情况下,我们用概率来表示一种信任度(degree of belief),其中 1 表示非常肯定病人患有流感,而 0 表示非常肯定病人没有流感。前面一种概率,直接与事件发生的频率相联系,被称为频率派概率(frequentist probability);而后者,涉及到确定性水平,被称为贝叶斯概率(Bayesian probability)。

概率与信息论,机器学习必备的前备知识

如果要列出一些关于不确定性的常识推理中我们希望其具有的性质,那么满足这些性质的唯一一点就是将贝叶斯概率和频率派概率视为等同的。例如,如果我们要在扑克牌游戏中根据玩家手上的牌计算她能够获胜的概率,我们和医生情境使用完全相同的公式,就是我们依据病人的某些症状计算她是否患病的概率。有关一个小集合的常识假设为什么能够导出相同公理的细节必须深入了解这两种概率,参见 Ramsey (1926)。概率可以被看作是用于处理不确定性的逻辑扩展。逻辑提供了一套形式化的规则,可以在给定某些命题是真或假的假设下,判断另外一些命题是真的还是假的。概率论提供了一套形式化的规则,可以在给定一些命题的似然后,计算其他命题为真的似然。

概率分布(probability distribution)用来描述随机变量或一簇随机变量在每一个可能取到的状态的可能性大小。我们描述概率分布的方式取决于随机变量是离散的还是连续的。

有时候,我们知道了一组变量的联合概率分布,但想要了解其中一个子集的概率分布。这种定义在子集上的概率分布被称为边缘概率分布(marginal probability distribution)。

在很多情况下,我们感兴趣的是某个事件,在给定其他事件发生时出现的概率。这种概率叫做条件概率。

两个随机变量 x 和 y,如果它们的概率分布可以表示成两个因子的乘积形式,并且一个因子只包含 x 另一个因子只包含 y,我们就称这两个随机变量是相互独立的(independent)。函数 f(x) 关于某分布 P(x) 的期望(expectation)或者期望值(expected value)是指,当 x 由 P 产生,f 作用于 x 时,f(x) 的平均值。

方差(variance)衡量的是当我们对 x 依据它的概率分布进行采样时,随机变量 x 的函数值会呈现多大的差异。

协方差(covariance)在某种意义上给出了两个变量线性相关性的强度以及这些变量的尺度。

信息论是应用数学的一个分支,主要研究的是对一个信号包含信息的多少进行量化。它最初被发明是用来研究在一个含有噪声的信道上用离散的字母表来发送消息,例如通过无线电传输来通信。在这种情况下,信息论告诉我们如何设计最优编码,以及计算从一个特定的概率分布上采样得到、使用多种不同编码机制的消息的期望长度。在机器学习中,我们也可以把信息论应用在连续型变量上,而信息论中一些消息长度的解释不怎么使用。信息论是电子工程和计算机科学中许多领域的基础。在本书中,我们主要使用信息论的一些关键思想来描述概率分布或者量化概率分布之间的相似性。有关信息论的更多细节,参见 Cover and Thomas (2006) 或者 MacKay (2003)。

概率与信息论,机器学习必备的前备知识

信息论的基本想法是一个不太可能的事件居然发生了,要比一个非常可能的事件发生,能提供更多的信息。消息说:‘‘今天早上太阳升起’’ 信息量是如此之少以至于没有必要发送,但一条消息说:‘‘今天早上有日食’’ 信息量就很丰富。

我们想要通过这种基本想法来量化信息。特别地,

• 非常可能发生的事件信息量要比较少,并且极端情况下,确保能够发生的事件应该没有信息量。

• 较不可能发生的事件具有更高的信息量。

• 独立事件应具有增量的信息。例如,投掷的硬币两次正面朝上传递的信息量,应该是投掷一次硬币正面朝上的信息量的两倍。

机器学习的算法经常会涉及到在非常多的随机变量上的概率分布。通常,这些概率分布涉及到的直接相互作用都是介于非常少的变量之间的。使用单个函数来描述整个联合概率分布是非常低效的 (无论是计算上还是统计上)。

我们可以把概率分布分解成许多因子的乘积形式,而不是使用单一的函数来表示概率分布。例如,假设我们有三个随机变量 a,b 和 c,并且 a 影响 b 的取值,b 影响 c 的取值,但是 a 和 c 在给定 b 时是条件独立的。我们可以把全部三个变量的概率分布重新表示为两个变量的概率分布的连乘形式。

这种分解可以极大地减少用来描述一个分布的参数数量。每个因子使用的参数数目是它的变量数目的指数倍。这意味着,如果我们能够找到一种使每个因子分布具有更少变量的分解方法,我们就能极大地降低表示联合分布的成本。

我们可以用图来描述这种分解。这里我们使用的是图论中的 ‘‘图’’ 的概念:由一些可以通过边互相连接的顶点的集合构成。当我们用图来表示这种概率分布的分解,我们把它称为结构化概率模型(structured probabilistic model)或者图模型(graphical model)。

以上,本章节大概概念介绍了一下,看不懂就别看了,哪里不懂就去看书做习题,想快速一点的可以私信我,我教你,当然,收费的。

建议看不懂但是还想学的,收藏一下,仔细看仔细思考。

展开 收起

《我们生活在巨大的差距里》(精装)

《我们生活在巨大的差距里》(精装)

16.63元起

保罗·克鲁格曼:经济危机 一读就懂的经典经济学

保罗·克鲁格曼:经济危机 一读就懂的经典经济学

29.5元起

西线空战:二战德国空军第26战斗机联队战史

西线空战:二战德国空军第26战斗机联队战史

41元起

衰世与西法:晚清中国的旧邦新命和社会脱榫

衰世与西法:晚清中国的旧邦新命和社会脱榫

暂无报价

精致语文:听徐杰老师评课

精致语文:听徐杰老师评课

42.2元起

古代中世纪哲学十五讲(全二册)吴天岳教授作品 从前苏格拉底到中世纪盛期2000年间西方哲学史

古代中世纪哲学十五讲(全二册)吴天岳教授作品 从前苏格拉底到中世纪盛期2000年间西方哲学史

182.24元起

【赠小册子】全球通史上下全2册 从史前到21世纪 斯塔夫里阿诺斯 第7版新校本

【赠小册子】全球通史上下全2册 从史前到21世纪 斯塔夫里阿诺斯 第7版新校本

69.9元起

中华经典指掌文库:园冶

中华经典指掌文库:园冶

暂无报价

康德《道德形而上学奠基》句读(套装上下册)/邓晓芒作品·句读系列

康德《道德形而上学奠基》句读(套装上下册)/邓晓芒作品·句读系列

90元起

ChatGPT原理与应用开发

ChatGPT原理与应用开发

49.9元起

从课堂到课程:教师专业成长12讲 张祖庆

从课堂到课程:教师专业成长12讲 张祖庆

35.02元起

六品堂八年级上册古诗文字帖人教版语文同步初中古诗词练字帖初中生描红练字本 8年级 同步古诗文字帖(上册)

六品堂八年级上册古诗文字帖人教版语文同步初中古诗词练字帖初中生描红练字本 8年级 同步古诗文字帖(上册)

13.8元起

聚焦大概念的中物学单元教学设计

聚焦大概念的中物学单元教学设计

28.1元起

尼采全集(第4卷):查拉图斯特拉如是说(精装本)

尼采全集(第4卷):查拉图斯特拉如是说(精装本)

69.5元起

考试脑科学+怪诞脑科学 脑科学中的高效记忆法(京东套装2册)(图灵)

考试脑科学+怪诞脑科学 脑科学中的高效记忆法(京东套装2册)(图灵)

59.8元起

炎帝文化与中华文明(有关炎帝文化的开创性)

炎帝文化与中华文明(有关炎帝文化的开创性)

25.7元起
4评论

  • 精彩
  • 最新
  • 请问,计算机本科毕业生想吃机器学习这碗饭,现实吗?得费多大劲啊?

    校验提示文案

    提交
    我不知道,因为我是跨行过来的。不过你想学应该比我们简单很多,毕竟只需要补一补AI方面的书就行了,我们还要从基础课补起来。

    校验提示文案

    提交
    收起所有回复
  • 即使你对这些主题完全没有任何的先验知识,本章对于完成深度学习的研究项目来说已经足够,但我们还是建议你能够参考一些额外的资料,例如 Jaynes (2003>。
    直接抄书? [装大款]

    校验提示文案

    提交
  • 有个图写的不对,那不是贝叶斯公式,那是条件概率

    校验提示文案

    提交
提示信息

取消
确认
评论举报

相关好价推荐
查看更多好价

相关文章推荐

更多精彩文章
更多精彩文章
最新文章 热门文章
43
扫一下,分享更方便,购买更轻松