pumpkin-book icon indicating copy to clipboard operation
pumpkin-book copied to clipboard

【第1章绪论】待推导或待解析公式征集+答疑专区

Open Sm1les opened this issue 5 years ago • 24 comments

在这里,你可以: 1.评论留下西瓜书第1章你觉得需要补充推导细节或者解析的公式编号,我们看到后会尽快进行补充; 2.评论留下你对南瓜书第1章里相关内容的疑问,我们看到后会尽快进行答疑。

Sm1les avatar Jul 25 '19 02:07 Sm1les

你好, 公式1.1,训练集外误差怎么理解呢?那个公式是怎么来的,有这样的一个现成的公式吗,还是作者自己给出的?尤其是那两个求和符号如何理解呢 谢谢

SkyGra avatar Aug 27 '19 03:08 SkyGra

@SkyGra 同学你好,公式1.1计算的实际是误差的期望值,也就是在计算某个算法能学习出来的所有可能模型在训练集之外的所有样本上的误差的期望,第一个求和符号相当于在遍历这个算法能学习出来的所有可能模型,第二个求和符号就是在遍历训练集之外的所有样本,两个求和符号后面的式子表示的就是具体的模型在具体的样本上所产生的误差期望值。这个公式具体是作者提出的还是现有的这个我没有深究过,如果你有查到相关资料的话可以反馈一下 :)

Sm1les avatar Aug 28 '19 06:08 Sm1les

你好, 有一个计算过程不太理解: 书第5页,图1.1上方,为什么“色泽、根蒂、敲声分别有3,3,3种可能“ 可以推导出”面临的假设空间规模大小为4x4x4+1=65”?

kevinlemon avatar Sep 03 '19 00:09 kevinlemon

@kevinlemon 同学你好,我的理解是这样的,对于每个假设来说,色泽、根蒂、敲声这三个特征的取值是有3种确定值+任意值(*)共4种可能取值,所以假设空间的规模大小为4x4x4+1(空集)=65

Sm1les avatar Sep 03 '19 05:09 Sm1les

@Sm1les 好的,谢谢。最后的加1是空集啊,明白了

kevinlemon avatar Sep 03 '19 07:09 kevinlemon

谢谢您的解答,我也存在一个问题

计算真实目标函数的总量时,为什么用样本空间(\chi),难道不是训练集外的样本空间(\chi-X)吗

yuruotong1 avatar Oct 28 '19 03:10 yuruotong1

@yuruotong1 同学你好,能具体标注一下你说的是西瓜书的哪一页的哪一部分内容吗?

Sm1les avatar Oct 28 '19 03:10 Sm1les

@Sm1les 谢谢您,我貌似懂了,是绪论中的那个推导公式,样本空间的所有样本都应该有目标函数和假设,所以范围是|\chi|而不是\chi-X!

yuruotong1 avatar Oct 28 '19 04:10 yuruotong1

请教大家一下,公式1.1中的P(x)代表什么呢?

hehuakun avatar Nov 25 '19 09:11 hehuakun

请教大家一下,公式1.1中的P(x)代表什么呢?

就是指样本空间X(那个长得奇奇怪怪的X)中该样本(粗体x)出现的概率呀。

zezhishao avatar Nov 25 '19 09:11 zezhishao

能否举例说明下1.1这个公式的意义,概率论没学好,感觉很难理解啊。比如为啥P(x)*h出现的概率就是误差呢?

hehuakun avatar Nov 25 '19 10:11 hehuakun

能否举例说明下1.1这个公式的意义,概率论没学好,感觉很难理解啊。比如为啥P(x)*h出现的概率就是误差呢?

不知你说的是不是这个公式: image 并不是P(x)*h呀?

zezhishao avatar Nov 25 '19 10:11 zezhishao

就是这个公式,加和符号后面的三部分乘积为啥是误差呢?

hehuakun avatar Nov 25 '19 10:11 hehuakun

能否举例说明下1.1这个公式的意义,概率论没学好,感觉很难理解啊。比如为啥P(x)*h出现的概率就是误差呢?

对于一个训练集,他可能会生出不同的模型h,每个模型都有自己的被“生出来”概率(最后一个P)。在该模型下,去测试一下不在训练集内的数据x(前面要乘以每一个x的出现概率P)。假如判准了,中间那一项就是0,否则就是1,会产生误差。

最坏的情况,假设所有的训练集外的数据都判错了,那么这个概率就是“1”,也就是100%错误(泛化能力为0)。

zezhishao avatar Nov 25 '19 10:11 zezhishao

感谢,看了后面习题,此处的性能度量是错误率而非误差,这是一个分类问题而不是回归问题,我一直当做了回归问题来处理,再次感谢耐心的指导!

hehuakun avatar Nov 26 '19 03:11 hehuakun

谢谢您的解答

dengxinglin avatar May 21 '20 12:05 dengxinglin

大家好,为什么书里面说表1.1训练集所对应的版本空间是图1.2所示,

JIANFANGLIU avatar Aug 27 '20 06:08 JIANFANGLIU

大家好,为什么书里面说表1.1训练集所对应的版本空间是图1.2所示,

1.1的示例中有两个好瓜,分别是1.(色泽:青绿; 根蒂:蜷缩; 敲声:浊响);2.(色泽:乌黑; 根蒂:蜷缩; 敲声:浊响)。根据假设空间,图1.2下面的假设符合上述两个好瓜,然后将敲声改为通配符(但仍包含浊响)或将根蒂改为通配符(仍包含蜷缩),就得到图1.2上面两个假设。最后三个假设都能符合表1.1里的好瓜,但如果三个特征都是通配符,那就包含了表1.1里的两个“坏瓜”。

yang9832 avatar Jun 22 '22 09:06 yang9832

您好^^!请问公式(1.2)中第二步到第三步,既是计算训练集外(X-X)误差,为何为2^|X|而不是2^|X-X|呢? image

Aikoin avatar Sep 06 '22 02:09 Aikoin

这是来自QQ邮箱的假期自动回复邮件。您好,我最近正在休假中,无法亲自回复您的邮件。我将在假期结束后,尽快给您回复。

bghfcd19900 avatar Sep 06 '22 02:09 bghfcd19900

您好!请问本书课后习题有没有较为官方的解答呢?想请教一下习题1.2的思路,有点想不出来T^T

Aikoin avatar Sep 06 '22 07:09 Aikoin

@Aikoin 同学你好,暂时还没有,但是在我们的计划中,但是可能还得鸽一段时间,目前正在加紧赶2.0版本的南瓜书•﹏•

Sm1les avatar Sep 13 '22 16:09 Sm1les

@Aikoin 同学你好,暂时还没有,但是在我们的计划中,但是可能还得鸽一段时间,目前正在加紧赶2.0版本的南瓜书•﹏•

耶!感谢~辛苦啦!(๑˙ー˙๑)/♡

Aikoin avatar Sep 17 '22 11:09 Aikoin

https://github.com/datawhalechina/pumpkin-book/issues/60#issuecomment-1237598637

对于这个式子我也有同样的疑问,该式子是南瓜书第一章第4页“没有免费午餐定理”的简单证明里面的。 对于前面的评论中所解释的“样本空间的所有样本都应该有目标函数和假设”我有些疑惑,$f$ 难道不需要在数据集上是正确的吗?

Burgerd4sh avatar Mar 12 '23 08:03 Burgerd4sh