lg21c
lg21c
Why does the F5 run get stuck when I set “remove all variables before execution”?  I have to click the “remove all variables ” button in the console ...
书写得很全面细致,关于detach,请教:网上很多地方都没有讲清楚detach,特别是将其值改变了之会怎么样,例如: https://zhuanlan.zhihu.com/p/505445223 中的第一段代码,但是如果将其中“a = a0.tanh()”改为“a = a0.sin()”,如下,就可以正常运行了--没有报错,why?我的版本是2.3.0+cu121 import torch a0 = torch.tensor([1.1, 2.2, 3.3], requires_grad = True) a = a0.sin() print('a=',a) print('a.requires_grad=',a.requires_grad) a_detach = a.detach() print('a_detach=',a_detach) print('a_detach.requires_grad=', a_detach.requires_grad) a_detach.zero_() print('a_detach=',a_detach)...
“2-3,动态计算图.ipynb”讲到“求导链式法则衍生的梯度累加规则”,不太明白,请解释 我也一直在思考pytorch为何默认是梯度累加,一种解释是“梯度累加的思想很简单,就是时间换空间。具体而言,我们不在每个 batch data 梯度计算后直接更新模型,而是多算几个 batch 后,使用这些 batch 的平均梯度更新模型” https://blog.csdn.net/wxc971231/article/details/139177793
课件做的很好,但是文件编排似乎有些乱,顺序依据是?比如前边讲了应用层面的了,后边又讲基础 
library(prospectr) size=100 d
 对照:  为何要称之为“向量拼接”?就是向量的线性运算
门控循环单元 (GRU) 网络与LSTM比较,各有什么优缺点? 6.6.3中讲到:  似乎GRU改正了LSTM的缺点,那么GRU可以替代LSTM吗?
可否讲讲LSTM网络构建的必然性?LSTM为何要构建成这种形式?其中肯定有必然性,绝非偶然 
 与6.7式比较: 
希望书中能讲讲深度学习的数据量可以小于参数个数的问题 1、是这样吗? 2、为何可以这样