归档: 2017

L1与L2正则化

更小的权值,从某种意义上讲,表示网络的复杂度更低,对数据的拟合刚刚好(这个法则也叫作奥卡姆剃刀)简单理解就是,权重变小了,表示模型对每个参数样本的依赖性就不那么大了,就减小了过拟合; 另,可参考:https://morvanzhou.github.io/tutorials/machine-learning/ML-intro/3-09-l1l2regularization/ L1倾向于把一些参

先验分布、后延分布、极大似然估计

参考:https://www.zhihu.com/question/24261751 先验概率:实际中经验所得的概率; 后验概率:知果求因,即条件概率P(A|B) 极大似然估计:已知某事件发生,其概率应最大 用“瓜熟蒂落”这个因果例子,从概率(probability)的角度说一下,先验概率,就是常识、经验所透露出的“因”的概率,即瓜熟的概率。应该很清楚。后验概率,就是在知道“果”之后,去推测“

softmax与交叉熵

熵是不确定性的一种度量。 简单易懂的解释:比如你去跟朋友商量,扔一个硬币,如果正面就去你喜欢的店吃饭,如果反面就去他喜欢的店吃饭。这时候你特别想去你喜欢的店,于是悄悄在硬币上做了手脚,让每次扔都是正面朝上。是不是去哪里吃饭这件事就是确定的,不随机的。这时候,熵是最小的。 Softmax是logistic regression的的多分类推广(有兴趣可参考:https://blog.csdn.net/

loss函数

参考:http://kubicode.me/2016/04/11/Machine%20Learning/Say-About-Loss-Function/

网络设计的经验借鉴

激活函数 目的:将卷积后的结果压缩到某一个固定的范围,保证数值范围可。控 缺点 训练的时候很容易就die了,即出现non; 技巧:设置learning rate,不要让网络训练过程中出现很多dead神经元; 对比Inception v3,v4和Inception-ResNet 提升网络宽度时,没有必要设计很多分支,可以通过1*1拉伸网络宽度,有利于网络参数更少(参数变少其实是辩证地实现了网络正则

9-条件循环与控制

if语句if语句的关键字为:if – elif – else 每个条件后面要使用冒号 : if的嵌套 循环while 循环使用 else 语句在 while … else 在条件语句为 false 时执行 else 的语句块 123456count = 0while count < 5: print (count, " 小于 5") count &#

8-集合

创建set集合(set)是一个无序不重复元素的序列。 可以使用大括号 { } 或者 set() 函数创建集合,注意:创建一个空集合必须用 set() 而不是 { },因为 { } 是用来创建一个空字典。 ==用set()创建时,是2个括号== 1thisset = set(("Google", "Runoob", "Taobao"

7-字典

字典键的特性字典值可以是任何的 python 对象,既可以是标准的对象,也可以是用户定义的,但键不行。 两个重要的点需要记住: 1)==不允许同一个键出现两次==。创建时如果同一个键被赋值两次,后一个值会被记住 2)==键必须不可变==,所以可以==用数字,字符串或元组==充当,而用列表就不行 创建用{}花括号 12345dict1 = {'Alice': &#