归档: 2017/11

L1与L2正则化

更小的权值,从某种意义上讲,表示网络的复杂度更低,对数据的拟合刚刚好(这个法则也叫作奥卡姆剃刀)简单理解就是,权重变小了,表示模型对每个参数样本的依赖性就不那么大了,就减小了过拟合; 另,可参考:https://morvanzhou.github.io/tutorials/machine-learning/ML-intro/3-09-l1l2regularization/ L1倾向于把一些参

先验分布、后延分布、极大似然估计

参考:https://www.zhihu.com/question/24261751 先验概率:实际中经验所得的概率; 后验概率:知果求因,即条件概率P(A|B) 极大似然估计:已知某事件发生,其概率应最大 用“瓜熟蒂落”这个因果例子,从概率(probability)的角度说一下,先验概率,就是常识、经验所透露出的“因”的概率,即瓜熟的概率。应该很清楚。后验概率,就是在知道“果”之后,去推测“