听课笔记:《机器学习》(NTU-Coursera)

马孔多
来自: 马孔多 (Cupertino) 2013-12-27创建   2014-01-07更新

13人
176 人关注
来自:豆瓣日记
马孔多 5人喜欢
1,正规化:Regularization 发生overfitting 的一个重要原因可能是假设过于复杂了,我们希望在假设上做出让步,用稍简单的模型来学习,避免overfitting。例如,原来的假设空间是10次曲线,很容易对数据过拟合;我们希望它变得简单些,比如w 向量只保持三个分量(其他...
来自:豆瓣日记
马孔多 14人喜欢
1,什么是过拟合(overfitting) 简单的说就是这样一种学习现象:Ein 很小,Eout 却很大。 而Ein 和 Eout 都很大的情况叫做 underfitting。 这是机器学习中两种常见的问题。 上图中,竖直的虚线左侧是"underfitting", 左侧是"overfitting”。 发生overfitting 的主要原...
来自:豆瓣日记
马孔多 2人喜欢
前面的分析都是基于“线性假设“,它的优点是实际中简单有效,而且理论上有VC 维的保证;然而,面对线性不可分的数据时(实际中也有许多这样的例子),线性方法不那么有效。 1,二次假设 对于下面的例子,线性假设显然不奏效: 我们可以看出,二次曲线(比如圆)可以...
来自:豆瓣日记
马孔多 3人喜欢
在上一讲中,我们了解到线性回归和逻辑斯蒂回归一定程度上都可以用于线性二值分类,因为它们对应的错误衡量(square error, cross-entropy) 都是“0/1 error” 的上界。 1, 三个模型的比较 1.1 分析Error Function 本质上讲,线性分类(感知机)、线性回归、逻辑斯蒂...
来自:豆瓣日记
马孔多 10人喜欢
上一讲是关于线性回归,重点是求解w 的解析方案(通过pseudo-inverse 求解w)。 这一讲关注另一个很重要的方法,逻辑斯蒂回归(logistic regression)。 林轩田对逻辑斯蒂回归的解释思路和Andrew Ng 还是有明显区别的,都十分有助于我们的理解;但要深究其数学意义,还要...
评语:逻辑斯蒂回归
回复
来自:豆瓣日记
马孔多 6人喜欢
1, 线性回归问题 例如,信用卡额度预测问题:特征是用户的信息(年龄,性别,年薪,当前债务,...),我们要预测可以给该客户多大的信用额度。 这样的问题就是回归问题。 目标值y 是实数空间R。 线性回归假设: 线性回归假设的思想是:寻找这样的直线/平面/超平面,...
来自:豆瓣日记
马孔多 2人喜欢
当我们面对的问题不是完美的(无噪音)二值分类问题,VC 理论还有效吗? 1,噪音和非确定性目标 几种错误:(1) noise in y: mislabeled data; (2) noise in y: different labels for same x; (3) noise in x: error x. 将包含噪音的y 看作是概率分布的,y ~ P(y|x)。...
来自:豆瓣日记
马孔多 11人喜欢
上一讲的最后得到了VC bound,这一讲对VC维理论进行理解,这是机器学习(最)重要的理论基础。 我们先对前面得到的生长函数和VC bound 做一点小的修改。 1,VC 维的定义 VC Demension: 对于假设空间H,满足生长函数m(N) = 2^N 的最大的N, 记为dvc(H). 可知,dvc(H) ...
来自:豆瓣日记
马孔多 3人喜欢
上一讲重点是一些分析机器学习可行性的重要思想和概念,尤其是生长函数(growth function) 和突破点(break point) 的理解。 这一讲开篇再介绍一个界函数(bounding function)的概念:是指当(最小)突破点为k 时,生长函数m(N) 可能的最大值,记为B(N, k)。 显然,当...
来自:豆瓣日记
马孔多 3人喜欢
看起来还不错。 https://class.coursera.org/ntumlone-001/
来自:豆瓣日记
马孔多 1人喜欢
Training versus Testing 1,回顾:学习的可行性? 最重要的是公式: (1) 假设空间H有限(M),且训练数据足够大,则可以保证测试错误率Eout 约等于训练错误率Ein; (2)如果能得到Ein 接近于零,根据(1),Eout 趋向于零。 以上两条保证的学习的可能性。 可知,...
来自:豆瓣日记
马孔多 3人喜欢
打算将每次作业涉及的编程任务整理出来;主要利用python、numpy 实现。 代码放在github 上。 第一次作业第15-20 题涉及到编程内容,主要是简单的感知机算法和random pocket 感知机算法。 实现流程讲义里介绍的很清楚。 1, naive perceptron learning algorithm 解决...
来自:豆瓣日记
马孔多 1人喜欢
课程地址:https://class.coursera.org/ntumlone-001/class 为了方便大家下载学习,我在百度网盘备份了讲义和作业需要的data。 下载地址:讲义和数据下载 不是剽窃,所有权依然归台大所有 :-)
来自:豆瓣日记
马孔多 4人喜欢
机器学习的可行性分析。 一, 第一条准则: 没有免费的午餐!(no free lunch !) 给一堆数据D, 如果任何未知的f (即建立在数据D上的规则)都是有可能的,那么从这里做出有意义的推理是不可能的!! doomed !! 如下面这个问题无解(或者勉强说没有唯一解): 下面这...
来自:豆瓣日记
马孔多 7人喜欢
机器学习方法的分类学,通过不同的分类标准来讨论。 一,根据输出空间来分类。 1, 分类(classification) 1.1 二值分类 (binary classification):输出为 {+1, -1}。 1.2 多值分类 (multiclass classification):输出为有限个类别,{1, 2, 3, ... , K} 2, 回归(reg...
来自:豆瓣日记
马孔多 16人喜欢
Learning to Answer Yes/No (二值分类) 一, Perceptron x = (x1, x2, ..., xd) ---- features w = (w1, w2, ..., wd) ---- 未知(待求解)的权重 对于银行是否发送信用卡问题: perceptron 假设: sign 是取符号函数, sign(x) = 1 if x>0, -1 otherwise 向量...
来自:豆瓣日记
马孔多 17人喜欢
课程地址:https://class.coursera.org/ntumlone-001/class 讲义及视频:链接: https://pan.baidu.com/s/1pLHWfDT 密码: kzey 一,什么事机器学习? 使用Machine Learning 方法的关键: 1, 存在有待学习的“隐含模式” 2, 该模式不容易准确定义(直接通过程序实现...

什么是豆列  · · · · · ·

豆列是收集好东西的工具。

在网上看到喜欢的,无论它是否来自豆瓣,都可以收到你自己的豆列里,方便以后找到。

你还可以关注感兴趣的豆列,看看其他人收集的好东西。

这个豆列的标签  · · · · · ·

马孔多的其它豆列  · · · · · ·  ( 全部 )