Coursera Machine Learning 一元线性回归和梯度下降

文章目录
  1. 1. 监督学习
    1. 1.1. 回归 (Regression)
    2. 1.2. 分类 (Classification)
  2. 2. 无监督学习
    1. 2.1. 聚类 (clustering)
  3. 3. 模型表示
  4. 4. 损失函数
  5. 5. 梯度下降

监督学习

有监督学习,即从标签化的数据中进行训练学习。

In supervised learning, we are given a data set and already know what our correct output should look like, having the idea that there is a relationship between the input and the output.

回归 (Regression)

预测的值一般为连续的

预测房价

分类 (Classification)

预测的值一般为离散的

预测是否患有肿瘤

无监督学习

无监督学习,即数据中不含有标签,一般用于聚类,相似的数据将聚合形成一个个的簇。

Unsupervised learning allows us to approach problems with little or no idea what our results should look like. We can derive structure from data where we don’t necessarily know the effect of the variables.

聚类 (clustering)

聚类

模型表示

  • $x$ : 输入

  • $y$ : 输出

  • $m$ : 训练集大小

  • $(x^{(i)}, y^{(i)})$ : 训练集中第$i$个数据

  • $function \ h:\ X → Y$ : 预测的函数,也叫hypothesis

    Model Representation

损失函数

损失函数,用来评价模型的预测值与真实值的不一致程度,它是一个非负实值函数。损失函数越小,模型的性能就越好。

Squared error function:

除以$m$可以排除训练集大小带来的影响,除以2是方便后面梯度下降求导数时约掉!

损失函数的目标

特别需要注意的是,下面右边的叫轮廓图,在同一个”圆圈”上的参数,其$J$值是一样的!
h函数和J函数的示意图

梯度下降

梯度下降,用来求解满足Goal的参数$\theta_0$, $\theta_1$

  • $\alpha$ (learning rate): 学习率,过小会导致下降太慢,过大可能导致结果不收敛
  • 算法中$\theta_0$, $\theta_1$需要同时更新!

梯度下降算法

特别的,对于一元线性回归模型,有

而且对于线性模型的$J$函数,它的形状类似“碗状”,只有全局最小值,因此从任意一点开始,梯度下降算法一定能够找到全局最小值!

分享到 评论