task2 【南瓜书ML】线性模型的数学推导(最小二乘估计、广义瑞利商、极大似

学习总结
文章目录二、线性回归 2.2 线性回归的推广
一、模型部分 1.0 线性回归基本形式
回归这个概念是19世纪80年代由英国统计学家郎西斯.高尔顿在研究父子身高关系提出来的,他发现:在同一族群中,子代的平均身高介于父代的身高以及族群的平均身高之间 。具体而言,高个子父亲的儿子的身高有低于其父亲身高的趋势,而矮个子父亲的儿子身高则有高于父亲的身高的趋势 。也就是说,子代的身高有向族群平均身高"平均"的趋势,这就是统计学上"回归"的最初含义 。
回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(特征)之间的关系 。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系 。通常使用曲线/线来拟合数据点,目标是使曲线到数据点的距离差异最小 。而线性回归就是回归问题中的一种,线性回归假设目标值与特征之间线性相关,即满足一个多元一次方程 。通过构建损失函数,来求解损失函数最小时的参数w :
假设:
假设X和Y之间存在线性关系,模型的向量形式为 y ^ = f ( w ) = w T x \hat{y}=f(w) =w^Tx y^?=f(w)=wTx,即 f ( x ) = f(x)= f(x)=w 1 x 1 + w 2 x 2 + ? + w d x d + b w_{1} x_{1}+w_{2} x_{2}+\cdot+w_{d} x_{d}+b w1?x1?+w2?x2?+?+wd?xd?+b 。
更强大的非线性结构是引入层级结构或者高级映射获得的 。
回归任务中最常用的性能度量:均方误差:
( w ? , b ? ) = arg ? min ? ( w , b ) ∑ i = 1 m ( f ( x i ) ? y i ) 2 = arg ? min ? ( w , b ) ∑ i = 1 m ( y i ? w x i ? b ) 2 . \begin{} \left(w^{*}, b^{*}\right) &=\{(w, b)}{\arg \min } \sum_{i=1}^{m}\left(f\left(x_{i}\right)-y_{i}\right)^{2} \\ &=\{(w, b)}{\arg \min } \sum_{i=1}^{m}\left(y_{i}-w x_{i}-b\right)^{2} . \end{} (w?,b?)?=(w,b)?i=1∑m?(f(xi?)?yi?)2=(w,b)?i=1∑m?(yi??wxi??b)2.?上面式子分别对w、b进行求导,等于0,找到最优的闭式解(解析解) 。
【基础复习】
(1)求偏微分or积分式,按照求解方法的不同,分为解析解、数值解:
数值解( )是采用某种计算方法,如有限元的方法, 数值逼近,插值的方法, 得到的解.别人只能利用数值计算的结果, 而不能随意给出自变量并求出计算值.
(2)极大似然估计
1.1 对数几率回归(逻辑回归)
(1)对数几率回归算法的机?学习三要素:
模型:线性模型,输出值的范围为[0, 1],近似阶跃的单调可微函数
策略:极大似然估计 + 信息论
算法:梯度下降,牛顿法
对数几率函数就是函数,是凸函数,即任意阶可导,方便寻找最优解 。通过引入S型的对数几率函数: y = 1 1 + e ? z y=\dfrac{1}{1+e^{-z}} y=1+e?z1?该激活函数作用是因此引入非线性,则有多种选择 。其中y y y 是将样本看作为正例的概率 。
在深度学习中类似函数的激活函数还有很多,比如:
(1)ReLU函数的线性特点使得其收敛速度比、tanh更快,而且没有梯度饱和的情况出现 。
(2)计算更加高效,相比于、tanh函数,ReLU只需要一个阈值就可以得到激活值,不需要对输入归一化来防止达到饱和 。
(2)对数几率回归的思路:使用最大似然估计的方法来计算出w w w 和b b b 两个参数的取值ln ? p ( y = 1 ∣ x ) p ( y = 0 ∣ x ) = w T x + b \ln \dfrac{p(y=1 \mid x)}{p(y=0 \mid x)}=w^{T} x+b lnp(y=0∣x)p(y=1∣x)?=wTx+b
p ( y = 1 ∣ x ) = 1 ? p ( y = 0 ∣ x ) \begin{} p(y=1 \mid x)=1-p(y=0 \mid x) \end{} p(y=1∣x)=1?p(y=0∣x)?
(3)逻辑回归即线性回归+函数,是最基础也是最重要的模型:
通过逻辑回归能演化出很多模型:
1.2 线性判别分析(LDA)
(1)LDA思想:把一类点投影到同一条直线上,相似的点在尽可能接近,不相似的点(样例)就尽可能的远 。对新样本进行分类时,投影到同一条直线上,根据投影点的位置确定新样本的类别 。