task2 【南瓜书ML】线性模型的数学推导(最小二乘估计、广义瑞利商、极大似( 二 )


(2)LDA算法步骤:
给定数据集D = { ( x i , y i ) } i = 1 m , y i ∈ { 0 , 1 } D=\left\{\left(x_{i}, y_{i}\right)\right\}_{i=1}^{m}, y_{i} \in\{0,1\} D={(xi?,yi?)}i=1m?,yi?∈{0,1},令X i , μ i , Σ i X_{i}, \mu_{i}, \{i} Xi?,μi?,Σi? 分别表示第i ∈ i \in i∈{ 0 , 1 } \{0,1\} {0,1} 类示例的集合、均值向量、协方差矩阵 。若将数据投影到直线w w w 上,则两类样本的中心在直线上的投影分别为w T μ 0 w^{T} \mu_{0} wTμ0? 和w T μ 1 w^{T} \mu_{1} wTμ1? ;若将所有样本点都投影到直线上,则两类样本的协方差分别为w T Σ 0 w w^{T} \{0} w wTΣ0?w 和w T Σ 1 w。w^{T} \{1} w_{\text { 。}} wTΣ1?w 。?使得各类的协方差之和尽可能小,不同类之间中心的距离尽可能大 。计算类内散度矩阵:
S w = Σ 0 + Σ 1 = ∑ x ∈ X 0 ( x ? μ 0 ) ( x ? μ 0 ) T + ∑ x ∈ X 1 ( x ? μ 1 ) ( x ? μ 1 ) T \begin{} S_{w} &=\{0}+\{1} \\ &=\sum_{x \in X_{0}}\left(x-\mu_{0}\right)\left(x-\mu_{0}\right)^{T}+\sum_{x \in X_{1}}\left(x-\mu_{1}\right)\left(x-\mu_{1}\right)^{T} \end{} Sw??=Σ0?+Σ1?=x∈X0?∑?(x?μ0?)(x?μ0?)T+x∈X1?∑?(x?μ1?)(x?μ1?)T?计算类间散度矩阵:
S b = ( μ 0 ? μ 1 ) ( μ 0 ? μ 1 ) T S_{b}=\left(\mu_{0}-\mu_{1}\right)\left(\mu_{0}-\mu_{1}\right)^{T} Sb?=(μ0??μ1?)(μ0??μ1?)T计算LDA最大化的目标函数,即广义瑞利商():
J = w T S b w w T S w w J=\frac{w^{T} S_{b} w}{w^{T} S_{w} w} J=wTSw?wwTSb?w? W W W 的闭式解是S w ? 1 S b S_{w}^{-1} S_{b} Sw?1?Sb? 的N ? 1 N-1 N?1 个最大广义特征值所对应的特征向量组成的矩阵
(3)【基础知识——广义瑞利商】
1)瑞利商是指这样的函数R ( A , x ) R(A, x) R(A,x) :
R ( A , x ) = x H A x x H x R(A, x)=\frac{x^{H} A x}{x^{H} x} R(A,x)=?
2)广义瑞利商: R ( A , B , x ) R(A, B, x) R(A,B,x):
R ( A , x ) = x H A x x H B x R(A, x)=\frac{x^{H} A x}{x^{H} B x} R(A,x)=?
1.3 多分类学习
1.4 类别不平衡问题
分类问题中,当正负样本数量相差较大时(即类别不平衡) 。
y ′ 1 ? y ′ = y 1 ? y × m ? m + = y 1 ? y × cost ? ( + > ? ) cost ? ( ? > + ) \frac{y^{\prime}}{1-y^{\prime}}=\frac{y}{1-y} \times \frac{m^{-}}{m^{+}}=\frac{y}{1-y} \times \frac{\{cost}(+>-)}{\{cost}(->+)} 1?y′y′?=1?yy?×m+m??=1?yy?×cost(?>+)cost(+>?)?
二、线性回归 2.1 线性回归模型 ( a ) 最小二乘估计:
可以先复习上个task的矩阵的矩阵的范数概念:
我们需要衡量真实值 y i y_i yi?与线性回归模型的预测值 w T x i w^Tx_i wTxi?之间的差距,在这里我们和使用二范数的平方和L(w)来描述这种差距,即:
L ( w ) = ∑ i = 1 N ∣ ∣ w T x i ? y i ∣ ∣ 2 2 = ∑ i = 1 N ( w T x i ? y i ) 2 = ( w T X T ? Y T ) ( w T X T ? Y T ) T = w T X T X w ? 2 w T X T Y + Y Y T 因此,我们需要找到使得 L ( w ) 最小时对应的参数 w,即: w ^ = a r g m i n L ( w ) 为了达到求解最小化 L ( w ) 问题,我们应用高等数学的知识,使用求导来解决这个问题: ? L ( w ) ? w = 2 X T X w ? 2 X T Y = 0 , 因此: w ^ = ( X T X ) ? 1 X T Y L(w) = \sum\{i=1}^{N}||w^Tx_i-y_i||_2^2=\sum\{i=1}^{N}(w^Tx_i-y_i)^2 = (w^TX^T-Y^T)(w^TX^T-Y^T)^T = w^TX^TXw - 2w^TX^TY+YY^T\\ 因此,我们需要找到使得L(w)最小时对应的参数w,即:\\ \hat{w} = \;L(w)\\ 为了达到求解最小化L(w)问题,我们应用高等数学的知识,使用求导来解决这个问题: \\ \frac{\ L(w)}{\ w} = 2X^TXw-2X^TY = 0,因此: \\ \hat{w} = (X^TX)^{-1}X^TY L(w)=i=1∑N?∣∣wTxi??yi?∣∣22?=i=1∑N?(wTxi??yi?)2=(wTXT?YT)(wTXT?YT)T=?+YYT因此,我们需要找到使得L(w)最小时对应的参数w,即:w^=(w)为了达到求解最小化L(w)问题,我们应用高等数学的知识,使用求导来解决这个问题:?w?L(w)?=2XTXw?2XTY=0,因此:w^=(XTX)?1XTY
( b ) 几何解释:
在线性代数中,我们知道两个向量a和b相互垂直可以得出: < a , b > = a . b = a T b = 0= a.b = a^Tb = 0 =a.b=aTb=0,而平面X的法向量为Y-Xw,与平面X互相垂直,因此: X T ( Y ? X w ) = 0 X^T(Y-Xw) = 0 XT(Y?Xw)=0,即: w = ( X T X ) ? 1 X T Y w = (X^TX)^{-1}X^TY w=(XTX)?1XTY