《机器学习》完整版系列第12章计算学习理论——12 _三角

本章是机器学习的理论指导，并不涉及具体的算法，而是为算法提供理论依据。本章涉及的概念较多，考虑到大多数读者不是从事理论研究，故我们在这里把一些概念具象化以帮助大家理解（当然会牺牲一些严谨性）。而对于从事理论研究的同学，可以此理解作为基础，再进行修正、补充严谨性即可。
把二分类问题视为概念学习问题，让概念类 C \{C} C独立于具体的样例集 D D D而存在，讨论假设空间 H \{H} H与概念类 C \{C} C的关系。
1、假设 h h h与概念 c c c的适配：相等、近似相等以及几乎近似相等。
2、假设空间 H \{H} H对概念 c c c的覆盖情况：覆盖、近似覆盖以及几乎近似覆盖。
3、假设空间 H \{H} H对概念类 C \{C} C的覆盖情况：覆盖、近似覆盖以及几乎近似覆盖。
概念类与假设空间的关系
【《机器学习》完整版系列第12章计算学习理论——12】样本个体 x \{x} x组成的集合为 X \{X} X（这里可设 X \{X} X中的样本不重复，样本个体 x \{x} x呈现的“重复度”以概率分布 D \{D} D来描述），即以 ( X , D ) (\{X},\{D}) (X,D)描述样本空间，则在 ( X , D ) (\{X},\{D}) (X,D)中采样得到样本集： D = { x i } i = 1 m D=\{\{x}_i\}_{i=1}^m D={xi?}i=1m?，其中，可能有大量的重复样本，但编号（下标）不同。若剔除重复样本，则要加上概率分布（或频度分布），即 D = ( D ′ , D ) D=(D',\{D}) D=(D′,D)，其中，D ′ D' D′为没有重复样本的样本集。对样本集 D D D中的样本配上它的标记，形成样例集，为方便仍用 D D D表示样例集，即由上下文确定 D D D表示样本集还是样例集。
概念的“是”与“否”产生一个二分类问题（本章无特殊说明时，均指二分类），其中，肯定的回答产生样本空间 X \{X} X的一个子集，可视为其概念的外延，如，“三角形中是否有一个角为直角”，回答“是”的三角形组成一个集合（它为三角形集合的子集），这样就形成了“直角三角形”的概念:
内涵：有一个角为直角的三角形为直角三角形（定义方式通常是：最邻近的“种”加“属差”，如，直角三角形 = = =“三角形” + + +“有一个角为直角”）。
外延：所有的直角三角形。
综上，具有某共同特征的一个子集，一方面反映一个概念，另一方面就是某二分类问题的一个分类，综合二者：即概念 c c c表示 X \{X} X到 Y \{Y} Y的映射（ y = c ( x ) y=c(\{x}) y=c(x)），其中，Y \{Y} Y为二值，如 y ∈ { ? 1 , 1 } y \in \{-1,1\} y∈{?1,1}（如无特殊说明，本章取二分类的标记为 { ? 1 , + 1 } \{-1,+1\} {?1,+1}，其中，正例的标记为 + 1 +1 +1）或 y ∈ { 0 , 1 } y \in \{0,1\} y∈{0,1}，显然，由概念产生的二分类中没有矛盾样例。
X \{X} X到 Y \{Y} Y的任一映射，都可以定义一个概念 c c c，体现 y = c ( x ) y=c(\{x}) y=c(x) 。这样，基于 X \{X} X就可以定义无穷多概念（当 X \{X} X有无穷多个样本时），如，X \{X} X为“全体三角形”，在其上进行二分类：直角三角形 ∪ 非直角三角形 \text{直角三角形}\cup \text{非直角三角形} 直角三角形∪非直角三角形、至少有一个角为45度的三角形 ∪ 没有角为45度的三角形 \text{至少有一个角为45度的三角形}\cup \text{没有角为45度的三角形} 至少有一个角为45度的三角形∪没有角为45度的三角形、等腰三角形 ∪ 非等腰三角形 \text{等腰三角形}\cup \text{非等腰三角形} 等腰三角形∪非等腰三角形、 ? ? \cdots \cdots ??，每一个分类的正例集即是一个概念。在这些概念中，有的概念人们取了名字（如，直角三角形），有的没有取名字（如，非等腰但有直角的三角形）。
现在把二分类问题视为概念学习问题，即原来的任务：“你参考这个样例集 D D D，把 X \{X} X进行二分类”，变为任务：“你参考这个样例集 D D D
，在 X \{X} X上定义一个反映正例的概念 c c c” 。
从“符合（或近似符合、尽可能地符合）给定的样例集 D D D”这一要求出发，可能得到不只一个概念，例如，样例集 D D D的正例为“等腰直角三角形”，反例集中没有“等腰三角形”也没有“直角三角形”，你可能只观察到样例集 D D D中全是“直角三角形”，因此你定义样例集 D D D为概念： c 1 = c_1= c1?=“直角三角形”；他可能只观察到样例集 D D D中全是“等腰三角形”，因此他定义样例集 D D D为概念： c 2 = c_2= c2?=“等腰三角形”；还有人可能观察到样例集 D D D中全是“直角三角形且等腰三角形”，因此他可定义样例集 D D D为概念： c 3 = c_3= c3?=“等腰直角三角形”，那么，这些概念就都是目标概念（想起“盲人摸象”的故事没有？），目标概念的全体形成一个集合，称为概念类，记为 C \{C} C，目标概念 c ∈ C c\in \{C} c∈C形成 X \{X} X到 Y \{Y} Y的映射，且在样例集中有 c ( x ) = y c(\{x})=y c(x)=y，如图12.1 所示。
图12.1 目标概念
当然，你不知道 C \{C} C中具体是些什么（否则不用学习了），你把这个新的任务交给算法 L \{L} L，它学习的目的就是寻找目标概念，L \{L} L在样例集 D D D的约束（或称监督）下，找到了自认为的“目标概念”（人们称其为假设） h h h，当然，从算法 L \{L} L的能力上讲，它可以找到很多假设 h h h，这是由于设置算法不同的“超参”、不同的初始化、不同的终止条件等。假定算法 L \{L} L尽其所能找出所有的基于样例集 D D D的假设，形成假设空间 H D \{H}_D HD? 。现在有两个集：真正的目标概念组成的概念类 C \{C} C和算法 L \{L} L自认为的“目标概念”形成的假设空间 H D \{H}_D HD? 。
若 c ∈ H D c\in \{H}_D c∈HD?，则 H D \{H}_D HD?中存在假设（至少有 c c c）在样例集 D D D上产生一致性的二分类，称该问题对学习算法 L \{L} L是“可分的”，亦称“一致的”，如图12.2 （ c ∈ H D c\in \{H}_D c∈HD?）所示。
图12.2
下面设 c ? H D c \notin \{H}_D c∈/HD?，如图12.3 （ c ? H D c\notin \{H}_D c∈/HD?）所示。
图12.3
但图12.3隔得太开了，我们依靠想像研究具有某种“接近”的情况，例如，设想一下：当 H \{H} H为一个开区域，而 c c c为边界上的一点，则 c c c虽然不属于 H \{H} H，但离 H \{H} H中的点要多近有多近。
从概率角度，现实中的样本空间 X \{X} X，常常带有一个真实的分布 D \{D} D，例如，现实中“学生画的三角形”，包含两个方面：一是不同三个角形各一个样本形成的样本空间 X \{X} X，二是基于学生的喜好选择，形成的分布 D \{D} D，如，像“针尖细的角”的三角形就非常罕见，对它属于什么三角形的判断是否正确就可以忽略。也就是说在进行度量时要考虑分布 D \{D} D 。
基于概率角度（考虑分布 D \{D} D），【西瓜书式(12.1)(12.2)】定义了二分类上的假设 h h h的泛化误差和经验误差，有两种误差度量：一是泛化误差【西瓜书式(12.1)】，它是随机采样“一个样本”的度量（的数学期望），是概率意义下的；二是经验误差【西瓜书式(12.2)】，它是对数据集 D D D上“所有样本”的误差求平均值，即转化为“一个样本”的度量（均值）。
定义误差函数
e ( h , x ) = { 0 , 若 h ( x ) = c ( x ) 1 , 若 h ( x ) ≠ c ( x ) \begin{align*} e(h,\{x}) = \begin{cases} 0,\quad \text{\text{若}$h(\{x})= c(\{x}$}) \\ 1,\quad \text{\text{若}$h(\{x})\neq c(\{x}$}) \\ \end{cases} %\tacg{eq:c12-01a1} \end{align*} e(h,x)={0,若h(x)=c(x)1,若h(x)=c(x)??
E ( h ) = E x ～ D ( e ( h , x ) ) = P x ～ D ( h ( x ) ≠ c ( x ) ) × 1 + P x ～ D ( h ( x ) = c ( x ) ) × 0 = P x ～ D ( h ( x ) ≠ c ( x ) ) \begin{align*} E(h)= & \{\{E}}\{\{x}\sim \{D} } (e(h,\{x}))\notag \\ = & P_{\{x}\sim \{D} }(h(\{x})\neq c(\{x}))\times 1+ P_{\{x}\sim \{D} }(h(\{x})= c(\{x}))\times 0\notag \\ = & P_{\{x}\sim \{D} }(h(\{x})\neq c(\{x})) %\tcag{eq:c12-01a2} \end{align*} E(h)===?x～DE?(e(h,x))Px～D?(h(x)=c(x))×1+Px～D?(h(x)=c(x))×0Px～D?(h(x)=c(x))?
从式子的右边可知，E ( h ) E(h) E(h)与分布 D \{D} D相关，若是要强调这一点，则记为 E ( h ; D ) E(h;\{D}) E(h;D) 。
如果二分类是基于概念 c c c的，则有对应的泛化误差和经验误差，如，由概念 c c c导出二分类 h h h，其泛化误差为
E ( h ) = P x ～ D ( h ( x ) ≠ c ( x ) ) \begin{align} E(h)=P_{\{x}\sim \{D} }(h(\{x})\neq c(\{x})) \tag{12.1} \end{align} E(h)=Px～D?(h(x)=c(x))?(12.1)?
将 h h h的经验误差【西瓜书式(12.2)】视为 h h h与 c c c在数据集 D D D上的“距离”，故对应地，直观上将 h h h的泛化误差视为 h h h与 c c c在 X \{X} X上的“距离”，E ( h ) ? ? E(h)\ \ E(h)??直观上如图12.4 （限定 h h h与 c c c的“距离”范围]）所示。
图12.4
现在我们将前述的样例集 D D D改为 ( D ～ D , ∣ D ∣ = m ) (D\sim \{D},|D|=m) (D～D,∣D∣=m)，即让 D D D在约束下变化（采样生成），在此条件下算法 L \{L} L形成更大的假设空间
H m = ? D ～ D ∣ D ∣ = m H D \{H}_m =\{\}\{\{D\sim \{D}\\|D|=m}} \{H}_D Hm?=D～D∣D∣=m???HD?
若再取消样本数 m m m的限制，则算法 L \{L} L形成更大的假设空间
H = ? m H m \{H} =\{\}\ \{H}_m H=m??Hm?
H \{H} H与 C \{C} C的关系能充分体现算法 L \{L} L的能力。
对于样本空间 X \{X} X而言，学习算法 L \{L} L一定有一个假设空间 H \{H} H，但反过来，一个假设空间 H \{H} H有许多学习算法 L \{L} L，学习算法 L \{L} L与假设空间 H \{H} H的关系就像函数与其值域的关系。
现在让假设空间 H \{H} H独立于具体算法 L \{L} L而存在，同样地，让概念类 C \{C} C独立于具体的样例集 D D D而存在，讨论假设空间 H \{H} H与概念类 C \{C} C的关系。
I.h h h与 c c c
度量假设空间 H \{H} H中的假设 h h h与概念 c c c的适配情况（逐步放松）：
（1）若 E ( h ) = 0 E(h)=0 E(h)=0，则表示 P ( h = c ) = 1 ? P ( h ≠ c ) = 1 P(h=c)=1-P(h\neq c)=1 P(h=c)=1?P(h=c)=1 。视为 h = c h=c h=c 。
（2）若 E ( h ) ? ? E(h)\ \ E(h)??，则视为 h ≈ c h\ c h≈c，其近似程度用“ ? ? \ \ ??”来刻画，如图12.4 所示。
（3）若
P ( E ( h ) ? ? ) ? 1 ? δ \begin{align} P(E(h)\ \ )\ 1-\delta \tag{12.2} \end{align} P(E(h)??)?1?δ?(12.2)?
则视为“几乎” h ≈ c h\ c h≈c，其近似程度用“ ? ? \ \ ??”来刻画，“几乎”程度由“ ? 1 ? δ \ 1-\delta ?1?δ”来表达。换言之，其程度体现在两个参数上：精度要求（ ? \ ?靠近0）和置信度要求（ 1 ? δ 1-\delta 1?δ靠近1）。直观上这样理解：由于 E ( h ) E(h) E(h)与分布 D \{D} D相关（即 E ( h ; D ) E(h;\{D}) E(h;D)），让 D \{D} D变化，则 h h h实际形成曲线 h ( D ) h(\{D}) h(D)，对应于图12.4 实际为一根以为 h ( D ) h(\{D}) h(D)心、以“ ? \ ?为半径的曲折“管子”（图12.4 为其截面），（2）的情况是： c c c一直在“管子”内，（3）的情况是： c c c在“管子”内的长度占比很大（“ ? 1 ? δ \ 1-\delta ?1?δ”）。
显然，（2）成立时，（3）一定成立，所以，我们重点关注（3）。
h h h是否满足（2）和（3）与给定的参数 0 < ? , δ < 1 0

《机器学习》完整版系列 第12章 计算学习理论——12

《机器学习》完整版系列第12章计算学习理论——12