文章插图
.判,即此人为心脏病人;若,l1X1+l2X2=c则为待判 。此例的判别函式是线性函式,它简单方便,在实际问题中经常使用 。但有时也用非线性判别函式,特别是二次判别函式 。建立判别函式和判别规则有不少準则和方法,常用的有贝叶斯準则、费希尔準则、距离判别、回归方法和非参数方法等 。
文章插图
. 无论用哪一种準则或方法所建立的判别函式和判别规则,都可能产生错判,错判所占的比率用错判机率来度量 。当总体间区别明显时,错判机率较小;否则错判机率较大 。判别函式的选择直接影响到错判机率,故错判机率可用来比较不同方法的优劣 。变数(如上例中的X1和X2)选择的好坏是使用判别分析的最重要的问题,常用逐步判别的方法来筛选出一些确有判别作用的变数 。利用序贯分析的思想又产生了序贯判别分析 。例如医生在诊断时,先确定是否有病,然后确定是哪个系统有病,再确定是什幺性质的病等等 。聚类分析又称数值分类 。聚类分析和判别分析的区别在于,判别分析是已知有多少类和样本来自哪一类,需要判别新抽取的样本是来自哪一类;而聚类分析则既不知有几类,也不知样本中每一个来自哪一类 。例如,为了制定服装标準,对 N个成年人,测量每人的身高(x1)、胸围(x2)、肩宽(x3)、上体长(x4)、手臂长(x5)、前胸(x6)、后背(x7)、腰围(x8)、臀围(x9)、下体长(x10)等部位,要将这N个人进行分类,每一类代表一个号型;为了使用和裁剪的方便,还要对这些变数(x1,x2,…,x10)进行分类 。聚类分析就是解决上述两种分类问题 。设已知N个观测值X1,X2,…,Xn,每个观测值是一个p维向量(如上例中人的身高、胸围等) 。聚类分析的思想是将每个观测值Xi看成p维空间的一个点,在p维空间中引入“距离”的概念,则可按各点间距离的远近将各点(观测值)归类 。若要对 p个变数(即指标)进行分类,常定义一种“相似係数”来衡量变数之间的亲密程度,按各变数之间相似係数的大小可将变数进行分类 。根据实际问题的需要和变数的类型,对距离和相似係数有不同的定义方法 。按距离或相似係数分类,有下列方法 。①凝聚法:它是先将每个观察值{Xi}看成一类,逐步归併,直至全部观测值并成一类为止,然后将上述并类过程画成一聚类图(或称谱系图),利用这个图可方便地得到分类 。②分解法:它是先将全部观测值看成一类,然后逐步将它们分解为2类、3类、…、N类,它是凝聚法的逆过程 。③动态聚类法:它是将观测值先粗糙地分类,然后按适当的目标函式和规定的程式逐步调整,直至不能再调为止 。若观察值X1,X2,…,Xn之间的次序在分类时不允许打乱,则称为有序分类 。例如在地质学中将地层进行分类,只能将互相邻接的地层分成一类,不能打乱上下的次序 。用于这一类问题中的重要方法是费希尔于1958年提出的最优分割法 。聚类分析也能用于预报洪水、暴雨、地震等灾害性问题,其效果比其他统计方法好 。但它在理论上还很薄弱,因为它不象其他方法那样有确切的数学模型 。主成分分析又称主分量分析,是将多个变数通过线性变换以选出较少个数重要变数的一种方法 。设原来有p个变数x1,x2,…,xp,为了简化问题,选一个新变数z,,
文章插图
公式要求z儘可能多地反映p个变数的信息,以此来选择l1,l2,…,lp,当l1,l2,…,lp选定后,称z为x1,x2,…,xp的主成分(或主分量) 。有时仅一个主成分不足以代表原来的p个变数,可用q(<p)个互不相关的呈上述形式的主成分来儘可能多地反映原p个变数的信息 。用来决定诸係数的原则是,在的约束下,选择l1,l2,…,lp使z的方差达到最大 。
- 郭雅希
- 黑武士水母
- 心境看心界是什么意思 心境看心界含义
- 坐标哪个是x哪个是y 坐标x和y介绍
- 洗龙虾用什么清洗最干净 龙虾清洗干净方法
- 范蠡怎么读范蠡释义 范蠡如何读范蠡释义
- 痛风和风湿有什么区别 痛风和风湿的区别
- 土笋冻是沙虫吗 土笋冻是属于沙虫的一种吗
- 财神节是几号 财神节的日期
- 无线感测器及元器件