本篇博客是对[1]中习题2.3的证明。首先给出凸壳与线性可分的定义:
定义1:设集合 S⊂Rn ,是由 Rn 中的 k 个点所组成的集合,即S={x1,x2,⋯,xk}。定义 S 的凸壳conv(S)为:
conv(S)={x=∑i=1kλixi∣∣∣∑i=1kλi=1,λi≥0,i=1,2,⋯,k} 注: 看懂定义忽略该段,对这个定义进行一个小提示,首先凸壳是一个集合,对于所有可能的 λi,i=1,2,⋯,k 只要满足 ∑ki=1λi=1 ,那么 x=∑ki=1 即为凸壳中的元素。凸壳可以用二维的图形可以表示如下定义2:给定一个数据集
T={(x1,y1),(x2,y2,⋯,(xn,yn))} 其中 xi∈=Rn , yi∈={+1,−1} , i=1,2,⋯,n ,如果存在某个超平面S: w⋅x+b=0 能够讲数据集的正实例点和负实例点完全正确地划分到超平面的两侧,即对所有的正例点即 yi=+1 的实例 i ,有w⋅xi+b>0,对所有的负实例点即 yi=−1 的实例 i ,有w⋅xi+b<0,则称数据集 T 为线性可分数据集;否则,称数据集T线性不可分。=====================================================
样本集线性可分的充分必要条件使正实例点集构成的凸壳与负实例点集所构成的凸壳互不相交。
设数据集 T 中的正例点集为S+, S+ 的凸壳为 conv(S+) ,负实例点集为 S− , S− 的凸壳为 conv(S−) ,若 T 是线性可分的,则存在一个超平面:w⋅x+b=0能够将 S+ 和 S− 完全分离。假设对于所有的正例点 xi ,有:
w⋅xi+b=εi 易知 εi>0,i=1,2,⋯,|S+| 。若 conv(S+) 和 conv(S−) 相交,即存在某个元素 s ,同时满足s∈conv(S+)和 s∈conv(S−) 。对于 conv(S+) 中的元素 s+ 有 w⋅s+=w⋅∑i=1kλixi=∑i=1kλi(εi−b)=∑i=1kλiεi−b 因此 w⋅s++b=∑ki=1λiεi>0 ,同理对于 S+ 中的元素 s− 有 w⋅s++b=∑ki=1λiεi<0 ,那么由于 s∈conv(S+) 且 s∈conv(S−) 则 w⋅s+b=∑ki=1λiεi>0 且 w⋅s+b=∑ki=1λiεi<0 明显推出矛盾,因此 conv(S+) 和 conv(S−) 必不相交。从而推出必要性。设数据集 T 中的正例点集为S+, S+ 的凸壳为 conv(S+) ,负实例点集为 S− , S− 的凸壳为 conv(S−) ,且 conv(S+) 与 conv(S−) 不相交,定义两个点 x1,x2 的距离为
dist(x1,x2)=||x1−x2||2=(x1−x2)⋅(x1−x2)‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾√ 定义 conv(S+) 与 conv(S−) 的距离为 dist(conv(S+),conv(S−))=min||s+−s−||,s+∈conv(S+),s−∈conv(S−) 设 x+∈conv(S+) , x−∈conv(S−) 且 dist(x+,x−)=dist(conv(S+),conv(S−)) 。则对于任意正例点 x 有dist(x,x−)≥dist(x+,x−)。同理,对于所有的负例点 x 有dist(x,x+)≥dist(x,x−)。存在超平面 w⋅x+b=0 其中 wb=x+−x−=−x+⋅x+−x−⋅x−2 则对于所有的正例点 x (易知w⋅x++b>0,因此若 x+ 属于正例点,则令 x≠x ), w⋅x+b=(x+−x−)⋅x−x+⋅x+−x−⋅x−2=x+⋅x−x−⋅x−x+⋅x+−x−⋅x−2=||x−−x||22−||x+−x||222=dist(x,x−)2−dist(x,x+)22 若 dist(x,x−)≤dist(x,x+) ,则 dist(x,x−)≤dist(x,x+)≤dist(x−,x+) ,那么 dist(S+,S−)<dist(x+,x−) (注:证明过程见下方),推出矛盾。因此对所有的正例点, w⋅x+b>0 成立。同理,对所有的负例点, w⋅x+b<0 成立。至此,充分性得证。补充:用反正法证明 dist(x,x−)>dist(x,x+) 证明:若 dist(x,x−)≤dist(x,x+) ,则存在 t=(x−−x+)⋅(x−x+)||x−x+||22 ,令 x′=tx+(1−t)x+ ,则 (x−−x′)⋅(x+−x)=0 。易知 t≤1 先证明 0<t ,我们可以将 x,x+,x− 看作是空间中三个不同的点,三条边的长度分别为 dist(x,x+),dist(x,x−),dist(x−,x+) 有上文知 dist(x,x+)≥dist(x,x−)≥dist(x−,x+) 根据三角形的大边对应大角这一特性,很容易可以看出 x+−x 与 x+−x− 之间的夹角小于90度,因此 t>0 。那么 dist(x′,x−)<dist(x+,x−) ,有因为 x′ 必在 conv(S+) 内部,所以推出矛盾。
[1]:李航. 统计学习方法[M]. 清华大学出版社, 2012.