转载

研究领域总结(一):稀疏——字典学习

Pre:

面试发现自己老讲不条理自己的研究工作,还是要先梳理下。鉴于motivation,本文是侧重结构化的15分钟talk draft,而非务求详尽。有兴趣的欢迎私下讨论。

Abstract:

本文主要介绍稀疏模型相关,侧重于字典学习和具体应用。

1.sparse background

2.DL(DIctionary Learning)是什么,用途,为什么好

3.我的DC(Customization)工作

I.稀疏模型

稀疏模型是 最近几年比较hot 的技术,在 信号处理(压缩感知)计算机视觉(比如JPEG压缩) 领域影响比较大,在机器学习框架则可以看做是一种 特征处理相关 的模型。

具体的,稀疏表示是指在 超完备字典 $D$(超完备是说字典行数小于列数)中用 尽可能少的原子 来表示信号$x$,即:

/[ /min_{/alpha} /|/alpha/|_0,  /quad /quad /quad  s.t. /quad  x=D/alpha. /]

考虑 噪声 就是

/[ /min_{/alpha}  /|x-D/alpha/|_2^2+/|/alpha/|_0, /]

$/alpha$的size比$x$大很多,但是非零元素比$x$的size小很多很多。

$稀疏的优点主要在于它是 非线性模型 ,所以表达能力更强。具体来说,每个信号稀疏系数的非零元素位置不同(所谓的 support ),所以每个信号可以看做被投影到了 不同的线性子空间 ,这是和正交字典-PCA之类的最大区别。而为什么在视觉图像里应用尤其多,也正是因为每张图像(如人脸)可以看做处于高维空间的一个低维子空间上(其实还有些研究用流形做子空间建模的)。

稀疏模型研究方向主要包括 系数求解 (即上面那个问题,经典算法有 OMP贪心、lasso凸松弛和$l_{1/2}$非凸松弛 ), 字典学习 (获得更好的$D$,经典算法有 MOD和K-SVD交替迭代 )和 模型应用 (信号处理上不熟,视觉图像上的应用在字典学习里一起说)

II.字典学习

显然稀疏表达的效果好坏和我们用的字典有着密切的关系。字典分两类,一种是预先给定的分析字典,比如小波基、DCT等,另一种则是 针对特定数据集学习出特定的字典 。这种学出来的字典能大大提升在特定数据集的效果。

给定训练样本$X=/{x_i/|_{i=1}^n$,我们要所有样本在字典$D$上有稀疏表达$W=/{w_i/}_{i=1}^n$,所以优化目标是

/[/min_{D,W}/|X-DW/|_F^2,   /quad/quad/quad   s.t./quad /|w_i/|_0/leq s./]

这个目标函数非凸,一般用 交替迭代思想 来解,即分别固定D和W,更新另一个,很多变种算法。目标函数分析起来比较难,所以这方面理论还比较弱,Agarwal,Gribonval等一帮人在搞。

应用方面往往稀疏表达和字典学习是混杂的,这里主要介绍下图像去噪、超分辨率和人脸识别,这三个例子效果都很好,貌似已经拿到工业界用了。

1. 图像去噪(Elad)

对一个noisy image,把一个patch看做一个sample或signal,比如可以是一个8乘8的patch,拉成一列64维的向量,一个image可以从左上角到右下角窗口1滑动采样得到很多这样的patch。

(1)拿这些patches作为训练样本,用如K-SVD之类的算法可以学得字典D。(也可以用DCT等做字典)

(2) 用D对patch进行稀疏表达,拿稀疏系数再根据字典D重建patch ,丢失掉的那部分信息主要就是噪声信息,这样就起到了去噪的作用(这是利用噪声的性质,去噪后整个图片会变得光滑)。

2. 超分辨率(MaYi)

(1)最主要的假设是高分辨率图像的patches $x_h$和对应的低分辨率图像的patches $x_l$,在相应的字典 $D_h$和$D_l$上有相同的系数 。这样的话,就可以把低分辨率图像先根据$D_l$得到稀疏系数,再根据$D_h$重建patches。

(2)剩下的问题是怎样学习得到$D_l$和$D_h$,即对于大量训练样本 patch-pairs  $(X_l,X_h)$, 优化目标函数:

/[ /min_{D_h,D_l,W} /|X_h-D_hW/|_F^2+/|X_l-D_l/|_F^2,  /quad/quad/quad  s.t. /quad  /|w_i/|_0/leq s. /]

(3)Tricks: 对于$X_l$,特征用Bicubic和高通滤波做了拓展。

(4)Elad学字典换了种方法,先K-SVD学$D_l$,而$D_h$通过下式得到

/[D_h=D_{h_0}+(X^{aux}_h-D_{l_0}W_{aux})W_{aux}^T(/gamma I+W_{aux}W_{aux}^T)^{-1}./]

3. 人脸识别(Jiang)

上面两个应用都是把单个patch作为sample,在做分类是则通常把一张image作为一个sample。因为一张图片拉成一列向量太大,首先会把图片投影到m维特征向量$y$,投影方法一般是用一个随机产生的mean为0的高斯分布(参考随机投影保距降维相关资料)。

这里介绍Jiang Zuolin的工作,他把字典$D$和线性分类器$W$一同得到,具体损失函数是

/[ /min_{D,W,A,X} /|Y-DX/|_F^2+/alpha/|Q-AX/|_F^2+/beta/|H-WX/|_F^2,/quad/quad/quad s.t./quad /forall i,/|x_i/|_0/leq T /]

这里$(Y,H)$是训练样本(feature,label),Q那一项是一个label consistent项,用来加大字典原子的类别区分度的,构建方法不赘述了。

这个问题可以化为一个标准的字典学习问题,然后用一般字典学习方法求解。

/[ /min_{D,W,A,X} /| /begin{pmatrix} Y // /sqrt{/alpha}Q // /sqrt{/beta} H /end{pmatrix} - /begin{pmatrix} D // /sqrt{/alpha}A // /sqrt{/beta} W /end{pmatrix} X/|_F^2 /quad/quad/quad s.t./quad /forall i,/|x_i/|_0/leq T /]

这样的话,每新来一个样本,就先随机投影得到特征向量,然后用$D$得到稀疏系数,再用W对稀疏预测得出label。

此外,还有种方法是每个人对应一个字典,新来一张图,算和哪个字典构建误差最小来预测。

顺便比较下和deep learning,第一,潜力不如deep learning(吐槽下大量搞稀疏的人跑去搞deep learning了),第二,某种程度,deep learning也是稀疏思想,第三,dictionary learning相比优点就是没有那么多蛋疼的调参和tricks,简单有效代价低。

III.我的字典个性化工作

首先来说字典学习的思想,本质上,字典学习是学得一个更specialized的字典,这样的话对于特定的数据集就更加有效了。但是还是有几个问题,第一,学习的效果需要充足的样本来guarantee,第二,学习的代价是时间和计算,这就导致了很多时候不够specialized。比如往往只是specialize到了人类,而没有specialize到人。

所以我做的工作主要是得到更specialized的字典,也即字典个性化。鉴于还在审稿,具体方法不描述了。

正文到此结束
Loading...