论文学习：深度神经网络时间序列建模（1）

xiaoxiao2021-03-26 26

TitleContent原文Modling Time-Series with Deep Networks文章信息Martin langkvist， 2014文章性质Paper汇编说明以下内容是本人学习过程中的摘要笔记，有需求深入了解的最好还是看原文

摘要

深度学习atrractive的特性：可以利用没有标签的数据

对复杂高维时间序列的建模有以下挑战（1）要么修改学习算法（2）要么对数据进行特殊的预处理

很多传感器数据其实是冗余的，可能都是对一种影响因数的监测而且误差敏感，如错误、噪声、sensor bias 所以一般分析多变量的时间序列多是过度的预处理数据，如去噪声和复杂度、特征提取、信号移除，遮羞都需要一些专家知识的

本文贡献：深度学习算法修改，可以更好处理多元变量时间序列数据目的：能够改变每个输入信号对特征学习的影响数量，减少了噪声的、任务无关输入对学习的特征的影响

Papers

PaperContentA Revire of Unsupervised Feature Learning and Deep Learnng for Time Seies Modeling, Pattern Recognition Letters深度学习在时间序列上的研究现状，review

Chapter 1 - 简介

深度学习的研究多着眼于在static data上，也可以用到时间序列上，但是会丢失temporal信息，所以需要进行学习算法的改进很多用于时间序列的深度学习算法都会在元数据上进行特征提取，所以学习到的特征不是在元数据直接构建的

现在的无监督特征学习算法将输入同等对待但是对于多元时间序列数据集，某些信号可能包含更多的相关信息，假如他包含很多噪声，简单的去除有时可以很好地降维，但是它也可能包含重要信息，所以需要的是动态的focus在输入的子集，这也是现在特征学习算法欠缺的

本文贡献：（1）Review，结构化数据特征表示学习的挑战+当前时间序列上深度学习模型的应用情况（2）应用深度学习模型在实际数据上（3）展示深度学习模型在原始多元时间序列上可以构建有用的特征（4）修改one representational学习算法，使之可以应用到多元

Chapter 2 - Representation 学习

数据表示的选择对机器学习算法有重大影响

2.1 - 贪婪逐层预训练

该方法解决了梯度消失的问题，也就是在有监督学习中，从顶层来的误差，到达第一层的时候消失了它提供更有用的参数初始化方法，而不是随机选择在用有监督的方式微调整个网络的前，它用无监督的方式，单独训练每一层所以其深度网络的训练方式：（1）用Greedy layer-wise pre-traning训练每一层，来初始化其参数（2）有有监督的方式微调整个网络，使其为某个task达到最优但是如果有大量打了标签的数据，可以跳过（1）

2.2 - 过拟合和正则化

过拟合：当有很多无关变量，如噪声等等，导致模型过分拟合这些变量解决法：调整复杂度 or 正则化

正则化：减少模型允许的参数空间，引领特征学习的过程能够能高的泛化未见的数据

2.3 - Hyperparameter

训练深度网络的挑战：有很多design选择选择举例： connectivity, architecture, 最优化方法, Hyperparameter 每个regularization项来源于1或则多个Hyperparameter 最优化的选择也来自于a number of Hyperparameter, 例如学习率、momentum

全网格搜索不现实，建议随机网格搜索，或者结构化的Hyperparameter最优化？？？

建议：要找到好的Hyperparameter值，应该寻找评估或监测无监督学习模型，而不是用最后预测的性能

2.4 - Optimization

最优化方法举例： SGD：stochastic gradient desent，随机梯度下降。通常建议用它，因为效率高 CG：conjugate gradient

Batch methold: L-BFGS：Limited Broyden-Fletcher-Goldfarb-Shanno，可以自动设置最佳学习率 Hessian-free optimation

这些方法都有各自需要最优化的Hyperparameter，因为有的可以自动提供优化

需要最优化的Hyperparameter举例：学习率、learning rate decay，mini-batch size，训练迭代次数

2.5 - 分类与回归

主要任务：分类与回归

2.6 - 深度学习模块

有很多模块可以用于无监督特征学习，且可以stacked to 建立深度网络例子： RBM：Restricted Boltzmann Machines auto-encoders sparse coding deep Boltzmann machines K-means

2.6.1 - RBM

RBM是一个generative probalilistic无向的graphical模型包含可见单元 v ，隐藏单元 h, bias 向量 c 和 b 权重矩阵 W 连接可见层和隐藏层

给定可见和隐藏向量： energy function : E(v,h)=hTWv bTh cTv 联合分布： P(v,h)=1ZexpE(v,h) partion function： Z , 保证分布normalized

对于 Bernoulli-Bernoulli RBM (binary visible and hidden units) 给定可见向量 v, 隐藏单元 hj 被激发的概率： P(hj|v)=σ(bj+∑iWijvj) 给定隐藏单元 h ，可见单元vi 被激发的概率： P(vi|h)=σ(cj+∑jWijhj) σ(.) 表示激发函数常用的激发函数是sigmoid activation function = σ(x)=11+e−x 但是也越来越多的开始用 rectified linear units

模型参数 θ=W,b,v 被训练，最小化训练数据的似然（log）

2.6.2 Conditional Restricted Boltzmann Machine

在多元变量时间序列数据中 cRBM 有自回归权重，可以model short-term temporal依赖有隐藏单元，可以model long-term temporal结构

cRBM 和 RBM 类似，只是它对于可见层和隐藏层的bias是动态的，且依赖于previous可见层动态bias： b∗j=bj+∑ni=1Biv(t−i) c∗j=cj+∑ni=1Aiv(t−i) Ai 是可见层间的自回归，回归的是 t−i 可见层与当前 t 可见层 Bi 是权重矩阵，连接 t−i 时刻的可见层与当前隐藏层

转载请注明原文地址: https://ju.6miu.com/read-600334.html

技术

最新回复(0)