论文学习:深度神经网络时间序列建模(1)

    xiaoxiao2021-03-26  12

    TitleContent原文Modling Time-Series with Deep Networks文章信息Martin langkvist, 2014文章性质Paper汇编说明以下内容是本人学习过程中的摘要笔记,有需求深入了解的最好还是看原文

    摘要

    深度学习atrractive的特性:可以利用没有标签的数据

    对复杂高维时间序列的建模有以下挑战 (1)要么修改学习算法 (2)要么对数据进行特殊的预处理

    很多传感器数据其实是冗余的,可能都是对一种影响因数的监测 而且误差敏感,如错误、噪声、sensor bias 所以一般分析多变量的时间序列多是过度的预处理数据,如去噪声和复杂度、特征提取、信号移除,遮羞都需要一些专家知识的

    本文贡献:深度学习算法修改,可以更好处理多元变量时间序列数据 目的:能够改变每个输入信号对特征学习的影响数量,减少了噪声的、任务无关输入对学习的特征的影响

    Papers

    PaperContentA Revire of Unsupervised Feature Learning and Deep Learnng for Time Seies Modeling, Pattern Recognition Letters深度学习在时间序列上的研究现状,review

    Chapter 1 - 简介

    深度学习的研究多着眼于在static data上,也可以用到时间序列上,但是会丢失temporal信息,所以需要进行学习算法的改进 很多用于时间序列的深度学习算法都会在元数据上进行特征提取,所以学习到的特征不是在元数据直接构建的

    现在的无监督特征学习算法将输入同等对待 但是对于多元时间序列数据集,某些信号可能包含更多的相关信息,假如他包含很多噪声,简单的去除有时可以很好地降维,但是它也可能包含重要信息,所以需要的是动态的focus在输入的子集,这也是现在特征学习算法欠缺的

    本文贡献: (1)Review,结构化数据特征表示学习的挑战+当前时间序列上深度学习模型的应用情况 (2)应用深度学习模型在实际数据上 (3)展示深度学习模型在原始多元时间序列上可以构建有用的特征 (4)修改one representational学习算法,使之可以应用到多元

    Chapter 2 - Representation 学习

    数据表示的选择对机器学习算法有重大影响

    2.1 - 贪婪逐层预训练

    该方法解决了梯度消失的问题,也就是在有监督学习中,从顶层来的误差,到达第一层的时候消失了 它提供更有用的参数初始化方法,而不是随机选择 在用有监督的方式微调整个网络的前,它用无监督的方式,单独训练每一层 所以其深度网络的训练方式: (1)用Greedy layer-wise pre-traning训练每一层,来初始化其参数 (2)有有监督的方式微调整个网络,使其为某个task达到最优 但是如果有大量打了标签的数据,可以跳过(1)

    2.2 - 过拟合和正则化

    过拟合:当有很多无关变量,如噪声等等,导致模型过分拟合这些变量 解决法:调整复杂度 or 正则化

    正则化: 减少模型允许的参数空间,引领特征学习的过程能够能高的泛化未见的数据

    2.3 - Hyperparameter

    训练深度网络的挑战:有很多design选择 选择举例: connectivity, architecture, 最优化方法, Hyperparameter 每个regularization项来源于1或则多个Hyperparameter 最优化的选择也来自于a number of Hyperparameter, 例如学习率、momentum

    全网格搜索不现实,建议随机网格搜索,或者结构化的Hyperparameter最优化 ???

    建议:要找到好的Hyperparameter值,应该寻找评估或监测无监督学习模型,而不是用最后预测的性能

    2.4 - Optimization

    最优化方法举例: SGD:stochastic gradient desent,随机梯度下降。通常建议用它,因为效率高 CG:conjugate gradient

    Batch methold: L-BFGS:Limited Broyden-Fletcher-Goldfarb-Shanno,可以自动设置最佳学习率 Hessian-free optimation

    这些方法都有各自需要最优化的Hyperparameter,因为有的可以自动提供优化

    需要最优化的Hyperparameter举例: 学习率、learning rate decay,mini-batch size,训练迭代次数

    2.5 - 分类与回归

    主要任务:分类与回归

    2.6 - 深度学习模块

    有很多模块可以用于无监督特征学习,且可以stacked to 建立深度网络 例子: RBM:Restricted Boltzmann Machines auto-encoders sparse coding deep Boltzmann machines K-means

    2.6.1 - RBM

    RBM是一个generative probalilistic无向的graphical模型 包含可见单元 v ,隐藏单元 h, bias 向量 c b 权重矩阵 W 连接可见层和隐藏层

    给定可见和隐藏向量: energy function : E(v,h)=hTWv bTh cTv 联合分布: P(v,h)=1ZexpE(v,h) partion function: Z , 保证分布normalized

    对于 Bernoulli-Bernoulli RBM (binary visible and hidden units) 给定可见向量 v, 隐藏单元 hj 被激发的概率: P(hj|v)=σ(bj+iWijvj) 给定隐藏单元 h , 可见单元vi 被激发的概率: P(vi|h)=σ(cj+jWijhj) σ(.) 表示激发函数 常用的激发函数是sigmoid activation function = σ(x)=11+ex 但是也越来越多的开始用 rectified linear units

    模型参数 θ=W,b,v 被训练,最小化训练数据的似然(log)

    2.6.2 Conditional Restricted Boltzmann Machine

    在多元变量时间序列数据中 cRBM 有自回归权重,可以model short-term temporal依赖 有隐藏单元,可以model long-term temporal结构

    cRBM 和 RBM 类似,只是它对于可见层和隐藏层的bias是动态的,且依赖于previous可见层 动态bias: bj=bj+ni=1Biv(ti) cj=cj+ni=1Aiv(ti) Ai 是可见层间的自回归,回归的是 ti 可见层与当前 t 可见层 Bi 是权重矩阵,连接 ti 时刻的可见层与当前隐藏层

    转载请注明原文地址: https://ju.6miu.com/read-600334.html

    最新回复(0)