灵魂拷问:是否真的需要深度学习模型来预测时间序列?
背景
这一篇文章类似于 Rethinking 系列,主要想法来自于文章 Do We Really Need Deep Learning Models for Time Series Forecasting?。学术界不断增加模型复杂度以增加创新,而工业界就需要考虑模型的实际效果和模型解释性了,这一篇文章就通过实验证明:在时间序列预测任务中只要特征工程和模型参数处理合适,最经典的树模型预测效果同样优于最新的深度学习模型!
众所周知,与传统技术相比深度模型的一个主要缺点是过于复杂。与深度神经网络(DNN)模型相似,这篇文章中将时间序列预测任务转化为基于窗口的回归问题,通过实验证明经典模型 梯度推进回归树(GBRT)模型 的预测效果优于深度学习模型的结果。👍
既然是对比模型效果,那么就需要一些基准数据集和评价指标。
数据集
本文采用的数据集如下:
注: 表示单指标,其它为多元序列。

本文采用的评价指标如下:
其中 为观测值, 为预测值。
RMSE:(Root Mean Squard Error)均方根误差
WAPE:(Weighted Absolute Percentage Error)加权绝对百分比误差
MAE:(Mean Average Error)平均绝对误差
Feature-engineered window-based GBRT
论文构造的特征输入模型如下所示

论文源码:https://github.com/Daniela-Shereen/GBRT-for-TSF
对比模型
- Temporal Regularized Matrix Factorization (TRMF) model
- Long- and Short-term Time-series Network (LSTNet)
- Dual-Stage Attention-Based RNN (DARNN)
- Deep Global Local Forecaster (DeepGlo)
- Temporal Fusion Transformer (TFT) model
- DeepAR model
- Deep State Space Model (DeepState)
- Deep Air Quality Forecasting Framework (DAQFF)
- Naively configured GBRT baseline (GBRT(Naive))
- ARIMA model
实验结果
单变量数据集
单变量时序预测【无协变量】

单变量时序预测【有协变量】

多变量数据集
DARNN vs GBRT(w-b)
DAQFF vs GBRT(w-b)
总结
这篇论文通过实验结果证明:GBRT虽然概念很简单,但是可以通过对 GBRT 的输入和输出结构进行有效的特征处理来超越最先进的 DNN 模型。所以在工程实践中不应该忽略简单的机器学习基线方法,可以通过模型配置或者调参使其更加适合学习任务。
机器学习方法包括特征工程,模型架构,损失函数,其中最重要的是特征工程和损失函数,分别定义了从哪里学和学什么,在优化一个方法时,这两点是我们不能忽略的,特征工程和损失函数正确的条件下,模型架构创新往往非常困难而且能带来的提升有限。