Quasi-stateful RNNs with truncated back-propagation through time

In the context of multivariate time series forecasting, this study addresses the challenge of efficiently training RNNs on long time series by proposing a novel methodology to initialize the state of the network from past observations. RNNs, with their recurrent connections, are designed to process sequences in order, retaining the hidden state from one batch to the next. This type of training is computationally expensive and prevents the input sequence from being divided into batches, of a size that fits the hardware, and that can be processed in parallel. The primary objective is to improve the computational efficiency and scalability of the training procedure by computing gradients only for a predefined, fixed-size window interval rather than the entire time series while still modeling longer-range dependencies. The proposed approach exploits a train-free recurrent encoder (a reservoir) to embed past observations into an initial representation. The resulting encoding is then further processed to initialize the state of the trainable RNN which refines and updates the representation by processing the remaining observations. In this way, the trainable components process only the last time steps while the past history is accounted for in the initialization encoding. Since the reservoir is training-free, it can process the whole time series ahead of training and the trainable RNN can be fitted efficiently by subsampling mini-batches of the input data and making the training procedure scalable and adjustable according to the hardware capacity. Our approach is validated against relevant baselines on both synthetic and real-world datasets from different domains. Empirical results show that the proposed model compares favorably against the baselines, often matching the performance of the reference architectures while being drastically more scalable.

Nel contesto della previsione di serie temporali multivariate, questo studio affronta la sfida di addestrare in modo efficiente le RNNs su serie temporali lunghe, proponendo una nuova metodologia per inizializzare lo stato della rete a partire dalle osservazioni passate. Le RNNs, con le loro connessioni ricorrenti, sono progettate per elaborare sequenze in ordine, mantenendo lo stato nascosto da un batch all'altro. Questo tipo di addestramento è computazionalmente costoso e impedisce di suddividere la sequenza di input in batch di una dimensione adatta all'hardware e che possano essere elaborate in parallelo. L'obiettivo principale è migliorare l'efficienza computazionale e la scalabilità della procedura di addestramento, calcolando i gradienti solo per una finestra temporale predefinita, di dimensioni fisse, anziché per l'intera serie temporale, mantenendo comunque la capacità di modellare dipendenze a lungo raggio. L'approccio proposto sfrutta un encoder ricorrente non addestrabile (un reservoir) per incorporare le osservazioni passate in una rappresentazione. L'encoding risultante viene quindi ulteriormente elaborato per inizializzare lo stato della RNN addestrabile, che affina e aggiorna la rappresentazione elaborando le osservazioni rimanenti. In questo modo, i componenti addestrabili elaborano solo gli ultimi passi temporali, mentre la storia passata viene considerata nell'encoding di inizializzazione. Poiché il reservoir non richiede addestramento, può elaborare l'intera serie temporale prima dell'addestramento e la RNN addestrabile può essere ottimizzata in modo efficiente campionando mini-batch dei dati di input, rendendo la procedura di addestramento scalabile e regolabile in base alla capacità hardware. Il nostro approccio è convalidato rispetto a baseline rilevanti sia su dataset sintetici che su dataset reali provenienti da diversi domini. I risultati empirici mostrano che il modello proposto offre prestazioni competitive rispetto alle baselines, spesso eguagliando le prestazioni delle architetture di riferimento, risultando però drasticamente più scalabile.