Action density based frame sampling for human action recognition in videos

Action recognition has been widely used to identify and monitor special activities in videos, and a proper frame sampling method can not only reduce redundant video information, but also improve the accuracy of action recognition. In this paper, action density based frame sampling methods are proposed to discard the redundant video information and select the rational frames for neural networks to achieve high accuracy on human action recognition in videos. In particular, action density is introduced in our methods to indicate the intensity of actions in videos, and a reinforcement learning based frame selection mechanism with considering the action density as the reward is proposed to select frames with the best action features. Then, a segmented frame sampling (SFS) method is proposed for multi-channel neural network and a non-isometric frame sampling (NFS) method is proposed for single-channel neural network, respectively, to simultaneously select a series of the rational frames (i.e., achieve the frame sampling in videos) based on the RLFD mechanism for action recognition. Via the evaluations with various neural networks and datasets, our results not only show the effectiveness of using action density as a metric in frame selection, but also show that the proposed SFS and NFS method can achieve great effectiveness and rationality in frame sampling and can assist in achieving better accuracy of action recognition, in comparison with existing methods.

Il riconoscimento di azioni è stato ampiamente utilizzato per identificare e monitorare attività specifiche nei video, e un metodo appropriato di campionamento fotogrammi può, non solo ridurre le informazioni video ridondanti, ma anche migliorare l’accuratezza del riconoscimento delle azioni. In questo documento, si propongono metodi di campionamento dei fotogrammi basati sulla densità di azione per scartare le informazioni video ridondanti e selezionare i fotogrammi utili per le reti neurali al fine di ottenere un elevata precisione sul riconoscimento dell’azione eseguita nei video. In particolare, la densità di azione è introdotta nei nostri metodi per indicare l’intensità delle azioni nei video, e un meccanismo di selezione dei fotogrammi basato sull’apprendimento rafforzato, considerando la densità di azione come parametro premiante nella selezione dei fotogrammi con le migliori caratteristiche di azione. Viene poi proposto un metodo di campionamento per fotogrammi segmentati (SFS) per una rete neurale multicanale e un metodo di campionamento per fotogramma non isometrico (NFS) per la rete neurale a un canale singolo. Ciò consente di selezionare simultaneamente una serie di fotogrammi affini basato sul meccanismo RFD per il riconoscimento delle azioni. Attraverso le valutazioni con varie reti neurali e set di dati, i nostri risultati non solo dimostrano l’efficacia dell’uso della densità di azione come metrica nella selezione dei fotogrammi, ma dimostrano anche che metodi SFS e NFS proposti risultano particolarmente efficaci nel campionamento dei fotogrammi e può contribuire a ottenere una maggiore accuratezza nel riconoscimento delle azioni rispetto ai metodi esistenti.