Time-series processing and classification for the automatic assessment of wild animals activities

Ethology is a science that aims to study the behaviors of an individual, understanding how and why a particular behavior manifests itself and what dynamics connect different behaviors. In order to be able to infer the answers to these questions, it is necessary a preliminary annotation phase consisting in the collection of a plausible and conspicuous database, consisting of a series of annotations of the activities that the individual performs during the day and depending on the circumstances. A fundamental tool in this phase is the ethogram, a catalogue that contains the set of possible behaviours for a species, each accompanied by an exhaustive description. Today the expert, biologist or ethologist, is the main actor of the annotation phase. Given the excellent results that the use of tracking technologies had shown in human activity recognition, several studies in the literature tried to produce classification models able to identify autonomously animal behaviors basing on sensors data. However, the works in the literature are not yet accurate enough to appropriately support the expert. Assuming that the cause of this accuracy lack was due to the excessive confidence in the capabilities of the machine learning algorithms, it is proposed a new methodology aiming at demonstrating that data analyst’s role remains fundamental to produce accurate models. So, methods such as noise filtering, removal of sensor bias, identification of inconsistent observations are then introduced in order to clean up the dataset and facilitate the learning of the classifier, also taking into account the Curse of Dimensionality problem to avoid overfitting. In defining the methodology presented, all the choices adopted were motivated and explained and the framework produced has been structured consistently with the ethogram structure and the logical human path in performing the annotation process to make the whole process completely understandable for the experts. Finally, the proposed methodology has been validated on a case study, consisting of a dataset collected by the Crofoot Lab at the Mpala Centre, in Kenya, instrumenting Olive baboons. The obtained results show an increment of 10 points in accuracy respect to the gold standards identified in the study of the literature.

L’etologia è definita come la scienza volta a studiare i comportamenti di un individuo, ponendo particolare enfasi su come questi si manifestino ed sul modo in cui si dimostrino connessi tra loro. Per poter rispondere a queste domande, si rivela necessaria una fase preliminare di annotazione, durante la quale viene raccolto un database consistente e significativo, costituito dalla serie di attività che l’individuo della specie di interesse è osservato compiere durante la giornata ed a seconda delle circostanze. Uno strumento di fondamentale supporto in questa fase è l’etogramma, un catalogo che raccoglie in maniera sistematica i comportamenti possibili per le diverse specie, ciascuno accompagnato da relativa descrizione. Ancora oggi è l’esperto, quindi il biologo o l’etologo, la figura chiave nel processo di annotazione. Il suo compito è quello di osservare l’animale, annotandone le attività, per tutto il tempo necessario ad ottenere un dataset adeguato. Visti i risultati eccellenti che l’utilizzo combinato di tracking-technologies e machine learning hanno riscontrato nel riconoscimento di attività su esseri umani, diversi sono gli studi che hanno cercato di produrre un modello di classificazione capace di riconoscere in modo automatico il comportamento assunto dall’animale, basando la propria predizione su dati raccolti da opportuni sensori. Tuttavia, i risultati riportati in letteratura rivelano che i modelli proposti non sono ancor sufficientemente accurati per fornire adeguato supporto all’esperto. Ritenendo che questa carenza di accuratezza sia dovuta ad un’eccessiva confidenza nelle abilità degli algoritmi di machine learning, viene qui proposta una metodologia innovativa, il cui scopo è dimostrare come il contributo del data analyst nel preparare i dati in modo corretto si riveli sostanziale nel massimizzare le performance del modello di classificazione. Spostando il focus del framework dalla fase di classificazione a quelle di preprocessing e features extraction, metodi come filtraggio, rimozione del bias dello strumento di misurazione ed identificazione delle osservazioni inconsistenti vengono introdotti. Lo scopo è pulire al meglio il dataset per facilitare il processo di apprendimento del classificatore. Nel definire la procedura di features extraction, il Curse of Dimensionality problem è stato inoltre considerato, al fine di evitare di incorrere nel problema dell’overfitting. Tutte le scelte adottate nello strutturare la metodologia proposta sono state esaustivamente motivate, così come tutte le procedure che la costituiscono sono state dettagliatamente spiegate. Il risultato finale è quindi un framework pensato per essere completamente trasparente all’utilizzatore, in quanto è sia consistente con la stuttura dell’etogramma, sia con il procedimento logico seguito dall’esperto nello svolgimento del processo di annotazione. L’efficacia della metodologia proposta è stata validata utilizzando come caso di studio un dataset collezionato dai ricercatori del Crofoot Lab presso Mapla Centre, in Kenya, monitorando un gruppo di Olive Baboons. I risultati ottenuti dimostrano un incremento di 10 punti in accuratezza rispetto ai gold standard identificati durante lo studio della letteratura.