We are losing biodiversity at an unprecedented scale and in many cases, we do not even know the basic data for the species. Traditional methods for wildlife monitoring are inadequate: they are expensive, time-consuming, and therefore unscalable. Devel- opment of new computer vision tools enables the use of images as the source of information about wildlife. Social media is the rich source of wildlife images, which come with a huge bias, thus thwarting traditional population size estimate approaches. Here, we present a new framework to take into account the social media bias when using this data source to provide wildlife population size estimates. We test the method on two different species: Grevy’s zebra and Reticulated giraffe. Our approach is composed of two steps. First, a regression model is trained to estimate the total number of animals, shared and not shared, photographed by a user, given the images collec- tion the user has shared on social media. We show that this is a learnable and potentially solvable problem. Moreover, we explain how to create a dataset suitable for the training phase. In a sec- ond step, the trained regression model is applied on data scraped from social media. The regression output is than fed to a modified traditional wildlife estimator in order to provide an estimate for the entire population. Finally, we show how to automatize a crucial part of the clean- ing process: the identification and removal of captive animals from the dataset collected from social media.

Stiamo perdendo biodiversità a un ritmo precedentemente mai visto. Per molte delle specie conosciute non disponiamo nemmeno delle più basiche informazioni. I metodi tradizionali usati per il monitoraggio della fauna sono inadeguati. Sono infatti costosi e richiedono un grande impiego di risorse e tempo: non sono dunque scalabili. Lo sviluppo di nuovi tool nell’ambito della computer vision permette l’utilizzo di immagini come fonte di informazioni sulla fauna. Una delle più ricche fonti di immagini di animali sono sicuramente i social media. Tuttavia, queste immagini portano con sé un bias che ne impedisce l’utilizzo nelle tradizionali tecniche per stimare le dimensioni di una popolazione animale. In questo lavoro presentiamo un nuovo framework capace di tener conto di tale bias quando si vogliano utilizzare i social media come fonte di dati per il monitoraggio della fauna. Il metodo è testato su due differenti specie: la Zebra di Grevy e la Giraffa Reticolata. Il nostro approccio consta di due parti. Dapprima, viene svi- luppato un modello di regressione per stimare il numero totale di animali fotografati da un utente, sia condivisi che non condivisi sui social media, sulla base delle foto da lui condivise. Mostrere- mo che questo problema è potenzialmente solvibile e può essere modellato dagli attuali modelli di machine learning. Inoltre, mo- streremo come sia possibile creare un dataset adatto allo sviluppo di tale modelli. In una seconda fase, un modello di regressione generato sul precedente dataset viene applicato a dati scaricati dai social media. L’output del regressore viene poi usato in un tradizionale modello biologico al fine di fornire una stima per la dimensione dell’intera popolazione animale relativa ad una specie. Infine, mostriamo come sia possibile automatizzare un proces- so fondamentale nella costruzione di un dataset per lo studio di una specie: l’identificazione ed eliminazione di foto provenienti da social media che mostrino animali detenuti in zoo.

A species independent framework for estimating animal wildlife population using social media images collections

FOGLIO, MATTEO
2018/2019

Abstract

We are losing biodiversity at an unprecedented scale and in many cases, we do not even know the basic data for the species. Traditional methods for wildlife monitoring are inadequate: they are expensive, time-consuming, and therefore unscalable. Devel- opment of new computer vision tools enables the use of images as the source of information about wildlife. Social media is the rich source of wildlife images, which come with a huge bias, thus thwarting traditional population size estimate approaches. Here, we present a new framework to take into account the social media bias when using this data source to provide wildlife population size estimates. We test the method on two different species: Grevy’s zebra and Reticulated giraffe. Our approach is composed of two steps. First, a regression model is trained to estimate the total number of animals, shared and not shared, photographed by a user, given the images collec- tion the user has shared on social media. We show that this is a learnable and potentially solvable problem. Moreover, we explain how to create a dataset suitable for the training phase. In a sec- ond step, the trained regression model is applied on data scraped from social media. The regression output is than fed to a modified traditional wildlife estimator in order to provide an estimate for the entire population. Finally, we show how to automatize a crucial part of the clean- ing process: the identification and removal of captive animals from the dataset collected from social media.
BERGER-WOLF, TANYA
ING - Scuola di Ingegneria Industriale e dell'Informazione
18-dic-2019
2018/2019
Stiamo perdendo biodiversità a un ritmo precedentemente mai visto. Per molte delle specie conosciute non disponiamo nemmeno delle più basiche informazioni. I metodi tradizionali usati per il monitoraggio della fauna sono inadeguati. Sono infatti costosi e richiedono un grande impiego di risorse e tempo: non sono dunque scalabili. Lo sviluppo di nuovi tool nell’ambito della computer vision permette l’utilizzo di immagini come fonte di informazioni sulla fauna. Una delle più ricche fonti di immagini di animali sono sicuramente i social media. Tuttavia, queste immagini portano con sé un bias che ne impedisce l’utilizzo nelle tradizionali tecniche per stimare le dimensioni di una popolazione animale. In questo lavoro presentiamo un nuovo framework capace di tener conto di tale bias quando si vogliano utilizzare i social media come fonte di dati per il monitoraggio della fauna. Il metodo è testato su due differenti specie: la Zebra di Grevy e la Giraffa Reticolata. Il nostro approccio consta di due parti. Dapprima, viene svi- luppato un modello di regressione per stimare il numero totale di animali fotografati da un utente, sia condivisi che non condivisi sui social media, sulla base delle foto da lui condivise. Mostrere- mo che questo problema è potenzialmente solvibile e può essere modellato dagli attuali modelli di machine learning. Inoltre, mo- streremo come sia possibile creare un dataset adatto allo sviluppo di tale modelli. In una seconda fase, un modello di regressione generato sul precedente dataset viene applicato a dati scaricati dai social media. L’output del regressore viene poi usato in un tradizionale modello biologico al fine di fornire una stima per la dimensione dell’intera popolazione animale relativa ad una specie. Infine, mostriamo come sia possibile automatizzare un proces- so fondamentale nella costruzione di un dataset per lo studio di una specie: l’identificazione ed eliminazione di foto provenienti da social media che mostrino animali detenuti in zoo.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
main.pdf

accessibile in internet per tutti

Descrizione: Thesis PDF
Dimensione 24.83 MB
Formato Adobe PDF
24.83 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/152207