A semantic modelling procedure is introduced to ease array-based multivariate transformations of public environmental data, along with the architecture of a collaborative repository of modelling meta-information based on the procedure. The procedure, Semantic Array Programming (SemAP), is intended as a lightweight paradigm to support integrated natural resources modelling and management (INRMM), in the context of wide-scale transdisciplinary modelling for environment (WSTMe, here tested from catchment up to regional and continental scale). It is a common experience among computational scientists, to codify even short algorithms – if no out-of-the-box solutions are available – with remarkably longer implementations. Computational science algorithms not rarely deal with large amounts of data with a precise (despite sometime nontrivial) semantic structure. If so, data may be organised in multiple groups with homogeneous semantics. Examples are matrices, time series, tuples, graphs or more generic multi-dimensional arrays. Geospatial problems often associate geographic information to particular arrays – e.g. spatial regular grids of data represented as georeferenced matrices. Domain specific frameworks may offer a convenient option for dealing with standard problems within a given sectoral domain, while object oriented approaches may easily support structured information to be more broadly transferred with default behaviours/assumptions. However, this communication is more difficult to achieve for non-monolithic models using several programming languages and tools, with multiple teams involved and possibly no single expert able to cope with the overall integration complexity. Within a particular discipline, research team, or specialised modelling approach, a significant part of the overall semantics of data and data-transformation models (D-TM) may be taken for granted. This means that a core base of knowledge might safely remain unexpressed. Unfortunately, this is no more the case whenever that particular domain of knowledge has to interact with other domains, perhaps quite far from it. Namely, when a set of practices and knowledge – shared by a certain research community – has to be relativized from universal set of the research activities up to become a simple specialized module within a transdisciplinary context, the common sense evaporates. As a consequence, it should be communicated in a simple – but also compact and unambiguous – cross-disciplinary way. Array Programming (AP) might support part of this task. AP originated for reducing the gap between mathematical formulation and code implementation by introducing very concise operators and coding patterns to deal with variables potentially composed by billions of elements and considered as atomic (with correspondingly terse manipulation). AP data structures can offer a support 1) already widespread (given the extensive use of AP languages), and 2) less arbitrary/restrictive than a particular choice (within a virtually infinite set of possibilities) of objects to share among multiple and highly heterogeneous modules. However, this support is still poorly exploited. The AP data structures are very general: multi-dimensional arrays where the value of some elements may be infinite or not-a-number (IEEE 754 standard) or even complex-valued. From this potentially overwhelming generality it follows the basic idea of SemAP: limiting this generality with array-based semantic constraints. The second key idea of SemAP is to encourage modularisation of data-transformations so as to easily propagate the semantic support to lower-level sub-D-TMs – which might prove helpful even to better explore software uncertainty. SemAP has been formalised and expanded to address geospatial problems (Geospatial Semantic Array Programming, GeoSemAP) by means of a problem-driven approach focused on the broad heterogeneity in the European continent. Real world case studies illustrate SemAP-supported collaborative applications of transdisciplinary teams in the European Commission, Joint Research Centre, Institute for Environment and Sustainability. The case studies are essential to build the reference repertoire to serve as a guidance for consolidating and supporting the community of scientists involved in applying the modelling procedure, which is meant to drive a collaborative, peer-reviewed repository of metadata and data-transformation models related to web-available environmental datasets. The case studies illustrate the collaborative transdisciplinary application of the modelling procedure to pan-European soil erosion; forest resources modelling -- including forest connectivity and biomass; integrated wildfire behaviour modelling and management; landslide susceptibility. They constitute the premise ad precious feedback for the future real world presentation and exploitation of the repository. Finally, statistics are presented on the number of unique authors who contributed or cited SemAP-supported publications. The current active expansion of the paradigm within the community of potentially interested researchers suggests its ability to provide a complementary support to some challenging WSTMe applications.

In questo lavoro viene introdotta una procedura modellistica semantica per facilitare trasformazioni multivariate basate su array di dati ambientali pubblici. Al contempo, viene presentata l’architettura di una repository di meta-informazioni modellistiche basate sulla procedura. La procedura, Semantic Array Programming (SemAP), è intesa come un paradigma non-invasivo per supportare la modellistica e gestione integrata delle risorse naturali, nel contesto del la modellistica transdisciplinare a vasta scala per l’ambiente (wide-scale transdisciplinary modelling for environment, WSTMe). Quando non sono disponibili soluzioni ad-hoc, per i ricercatori nelle scienze computazionali è un’esperienza comune il dover codificare anche brevi algoritmi tramite implementazioni notevolmente più estese. Gli algoritmi delle scienze computazionali non di rado lavorano con grandi quantitativi di dati dotati di una struttura semantica precisa (anche se a volte non triviale). In questi casi, i dati possono essere organizzati in una molteplicità di gruppi con una semantica omogenea. Esempi possono essere matrici, serie temporali, tuple, grafi o più generici array multidimensionali. Problemi geospaziali spesso associano informazione geografica a particolari array – e.g. griglie spaziali regolari rappresentate come matrici georiferite. Framework dominio-specifici possono costituire un’opzione conveniente per affrontare problemi standard all’interno di un dato dominio settoriale, mentre approcci orientati agli oggetti possono facilmente supportare un più ampio trasferimento di informazione strutturata, anche caratterizzata da assunzioni di default. Tuttavia, questa comunicazione è più difficile da ottenere per modelli non monolitici che usano una varietà di differenti linguaggi di programmazione e strumenti software, con una molteplicità di gruppi di ricerca coinvolti e potenzialmente nessun singolo esperto capace di padroneggiare l’intera complessità dell’integrazione richiesta. All’interno di una data disciplina, di un dato gruppo di ricerca, o approccio modellistico specializzato, una parte significativa della semantica complessiva di dati e modelli di trasformazione-dati (data-transformation models, D-TM) si può considerare come nota a tutti. Questo significa che un sottoinsieme fondamentale della conoscenza coinvolta può rimanere inespresso senza conseguenze negative. Sfortunatamente, ciò non è più vero quando un particolare dominio di conoscenza deve interagire con altri domini, magari alquanto distanti da esso. Il che significa che quando un insieme di pratiche e conoscenze – condiviso da una certa comunità di ricerca – dev’essere relativizzato da insieme universale delle attività di ricerca a mero modulo specializzato all’interno di un più vasto contesto transdisciplinare, allora il senso comune “di dominio” evapora. Come conseguenza, esso richiede di essere comunicato al contesto cross-disciplinare in modo piano – ma anche compatto e non-ambiguo. La programmazione basata su array (array programming, AP) può essere di supporto in questo compito. AP nasce per ridurre la distanza tra la formulazione matematica e l’implementazione del codice corrispondente, introducendo operatori molto concisi e pattern di codifica per manipolare in modo terso variabili potenzialmente composte da miliardi di elementi, considerate però come atomiche. Le strutture dati tipiche dell’AP potrebbero offrire un supporto 1) già ampiamente diffuso (dato l’uso esteso dei linguaggi AP), e 2) meno arbitrario/restrittivo di una data scelta particolare di oggetti (all’interno un insieme virtualmente infinito di possibili alternative) da condividere tra una molteplicità di moduli altamente eterogenei. Tuttavia, questo supporto appare ad oggi poco sfruttato. Le strutture dati AP sono molto generali: array multidimensionali in cui il valore di alcuni elementi può essere infinito o not-a-number (IEEE 754 standard) o anche definito nell’insieme dei numeri complessi. Da questa generalità potenzialmente travolgente, segue l’idea di base del SemAP: limitare questa generalità con vincoli semantici basati su array. La seconda idea fondativa del SemAP è di incoraggiare la modularizzazione delle trasformazioni di dati per propagare facilmente il supporto semantico alle sub-D-TM di basso livello – il che può dimostrarsi utile anche al fine di esplorare meglio l’incertezza associata al software stesso (software uncertainty). SemAP è stata formalizzata ed espansa per affrontare problemi geospaziali (Geospatial Semantic Array Programming, GeoSemAP) per mezzo di un approccio orientato al problema e focalizzato sull’ampia eterogeneità nel continente Europeo. Casi di studio derivati da applicazioni reali illustrano la declinazione del supporto SemAP all’interno di gruppi di ricerca transdisciplinari nella Commisione Europea, in particolare nel direttorato del Centro Comune di Ricerca, Istituto per l’Ambiente e la Sostenibilità. I casi di studio sono essenziali per costruire il repertorio di riferimento pensato per servire come guida di consolidamento e supporto per la comunità di ricercatori coinvolti nell’applicazione della procedura. Questo sforzo è finalizzato a guidare la costruzione di una repository peer-reviewed e collaborativa di metadati e modelli di trasformazione-dati riferiti a dati ambientali accessibili in internet. I casi di studio illustrano l’applicazione collaborativa e transdisciplinare della procedura modellistica: allo studio dell’erosione del suolo a scala europea;alla modellistica delle risorse forestali – inclusi lo studio della connettività e biomassa forestali; alla modellistica e gestione integrate della dinamica degli incendi; alla vulnerabilità alle frane. Questi studi costituiscono la premessa e un prezioso feedback per la futura presentazione e lo sfruttamento della repository. Infine, vengono presentate statistiche sul numero di autori unici che hanno contribuito a, o citato, pubblicazioni scientifiche supportate da SemAP. L’attiva espansione attuale del paradigma all’interno della comunità dei ricercatori potenzialmente interessati suggerisce una sua capacità nel fornire un supporto complementare alle sfide poste da alcune applicazioni WSTMe.

Study of a collaborative repository of semantic metadata and models for regional environmental datasets' multivariate transformations

DE RIGO, DANIELE

Abstract

A semantic modelling procedure is introduced to ease array-based multivariate transformations of public environmental data, along with the architecture of a collaborative repository of modelling meta-information based on the procedure. The procedure, Semantic Array Programming (SemAP), is intended as a lightweight paradigm to support integrated natural resources modelling and management (INRMM), in the context of wide-scale transdisciplinary modelling for environment (WSTMe, here tested from catchment up to regional and continental scale). It is a common experience among computational scientists, to codify even short algorithms – if no out-of-the-box solutions are available – with remarkably longer implementations. Computational science algorithms not rarely deal with large amounts of data with a precise (despite sometime nontrivial) semantic structure. If so, data may be organised in multiple groups with homogeneous semantics. Examples are matrices, time series, tuples, graphs or more generic multi-dimensional arrays. Geospatial problems often associate geographic information to particular arrays – e.g. spatial regular grids of data represented as georeferenced matrices. Domain specific frameworks may offer a convenient option for dealing with standard problems within a given sectoral domain, while object oriented approaches may easily support structured information to be more broadly transferred with default behaviours/assumptions. However, this communication is more difficult to achieve for non-monolithic models using several programming languages and tools, with multiple teams involved and possibly no single expert able to cope with the overall integration complexity. Within a particular discipline, research team, or specialised modelling approach, a significant part of the overall semantics of data and data-transformation models (D-TM) may be taken for granted. This means that a core base of knowledge might safely remain unexpressed. Unfortunately, this is no more the case whenever that particular domain of knowledge has to interact with other domains, perhaps quite far from it. Namely, when a set of practices and knowledge – shared by a certain research community – has to be relativized from universal set of the research activities up to become a simple specialized module within a transdisciplinary context, the common sense evaporates. As a consequence, it should be communicated in a simple – but also compact and unambiguous – cross-disciplinary way. Array Programming (AP) might support part of this task. AP originated for reducing the gap between mathematical formulation and code implementation by introducing very concise operators and coding patterns to deal with variables potentially composed by billions of elements and considered as atomic (with correspondingly terse manipulation). AP data structures can offer a support 1) already widespread (given the extensive use of AP languages), and 2) less arbitrary/restrictive than a particular choice (within a virtually infinite set of possibilities) of objects to share among multiple and highly heterogeneous modules. However, this support is still poorly exploited. The AP data structures are very general: multi-dimensional arrays where the value of some elements may be infinite or not-a-number (IEEE 754 standard) or even complex-valued. From this potentially overwhelming generality it follows the basic idea of SemAP: limiting this generality with array-based semantic constraints. The second key idea of SemAP is to encourage modularisation of data-transformations so as to easily propagate the semantic support to lower-level sub-D-TMs – which might prove helpful even to better explore software uncertainty. SemAP has been formalised and expanded to address geospatial problems (Geospatial Semantic Array Programming, GeoSemAP) by means of a problem-driven approach focused on the broad heterogeneity in the European continent. Real world case studies illustrate SemAP-supported collaborative applications of transdisciplinary teams in the European Commission, Joint Research Centre, Institute for Environment and Sustainability. The case studies are essential to build the reference repertoire to serve as a guidance for consolidating and supporting the community of scientists involved in applying the modelling procedure, which is meant to drive a collaborative, peer-reviewed repository of metadata and data-transformation models related to web-available environmental datasets. The case studies illustrate the collaborative transdisciplinary application of the modelling procedure to pan-European soil erosion; forest resources modelling -- including forest connectivity and biomass; integrated wildfire behaviour modelling and management; landslide susceptibility. They constitute the premise ad precious feedback for the future real world presentation and exploitation of the repository. Finally, statistics are presented on the number of unique authors who contributed or cited SemAP-supported publications. The current active expansion of the paradigm within the community of potentially interested researchers suggests its ability to provide a complementary support to some challenging WSTMe applications.
FIORINI, CARLO ETTORE
BONARINI, ANDREA
24-feb-2015
In questo lavoro viene introdotta una procedura modellistica semantica per facilitare trasformazioni multivariate basate su array di dati ambientali pubblici. Al contempo, viene presentata l’architettura di una repository di meta-informazioni modellistiche basate sulla procedura. La procedura, Semantic Array Programming (SemAP), è intesa come un paradigma non-invasivo per supportare la modellistica e gestione integrata delle risorse naturali, nel contesto del la modellistica transdisciplinare a vasta scala per l’ambiente (wide-scale transdisciplinary modelling for environment, WSTMe). Quando non sono disponibili soluzioni ad-hoc, per i ricercatori nelle scienze computazionali è un’esperienza comune il dover codificare anche brevi algoritmi tramite implementazioni notevolmente più estese. Gli algoritmi delle scienze computazionali non di rado lavorano con grandi quantitativi di dati dotati di una struttura semantica precisa (anche se a volte non triviale). In questi casi, i dati possono essere organizzati in una molteplicità di gruppi con una semantica omogenea. Esempi possono essere matrici, serie temporali, tuple, grafi o più generici array multidimensionali. Problemi geospaziali spesso associano informazione geografica a particolari array – e.g. griglie spaziali regolari rappresentate come matrici georiferite. Framework dominio-specifici possono costituire un’opzione conveniente per affrontare problemi standard all’interno di un dato dominio settoriale, mentre approcci orientati agli oggetti possono facilmente supportare un più ampio trasferimento di informazione strutturata, anche caratterizzata da assunzioni di default. Tuttavia, questa comunicazione è più difficile da ottenere per modelli non monolitici che usano una varietà di differenti linguaggi di programmazione e strumenti software, con una molteplicità di gruppi di ricerca coinvolti e potenzialmente nessun singolo esperto capace di padroneggiare l’intera complessità dell’integrazione richiesta. All’interno di una data disciplina, di un dato gruppo di ricerca, o approccio modellistico specializzato, una parte significativa della semantica complessiva di dati e modelli di trasformazione-dati (data-transformation models, D-TM) si può considerare come nota a tutti. Questo significa che un sottoinsieme fondamentale della conoscenza coinvolta può rimanere inespresso senza conseguenze negative. Sfortunatamente, ciò non è più vero quando un particolare dominio di conoscenza deve interagire con altri domini, magari alquanto distanti da esso. Il che significa che quando un insieme di pratiche e conoscenze – condiviso da una certa comunità di ricerca – dev’essere relativizzato da insieme universale delle attività di ricerca a mero modulo specializzato all’interno di un più vasto contesto transdisciplinare, allora il senso comune “di dominio” evapora. Come conseguenza, esso richiede di essere comunicato al contesto cross-disciplinare in modo piano – ma anche compatto e non-ambiguo. La programmazione basata su array (array programming, AP) può essere di supporto in questo compito. AP nasce per ridurre la distanza tra la formulazione matematica e l’implementazione del codice corrispondente, introducendo operatori molto concisi e pattern di codifica per manipolare in modo terso variabili potenzialmente composte da miliardi di elementi, considerate però come atomiche. Le strutture dati tipiche dell’AP potrebbero offrire un supporto 1) già ampiamente diffuso (dato l’uso esteso dei linguaggi AP), e 2) meno arbitrario/restrittivo di una data scelta particolare di oggetti (all’interno un insieme virtualmente infinito di possibili alternative) da condividere tra una molteplicità di moduli altamente eterogenei. Tuttavia, questo supporto appare ad oggi poco sfruttato. Le strutture dati AP sono molto generali: array multidimensionali in cui il valore di alcuni elementi può essere infinito o not-a-number (IEEE 754 standard) o anche definito nell’insieme dei numeri complessi. Da questa generalità potenzialmente travolgente, segue l’idea di base del SemAP: limitare questa generalità con vincoli semantici basati su array. La seconda idea fondativa del SemAP è di incoraggiare la modularizzazione delle trasformazioni di dati per propagare facilmente il supporto semantico alle sub-D-TM di basso livello – il che può dimostrarsi utile anche al fine di esplorare meglio l’incertezza associata al software stesso (software uncertainty). SemAP è stata formalizzata ed espansa per affrontare problemi geospaziali (Geospatial Semantic Array Programming, GeoSemAP) per mezzo di un approccio orientato al problema e focalizzato sull’ampia eterogeneità nel continente Europeo. Casi di studio derivati da applicazioni reali illustrano la declinazione del supporto SemAP all’interno di gruppi di ricerca transdisciplinari nella Commisione Europea, in particolare nel direttorato del Centro Comune di Ricerca, Istituto per l’Ambiente e la Sostenibilità. I casi di studio sono essenziali per costruire il repertorio di riferimento pensato per servire come guida di consolidamento e supporto per la comunità di ricercatori coinvolti nell’applicazione della procedura. Questo sforzo è finalizzato a guidare la costruzione di una repository peer-reviewed e collaborativa di metadati e modelli di trasformazione-dati riferiti a dati ambientali accessibili in internet. I casi di studio illustrano l’applicazione collaborativa e transdisciplinare della procedura modellistica: allo studio dell’erosione del suolo a scala europea;alla modellistica delle risorse forestali – inclusi lo studio della connettività e biomassa forestali; alla modellistica e gestione integrate della dinamica degli incendi; alla vulnerabilità alle frane. Questi studi costituiscono la premessa e un prezioso feedback per la futura presentazione e lo sfruttamento della repository. Infine, vengono presentate statistiche sul numero di autori unici che hanno contribuito a, o citato, pubblicazioni scientifiche supportate da SemAP. L’attiva espansione attuale del paradigma all’interno della comunità dei ricercatori potenzialmente interessati suggerisce una sua capacità nel fornire un supporto complementare alle sfide poste da alcune applicazioni WSTMe.
Tesi di dottorato
File allegati
File Dimensione Formato  
2015_02_PhD_de_Rigo.PDF

accessibile in internet solo dagli utenti autorizzati

Descrizione: Thesis text
Dimensione 36.79 MB
Formato Adobe PDF
36.79 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/101044