Unict rilascia Epic Kitchens - 100

Il più grande dataset per lo studio delle tecnologie di visione artificiale indossabili

13 Giugno 2020

Alfio Russo

Immaginate di poter indossare un assistente virtuale che vede ciò che voi state vedendo, comprende le azioni che state compiendo in tempo reale, predice cosa potreste fare nel prossimo futuro e sia anche capace di riconoscere quali oggetti state usando. Immaginate che questo assistente virtuale possa aiutarvi nella vita di tutti i giorni e possa supportare ogni umano a prevedere quali sono i rischi avvertendolo prima che gli eventi accadano.

Sono queste le visioni che stanno alla base delle ricerche condotte da un gruppo di ricercatori del Dipartimento di Matematica e Informatica dell’Università di Catania guidato dal prof. Giovanni Maria Farinella. Un gruppo che da anni si occupa di studiare algoritmi utili alla creazione di sistemi di intelligenza artificiale con l’obiettivo di vedere e agire per supportare gli utenti nelle loro attività quotidiane in diversi domini applicativi: assistive, industrial, human-robot interaction.

Ed è proprio per permettere alla comunità scientifica di contribuire a queste sfide che è stato creato un nuovo dataset dai ricercatori dell’Ateneo Catanese insieme all’Università di Bristol in Gran Bretagna di cui è stato appena rilasciato il trailer Epic-Kitchens-100, contenente 700 video catturati da 32 soggetti diversi mediante camera indossabile per un totale di circa 100 ore di video con 90mila segmenti di azioni etichettate utili allo studio di algoritmi per la comprensione di azioni e oggetti nella scena osservata.

Il trailer del dataset è già disponibile nei canali social, mentre il nuovo dataset sarà discusso in un webinar aperto a tutta alla comunità scientifica il 1° luglio. I risultati dello studio scientifico saranno resi pubblici nei prossimi giorni su arXiv, l’archivio open più consultato dalla comunità scientifica.

«Lo studio condotto su Epic-Kitchens-100 presenta diversi risultati su problematiche aperte nel contesto delle tecnologie di Machine Learning per la realizzazione di sistemi di visione artificiale indossabili - spiega il prof. Giovanni Maria Farinella, docente di Machine Learning dell’Università di Catania -. Abbiamo di recente pubblicato un ulteriore studio sulla rivista scientifica IEEE PAMI che presenta algoritmi di visual intelligence che hanno lo scopo di anticipare le azioni intraprese da un utente a partire da immagini acquisite con dispositivi indossabili. Lo studio pubblicato è frutto di un lungo percorso, durato quasi 2 anni, in cui insieme al dott. Antonino Furnari abbiamo definito e valutato metodologie capaci di apprendere da grosse moli di dati al fine di predire le successive azioni che l’utente si accinge a compiere».

E sono proprio le tecnologie di visione artificiale indossabili oggetto del progetto “ENIGMA -Egocentric Navigator for Industrial Guidance, Monitoring and Anticipation”, finanziato dal Ministero per lo Sviluppo Economico sulla misura Fabbrica intelligente - PON I&C 2014-2020, in cui è coinvolta l’Università di Catania insieme con aziende locali (XENIA Progetti e Morpheos), con la responsabilità scientifica del prof Farinella.

«Il progetto ENIGMA, della durata di 36 mesi, è stato avviato nel marzo di quest’anno – spiega il prof. Farinella -. Nei prossimi tre anni studieremo e svilupperemo tecnologie indossabili di visione in prima persona che saranno in grado di supportare un lavoratore in ambienti industriali in cui si svolgono operazioni complesse e rischiose. Lo scopo è quello di produrre tecnologie che possano avere un grosso impatto per la società, permettendo un trasferimento tecnologico utile a far crescere il tessuto industriale che ci circonda».

Challenges su cui sono stati prodotti i risultati

Action Recognition
Riconoscere le azioni di un utente può essere utile per applicazioni di memory aumentation (cosa ho fatto? quando?) e training. Nella challenge, a partire da un clip video lo scopo è quello di comprendere quale azione è stata compiuta dall’utente.

Action Detection
Poter indicizzare video in automatico è utile per individuare velocemente parti del video che sono di interesse. Dato un video lo scopo di questa challenge è quello di individuare tutte le azioni compiute dall’utente, come anche quando sono state iniziate e finite.

Action Anticipation
Anticipare quello che potrà avvenire nel futuro considerando quanto è accaduto nel passato è una delle abilità umane che ci permettono di prevedere rischi per prendere decisioni su come agire. In questa challenge, osservato un video fino al tempo t, lo scopo è quello di predire quali azioni compirà l’utente nel futuro (dopo il tempo t) e prima ancora che queste avvengano.

Domain Adaptation
I sistemi di intelligenza artificiale imparano da grosse moli di dati. Lo scopo del challenge di domain adaptation è quello di produrre sistemi che siano in grado di apprendere in un dominio per essere utilizzati in domini nuovi mai visti prima.

Retrieval
Quante volte abbiamo pensato di cercare un video simile a quello che stiamo osservando? Questa challenge prevede di ricercare video simili ad uno di interesse in un set di video presenti in una banca dati

Per ognuno dei challenge sono stati effettuati esperimenti e sono stati riportati i risultati che possano permettere alla comunità scientifica un confronto costruttivo per la realizzazione di sistemi di visione artificiale che possano supportare le persone durante le attività quotidiane.