AI

Come creare prodotti AI realmente efficaci, fase 2: preparazione dei dati

3/8/2021
Read in ENGLISH

Per avere successo nei problemi di business servono dati di qualità

Il nostro viaggio attraverso il processo di sviluppo di soluzioni efficaci di Intelligenza Artificiale è arrivato a un punto cruciale: la preparazione dei set di dati. Questa operazione è decisiva per realizzare prodotti di Machine Learning davvero efficienti a affonda le sue radici nella fase precedente, la definizione del problema.

Blog post precedente

La gestione dei dati è l’arma più potente contro il degrado delle prestazioni

Se la definizione del successo - ovvero dell’obiettivo definito sulla base del problema di business da affrontare - rappresenta le fondamenta di un modello di ML, i set di dati che ne derivano possono essere paragonati ai suoi mattoni. Le operazioni di gestione dei dati sono essenziali per evitare - o quantomeno per limitare - il degrado delle prestazioni dell’intero sistema, dato che quest’ultimo deve avere a che fare con dati che cambiano nel tempo, non essendo statici né normalizzati. Questa situazione si verifica nel contesto della ricerca, dove i set di dati sono predefiniti, dal momento che, in università, la finalità è quella di comparare come diversi modelli si comportino rispetto agli stessi dati, appunto. Ma questo non è possibile in un contesto commerciale, in cui i set di dati devono essere personalizzati in base ai problemi del cliente e specificamente definiti per sviluppare la soluzione desiderata. Inoltre, il mondo reale muta costantemente: predire eventi futuri, prendendo dati dal passato, è un’operazione che richiede scelte precise che permettano di evitare il degrado delle prestazioni del sistema nel corso del tempo.

Giuste tecniche di campionamento e distribuzione dei dati: ecco dove nasce la consistenza

Il successo di un modello di Machine Learning è strettamente dipendente dalla consistenza che si riesce a garantire tra i dati di training e quelli che alimenteranno il sistema durante la sua attività. Ecco perché la fase di preparazione dei dati di training rappresenta un’operazione centrale nello sviluppo di una soluzione di Intelligenza Artificiale e può fare la differenza rispetto alla qualità del sistema. Il tema della consistenza dei dati è collegato al fatto che la distribuzione degli stessi può cambiare tra la fase di training e l’attività effettiva del modello di ML, a causa di vari fattori - il tipo di fonte dei dati, l’ingegnerizzazione, ecc. Mantenere la consistenza tra la i dati in fase di training e le operazioni previsionali è essenziale. La domanda da farsi è: i dati utilizzati per il training seguono la stessa distribuzione nella fase previsionale? Negli ultimi anni, in Aptus.AI ci siamo dedicati prevalentemente al settore della compliance finanziaria, rispetto al quale possiamo citare un esempio, specificamente relativo all’estrazione di dati su testi legali. Nello sviluppare Daitomic - la nostra piattaforma di Intelligenza Artificiale creata per il mercato RegTech -, abbiamo avuto la necessità di aggiornare lo scraper utilizzato per raccogliere i dati di training, così da poter supportare una nuova versione dell’archivio dei testi legali. Beh, come abbiamo già scritto, i dati cambiano nel tempo.

Per assicurarsi che i dati vengano estratti in modo consistente, i data manager e gli ingegneri del software devono collaborare adeguatamente e confrontarsi in merito alla qualità dei dati stessi. Per ottenere questa consistenza, occorre dedicare la massima attenzione alle operazioni di campionamento dei dati, dato che, in alcuni casi, c’è bisogno di selezionare un sottoinsieme di dati per il training, a volte anche attraverso un’etichettatura manuale. Ecco perché la scelta rispetto alle tecniche di campionamento dei dati è fondamentale - e perché, più in generale, la gestione dei dati rappresenti una parte essenziale nello sviluppo di qualsiasi prodotto di Intelligenza Artificiale.

Le soluzioni AI davvero efficaci si basano sulla fase di preparazione dei dati

Quando lavoriamo alle nostri prodotti di Machine Learning, in Aptus.AI diamo la massima importanza alla fase di preparazione dei dati. Abbiamo seguito una procedura testata e su misura anche per sviluppare Daitomic, la nostra piattaforma interattiva per la gestione della compliance finanziaria. Giusto a titolo esemplificativo, per esprimere la rilevanza della qualità dei dati e della loro consistenza per ottenere un modello di ML che sia efficace, basti pensare che ogni normativa può contenere nuovi concetti che potrebbero essere sconosciuti al sistema di Machine Learning. Ecco perché abbiamo lavorato su set di dati specifici, basati su una visione olistica delle normative, che è agnostica rispetto alla norma di interesse. Per questa ragione Daitomic è già perfetto adesso per rivoluzionare le operazioni di compliance finanziaria, ma è anche pronto per essere applicato a qualsiasi contenuto testuale - ben oltre i documenti legali. Volete saperne di più?

DAITOMICMANIFESTOTEAMCAREERSBLOGCONTATTI
ENG
SEGUICI