NLP

Il vero potere del NLP? Conoscerne i limiti

23/3/2021

‍Il Natural Language Processing: macchine che ci imitano

L’interazione tra esseri umani e macchine - a tutti i livelli - sarà decisiva per la conformazione futura della società e dell’economia. Il tema ci sta molto a cuore e, con questo articolo, vogliamo offrirvi una panoramica sul NLP, una tecnologia che riguarda molto da vicino il nostro lavoro in Aptus.AI.‍

Visita il nostro blog

**Un Machine Learning sempre più umano… per imparare meglio**

È universalmente noto che i sistemi di NLP sono molto migliorati negli ultimi anni, ma non è altrettanto nota la causa di questa evoluzione. Per spiegarla, occorre ripartire dalle origini del Natural Language Processing e affacciarsi sul mondo della linguistica. Le prime tecnologie basate sul Machine Learning erano programmate per imparare a partire da task specifici, dunque ripartendo ogni volta da capo. Così le macchine non erano realmente in grado di imparare una lingua, ma soltanto di allenarsi a svolgere sempre più accuratamente quello specifico task. Questo, però, non è il modo in cui gli esseri umani apprendono le lingue. Da bambini, infatti, impariamo a esprimerci grazie alla nostra esposizione nei confronti di una lingua. Grazie a questa esposizione linguistica, gli esseri umani imparano a completare le frasi, dimostrando di avere acquisito una competenza sulla struttura della lingua, ma anche di conoscere il contesto e il significato delle parole. Proprio imitando questa modalità di apprendimento umana, i nuovi sistemi di NLP sono in grado di predire la parola successiva in una frase, costituendo quelli che si definiscono language models.

Evoluzione e stato dell’arte del Natural Language Processing

In termini strettamente linguistici, queste teorie erano sorte già sul finire degli anni ‘50 del ‘900, con la cosiddetta ipotesi distribuzionale del linguaggio di J.R. Firth, secondo cui - citando le parole di uno studio del Professor Alessandro Lenci - “il grado di similarità semantica tra due espressioni linguistiche A e B è una funzione della similarità del contesto linguistico in cui A e B possono comparire”. Sono poi serviti diversi anni e avanzamenti tecnologici per superare i limiti che impedivano di applicare questa teoria anche alle macchine di calcolo. Sulla base dell’ipotesi distribuzionale sono nati i primi modelli pre-neurali: Bag of Words (BoW), TF-IDF, Latent Semantic Analysis (LSA). Dopodiché, a partire dal 2013, si è arrivati a quelli neurali come Word2Vec, fino al più complesso ed efficace, BERT del 2018 - e, in generale, a tutti i modelli Transformers (in attesa di approfondire il tema, vi suggeriamo questo articolo). Oggi i sistemi di NLP non partono più da zero per ogni nuovo task, ma da un language model a cui i nuovi task vengono soltanto aggiunti. Senza addentrarci nel tema (almeno in questo post), lo stesso principio viene sfruttato anche per le immagini. Ecco perché un interessante articolo di Facebook AI parla di “materia scura dell’intelligenza”, riferendosi alla riproduzione di queste dinamiche dell’apprendimento umano - affini al concetto di senso comune -, che costituiscono l’aspetto più complesso del Machine Learning. Ovviamente, maggiore è il numero di reti neurali impiegate per replicare il modo umano di apprendere, più alta è la capacità della macchina di imparare. Altrettanto ovviamente, per poterlo fare, sono necessarie macchine sempre più potenti, ma la direzione tracciata è chiara. Come prova l’articolo del Guardian interamente redatto da un bot grazie al modello GPT-3.

Integrare NLP e Document AI: la sfida di Aptus.AI

I sistemi appena descritti hanno però dei limiti ben chiari. Ad esempio, riescono a lavorare solo su documenti con un inizio e una fine ben definiti, non troppo lunghi né complessi in termini di struttura interna. In concreto, un file PDF - formato non machine readable - o un documento troppo elaborato da processare risulterebbero inutilizzabili da una macchina. Non solo. I sistemi di NLP non riescono a considerare la struttura di un documento, dato che lavorano soltanto sul testo puro.

A partire da questa consapevolezza, in Aptus.AI abbiamo sviluppato sistemi che integrano NLP e Document AI (che tratteremo più in dettaglio). Usare queste due tecnologie in maniera integrata, facendole interagire, fa sì che ognuna aggiunga valore all’altra. Ecco come è nato Daitomic, la nostra soluzione di Intelligenza Artificiale per la gestione della compliance bancaria: vuoi saperne di più?

Contattaci