Dove nascono i dati per istruire l’AI
Si sente spesso parlare di intelligenza artificiale, ma di cosa si tratta esattamente e di cosa ha bisogno per funzionare e svilupparsi? I dati sintetici che alimentano le AI e rispondono ai nostri quesiti.
Introduzione al Machine Learning
Il machine learning, o apprendimento automatico, è un campo dell’intelligenza artificiale che permette ai computer di imparare e migliorare dalle esperienze, senza essere esplicitamente programmati. I sistemi di machine learning utilizzano algoritmi che analizzano grandi quantità di dati per individuare relazioni, costruendo modelli che li rendano capaci di compiere previsioni o decisioni senza ulteriori istruzioni.
Questo approccio ha rivoluzionato molti settori, come il riconoscimento vocale, la visione artificiale, il processo decisionale automatizzato e molto altro ancora. Tuttavia, il successo del machine learning dipende fortemente dalla disponibilità di dati di addestramento di alta qualità e rappresentativi del problema da risolvere.
La nascita dei dati sintetici
Con l’aumento delle applicazioni di machine learning, è emersa la necessità di grandi quantità di dati di alta qualità per l’addestramento. Raccogliere e annotare manualmente questi dati può essere un processo lungo, costoso e soggetto a errori. Inoltre, in alcuni casi, i dati reali potrebbero essere limitati o addirittura impossibili da ottenere a causa di vincoli legali, etici o pratici.
Per superare questa sfida, i ricercatori hanno sviluppato tecniche per generare dati sintetici, ovvero dati artificiali creati al computer. Questi dati sintetici mirano a replicare le proprietà dei dati reali, pur mantenendo la privacy e riducendo i costi e gli sforzi di raccolta dei dati.
Cosa sono i dati sintetici
I dati sintetici sono dati artificiali generati tramite modelli o simulazioni al computer invece di essere raccolti dal mondo reale. Questi dati cercano di replicare le caratteristiche statistiche e le proprietà dei dati reali, come la distribuzione, la varianza, le correlazioni e le dipendenze tra le variabili.
A differenza dei dati reali, i dati sintetici non contengono informazioni personali identificabili o dati sensibili, riducendo così i rischi di violazione della privacy. Inoltre, poiché sono generati al computer, possono essere prodotti in quantità pressoché illimitate e con una vasta gamma di variazioni, superando i vincoli e i costi associati alla raccolta di dati reali.
Le tipologie di dati sintetici
Esistono diverse tipologie di dati sintetici, ognuna con le proprie caratteristiche e applicazioni:
- Dati sintetici generati da modelli: sono creati utilizzando modelli matematici o statistici che cercano di replicare le proprietà dei dati reali. Ad esempio, i modelli generativi avversari (GAN) possono essere addestrati su dati reali e quindi utilizzati per generare nuovi dati sintetici con caratteristiche simili.
- Dati sintetici da simulazioni: questa tipologia di dati sintetici è generata attraverso simulazioni al computer che modellano ambienti o processi realistici. Un esempio di utilizzo di questi dati lo troviamo nei giochi o nelle applicazioni di guida autonoma, dove i dati sintetici possono essere generati da simulazioni in ambienti virtuali con diverse condizioni di illuminazione, meteorologiche e di traffico.
- Dati sintetici ibridi: questi combinano dati reali e sintetici per massimizzare i vantaggi di entrambi. Possono essere utilizzati come base per generare variazioni sintetiche, aumentando così la diversità e la quantità dei dati di addestramento.
- Dati sintetici specifici al dominio: generati per applicazioni particolari, come ad esempio l’imaging medico (ndr. diagnostica per immagini), la visione artificiale per la produzione o la guida autonoma. Questi dati sintetici sono progettati per catturare le caratteristiche specifiche di un determinato dominio o problema.
Quando si utilizzano i dati sintetici
I dati sintetici vengono utilizzati in vari casi, ad esempio quando i dati reali sono limitati o costosi da raccogliere: in alcuni ambiti, come la medicina o le applicazioni militari, la raccolta di dati reali può essere estremamente costosa o addirittura impossibile. I dati sintetici offrono un’alternativa economica e scalabile.
Risultano utili anche per mantenere la privacy dei dati sensibili: nei casi in cui i dati contengano informazioni personali o sensibili, l’uso di dati sintetici può garantire la privacy e la conformità normativa.
Infine, si possono sfruttare anche per creare set di dati di addestramento più ampi e diversificati. I dati sintetici, infatti, possono essere generati con una vasta gamma di variazioni, aumentando la diversità e la rappresentatività dei set di dati di addestramento.
Si possono quindi utilizzare per simulare casi estremi o rari che sarebbero difficili o pericolosi da riprodurre nel mondo reale.
Infine, quando si esplorano nuovi domini o concetti, i dati sintetici sono preziosi in quanto perfetti per generare esempi iniziali e valutare la fattibilità di un’applicazione di machine learning.
Performance dei dati sintetici
Numerosi studi hanno dimostrato che i modelli di machine learning addestrati con dati sintetici possono raggiungere prestazioni comparabili o addirittura superiori a quelli addestrati con soli dati reali.
In generale, l’uso di dati sintetici può migliorare le prestazioni dei modelli di machine learning in diverse situazioni:
- Quando i dati reali sono limitati o distorti: i dati sintetici possono compensare la mancanza di dati reali o le distorsioni nei set sperimentali di dati esistenti.
- Per migliorare la generalizzazione: i dati sintetici possono introdurre variazioni che aiutano i modelli a generalizzare meglio a nuove situazioni.
- Per affrontare i problemi di overfitting ossia un adattamento eccessivo che avviene quando un modello statistico molto complesso si adatta ai dati osservati perché ha un numero eccessivo di parametri rispetto al numero di osservazioni. L’aggiunta di dati sintetici può ridurre il rischio di overfitting o la tendenza dei modelli a memorizzare i dati di addestramento invece di imparare concetti generalizzabili.
Vi è da evidenziare, però, che la qualità dei dati sintetici dipende dai modelli e dagli algoritmi utilizzati per generarli, nonché dalla rappresentatività dei dati di addestramento originali. La generazione di dati sintetici di alta qualità e rappresentativi richiede una profonda comprensione dei dati reali e dei modelli statistici sottostanti. Se non sono generati correttamente, i dati sintetici possono introdurre distorsioni o artefatti che potrebbero influenzare negativamente le prestazioni dei modelli di machine learning.
In molti casi, l’approccio migliore è una combinazione di dati reali e sintetici, che sfrutta i punti di forza di entrambi.
Il rispetto della privacy
Ciononostante, i dati sintetici hanno un grande vantaggio pratico rispetto a quelli reali, perché evitano ogni problematica relativa alla privacy. Poiché questi dati non contengono informazioni identificabili o dati sensibili, possono essere condivisi e utilizzati per l’addestramento dell’AI senza violare la privacy degli individui.
Questo aspetto è di fondamentale importanza in settori come la sanità, le finanze e il governo, dove la protezione dei dati personali è una priorità assoluta. I dati sintetici consentono di sfruttare i vantaggi dell’apprendimento automatico senza compromettere la privacy dei cittadini o dei clienti.
Inoltre, l’uso di dati sintetici può ridurre i rischi legali e di conformità associati alla condivisione o all’elaborazione di dati personali, semplificando la collaborazione tra organizzazioni e la condivisione di conoscenze, grazie per l’appunto ai loro vantaggi sotto l’aspetto della tutela della privacy.
Non c’è dubbio sul fatto che l’intelligenza artificiale sta entrando a grandi passi nelle nostre società, e molto probabilmente sarà sempre più diffusa e impattante in futuro. Come per ogni tecnologia – e forse particolarmente in questo caso, vista la delicata natura cognitiva dei compiti che per la prima volta assegniamo alle macchine tramite l’uso di AI – è fondamentale sviluppare attenzione rispetto al suo metodo di funzionamento e alle conseguenze del suo utilizzo. Questo articolo spera di contribuire almeno in minima parte a tale obiettivo: formare una coscienza collettiva rispetto alla natura dell’intelligenza artificiale e delle sue applicazioni concrete.
Fonti:
- https://www.ibm.com/topics/synthetic-data
- https://ai.googleblog.com/2019/12/synthesizing-synthetic-data.html
- https://www.zdnet.com/article/what-is-synthetic-data/
- https://www.mckinsey.com/capabilities/quantumblack/our-insights/synthetic-data-unseen-data-better-ai
- https://www.datarobot.com/blog/what-is-synthetic-data/
- https://www.analyticsindiamag.com/what-is-synthetic-data-and-how-is-it-used-in-machine-learning/