Classificazione testuale e intelligenza artificiale: verso l'integrazione di modelli proprietari, open-source e supervisione umana

Carammia, Marcello; Iacus, Stefano M.; Porro, Giuseppe

Lo studio esamina l’efficacia dei large language model (LLM), proprietari e open-source, nei processi di classificazione testuale. Pur confermando le alte prestazioni di modelli chiusi come Chat GPT-4, si evidenzia come gli LLM open-source, ottimizzati tramite fine tuning, possano ottenere risultati comparabili con costi di elaborazione contenuti. Un esercizio di classificazione di post di X (già Twitter) mostra che i modelli open-source (es. Llama-2 e Llama-3) producono classificazioni accurate in forza della loro maggiore flessibilità, pur avendo dimensioni ridotte. Viene inoltre proposto un approccio ibrido che combina LLM (a sorgente chiusa e open-source) con la supervisione umana, ottimizzando accuratezza e scalabilità nella classificazione. Il metodo si dimostra adatto a contesti di classificazione multidimensionale, tipici delle scienze sociali, migliorando la qualità del risultato, la trasparenza dei processi e riducendo costi e rischi legati alla sicurezza dei dati.