Lo studio esamina l’efficacia dei large language model (LLM), proprietari e open-source, nei processi di classificazione testuale. Pur confermando le alte prestazioni di modelli chiusi come Chat GPT-4, si evidenzia come gli LLM open-source, ottimizzati tramite fine tuning, possano ottenere risultati comparabili con costi di elaborazione contenuti. Un esercizio di classificazione di post di X (già Twitter) mostra che i modelli open-source (es. Llama-2 e Llama-3) producono classificazioni accurate in forza della loro maggiore flessibilità, pur avendo dimensioni ridotte. Viene inoltre proposto un approccio ibrido che combina LLM (a sorgente chiusa e open-source) con la supervisione umana, ottimizzando accuratezza e scalabilità nella classificazione. Il metodo si dimostra adatto a contesti di classificazione multidimensionale, tipici delle scienze sociali, migliorando la qualità del risultato, la trasparenza dei processi e riducendo costi e rischi legati alla sicurezza dei dati.
Classificazione testuale e intelligenza artificiale: verso l'integrazione di modelli proprietari, open-source e supervisione umana
Giuseppe Porro
2025-01-01
Abstract
Lo studio esamina l’efficacia dei large language model (LLM), proprietari e open-source, nei processi di classificazione testuale. Pur confermando le alte prestazioni di modelli chiusi come Chat GPT-4, si evidenzia come gli LLM open-source, ottimizzati tramite fine tuning, possano ottenere risultati comparabili con costi di elaborazione contenuti. Un esercizio di classificazione di post di X (già Twitter) mostra che i modelli open-source (es. Llama-2 e Llama-3) producono classificazioni accurate in forza della loro maggiore flessibilità, pur avendo dimensioni ridotte. Viene inoltre proposto un approccio ibrido che combina LLM (a sorgente chiusa e open-source) con la supervisione umana, ottimizzando accuratezza e scalabilità nella classificazione. Il metodo si dimostra adatto a contesti di classificazione multidimensionale, tipici delle scienze sociali, migliorando la qualità del risultato, la trasparenza dei processi e riducendo costi e rischi legati alla sicurezza dei dati.I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.



