Lo studio esamina l’efficacia dei large language model (LLM), proprietari e open-source, nei processi di classificazione testuale. Pur confermando le alte prestazioni di modelli chiusi come Chat GPT-4, si evidenzia come gli LLM open-source, ottimizzati tramite fine tuning, possano ottenere risultati comparabili con costi di elaborazione contenuti. Un esercizio di classificazione di post di X (già Twitter) mostra che i modelli open-source (es. Llama-2 e Llama-3) producono classificazioni accurate in forza della loro maggiore flessibilità, pur avendo dimensioni ridotte. Viene inoltre proposto un approccio ibrido che combina LLM (a sorgente chiusa e open-source) con la supervisione umana, ottimizzando accuratezza e scalabilità nella classificazione. Il metodo si dimostra adatto a contesti di classificazione multidimensionale, tipici delle scienze sociali, migliorando la qualità del risultato, la trasparenza dei processi e riducendo costi e rischi legati alla sicurezza dei dati.

Classificazione testuale e intelligenza artificiale: verso l'integrazione di modelli proprietari, open-source e supervisione umana

Giuseppe Porro
2025-01-01

Abstract

Lo studio esamina l’efficacia dei large language model (LLM), proprietari e open-source, nei processi di classificazione testuale. Pur confermando le alte prestazioni di modelli chiusi come Chat GPT-4, si evidenzia come gli LLM open-source, ottimizzati tramite fine tuning, possano ottenere risultati comparabili con costi di elaborazione contenuti. Un esercizio di classificazione di post di X (già Twitter) mostra che i modelli open-source (es. Llama-2 e Llama-3) producono classificazioni accurate in forza della loro maggiore flessibilità, pur avendo dimensioni ridotte. Viene inoltre proposto un approccio ibrido che combina LLM (a sorgente chiusa e open-source) con la supervisione umana, ottimizzando accuratezza e scalabilità nella classificazione. Il metodo si dimostra adatto a contesti di classificazione multidimensionale, tipici delle scienze sociali, migliorando la qualità del risultato, la trasparenza dei processi e riducendo costi e rischi legati alla sicurezza dei dati.
2025
Mimesis Edizioni srl
9791222326504
File in questo prodotto:
Non ci sono file associati a questo prodotto.

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/11383/2202371
 Attenzione

L'Ateneo sottopone a validazione solo i file PDF allegati

Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact