E' tutta una questione di misure

O come vautare la bontà del tuo spiritello GenAI

apr 15, 2024

Ciao a tutti, ed eccoci ad una nuova puntata di FatLama, la newsletter che tratta di AI generativa, con un focus sopratutto sulle capacità testuali.

Comunicazione di servizio: FatLama si prende una pausa, e non uscirà il prossimo lunedì. Torneremo il 29 Aprile.

Se FatLama vi piace, vi suggerisco di “spargere” la voce e di iscrivervi cliccando sul link qui sotto.

Una delle cose più importante nel campo GenAI è sviluppare metriche automatiche per misurare la bontà del proprio modello.

Creata dall’Autore usando MS Designer, strumento GenAI per immagini partendo da descrizioni

L’argomento è di per sé molto vasto, ha anche qualche sorpresa.

Questo articolo, intitolato “Speed of AI development is outpacing risk assessment” evidenzia una delle problematiche più spinose:

“A public benchmark has a lifespan,” said Aidan Gomez, founder and chief executive of AI start-up Cohere. “It’s useful until people have optimized [their models] to it or gamed it. That used to take a couple of years; now it’s a couple of months.”

Semplificando molto, le Generative AI stanno diventando fin troppo brave ad “ottimizzare” i benchmark su cui vengono misurate. Questo però non implica necessariamente che siano “migliori” in senso generale, ma semplicemente che siano brave a superare questi “test”. Un pò come quando vi preparate ad un esame che non vi interessa in poco tempo: ottimizzate lo studio per passare la prova d’esame (per es lo scritto) anziché imparare veramente la materia.

Si fa presto a dire misurare

Ho iniziato ad interessarmi a una procedura per misurare le performance delle tecniche Retrieval-Augmented Generation

Una delle metriche che ho trovato si chiama Massive Multitask Language Understanding (MMLU per gli amanti degli acronimi) che è basata su una ricerca del 2021.

Questa metrica si base su una serie di domande, e a titolo di esempio ChatGPT2 arriva ad un successo intorno al 32% mentre GPT3 supera il 50% con modelli molto grandi e ben tarati, mentre il modello Mistral 7B arriva al 62%

Si tratta di domande che spaziano dalla scuola a domande morali, per un totale di 18721 domande su 57 argomenti.
Mi sono scaricato il data set e gli ho dato un’occhiata.
Esempio di domande:

"What makes a relationships last, according to Sternberg?"

intimacy
commitment
decision
passion

(La risposta corretta è la seconda)

Oppure, circa la storia europea…

Machiavelli's treatise is best understood in the context of which of the following?

A time of burgeoning economic prosperity among the lower classes of Italian society
A time of increasing religious devotion among the elite Italian scholars
A time of intense political conflict among warring Italian city-states and other factions
A time of collegial cooperation between scholars and ecclesiastical authorities in Italy

Si tenga presente che una statistica su un campione eterogeneo di 20.000 domande non è immenso, che è anche distribuito in modo disomogeneo:

     782 test/miscellaneous_test.csv
     894 test/moral_scenarios_test.csv
     988 test/high_school_us_history_test.csv
    1111 test/high_school_european_history_test.csv
    1533 test/professional_law_test.csv
    1879 test/high_school_world_history_test.csv
   18721 total

Ci sono test di medicina e di computer science a livello universitario, alcuni dei quali sono prettamente nozionistici, mischiati a domande morali e piccoli quiz.

Oltre a quella descritta, ci sono moltissime metriche indipendenti, e quindi quando una società pubblica dei risultati, deve essere pronta a mettersi “in gioco”.

Arena & Elo

Sul sito di Mistral.ai, dove abbiamo trovato la valutazione per MMLU, c’è un rimando ad un altra metrica che porta alla Chatbot Arena:

La cosa interessante è che questo sistema è basato sulle domande fatta da persone reali, che leggono due risposte prese da due GenAI anonime e decretano quella migliore.

Qui il ranking è fatto con il sistema di valutazione Elo usato negli scacchi, e che è molto utile perché rende confrontabili le valutazioni: per es due giocatori con punteggio Elo molto vicini o identici hanno il 50% di probabilità di vincere una partita uno contro uno. Da questa tabella si evince che i modelli come Claude3 e GPT-4 sono molto vicini, e che Google Gemini li sta tallonando da vicino. Si noti anche che tutti i modelli con i punteggi più alti hanno una licenza proprietaria e chiusa.

Infine, ecco una lista degli altri metodi di valutazione:

Tabella presa da https://lmsys.org/blog/2023-05-03-arena/

L’Holistic Evaluation of Language Models (HELM) è sviluppato dall’Univesità di Stanford, ed è anche lui open source. In particolare HELM è un framework che è in grado di testare altre metriche (per es l’MMLU).

Sul sito dell’Università si trova questa diversa classifica: qui i modelli testati sono grandi, e GPT4 è sempre in testa…

L’obiettivo di HELM è avere un set di scenari comuni e più metriche di misura, in maniera tale da fare confronti approfonditi. C’è un paper per chi vuole studiare più a fondo questo progetto.

Torneremo di nuovo su questo argomento.

Se avete spunti, proposte o domande, non esitate a contattarmi inviandomi un messaggio o lasciando un commento.

Buone misurazioni!

Lascia un commento

Riferimenti

Codice e tabelle MMLU: https://github.com/hendrycks/test?tab=readme-ov-file#measuring-massive-multitask-language-understanding
Il sistema di valutazione Elo usato negli scacchi, e anche da alcune metriche, può essere applicato a tutti i giochi a somma zero, e tiene conto del punteggio dei due avversari oltre che del risultato della partita, per aggiornare il punteggio Elo di ognuno. Un sistema di ‘vasi comunicanti’ sottrae punti dal perdente al vincente, in base alla forza relativa stimata, ed è basato su una semplice funzione lineare.
Sito di HELM e paper di presentazione

white and pink floral cake — Photo by Gerardo Ramirez on Unsplash