Intermedio Abstraction and Reasoning Corpus 2
Benchmark di puzzle visivi a griglia creato da François Chollet per misurare il ragionamento astratto su pattern mai visti prima, non risolvibili con memorizzazione.
In pratica Pensato per essere facile per gli umani (oltre 80%) ma difficile per gli LLM. Nel 2024 o3 di OpenAI ha raggiunto risultati storici, riaprendo il dibattito su cosa significhi davvero AGI. Esiste un premio da un milione di dollari.
Intermedio Ricerca a fascio
Algoritmo di decodifica che mantiene contemporaneamente le N sequenze più probabili e alla fine sceglie quella con punteggio complessivo migliore.
In pratica Dà risultati più "sicuri" della scelta greedy, ma tende a essere ripetitivo e poco naturale nei testi lunghi. Era standard nella traduzione automatica; negli LLM conversazionali moderni è quasi sostituito da top-p sampling. Resta utile in task strutturati come traduzione e summarization.
Base CoT · Catena di ragionamento 7
Tecnica in cui si chiede al modello di esplicitare i passaggi intermedi del ragionamento prima di dare la risposta finale, migliorando l'accuratezza su compiti complessi.
In pratica Aggiungere 'pensa passo per passo' al prompt funziona davvero su matematica, logica e analisi. I modelli reasoning (o1, Claude con thinking) lo fanno in automatico. Costa più token, quindi conviene usarla solo dove serve.
Base Finestra di contesto · Context length 1
Numero massimo di token che il modello può leggere e tenere in memoria in una singola chiamata, sommando prompt e risposta.
In pratica Se hai un contratto di 200 pagine e una finestra da 200k token spesso ci sta dentro tutto. Se no devi spezzettare il testo o usare RAG. Più contesto pesa di più sul costo e sulla latenza della risposta.
Avanzato Batching continuo · In-flight batching 2
Strategia di servizio in cui nuove richieste si uniscono al batch in corso a ogni passo di generazione, invece di aspettare che le precedenti finiscano.
In pratica Aumenta in modo netto il throughput di una GPU che serve API, perché non lascia mai i core inattivi. È implementato in vLLM, TensorRT-LLM e TGI. Per chi sceglie il modello di pricing pay-per-token, è uno degli ingredienti chiave per restare competitivo sui costi.
Base Apprendimento con pochi esempi 3
Tecnica di prompting in cui si mostrano al modello pochi esempi di input e output desiderati, così impara al volo il formato senza bisogno di addestramento.
In pratica Utile per imporre uno schema, un tono o una categorizzazione precisa. Spesso bastano 3-5 esempi. È quasi sempre il primo tentativo da fare prima di pensare a fine-tuning: costa solo qualche token in più nel prompt.
Avanzato Flash Attention 4
Algoritmo che riorganizza il calcolo dell'attenzione per minimizzare gli spostamenti di dati tra memoria veloce e memoria lenta della GPU.
In pratica Non cambia il risultato matematico, ma rende l'attenzione molto più rapida e meno affamata di memoria. È integrato di serie in PyTorch e nei principali server di inferenza (vLLM, TGI). Per chi usa API non è visibile; per chi self-hosta è quasi obbligatorio attivarlo.
Intermedio Graduate-Level Google-Proof Q&A
Benchmark di 448 domande scritte da dottorandi in biologia, fisica e chimica, pensate per essere difficili anche con accesso a Google.
In pratica Sostituisce MMLU come misura di conoscenza scientifica profonda. Gli umani esperti del dominio fanno circa 65%, i modelli di frontiera nel 2025 superano il 70%. Resta uno dei benchmark non ancora saturati.
Intermedio Decodifica greedy
Strategia di generazione che a ogni passo sceglie sempre il token più probabile, senza esplorare alternative.
In pratica Equivalente a temperatura 0. È deterministico e veloce, ideale per task dove serve riproducibilità (estrazione dati, classificazione, codice). Lo svantaggio è che può incastrarsi in ripetizioni e dà risposte piatte sui task creativi. È il punto di partenza per il debugging dei prompt.
Intermedio Holistic Evaluation of Language Models
Framework di valutazione olistico sviluppato da Stanford CRFM che misura un LLM su decine di benchmark coprendo accuratezza, robustezza, bias, calibrazione ed efficienza.
In pratica Invece di una singola metrica, fornisce una scheda completa: utile per confrontare modelli a 360 gradi e non solo sui leaderboard accademici. Mantiene un sito pubblico con risultati aggiornati di tutti i grandi modelli.
Benchmark di OpenAI con 164 problemi di programmazione Python valutati eseguendo i test unitari sul codice generato dal modello.
In pratica È stato lo standard per misurare le capacità di coding degli LLM dal 2021. Anche qui è ormai saturo (oltre 90% pass@1) e la comunità si è spostata su SWE-bench, più realistico perché basato su repository reali.
Intermedio K-Quantization · llama.cpp K-Quants · GGUF K-Quants 1
I K-Quants sono una famiglia di metodi di quantizzazione implementati in llama.cpp (da Q2_K a Q8_K) che applicano bit-width diverse ai layer del modello in base alla loro sensibilità alla perdita di precisione. I layer di attenzione e di embedding, più sensibili, ricevono più bit; i layer feed-forward intermedi, meno critici, ne ricevono meno. Questa quantizzazione non uniforme produce una qualità superiore rispetto ai formati Q-flat più vecchi (Q4_0, Q5_1) a parità di dimensione del file. Q4_K_M è diventato il formato di riferimento per l'inferenza locale, ottenendo qualità migliore del vecchio Q5_1 pur essendo più compatto. Sono il formato standard dei modelli GGUF moderni scaricabili da HuggingFace.
In pratica Un utente che vuole eseguire Llama 3 70B su un PC con 48 GB di RAM scarica la variante Q4_K_M dal repository GGUF su HuggingFace (tipicamente caricato da TheBloke o bartowski) e la avvia con `llama.cpp` o un'interfaccia come LM Studio o Ollama. La scelta del livello di quantizzazione segue una regola pratica: Q4_K_M per il miglior equilibrio qualità/dimensione, Q5_K_M se si ha RAM sufficiente e si vuole maggiore fedeltà, Q2_K se lo spazio è molto limitato accettando qualità degradata. I K-Quants sono trasparenti all'utente finale: l'interfaccia carica il file GGUF e gestisce internamente il formato.
Intermedio Key-Value Cache · Cache chiavi-valori 4
Memoria temporanea in GPU che conserva i calcoli di attenzione dei token già visti, così il modello non li ricalcola a ogni nuovo token generato.
In pratica È la ragione per cui generare il decimo token costa meno del primo: la cache evita di ripetere lavoro. Occupa molta VRAM e cresce col contesto, quindi è spesso il vero collo di bottiglia per servire molti utenti in parallelo. Ottimizzarla (paged, quantized) è centrale per ridurre costi di inferenza.
Avanzato KV Quantization · KV Compression 1
La KV cache quantization è la tecnica di comprimere i tensori chiave-valore (key-value) generati dinamicamente durante l'inferenza, riducendoli da FP16 a FP8 o INT8. A differenza della quantizzazione dei pesi, che opera sui parametri statici del modello, questa agisce sulla cache generata a runtime per ogni richiesta. Riduce l'occupazione di VRAM del 50% o più, consentendo context window più lunghe o un maggior numero di richieste concorrenti per GPU. È supportata da vLLM, Text Generation Inference (TGI) e TensorRT-LLM.
In pratica Un sysadmin che serve un modello da 70B su due GPU A100 80GB e vuole aumentare il batch size concorrente da 8 a 16 richieste abilita KV cache quantization a FP8 in vLLM aggiungendo `--kv-cache-dtype fp8` al comando di avvio. È importante distinguerla dalla quantizzazione dei pesi: i due approcci sono ortogonali e possono essere combinati. In pratica si misurano le degradazioni di qualità su task di lunga distanza (needle-in-haystack, multi-turn) prima di deployare in produzione, poiché la perdita di precisione nella cache è più visibile su contesti lunghi.
Intermedio LLM giudice · Model-graded eval
Tecnica in cui si usa un LLM (di solito potente) per valutare le risposte di un altro modello o di sé stesso secondo criteri scritti in linguaggio naturale.
In pratica Velocizza enormemente le valutazioni rispetto a giudizi umani, ma soffre di bias (preferisce risposte lunghe, stile simile al proprio). Va calibrato con un sottoinsieme di giudizi umani come ancora.
Punteggi numerici grezzi che il modello produce per ogni possibile token di vocabolario, prima di essere convertiti in probabilità.
In pratica Sono il "pensiero non normalizzato" del modello: più alto è il logit di un token, più probabile diventa. Alcune API espongono i `logprobs` (i logit dopo softmax e log) per valutare confidenza o costruire classificatori. Lavorare sui logit direttamente serve solo a chi fa fine-tuning o ricerca.
Intermedio Perso nel mezzo
Fenomeno per cui un LLM ricorda meglio le informazioni all'inizio e alla fine del contesto, mentre quelle in mezzo vengono spesso ignorate o dimenticate.
In pratica Importante per RAG e prompt lunghi: l'ordine dei documenti conta. Le informazioni critiche vanno messe all'inizio o alla fine. È una delle ragioni per cui un context da 1M token non equivale a usarlo davvero tutto.
Intermedio Massive Multitask Language Understanding 1
Benchmark con circa 16.000 domande a scelta multipla su 57 materie, da matematica e diritto a medicina, usato per misurare la conoscenza generale di un LLM.
In pratica È stato per anni il benchmark di riferimento citato negli annunci dei nuovi modelli. Oggi è saturo: i modelli di frontiera superano l'85% e si sta passando a benchmark più difficili come MMLU-Pro e GPQA.
Intermedio NIAH · Ago nel pagliaio
Test in cui si nasconde una frase specifica in mezzo a un lungo testo irrilevante e si chiede al modello di recuperarla, per misurare la qualità reale del context window.
In pratica È diventato il benchmark de facto per i modelli a contesto lungo (100K, 1M token). Un modello può avere un context enorme ma fallire il NIAH oltre una certa profondità, segnale che la finestra è 'finta'.
Avanzato PagedAttention 4
Tecnica che divide la KV cache in piccoli blocchi gestiti come pagine di memoria virtuale, riducendo lo spreco di VRAM tra richieste diverse.
In pratica È il cuore del motore vLLM e oggi standard nei server di inferenza moderni. Permette di servire molti più utenti con la stessa GPU perché evita di riservare blocchi grandi e quasi vuoti. Per chi sceglie un runtime self-hosted, il supporto a paged attention è un requisito di base.
Intermedio Automatic Prefix Caching · APC · Prompt Caching 2
Il prefix caching è una tecnica di inferenza che riutilizza il KV cache già calcolato per prefissi di prompt comuni tra richieste diverse. Anziché ricalcolare le chiavi e i valori di attenzione per le stesse sequenze (es. un system prompt identico), il sistema conserva queste attivazioni in memoria e le recupera direttamente. Riduce drasticamente la latenza per il prefisso condiviso, portandola vicino a zero. È implementato in vLLM come 'Automatic Prefix Caching' e nei servizi cloud di Anthropic e OpenAI come funzionalità fatturata a costo ridotto.
In pratica Un developer che serve un chatbot con un system prompt fisso di 2000 token beneficia immediatamente del prefix caching: solo la prima richiesta calcola quel prefisso, tutte le successive lo leggono dalla cache. In vLLM si attiva con `--enable-prefix-caching`; nella Anthropic API il prefix caching va dichiarato esplicitamente con `cache_control`. Per applicazioni RAG con documenti condivisi, si struttura il prompt mettendo il documento prima delle domande per massimizzare il riutilizzo della cache.
Intermedio Quantizzazione 11
Tecnica che riduce la precisione numerica dei pesi del modello (per esempio da 16 a 4 bit) per farlo occupare meno memoria e girare più veloce.
In pratica È quello che permette di far girare un Llama 70B su una sola GPU o un modello da 7B su un Mac. Si perde un po' di qualità ma spesso poco. Tool tipici: GGUF, AWQ, GPTQ. Utile per deploy on-prem o edge.
Base Retrieval-Augmented Generation · Generazione aumentata da recupero 20
Tecnica che recupera testo rilevante da una base dati esterna e lo inserisce nel prompt del modello prima della risposta.
In pratica Permette a un LLM di rispondere usando documenti aziendali, knowledge base interne o articoli aggiornati senza addestrarlo. Riduce le hallucination su dati specifici e aggiorna la conoscenza senza re-training. È la prima architettura da considerare per un chatbot aziendale.
Intermedio Auto-consistenza 2
Tecnica in cui si campionano più risposte indipendenti dal modello con temperatura > 0 e si sceglie quella più frequente per maggioranza.
In pratica Spesso migliora l'accuratezza su task di ragionamento matematico: se 5 catene di pensiero su 7 convergono sulla stessa risposta, è probabilmente corretta. Triplica o quintuplica il costo di inferenza.
Funzione matematica che trasforma un insieme di logit in probabilità che sommano a 1, accentuando i valori alti e schiacciando quelli bassi.
In pratica È l'ultimo passaggio prima di scegliere il prossimo token: dice quanto il modello "crede" in ogni opzione. Compare anche dentro l'attenzione per pesare i token del contesto. Per chi usa API è invisibile; per chi studia il modello è una delle funzioni più ricorrenti.
Avanzato Decoding speculativo 3
Tecnica in cui un modello piccolo e veloce propone più token in anticipo e il modello grande li verifica in un singolo passaggio, accettando quelli corretti.
In pratica Permette di generare risposte 2-3 volte più veloci senza cambiare la qualità finale, perché il modello grande resta il giudice. È usato in produzione da OpenAI, Anthropic e nei runtime self-hosted. Richiede un modello "draft" allineato al modello principale, quindi non è gratis da implementare.
Base JSON mode · Output strutturato
Modalità in cui il modello è vincolato a produrre output conforme a uno schema (JSON, regex, grammatica) invece di testo libero.
In pratica Indispensabile quando l'output va dato in pasto a un altro sistema: API, database, frontend. Provider come OpenAI e Anthropic offrono enforcement nativo che garantisce JSON valido al primo colpo.
Intermedio Software Engineering Bench 7
Benchmark con oltre 2.000 issue reali estratte da repository GitHub Python: il modello deve produrre una patch che faccia passare i test del progetto.
In pratica Misura capacità di ingegneria software reale (lettura di codebase, debug, modifiche cross-file), non solo coding isolato. È diventato il riferimento per agenti come Devin, Claude Code, OpenAI Codex.
Parametro che scala i logit prima del campionamento: valori bassi rendono il modello più deterministico, valori alti più creativo e imprevedibile.
In pratica A 0 il modello sceglie sempre la parola più probabile (di fatto greedy); a 1 mantiene la distribuzione originale; sopra 1.5 tende a delirare. Per task di classificazione o estrazione conviene 0; per scrittura creativa 0.7-1.0. È il parametro più semplice da regolare nelle API.
Unità di base in cui il modello scompone il testo: può essere una parola intera, una sillaba o pochi caratteri, a seconda del tokenizzatore.
In pratica Le API degli LLM si pagano a token in ingresso e in uscita. In inglese 1 token corrisponde circa a 0,75 parole, in italiano un po' meno. Misurare i token del prompt aiuta a stimare costi e a stare dentro il limite di contesto.
Componente che trasforma il testo in token prima di passarlo al modello e ricostruisce il testo dai token in uscita.
In pratica Tokenizzatori diversi producono conteggi diversi: lo stesso testo costa più token con GPT che con Claude o viceversa. Esistono librerie come tiktoken (OpenAI) per stimare token in locale prima di chiamare l'API.
Intermedio Campionamento top-k
Strategia di scelta del prossimo token che considera solo i k candidati più probabili e scarta tutti gli altri prima di estrarre a sorte.
In pratica Con k=1 diventa greedy decoding; con k alto torna quasi alla distribuzione piena. Si usa per evitare che il modello peschi parole assurde dalla coda della distribuzione. Nelle API moderne è spesso sostituito o combinato con top-p, considerato più adattivo.
Intermedio Nucleus Sampling · Campionamento a nucleo
Strategia che sceglie il prossimo token dal più piccolo gruppo di candidati la cui probabilità cumulata supera una soglia p (es. 0.9).
In pratica Adatta il numero di candidati al contesto: poche opzioni se il modello è sicuro, molte se è incerto. È il parametro più usato nelle API (`top_p` su OpenAI, Anthropic, ecc.) per regolare creatività senza sacrificare coerenza. Di solito si lascia tra 0.8 e 0.95.
Strategia di ragionamento in cui il modello esplora più rami di pensiero in parallelo, li valuta e tiene solo quelli promettenti, come una ricerca ad albero.
In pratica Estende la Chain-of-Thought permettendo backtracking: utile per puzzle, pianificazione e problemi matematici dove un singolo percorso lineare spesso sbaglia. Costa molti più token dell'inferenza standard.
Intermedio Zero-Shot Voice Cloning · Speaker Adaptation 9
Il voice cloning è la capacità di generare sintesi vocale nella voce di un parlante target a partire da pochi secondi di audio di riferimento, senza alcun fine-tuning aggiuntivo. Il modello estrae un embedding del parlante dall'audio di riferimento e condiziona la generazione su di esso, replicando timbro, ritmo e caratteristiche prosodiche. La modalità zero-shot significa che nessun addestramento aggiuntivo per speaker è necessario al momento dell'inferenza. Sistemi come ElevenLabs, XTTS v2, CosyVoice e Dia TTS hanno reso questa tecnologia accessibile tramite API o modelli open-weights.
In pratica Uno sviluppatore che vuole clonare una voce con XTTS v2 (open source, disponibile su HuggingFace) fornisce 6-10 secondi di audio di riferimento pulito e il testo da sintetizzare; la libreria Coqui TTS gestisce l'estrazione dell'embedding e la sintesi in pochi secondi. Per produzioni professionali, ElevenLabs API accetta un clip audio e restituisce una voice_id riutilizzabile. È fondamentale verificare il consenso del parlante originale prima di clonarne la voce, in rispetto delle normative vigenti.
Base Apprendimento senza esempi
Capacità del modello di svolgere un compito mai visto in addestramento basandosi solo sulla descrizione che gli diamo nel prompt, senza esempi.
In pratica È quello che fa la maggior parte di noi quando scrive 'riassumi questo testo in tre punti'. Se i risultati sono incostanti, passare a few-shot con esempi è il rimedio più rapido. Utile per prototipare velocemente nuovi flussi.