Glossario AI — AImpact

Adversarial example · Sicurezza · intermediate · Esempio avversariale

Input modificato in modo impercettibile per un umano ma costruito per ingannare un modello e fargli produrre un output sbagliato o pericoloso.

In praticaNato nella visione (qualche pixel cambiato fa scambiare un panda per un gibbone), oggi colpisce anche gli LLM con suffissi di caratteri strani che sbloccano comportamenti vietati. È una vulnerabilità intrinseca alle reti neurali.

Agent · Agenti · beginner · Agente AI, AI agent

Sistema in cui un LLM non solo risponde ma decide quali strumenti chiamare, in che ordine e iterando finché non raggiunge un obiettivo.

In praticaUn agente legge la mail, scrive su un database, manda Slack. La complessità sta nel gestire errori, loop infiniti, costi e sicurezza degli strumenti. Per casi semplici una pipeline lineare è più affidabile di un agente vero.

AI Supply Chain Attack · Sicurezza · intermediate · Model Poisoning, AI Artifact Attack

Un AI supply chain attack è un attacco che prende di mira la catena di approvvigionamento dello sviluppo AI: pesi di modello condivisi pubblicamente, adapter LoRA, quantizzazioni GGUF o dataset su piattaforme come HuggingFace vengono compromessi con backdoor o comportamenti nascosti. Un modello avvelenato può eseguire azioni malevole quando riceve uno specifico trigger, esfiltrare dati, o generare output dannosi su richiesta dell'attaccante. L'analogia con gli attacchi SolarWinds al software tradizionale è diretta: l'artefatto sembra legittimo ma contiene payload nascosti.

In praticaUno sviluppatore che scarica modelli da repository pubblici dovrebbe verificare i checksum SHA256 pubblicati ufficialmente e preferire modelli con firma digitale o provenienza verificata. Prima di usare un modello in produzione, è buona pratica eseguire valutazioni di sicurezza automatizzate (es. con strumenti come ModelScan o Protect AI Guardian) che analizzano i pesi alla ricerca di pattern sospetti. Per i team aziendali, mantenere un registro interno degli artefatti approvati e non permettere download diretti da Internet durante il deployment riduce significativamente la superficie d'attacco.

Alignment · Sicurezza · beginner · Allineamento

Insieme di tecniche e ricerca per far sì che un modello AI faccia ciò che gli umani vogliono davvero, non solo ciò che chiediamo letteralmente.

In praticaIn pratica vuol dire: il modello non aiuta a fare cose illegali, segue le istruzioni, non inventa, non manipola. Per chi mette in produzione un'AI è anche un tema di brand e responsabilità legale, non solo etico.

ARC-AGI /ark-ay-jee-eye/ · Inferenza · intermediate · Abstraction and Reasoning Corpus

Benchmark di puzzle visivi a griglia creato da François Chollet per misurare il ragionamento astratto su pattern mai visti prima, non risolvibili con memorizzazione.

In praticaPensato per essere facile per gli umani (oltre 80%) ma difficile per gli LLM. Nel 2024 o3 di OpenAI ha raggiunto risultati storici, riaprendo il dibattito su cosa significhi davvero AGI. Esiste un premio da un milione di dollari.

ASL /ay-es-el/ · Sicurezza · intermediate · AI Safety Level, Livello di sicurezza AI

Scala di livelli (ASL-1, ASL-2, ASL-3...) usata da Anthropic per classificare i rischi di un modello AI e definire i controlli di sicurezza richiesti, ispirata ai livelli di biosicurezza.

In praticaPiù sale il livello, più tecniche di sicurezza obbligatorie: monitoring, restrizioni di deploy, audit indipendenti. Per chi sceglie un fornitore, conoscere a quale ASL dichiara conformità un modello dà un'idea della maturità della governance.

Attention · Modelli · beginner · Attenzione, Self-attention

Meccanismo che permette al modello di pesare quanto ogni parola del testo sia rilevante rispetto alle altre per comprendere il significato del contesto.

In praticaÈ il motivo per cui un LLM capisce che 'lui' in una frase si riferisce a una persona menzionata prima. Il costo di calcolo cresce con il quadrato della lunghezza del contesto: per questo gestire contesti molto lunghi è costoso.

Autoregressive · Modelli · intermediate · Autoregressivo

Modello che genera una sequenza un elemento alla volta, usando ogni volta l'output precedente come parte del nuovo input.

In praticaÈ il modo di funzionare di tutti gli LLM di tipo GPT: ogni token nuovo dipende da tutti quelli generati prima. Spiega perché la generazione è intrinsecamente sequenziale e difficile da parallelizzare, ed è il motivo dietro tecniche come speculative decoding per accelerare l'output.

Backdoor attack · Sicurezza · advanced · Attacco backdoor, Trojan

Attacco in cui un modello viene addestrato a comportarsi normalmente, tranne quando riconosce un trigger segreto che attiva un comportamento malevolo predefinito.

In praticaDifficilissimo da rilevare con valutazioni standard: il modello sembra allineato finché qualcuno non scrive la parola chiave. Riguarda sia modelli proprietari (insider) sia open-weights ottenuti da fonti non fidate.

Beam Search · Inferenza · intermediate · Ricerca a fascio

Algoritmo di decodifica che mantiene contemporaneamente le N sequenze più probabili e alla fine sceglie quella con punteggio complessivo migliore.

In praticaDà risultati più "sicuri" della scelta greedy, ma tende a essere ripetitivo e poco naturale nei testi lunghi. Era standard nella traduzione automatica; negli LLM conversazionali moderni è quasi sostituito da top-p sampling. Resta utile in task strutturati come traduzione e summarization.

BM25 /bee-em twenty-five/ · Infrastruttura · intermediate · Best Matching 25, Okapi BM25

Algoritmo classico di ricerca testuale basato sulla frequenza delle parole, con correzioni per la lunghezza del documento e la rarità dei termini.

In praticaÈ il motore dietro Elasticsearch, Lucene e Solr da decenni. Sui termini esatti, sigle e nomi propri batte spesso gli embedding. Per questo le pipeline RAG moderne combinano BM25 e ricerca vettoriale (hybrid search).

BPE /bee-pee-ee/ · Dati · intermediate · Byte Pair Encoding, Codifica a coppie di byte

Algoritmo di tokenizzazione che parte dai singoli caratteri e fonde via via le coppie più frequenti, fino a creare un vocabolario di sotto-parole.

In praticaÈ usato da GPT, Llama, Mistral e quasi tutti gli LLM occidentali. Spiega perché "playing" diventa magari `play` + `ing`: pezzi comuni hanno un solo token, parole rare ne usano molti. Influisce direttamente sul costo per token e sulla qualità su lingue non inglesi.

Catastrophic Forgetting · Addestramento · intermediate · Oblio catastrofico, Interferenza catastrofica

Fenomeno per cui un modello, addestrato su nuovi dati, perde rapidamente le capacità apprese in precedenza.

In praticaÈ il motivo per cui un fine-tuning aggressivo su un dominio ristretto può rendere il modello peggio nel resto. Si mitiga con LoRA (che congela i pesi originali), con dataset misti o regolarizzando l'aggiornamento. Va valutato sempre con un set di test "generico" oltre a quello specifico.

Causal Mask · Modelli · intermediate · Maschera causale, Maschera autoregressiva

Filtro applicato nell'attenzione che impedisce a ogni token di vedere i token che vengono dopo di lui nella sequenza.

In praticaÈ ciò che rende un Transformer "causale" o decoder-only: durante il training il modello impara a prevedere il prossimo token senza barare guardando avanti. In inferenza la maschera diventa implicita perché i token futuri non esistono ancora. Senza di essa GPT non avrebbe senso.

Chain-of-thought · Inferenza · beginner · CoT, Catena di ragionamento

Tecnica in cui si chiede al modello di esplicitare i passaggi intermedi del ragionamento prima di dare la risposta finale, migliorando l'accuratezza su compiti complessi.

In praticaAggiungere 'pensa passo per passo' al prompt funziona davvero su matematica, logica e analisi. I modelli reasoning (o1, Claude con thinking) lo fanno in automatico. Costa più token, quindi conviene usarla solo dove serve.

Checkpoint · Addestramento · intermediate · Punto di salvataggio

Salvataggio completo dei pesi del modello a un certo punto dell'addestramento, da cui si può ripartire o che si può rilasciare come modello finale.

In praticaDurante un training si salvano checkpoint ogni N passi per resistere a crash e per valutare versioni intermedie. Quando un laboratorio rilascia un modello open-weights (Llama, Mistral, Qwen) sta pubblicando un checkpoint. La parola si usa spesso come sinonimo di "versione del modello scaricabile".

Chunking · Infrastruttura · beginner · Spezzettamento, Segmentazione

Processo di suddivisione di un documento in pezzi più piccoli (chunk) prima di calcolare gli embedding, per renderli adatti al retrieval e al context window.

In praticaLa qualità del chunking determina spesso la qualità di un RAG: chunk troppo piccoli perdono contesto, troppo grandi diluiscono la rilevanza. Strategie comuni: dimensione fissa con overlap, ricorsivo per separatori, semantico per cambio di argomento.

Constitutional AI /constitutional ay-eye/ · Sicurezza · intermediate · AI costituzionale, CAI

Approccio sviluppato da Anthropic in cui il modello viene addestrato a seguire un insieme di principi scritti (una 'costituzione') invece che solo preferenze umane caso per caso.

In praticaÈ il metodo dietro Claude. Vantaggio: i criteri di comportamento sono espliciti e leggibili, non nascosti in milioni di valutazioni. Per chi sceglie un modello aziendale aiuta a capire le scelte di policy del fornitore.

Context window · Inferenza · beginner · Finestra di contesto, Context length

Numero massimo di token che il modello può leggere e tenere in memoria in una singola chiamata, sommando prompt e risposta.

In praticaSe hai un contratto di 200 pagine e una finestra da 200k token spesso ci sta dentro tutto. Se no devi spezzettare il testo o usare RAG. Più contesto pesa di più sul costo e sulla latenza della risposta.

Continuous Batching · Inferenza · advanced · Batching continuo, In-flight batching

Strategia di servizio in cui nuove richieste si uniscono al batch in corso a ogni passo di generazione, invece di aspettare che le precedenti finiscano.

In praticaAumenta in modo netto il throughput di una GPU che serve API, perché non lascia mai i core inattivi. È implementato in vLLM, TensorRT-LLM e TGI. Per chi sceglie il modello di pricing pay-per-token, è uno degli ingredienti chiave per restare competitivo sui costi.

Cosine similarity · Infrastruttura · intermediate · Similarità coseno

Misura di similarità tra due vettori basata sul coseno dell'angolo che formano: varia da -1 (opposti) a 1 (identici), indifferente alla loro lunghezza.

In praticaÈ la metrica più usata per confrontare embedding di testo perché ignora la magnitudine e guarda solo la direzione semantica. Alternative comuni: dot product (più veloce se i vettori sono normalizzati) e distanza euclidea.

Cross-Embodiment · Modelli · advanced · Cross-Robot Transfer, Embodiment Generalization

L'addestramento di una singola policy robotica che funziona su configurazioni hardware diverse (diversi DOF del braccio, gripper, sensori, basi mobili). Come i foundation model per il testo, i modelli cross-embodiment (RT-2, CrossFormer, Open X-Embodiment) apprendono skill di manipolazione generali da dati provenienti da robot eterogenei. Riduce la necessità di raccogliere dati per ogni configurazione robot separatamente.

In praticaUn'azienda con più modelli di robot in produzione può addestrare un unico modello cross-embodiment su tutti i dati raccolti, invece di mantenere policy separate per ogni robot. In pratica, il dataset Open X-Embodiment aggrega oltre 1 milione di episodi da 22 robot diversi; un ricercatore può fare fine-tuning di questo modello su pochi dati del proprio specifico robot e ottenere performance superiori rispetto all'addestramento from scratch.

Cross-encoder vs bi-encoder · Infrastruttura · advanced

Due architetture per misurare similarità testuale: il bi-encoder codifica query e documento separatamente (veloce), il cross-encoder li elabora insieme (lento ma preciso).

In praticaBi-encoder = embedding precalcolati, usati per la prima ricerca su milioni di documenti. Cross-encoder = score calcolato al volo su pochi candidati, usato come reranker finale. Sono complementari, non alternativi.

Data poisoning · Sicurezza · intermediate · Avvelenamento dei dati

Attacco in cui un avversario inserisce esempi malevoli nel dataset di addestramento per alterare il comportamento del modello finale.

In praticaAnche pochi documenti corrotti nel web crawl possono creare backdoor o bias persistenti. Particolarmente rischioso per modelli che si addestrano in continuo su contenuti pubblici o per fine-tuning su dataset di terzi non verificati.

Decoder-only · Modelli · intermediate · Modello decoder-only, Solo decoder

Architettura Transformer composta solo dalla parte di decoder, dove ogni token guarda solo i token precedenti per prevedere il successivo.

In praticaÈ l'architettura di GPT, Llama, Mistral, Claude e di praticamente tutti gli LLM generativi moderni. Si contrappone a encoder-only (BERT, per classificazione) ed encoder-decoder (T5, per traduzione). La sua semplicità è il motivo per cui scala così bene in pretraining.

Differential privacy · Sicurezza · intermediate · DP, Privacy differenziale

Tecnica matematica che aggiunge rumore controllato all'addestramento per garantire che la presenza o assenza di un singolo individuo nel dataset non sia rilevabile dall'output del modello.

In praticaStandard de facto per modelli addestrati su dati sanitari, fiscali o di messaggistica. Apple, Google e il censimento USA la usano. Costa accuratezza: più privacy si vuole, più rumore si aggiunge.

Diffusion model · Modelli · beginner · Modello di diffusione

Tipo di modello generativo che parte da rumore casuale e lo trasforma gradualmente in un'immagine, un video o un audio coerente attraverso molti piccoli passi.

In praticaÈ la base di Stable Diffusion, Midjourney, Sora. Per chi integra generazione di immagini conta il rapporto tra qualità, velocità (numero di passi) e controllo. I costi sono in GPU-secondi più che in token.

Diffusion Policy · Addestramento · advanced · Diffusion-based Imitation Learning

Un metodo di imitation learning per robot in cui la policy è un modello diffusivo a denoising: dato un'osservazione, itera denoising di una sequenza di azioni casuale fino a ottenere l'azione da eseguire. A differenza delle policy deterministiche, le diffusion policy apprendono distribuzioni di azioni multimodali — gestiscono task con molteplici soluzioni valide senza mediare in una soluzione scadente. Supera il behavioral cloning del 46%+ sui benchmark di manipolazione.

In praticaUn ricercatore di robotica che raccoglie dimostrazioni umane per un task di assemblaggio addestra una Diffusion Policy su quei dati: il modello impara che 'posizionare il pezzo a sinistra' e 'posizionarlo a destra' sono entrambe soluzioni valide e campiona in modo coerente una delle due, invece di produrre il movimento medio (sbagliato) come fa il behavioral cloning classico. Librerie come diffusion_policy di Columbia o LeRobot di Hugging Face offrono implementazioni pronte all'uso.

Disaggregated Inference · Infrastruttura · advanced · Prefill-Decode Disaggregation, PD Disaggregation

Il disaggregated inference è un'architettura di serving che separa fisicamente la fase di prefill (compute-bound: elabora l'intero prompt in parallelo) dalla fase di decode (memory-bound: genera un token per volta) assegnandole a pool di GPU distinti, collegati tramite trasferimento del KV cache. Questa separazione elimina la 'prefill-decode interference', ovvero la contesa di risorse che si verifica quando entrambe le fasi girano sulle stesse GPU riducendo il throughput complessivo. Proposto pubblicamente dall'architettura Mooncake di Moonshot AI (Kimi), ha prodotto miglioramenti di throughput di 5x o più in produzione. È considerato uno degli avanzamenti più significativi nell'infrastruttura di serving LLM del 2024-2025.

In praticaIn un deployment su larga scala, l'ingegnere infrastrutturale configura un cluster di GPU 'prefill-only' (tipicamente ad alto FLOPS/W, come H100 SXM) e un cluster separato 'decode-only' (tipicamente ad alta larghezza di banda di memoria). Una richiesta in arrivo viene instradata al pool prefill, che calcola il KV cache e lo trasferisce via NVLink o InfiniBand al pool decode. Framework open-source come LMDeploy e alcune configurazioni avanzate di vLLM supportano questa modalità. Il costo operativo è superiore a causa della duplicazione hardware, ma il TTFT (time-to-first-token) e il throughput migliorano significativamente.

Distillation · Addestramento · intermediate · Distillazione

Tecnica per addestrare un modello piccolo a imitare il comportamento di uno grande, ottenendo qualità simile con una frazione dei costi di inferenza.

In praticaÈ il motivo per cui escono modelli piccoli e bravi: vengono distillati da quelli frontier. Per chi ha bisogno di risposte veloci e a basso costo su un dominio ristretto, distillare un proprio modello da Claude o GPT è spesso vincente.

DPO /dee-pee-oh/ · Addestramento · intermediate · Direct Preference Optimization, Ottimizzazione diretta delle preferenze

Tecnica di allineamento che insegna al modello a preferire una risposta migliore rispetto a una peggiore, senza usare un reward model separato come fa RLHF.

In praticaRichiede solo coppie di risposte etichettate "meglio/peggio" e una procedura di training più semplice e stabile di PPO. Negli ultimi anni ha sostituito RLHF in molti progetti open source (Zephyr, Tulu, Llama varianti). È spesso il modo più economico per allineare un modello fine-tuned.

DreamBooth · Addestramento · intermediate · DreamBooth Fine-tuning, Subject-Driven Generation

Una tecnica per fare fine-tuning di un modello diffusivo su 3-5 foto di un soggetto specifico (persona, prodotto, animale) usando un identificatore testuale univoco ('a sks dog'). Il modello 'memorizza' il soggetto preservando la capacità generativa generale. È alla base delle app di ritratto AI, dei generatori di fotografia prodotto e degli strumenti di immagini personalizzate. Introdotta da Google Research nel 2022.

In praticaUn fotografo di prodotto può fare fine-tuning di Stable Diffusion con DreamBooth su 5 foto di un oggetto (es. una scarpa da ginnastica) e poi generare centinaia di scatti in ambienti diversi senza set fotografici fisici. In pratica, si usa spesso con LoRA per ridurre il costo computazionale: invece di aggiornare tutti i pesi del modello, si addestrano solo le matrici low-rank. Strumenti come kohya_ss o la Diffusers library di Hugging Face offrono script DreamBooth+LoRA pronti all'uso.

Embedding · Dati · beginner · Vettori semantici

Rappresentazione numerica di un testo come vettore di centinaia di numeri, in cui frasi con significato simile producono vettori vicini tra loro.

In praticaSi calcolano una volta con un modello di embedding e si salvano in un database vettoriale. Servono per ricerca semantica, deduplica documenti, clustering e per il passo di recupero in un sistema RAG.

Few-shot learning · Inferenza · beginner · Apprendimento con pochi esempi

Tecnica di prompting in cui si mostrano al modello pochi esempi di input e output desiderati, così impara al volo il formato senza bisogno di addestramento.

In praticaUtile per imporre uno schema, un tono o una categorizzazione precisa. Spesso bastano 3-5 esempi. È quasi sempre il primo tentativo da fare prima di pensare a fine-tuning: costa solo qualche token in più nel prompt.

Fill-In-the-Middle · Addestramento · intermediate · FIM, Infilling, Code Infilling

Fill-In-the-Middle (FIM) è un obiettivo di training per modelli di codice in cui il modello deve predire una porzione centrale di testo dato il contesto che la precede (prefix) e quello che la segue (suffix). A differenza della generazione autoregressiva standard da sinistra a destra, FIM consente al modello di completare funzioni parzialmente scritte, docstring, nomi di variabili o blocchi di logica in mezzo a codice esistente. La tecnica riorganizza i token del training nella forma [PREFIX][SUFFIX][MIDDLE] o [PREFIX][MIDDLE][SUFFIX] e addestra il modello a completare la parte mancante. StarCoder, DeepSeek-Coder e Codestral fanno largo uso di FIM ed è la base tecnica di tutti i moderni strumenti di code completion.

In praticaUn developer che usa GitHub Copilot o Cursor beneficia direttamente di FIM ogni volta che scrive una funzione parziale e chiede al modello di completare il corpo: il modello vede sia il codice prima del cursore sia quello dopo. Per chi addestrasse un proprio code model, la pipeline di training FIM richiede di campionare randomicamente porzioni da mascherare nel corpus di codice sorgente e di riformattare i token con i separatori speciali `<fim_prefix>`, `<fim_suffix>`, `<fim_middle>`. Il ratio tipico è 50% FIM + 50% left-to-right durante il pre-training per preservare anche la capacità generativa standard.

Fine-tuning · Addestramento · beginner · Affinamento, Adattamento

Processo di addestramento aggiuntivo di un modello già pronto su un dataset più piccolo e specifico per migliorarne le prestazioni su un certo compito o dominio.

In praticaLo fai quando il modello base non risponde bene allo stile, al gergo o ai formati che ti servono. Richiede dati etichettati di buona qualità e GPU. Spesso si parte da una variante leggera come LoRA prima del fine-tuning completo.

FlashAttention · Inferenza · advanced · Flash Attention

Algoritmo che riorganizza il calcolo dell'attenzione per minimizzare gli spostamenti di dati tra memoria veloce e memoria lenta della GPU.

In praticaNon cambia il risultato matematico, ma rende l'attenzione molto più rapida e meno affamata di memoria. È integrato di serie in PyTorch e nei principali server di inferenza (vLLM, TGI). Per chi usa API non è visibile; per chi self-hosta è quasi obbligatorio attivarlo.

Foundation model · Modelli · beginner · Modello di base, Base model

Modello grande addestrato su dati molto generali, pensato per essere riusato e adattato a tanti compiti diversi invece di servire un solo scopo.

In praticaGPT-4, Claude, Llama sono foundation model. Per la maggior parte dei casi d'uso non ne addestri uno nuovo: lo usi via API o open weight e lo adatti con prompt, RAG o un piccolo fine-tuning sopra.

FP8 · Infrastruttura · advanced · Float8, 8-bit Floating Point, E4M3, E5M2

FP8 è un formato numerico a virgola mobile a 8 bit disponibile in due varianti: E4M3 (4 bit esponente, 3 mantissa), usato nel forward pass per maggiore precisione, ed E5M2 (5 bit esponente, 2 mantissa), usato per i gradienti per maggiore range dinamico. Riduce l'uso di memoria di circa il 50% rispetto a BF16 con una perdita di qualità inferiore allo 0,5% quando abbinato a una scalatura per-tensor tramite il NVIDIA Transformer Engine. Le GPU H100 e H800 dispongono di Tensor Core nativi per FP8. DeepSeek V3 è stato addestrato interamente in FP8, raggiungendo qualità paragonabile a GPT-4o a una frazione del costo.

In praticaUn team ML che addestra un LLM da 70B su cluster H100 attiva FP8 tramite il Transformer Engine di NVIDIA (integrato in Megatron-LM e NeMo) semplicemente impostando `fp8_format=HYBRID`. In inferenza, framework come vLLM e TensorRT-LLM supportano weight e activation in FP8 per ridurre la VRAM richiesta e aumentare il throughput. Prima di adottarlo in produzione, è buona pratica eseguire una valutazione su benchmark standard (MMLU, HumanEval) per verificare che la degradazione sia entro soglie accettabili.

Frontier model · Modelli · beginner · Modello di frontiera

Modello AI tra i più capaci esistenti al momento, ai confini delle prestazioni raggiungibili. Spesso significa nuovi rischi e nuove capacità ancora poco esplorate.

In praticaEsempi attuali: Claude più recente, GPT-4 di nuova generazione, Gemini Ultra. Costano di più ma fanno cose che i modelli più piccoli non riescono. Per progetti seri conviene benchmarkare sul tuo caso d'uso: a volte un modello medio basta e avanza.

Function calling · Agenti · beginner · Chiamata di funzione

Capacità di un LLM di produrre in output una chiamata strutturata a una funzione descritta nello schema, con nome e argomenti tipizzati pronti da eseguire.

In praticaÈ il meccanismo standard con cui un'app collega un modello al proprio codice: il modello restituisce JSON, l'app esegue la funzione e rimanda il risultato. Base di praticamente ogni agente di produzione.

GPQA /jee-pee-kew-ay/ · Inferenza · intermediate · Graduate-Level Google-Proof Q&A

Benchmark di 448 domande scritte da dottorandi in biologia, fisica e chimica, pensate per essere difficili anche con accesso a Google.

In praticaSostituisce MMLU come misura di conoscenza scientifica profonda. Gli umani esperti del dominio fanno circa 65%, i modelli di frontiera nel 2025 superano il 70%. Resta uno dei benchmark non ancora saturati.

Gradient Descent · Addestramento · intermediate · Discesa del gradiente

Algoritmo di ottimizzazione che aggiorna i pesi del modello nella direzione che riduce di più l'errore, un piccolo passo alla volta.

In praticaÈ il motore di base dietro l'addestramento di ogni rete neurale moderna. In pratica si usa una variante chiamata Adam o AdamW, più stabile e veloce. Per chi non addestra modelli da zero è un concetto da conoscere, ma non un parametro da toccare.

Greedy Decoding · Inferenza · intermediate · Decodifica greedy

Strategia di generazione che a ogni passo sceglie sempre il token più probabile, senza esplorare alternative.

In praticaEquivalente a temperatura 0. È deterministico e veloce, ideale per task dove serve riproducibilità (estrazione dati, classificazione, codice). Lo svantaggio è che può incastrarsi in ripetizioni e dà risposte piatte sui task creativi. È il punto di partenza per il debugging dei prompt.

Hallucination · Sicurezza · beginner · Allucinazione, Confabulation

Risposta del modello che suona plausibile ma è inventata: fatti falsi, citazioni inesistenti, API che non esistono, dati sbagliati presentati con sicurezza.

In praticaÈ il problema numero uno per chi mette LLM in flussi business. Mitigazioni: RAG con fonti, chiedere citazioni, fare verifica con un secondo modello, validare output strutturati con regole. Mai trattare l'output come oro colato senza controllo.

HELM /helm/ · Inferenza · intermediate · Holistic Evaluation of Language Models

Framework di valutazione olistico sviluppato da Stanford CRFM che misura un LLM su decine di benchmark coprendo accuratezza, robustezza, bias, calibrazione ed efficienza.

In praticaInvece di una singola metrica, fornisce una scheda completa: utile per confrontare modelli a 360 gradi e non solo sui leaderboard accademici. Mantiene un sito pubblico con risultati aggiornati di tutti i grandi modelli.

HNSW /aitch-en-es-double-you/ · Infrastruttura · advanced · Hierarchical Navigable Small World

Struttura dati a grafo gerarchico usata per cercare in modo approssimato i vettori più vicini a una query in dataset da milioni o miliardi di embedding.

In praticaÈ l'algoritmo di indicizzazione di default in Pinecone, Qdrant, Weaviate, pgvector e FAISS. Permette ricerche in pochi millisecondi su scale dove la forza bruta sarebbe inutilizzabile. Si paga in RAM e tempo di build dell'indice.

HumanEval /human-eval/ · Inferenza · intermediate

Benchmark di OpenAI con 164 problemi di programmazione Python valutati eseguendo i test unitari sul codice generato dal modello.

In praticaÈ stato lo standard per misurare le capacità di coding degli LLM dal 2021. Anche qui è ormai saturo (oltre 90% pass@1) e la comunità si è spostata su SWE-bench, più realistico perché basato su repository reali.

Hybrid search · Infrastruttura · advanced · Ricerca ibrida

Strategia di retrieval che combina ricerca keyword (BM25) e ricerca vettoriale (embedding), fondendo i due ranking con tecniche come Reciprocal Rank Fusion.

In praticaCompensa i punti deboli di ciascun metodo: gli embedding sono bravi sulla semantica, BM25 sui termini esatti. Quasi sempre supera entrambi presi singolarmente. È lo stato dell'arte nei sistemi RAG di produzione.

Indirect Prompt Injection · Sicurezza · intermediate · Indirect Injection, Environment Injection

L'indirect prompt injection è un attacco in cui istruzioni malevole vengono incorporate in contenuti esterni che un agente LLM leggerà: pagine web, documenti, email, risultati di database. A differenza del prompt injection diretto (dove è l'utente a fornire il contenuto malevolo), qui l'attaccante controlla l'ambiente esterno. Quando l'agente recupera ed elabora il contenuto, esegue inconsapevolmente le istruzioni nascoste come se provenissero da una fonte fidata. L'attacco è stato formalizzato per la prima volta da Greshake et al. (2023) e rappresenta una minaccia critica per i sistemi RAG e gli agenti autonomi.

In praticaUn developer che costruisce un agente web deve sanificare ogni testo recuperato dall'esterno prima di inserirlo nel prompt. Tecniche difensive includono: prompt strutturati con delimitatori espliciti che separano dati da istruzioni, sistemi di classificazione che rilevano pattern di injection nei documenti recuperati, e principio del minimo privilegio (l'agente non dovrebbe avere accesso a tool pericolosi se il task non lo richiede). Testare sistematicamente l'agente con documenti deliberatamente avvelenati fa parte del red-teaming standard per applicazioni RAG.

Inference compute · Infrastruttura · beginner · Calcolo in inferenza, Test-time compute

Quantità di calcolo che il modello usa al momento della risposta, non durante l'addestramento. Più calcolo in inferenza spesso vuol dire risposte migliori ma più lente e costose.

In praticaI modelli reasoning spostano risorse dal training all'inferenza. Per chi deploya un servizio è la voce di costo più visibile: ogni chiamata costa GPU. Strategie per ridurla: caching, modelli più piccoli, quantizzazione, batch.

Instruction Tuning · Addestramento · intermediate · Instruction Fine-Tuning, FLAN-style Tuning

L'instruction tuning è una fase di addestramento in cui un LLM pre-addestrato viene ulteriormente ottimizzato su coppie (istruzione, risposta attesa), strutturate come descrizioni di compiti in linguaggio naturale. A differenza del fine-tuning supervisionato generico, si focalizza esplicitamente su task description standardizzate per indurre nel modello la capacità di seguire comandi arbitrari. Il lavoro FLAN di Google (2021) ha dimostrato che addestrare su oltre 60 task differenti migliora drasticamente la generalizzazione zero-shot. È la fondamenta tecnica di modelli come ChatGPT, Vicuna e Flan-T5.

In praticaIn pratica, si prepara un dataset di migliaia di esempi nel formato 'Istruzione: … Risposta: …', spesso derivati da benchmark NLP esistenti riformulati come prompt. Il modello base viene poi fine-tuned su questi dati con un normale obiettivo di cross-entropy. Un developer che vuole adattare un modello open-weights (es. LLaMA) a un dominio specifico costruisce un dataset di istruzioni verticale e usa framework come LLaMA-Factory, Axolotl o HuggingFace TRL per eseguire l'instruction tuning in poche ore su una singola GPU.

Jailbreak · Sicurezza · beginner · Aggiramento delle protezioni

Tecnica con cui un utente convince il modello a ignorare le proprie regole di sicurezza, per esempio chiedendogli di fingere di essere un personaggio senza restrizioni.

In praticaDiverso da prompt injection: qui è l'utente stesso che ci prova. Per chi offre un servizio LLM al pubblico significa pensare anche al red teaming, registrare conversazioni e usare un classificatore di sicurezza in cascata sulle risposte.

K-Quants · Inferenza · intermediate · K-Quantization, llama.cpp K-Quants, GGUF K-Quants

I K-Quants sono una famiglia di metodi di quantizzazione implementati in llama.cpp (da Q2_K a Q8_K) che applicano bit-width diverse ai layer del modello in base alla loro sensibilità alla perdita di precisione. I layer di attenzione e di embedding, più sensibili, ricevono più bit; i layer feed-forward intermedi, meno critici, ne ricevono meno. Questa quantizzazione non uniforme produce una qualità superiore rispetto ai formati Q-flat più vecchi (Q4_0, Q5_1) a parità di dimensione del file. Q4_K_M è diventato il formato di riferimento per l'inferenza locale, ottenendo qualità migliore del vecchio Q5_1 pur essendo più compatto. Sono il formato standard dei modelli GGUF moderni scaricabili da HuggingFace.

In praticaUn utente che vuole eseguire Llama 3 70B su un PC con 48 GB di RAM scarica la variante Q4_K_M dal repository GGUF su HuggingFace (tipicamente caricato da TheBloke o bartowski) e la avvia con `llama.cpp` o un'interfaccia come LM Studio o Ollama. La scelta del livello di quantizzazione segue una regola pratica: Q4_K_M per il miglior equilibrio qualità/dimensione, Q5_K_M se si ha RAM sufficiente e si vuole maggiore fedeltà, Q2_K se lo spazio è molto limitato accettando qualità degradata. I K-Quants sono trasparenti all'utente finale: l'interfaccia carica il file GGUF e gestisce internamente il formato.

KV Cache /kay-vee cache/ · Inferenza · intermediate · Key-Value Cache, Cache chiavi-valori

Memoria temporanea in GPU che conserva i calcoli di attenzione dei token già visti, così il modello non li ricalcola a ogni nuovo token generato.

In praticaÈ la ragione per cui generare il decimo token costa meno del primo: la cache evita di ripetere lavoro. Occupa molta VRAM e cresce col contesto, quindi è spesso il vero collo di bottiglia per servire molti utenti in parallelo. Ottimizzarla (paged, quantized) è centrale per ridurre costi di inferenza.

KV Cache Quantization · Inferenza · advanced · KV Quantization, KV Compression

La KV cache quantization è la tecnica di comprimere i tensori chiave-valore (key-value) generati dinamicamente durante l'inferenza, riducendoli da FP16 a FP8 o INT8. A differenza della quantizzazione dei pesi, che opera sui parametri statici del modello, questa agisce sulla cache generata a runtime per ogni richiesta. Riduce l'occupazione di VRAM del 50% o più, consentendo context window più lunghe o un maggior numero di richieste concorrenti per GPU. È supportata da vLLM, Text Generation Inference (TGI) e TensorRT-LLM.

In praticaUn sysadmin che serve un modello da 70B su due GPU A100 80GB e vuole aumentare il batch size concorrente da 8 a 16 richieste abilita KV cache quantization a FP8 in vLLM aggiungendo `--kv-cache-dtype fp8` al comando di avvio. È importante distinguerla dalla quantizzazione dei pesi: i due approcci sono ortogonali e possono essere combinati. In pratica si misurano le degradazioni di qualità su task di lunga distanza (needle-in-haystack, multi-turn) prima di deployare in produzione, poiché la perdita di precisione nella cache è più visibile su contesti lunghi.

Latent Consistency Model · Modelli · advanced · LCM, Latent Consistency Distillation

Un Latent Consistency Model (LCM) è un modello di diffusione distillato per generare immagini di alta qualità in 4-8 step invece dei 50+ richiesti dai modelli originali. La consistency distillation addestra il modello a mappare direttamente qualsiasi latente rumoroso all'output pulito in un unico passo, eliminando il processo iterativo di denoising. LCM-LoRA applica questo speedup a qualsiasi modello Stable Diffusion esistente senza richiedere una distillazione completa da zero. Il risultato pratico è la generazione di immagini in tempo reale (~30 fps su GPU consumer) e la possibilità di iterare visivamente sulle prompt in modo interattivo.

In praticaUn developer può usare LCM-LoRA con diffusers di HuggingFace aggiungendo un solo adapter al proprio pipeline Stable Diffusion esistente: si scarica il peso LCM-LoRA, si imposta il scheduler su LCMScheduler e si riducono i num_inference_steps a 4. Il risultato è identico qualitativamente a 50 step ma 10 volte più veloce. Per applicazioni di UI generativa real-time (es. sketch-to-image interattivo), questa velocità è essenziale; si combinano spesso con StreamDiffusion per ottimizzare ulteriormente il throughput.

LLM /el-el-em/ · Modelli · beginner · Large Language Model, Modello linguistico di grandi dimensioni

Modello di intelligenza artificiale addestrato su enormi quantità di testo per prevedere la parola successiva e generare risposte in linguaggio naturale.

In praticaÈ il motore dietro ChatGPT, Claude, Gemini. Quando integri un LLM nel tuo prodotto paghi a token e ottieni un servizio che capisce e produce testo. La qualità dipende molto dal modello scelto e dal prompt che gli fornisci.

LLM-as-judge /el-el-em as judge/ · Inferenza · intermediate · LLM giudice, Model-graded eval

Tecnica in cui si usa un LLM (di solito potente) per valutare le risposte di un altro modello o di sé stesso secondo criteri scritti in linguaggio naturale.

In praticaVelocizza enormemente le valutazioni rispetto a giudizi umani, ma soffre di bias (preferisce risposte lunghe, stile simile al proprio). Va calibrato con un sottoinsieme di giudizi umani come ancora.

Logits · Inferenza · intermediate · Logit

Punteggi numerici grezzi che il modello produce per ogni possibile token di vocabolario, prima di essere convertiti in probabilità.

In praticaSono il "pensiero non normalizzato" del modello: più alto è il logit di un token, più probabile diventa. Alcune API espongono i `logprobs` (i logit dopo softmax e log) per valutare confidenza o costruire classificatori. Lavorare sui logit direttamente serve solo a chi fa fine-tuning o ricerca.

LoRA /lor-ah/ · Addestramento · intermediate · Low-Rank Adaptation

Tecnica di fine-tuning che addestra solo un piccolo set di parametri aggiuntivi invece di tutto il modello, riducendo costi di calcolo e dimensione del file risultante.

In praticaPermette di personalizzare un modello da 70 miliardi di parametri su una GPU consumer. Si salvano adapter da pochi MB che si applicano sopra il modello base. È lo standard pratico per adattare modelli open weight a casi d'uso specifici.

Loss Function · Addestramento · intermediate · Funzione di perdita, Funzione di costo

Formula che misura quanto la previsione del modello è lontana dalla risposta corretta: più è alta, più il modello sta sbagliando.

In praticaNegli LLM la più usata è la cross-entropy sui token successivi. Il valore di loss visualizzato durante il training è il segnale numero uno per capire se sta convergendo o se c'è un bug. Una curva che non scende quasi sempre indica problemi di dati o iperparametri.

Lost in the middle · Inferenza · intermediate · Perso nel mezzo

Fenomeno per cui un LLM ricorda meglio le informazioni all'inizio e alla fine del contesto, mentre quelle in mezzo vengono spesso ignorate o dimenticate.

In praticaImportante per RAG e prompt lunghi: l'ordine dei documenti conta. Le informazioni critiche vanno messe all'inizio o alla fine. È una delle ragioni per cui un context da 1M token non equivale a usarlo davvero tutto.

Many-Shot Jailbreaking · Sicurezza · intermediate · Many-Shot Attack, Long Context Jailbreak

Il many-shot jailbreaking è una tecnica di attacco che sfrutta le finestre di contesto lunghe anteponendo 100-256 o più coppie fittizie di domanda-risposta dannose prima della richiesta malevola effettiva. Gli esempi in-context sovrascrivono l'addestramento alla sicurezza inducendo il modello a seguire il pattern dimostrato piuttosto che le sue guardrail. L'efficacia scala con la lunghezza del contesto: i modelli con finestre più grandi risultano più vulnerabili. L'attacco è stato divulgato da Anthropic nel 2024 e ha portato a revisioni nei meccanismi di safety per i modelli con contesti molto lunghi.

In praticaDal punto di vista difensivo, un developer che valuta la robustezza di un modello deployato dovrebbe includere test many-shot nel proprio red-teaming: costruire un prompt con 200+ esempi di Q&A malevoli e misurare il tasso di compliance del modello. Per mitigare il rischio in produzione, si possono applicare finestre di contesto artificialmente limitate per certi task, classifier sul contenuto in input che rilevano pattern di Q&A ripetuti con tematiche rischiose, o sistemi di logging che segnalano prompt insolitamente lunghi.

MCP /em-see-pee/ · Agenti · beginner · Model Context Protocol

Protocollo aperto introdotto da Anthropic per collegare in modo standard i modelli AI a strumenti, dati e servizi esterni, come una specie di USB per gli LLM.

In praticaInvece di scrivere integrazioni custom per ogni client (Claude Desktop, IDE, agenti), pubblichi un server MCP e tutti i client compatibili lo usano. Sta diventando lo standard de facto per il tooling degli agenti.

Mixture of Denoisers · Addestramento · advanced · MoD, Mixed Denoising Objectives

Una strategia di pretraining (UL2, Google 2022) che addestra un singolo modello su molteplici obiettivi di denoising simultaneamente: language modeling left-to-right, predizione di span (span masking stile BERT con lunghezze e corruzioni variabili) e prefix language modeling. Unifica i punti di forza del pretraining stile GPT e stile T5. Il modello impara quando usare ciascuna modalità grazie a un token sentinella che ne segnala il tipo.

In praticaUn ricercatore che vuole un modello flessibile sia per completamento che per question answering può usare UL2 o un checkpoint Flan-UL2 senza dover scegliere tra architettura encoder-decoder (T5) e decoder-only (GPT). In pratica, il token sentinella `[S2S]`, `[NLU]`, o `[NLG]` va preposto al prompt per attivare la modalità corretta — un dettaglio che impatta significativamente le performance e viene spesso omesso causando risultati scadenti.

MMLU /em-em-el-you/ · Inferenza · intermediate · Massive Multitask Language Understanding

Benchmark con circa 16.000 domande a scelta multipla su 57 materie, da matematica e diritto a medicina, usato per misurare la conoscenza generale di un LLM.

In praticaÈ stato per anni il benchmark di riferimento citato negli annunci dei nuovi modelli. Oggi è saturo: i modelli di frontiera superano l'85% e si sta passando a benchmark più difficili come MMLU-Pro e GPQA.

Model extraction · Sicurezza · advanced · Estrazione del modello, Model stealing

Attacco in cui un avversario interroga ripetutamente un modello via API per ricostruire una copia funzionale dei suoi pesi o del suo comportamento.

In praticaUna variante legale è la distillazione di output di un modello frontier per addestrare un modello più piccolo, pratica vietata dai termini di servizio di molti provider. Mitigato con rate limit, watermarking e detection del fingerprint.

MoE /em-oh-ee/ · Modelli · intermediate · Mixture of Experts, Miscela di esperti

Architettura in cui il modello è diviso in molti sotto-modelli specializzati ('esperti') e per ogni token viene attivata solo una piccola parte di essi.

In praticaPermette di avere modelli da centinaia di miliardi di parametri ma con il costo di inferenza di uno molto più piccolo. Mixtral, DeepSeek e GPT-4 lo usano. In pratica per chi usa l'API non cambia nulla, ma spiega rapporti qualità/prezzo sorprendenti.

Multi-Agent Orchestration · Agenti · intermediate · Multi-Agent Systems, Agent Orchestration

Un'architettura in cui più agenti AI specializzati collaborano per completare un obiettivo complesso, ciascuno con ruoli, strumenti e protocolli di comunicazione definiti. Un agente orchestratore decompone il goal e assegna i sotto-task ad agenti worker. A differenza dei loop single-agent, il multi-agent consente parallelismo, specializzazione e isolamento dei guasti. I pattern principali sono: gerarchico (orchestratore→worker), pipeline sequenziale e dibattito/critica tra agenti.

In praticaUno sviluppatore che costruisce un sistema RAG complesso può usare un orchestratore (AutoGen, CrewAI, Magentic-One) per smistare query verso agenti specializzati — uno per la ricerca web, uno per il database vettoriale, uno per la sintesi finale. Il debug richiede tracing delle comunicazioni inter-agente: strumenti come LangSmith o Phoenix mostrano quale agente ha ricevuto quale input e cosa ha prodotto, rendendo visibili colli di bottiglia e loop infiniti.

Multimodal · Modelli · beginner · Multimodale

Modello capace di gestire più tipi di input e output insieme: testo, immagini, audio, video. Non solo lettura ma anche generazione di più formati.

In praticaClaude e GPT-4 leggono immagini, Gemini gestisce video, alcuni modelli parlano in voce. Per chi costruisce prodotti significa poter analizzare foto di scontrini, screenshot, grafici senza un OCR separato. Attenzione: l'input visivo costa più token.

Needle in a Haystack · Inferenza · intermediate · NIAH, Ago nel pagliaio

Test in cui si nasconde una frase specifica in mezzo a un lungo testo irrilevante e si chiede al modello di recuperarla, per misurare la qualità reale del context window.

In praticaÈ diventato il benchmark de facto per i modelli a contesto lungo (100K, 1M token). Un modello può avere un context enorme ma fallire il NIAH oltre una certa profondità, segnale che la finestra è 'finta'.

Neural Audio Codec · Modelli · intermediate · Neural Audio Codec, Audio Codec Model

Un neural codec è una rete neurale che comprime audio in token discreti tramite Residual Vector Quantization (RVQ) e lo ricostruisce con alta fedeltà. Il processo divide il segnale audio in codici a più livelli: il primo livello cattura la struttura grossolana, i livelli successivi affinano i dettagli. Questo schema abilita gli LLM a 'parlare': i token audio possono essere generati in modo autoregressivo esattamente come i token di testo. Esempi chiave: SoundStream (Google), EnCodec (Meta), DAC e Vocos, tutti usati da modelli come VALL-E, SoundStorm e AudioPaLM.

In praticaUn developer integra un neural codec come primo stadio di una pipeline speech LLM: EnCodec di Meta è disponibile su HuggingFace e si usa con poche righe di Python per convertire file audio in sequenze di codici interi. Questi codici diventano l'input/output di un transformer standard addestrato su testo e parlato. Per applicazioni real-time, Vocos offre un decoder più veloce di EnCodec che ricostruisce audio da codici in pochi millisecondi su CPU.

Open weights vs open source · Modelli · intermediate · Pesi aperti, Modelli aperti

Un modello a 'pesi aperti' rilascia solo i parametri scaricabili; uno 'open source' pubblica anche dati di training, ricette e codice in modo riproducibile.

In praticaLlama, Mistral, DeepSeek hanno pesi aperti ma non sono open source pieno. Per uso aziendale i pesi aperti permettono già di girare il modello on-prem, fine-tunarlo, ispezionarlo; ma la licenza va letta con attenzione perché ha limiti d'uso.

Paged Attention · Inferenza · advanced · PagedAttention

Tecnica che divide la KV cache in piccoli blocchi gestiti come pagine di memoria virtuale, riducendo lo spreco di VRAM tra richieste diverse.

In praticaÈ il cuore del motore vLLM e oggi standard nei server di inferenza moderni. Permette di servire molti più utenti con la stessa GPU perché evita di riservare blocchi grandi e quasi vuoti. Per chi sceglie un runtime self-hosted, il supporto a paged attention è un requisito di base.

Pipeline Parallelism · Infrastruttura · advanced · PP, Inter-layer Parallelism

Il pipeline parallelism è una strategia di distribuzione del training in cui i layer di una rete neurale vengono suddivisi in blocchi contigui, ciascuno assegnato a una GPU distinta. Ogni GPU elabora il proprio blocco di layer e passa le attivazioni alla GPU successiva, formando una pipeline. Differisce dal tensor parallelism, che invece suddivide le singole matrici di peso all'interno di un layer. Combinato con tensor parallelism e data parallelism forma il cosiddetto '3D parallelism', adottato da Megatron-LM per addestrare modelli da centinaia di miliardi di parametri.

In praticaUn ingegnere che addestra un modello troppo grande per una singola GPU — o anche per un singolo nodo multi-GPU — usa pipeline parallelism per distribuire i layer su più nodi. Con DeepSpeed o Megatron-LM si configura il grado di pipeline (numero di stage) e il numero di micro-batch per riempire la pipeline e minimizzare il 'bubble overhead' (tempo in cui le GPU rimangono inattive tra un micro-batch e l'altro). In inferenza, lo stesso approccio permette di servire LLM molto grandi distribuendo i layer su più server.

Positional Encoding · Modelli · intermediate · Encoding posizionale, Codifica posizionale

Informazione aggiunta a ogni token per dire al modello in che posizione si trova nella sequenza, perché l'attenzione di base non ha senso dell'ordine.

In praticaSenza encoding posizionale "il cane morde l'uomo" e "l'uomo morde il cane" avrebbero lo stesso significato per il modello. Le prime versioni usavano funzioni seno/coseno; oggi quasi tutti gli LLM usano RoPE perché si estende meglio a contesti lunghi.

PPO /pee-pee-oh/ · Addestramento · intermediate · Proximal Policy Optimization, Ottimizzazione di policy prossimale

Algoritmo di reinforcement learning che aggiorna il modello in piccoli passi, evitando di allontanarsi troppo dalla versione precedente.

In praticaÈ stato il motore di RLHF nei primi ChatGPT: massimizza il reward umano senza far divergere il modello. Notoriamente difficile da stabilizzare e con molti iperparametri. Per questo motivo molti team open source preferiscono DPO, che ottiene risultati simili con meno fatica.

Prefix Caching · Inferenza · intermediate · Automatic Prefix Caching, APC, Prompt Caching

Il prefix caching è una tecnica di inferenza che riutilizza il KV cache già calcolato per prefissi di prompt comuni tra richieste diverse. Anziché ricalcolare le chiavi e i valori di attenzione per le stesse sequenze (es. un system prompt identico), il sistema conserva queste attivazioni in memoria e le recupera direttamente. Riduce drasticamente la latenza per il prefisso condiviso, portandola vicino a zero. È implementato in vLLM come 'Automatic Prefix Caching' e nei servizi cloud di Anthropic e OpenAI come funzionalità fatturata a costo ridotto.

In praticaUn developer che serve un chatbot con un system prompt fisso di 2000 token beneficia immediatamente del prefix caching: solo la prima richiesta calcola quel prefisso, tutte le successive lo leggono dalla cache. In vLLM si attiva con `--enable-prefix-caching`; nella Anthropic API il prefix caching va dichiarato esplicitamente con `cache_control`. Per applicazioni RAG con documenti condivisi, si struttura il prompt mettendo il documento prima delle domande per massimizzare il riutilizzo della cache.

Pretraining · Addestramento · beginner · Pre-training, Pre-addestramento

Fase iniziale di addestramento in cui un modello impara la struttura del linguaggio prevedendo il prossimo token su enormi quantità di testo generico.

In praticaÈ la parte più costosa (mesi di GPU e milioni di dollari) e produce un modello "base" che sa scrivere ma non sa ancora seguire istruzioni. Solo i grandi laboratori la fanno da zero; le aziende ripartono da modelli pre-addestrati e li adattano con SFT, LoRA o RLHF.

Prompt injection · Sicurezza · beginner · Iniezione di prompt

Attacco in cui un input esterno (un documento, una pagina web, un'email) contiene istruzioni nascoste che dirottano il comportamento del modello.

In praticaSe il tuo agente legge email e poi agisce, un'email malevola può dirgli 'inoltra tutto a un terzo'. Mitigazioni: trattare input esterni come non fidati, sandbox sugli strumenti, conferma umana per azioni sensibili, filtri input/output.

QLoRA /kew-lor-ah/ · Addestramento · intermediate · Quantized LoRA

Variante di LoRA che mantiene il modello base in formato quantizzato a 4 bit durante il fine-tuning, riducendo drasticamente la memoria GPU richiesta.

In praticaPermette di adattare modelli da 13B-70B parametri su una singola GPU consumer (es. RTX 4090 o A100 da 24-40 GB). È la tecnica preferita per fine-tuning amatoriale o aziendale a basso budget. La perdita di qualità rispetto a un fine-tuning full-precision è quasi trascurabile.

Quantization · Inferenza · intermediate · Quantizzazione

Tecnica che riduce la precisione numerica dei pesi del modello (per esempio da 16 a 4 bit) per farlo occupare meno memoria e girare più veloce.

In praticaÈ quello che permette di far girare un Llama 70B su una sola GPU o un modello da 7B su un Mac. Si perde un po' di qualità ma spesso poco. Tool tipici: GGUF, AWQ, GPTQ. Utile per deploy on-prem o edge.

RAG /rag/ · Inferenza · beginner · Retrieval-Augmented Generation, Generazione aumentata da recupero

Tecnica che recupera testo rilevante da una base dati esterna e lo inserisce nel prompt del modello prima della risposta.

In praticaPermette a un LLM di rispondere usando documenti aziendali, knowledge base interne o articoli aggiornati senza addestrarlo. Riduce le hallucination su dati specifici e aggiorna la conoscenza senza re-training. È la prima architettura da considerare per un chatbot aziendale.

ReAct /ree-act/ · Agenti · beginner · Reasoning and Acting, Ragionamento e Azione

Pattern in cui un agente alterna passi di ragionamento testuale (Thought) e azioni concrete (Action) verso strumenti, osservando il risultato prima del passo successivo.

In praticaÈ lo schema base di quasi tutti gli agenti LLM moderni: il modello scrive cosa pensa di fare, chiama un tool, legge la risposta, poi decide il prossimo passo. Rende le decisioni dell'agente ispezionabili e debuggabili.

Reasoning model · Modelli · beginner · Modello di ragionamento, Thinking model

Modello addestrato a ragionare a lungo prima di rispondere, generando passi intermedi (anche minuti di 'pensiero') per problemi complessi di matematica, codice o analisi.

In praticaEsempi: o1 e o3 di OpenAI, Claude con extended thinking, DeepSeek-R1. Costano molto di più e sono più lenti, quindi vanno usati solo dove servono davvero. Per chat semplici un modello normale basta e spende meno.

Red teaming · Sicurezza · beginner · Test avversariale

Pratica in cui un gruppo prova attivamente ad attaccare un modello o un sistema AI, cercando jailbreak, falle di sicurezza e usi pericolosi, per scoprirli prima del rilascio.

In praticaI lab AI lo fanno in interno e con esperti esterni prima di pubblicare un modello. Se metti un'AI in produzione conviene fare lo stesso sul tuo prodotto: chiedi a colleghi di romperlo prima dei clienti. Anche un'ora trovata male è meglio del primo bug pubblico.

Reflexion · Agenti · intermediate · Self-reflection

Tecnica in cui un agente, dopo un tentativo fallito, genera una critica verbale di sé stesso e la rimette in memoria per migliorare il tentativo successivo.

In praticaUtile per task con feedback chiaro (test che falliscono, risposte sbagliate). L'agente impara dai propri errori dentro la stessa sessione, senza fine-tuning. Spesso aumenta il successo su benchmark di coding e ragionamento.

Reranker · Infrastruttura · intermediate · Riordinatore, Re-ranking

Modello secondario che riordina i risultati di una ricerca iniziale (vettoriale o keyword) classificandoli per rilevanza rispetto alla query.

In praticaTipicamente si recuperano 50-100 candidati con un metodo veloce, poi si lascia al reranker (es. Cohere Rerank, BGE) ordinare i 5-10 migliori. È uno dei modi più economici per migliorare la qualità di un RAG.

Reward Shaping · Addestramento · advanced · Reward Function Design, Reward Engineering

Il design dei segnali di reward che guidano l'apprendimento per rinforzo senza sovradattarsi a misure proxy. Reward mal progettati portano al reward hacking: l'agente ottimizza la metrica invece di risolvere il task reale. I modelli LLM ora automatizzano il reward design (Eureka/NVIDIA): GPT-4 scrive funzioni reward in Python, le esegue in simulazione e itera in base alle prestazioni dell'agente. È critico per robotica, game AI e RLHF con feedback umano.

In praticaUn ricercatore che addestra un robot a camminare deve bilanciare reward per velocità, stabilità e consumo energetico — troppa enfasi sulla velocità produce andature bizzarre o 'reward hacking'. Con Eureka, si descrive il task in linguaggio naturale e un LLM genera automaticamente la funzione reward, eseguendola in simulazione Isaac Gym e rifinanando i pesi sulla base delle metriche di performance. Lo stesso principio vale per RLHF: la reward function del modello linguistico deve catturare 'utilità reale', non solo 'sembra convincente'.

RLAIF /ar-el-ay-eye-ef/ · Addestramento · intermediate · Reinforcement Learning from AI Feedback

Variante del RLHF in cui a giudicare le risposte non è un umano ma un altro modello AI, riducendo costi e tempi rispetto all'annotazione manuale.

In praticaPermette di scalare il training di allineamento su volumi molto più grandi. Anthropic lo usa per Claude in combinazione con la Constitutional AI. Il rischio è amplificare i bias del modello giudice, quindi serve comunque una supervisione umana.

RLHF /ar-el-aitch-ef/ · Addestramento · intermediate · Reinforcement Learning from Human Feedback

Tecnica di addestramento in cui umani valutano e classificano le risposte del modello, e queste preferenze vengono usate per guidare l'apprendimento verso risposte più utili e sicure.

In praticaÈ il passaggio che ha reso ChatGPT utile rispetto a un modello solo predittivo. Per chi usa LLM via API il RLHF è già stato fatto dal fornitore. Conoscerlo aiuta a capire perché modelli più 'allineati' a volte rifiutano richieste lecite.

RoPE /rope/ · Modelli · advanced · Rotary Position Embedding, Embedding posizionale rotatorio

Tecnica di encoding posizionale che ruota i vettori dei token in funzione della loro posizione, codificando l'ordine direttamente dentro l'attenzione.

In praticaÈ diventato lo standard de facto: lo usano Llama, Mistral, Qwen, DeepSeek e GPT-4 class. Permette di estendere il contesto oltre la lunghezza vista in training con trucchi come NTK-aware o YaRN. Per chi fa fine-tuning su contesti lunghi, capire RoPE è quasi obbligatorio.

Safety classifier · Sicurezza · intermediate · Classificatore di sicurezza, Content filter

Modello separato che analizza input o output di un LLM per intercettare contenuti pericolosi, violenti, illegali o fuori policy prima che arrivino all'utente.

In praticaÈ una rete di sicurezza in cascata: se il modello principale sbaglia, il classificatore lo blocca. OpenAI Moderation, Llama Guard di Meta sono esempi gratuiti. Per servizi pubblici è quasi obbligatorio averne uno.

Self-consistency · Inferenza · intermediate · Auto-consistenza

Tecnica in cui si campionano più risposte indipendenti dal modello con temperatura > 0 e si sceglie quella più frequente per maggioranza.

In praticaSpesso migliora l'accuratezza su task di ragionamento matematico: se 5 catene di pensiero su 7 convergono sulla stessa risposta, è probabilmente corretta. Triplica o quintuplica il costo di inferenza.

SFT /es-ef-tee/ · Addestramento · intermediate · Supervised Fine-Tuning, Fine-tuning supervisionato

Fine-tuning in cui il modello impara da coppie input-output scritte da umani, ad esempio domande con risposte ideali.

In praticaÈ il primo passo per trasformare un modello base in un assistente che segue istruzioni. Bastano migliaia di esempi di buona qualità per ottenere grossi miglioramenti su un dominio. In azienda è quasi sempre la prima opzione prima di passare a RLHF o DPO.

Sim-to-Real Transfer · Infrastruttura · advanced · Simulation-to-Real Transfer, Sim2Real

Il processo di addestramento di una policy robotica in simulazione (veloce, economica, sicura) e successivo deployment su hardware reale senza riaddestramento. Il 'reality gap' — differenze in fisica, attrito, rumore dei sensori — causa il fallimento delle policy. La domain randomization (randomizzare i parametri della simulazione) insegna robustezza. LLMs automatizzano questo processo (DrEureka): generano range di randomizzazione così che le policy si trasferiscano zero-shot all'hardware reale.

In praticaUn team di robotica che costruisce un arm per picking industriale addestra migliaia di policy in parallelo su Isaac Sim o MuJoCo, variando casualmente massa degli oggetti, attrito, illuminazione e ritardi dei motori. La policy migliore viene poi deplodata sul robot fisico senza ulteriore training. Con DrEureka, un LLM suggerisce automaticamente i range di randomizzazione partendo dalla descrizione del task, riducendo i giorni di tuning manuale a poche ore di ricerca automatizzata.

Sleeper agents · Sicurezza · advanced · Sandbagging, Agenti dormienti

Modelli che si comportano in modo allineato durante l'addestramento e i test ma manifestano un comportamento malevolo solo in condizioni specifiche, ad esempio una certa data o frase.

In praticaStudiati da Anthropic nel 2024: hanno mostrato che il fine-tuning safety standard non rimuove backdoor inserite di proposito. Il termine sandbagging indica il caso in cui il modello finge volutamente di essere meno capace.

Small Language Model · Modelli · beginner · SLM, Small LLM

Un Small Language Model (SLM) è un modello linguistico nel range 1B-7B di parametri, ottimizzato per massimizzare la qualità per parametro piuttosto che la capacità assoluta. L'intuizione chiave emersa dalla serie Microsoft Phi è che addestrare su dati sintetici di qualità 'da libro di testo' permette a un modello da 1.3B parametri di rivaleggiare con modelli molto più grandi su benchmark di ragionamento. Gli SLM girano su laptop, smartphone e dispositivi embedded senza GPU dedicata. Esempi rappresentativi sono Phi-1.5, Phi-3, Gemma 2B, Qwen 1.5B e SmolLM.

In praticaUno sviluppatore sceglie un SLM quando deve deployare un assistente AI su hardware edge (Raspberry Pi, telefono Android, laptop aziendale) dove un LLM da 70B sarebbe impraticabile. Con llama.cpp o Ollama è possibile eseguire Phi-3 Mini quantizzato a 4-bit su qualsiasi CPU moderna a velocità accettabile. Gli SLM sono anche ideali per task specializzati: fine-tuning su un dominio specifico con pochi dati produce modelli compatti che superano GPT-4 nel dominio target.

Softmax · Inferenza · intermediate

Funzione matematica che trasforma un insieme di logit in probabilità che sommano a 1, accentuando i valori alti e schiacciando quelli bassi.

In praticaÈ l'ultimo passaggio prima di scegliere il prossimo token: dice quanto il modello "crede" in ogni opzione. Compare anche dentro l'attenzione per pesare i token del contesto. Per chi usa API è invisibile; per chi studia il modello è una delle funzioni più ricorrenti.

Speculative Decoding · Inferenza · advanced · Decoding speculativo

Tecnica in cui un modello piccolo e veloce propone più token in anticipo e il modello grande li verifica in un singolo passaggio, accettando quelli corretti.

In praticaPermette di generare risposte 2-3 volte più veloci senza cambiare la qualità finale, perché il modello grande resta il giudice. È usato in produzione da OpenAI, Anthropic e nei runtime self-hosted. Richiede un modello "draft" allineato al modello principale, quindi non è gratis da implementare.

Structured output · Inferenza · beginner · JSON mode, Output strutturato

Modalità in cui il modello è vincolato a produrre output conforme a uno schema (JSON, regex, grammatica) invece di testo libero.

In praticaIndispensabile quando l'output va dato in pasto a un altro sistema: API, database, frontend. Provider come OpenAI e Anthropic offrono enforcement nativo che garantisce JSON valido al primo colpo.

Subword Tokenization · Dati · intermediate · Tokenizzazione a sotto-parole

Famiglia di tecniche che spezza il testo in pezzi più piccoli di una parola intera ma più grandi di un singolo carattere.

In praticaÈ un compromesso tra vocabolari giganti (una parola = un token) e vocabolari minuscoli (un carattere = un token). Permette di gestire parole nuove, errori di battitura e lingue diverse senza esplodere in dimensione. Tutti gli LLM moderni usano una qualche forma di subword tokenization.

SWE-bench /swee-bench/ · Inferenza · intermediate · Software Engineering Bench

Benchmark con oltre 2.000 issue reali estratte da repository GitHub Python: il modello deve produrre una patch che faccia passare i test del progetto.

In praticaMisura capacità di ingegneria software reale (lettura di codebase, debug, modifiche cross-file), non solo coding isolato. È diventato il riferimento per agenti come Devin, Claude Code, OpenAI Codex.

Synthetic Data · Dati · beginner · Dati sintetici

Dati di addestramento generati da un altro modello AI invece che raccolti da umani.

In praticaÈ ormai uno dei pilastri dell'addestramento moderno: i modelli più grandi producono esempi per addestrare quelli più piccoli (distillazione) o per coprire casi rari. Va però filtrato bene, perché errori del generatore si amplificano nel modello finale. Nvidia, Meta e Anthropic ne fanno uso massiccio.

Temperature · Inferenza · beginner · Temperatura

Parametro che scala i logit prima del campionamento: valori bassi rendono il modello più deterministico, valori alti più creativo e imprevedibile.

In praticaA 0 il modello sceglie sempre la parola più probabile (di fatto greedy); a 1 mantiene la distribuzione originale; sopra 1.5 tende a delirare. Per task di classificazione o estrazione conviene 0; per scrittura creativa 0.7-1.0. È il parametro più semplice da regolare nelle API.

Token · Inferenza · beginner · Token

Unità di base in cui il modello scompone il testo: può essere una parola intera, una sillaba o pochi caratteri, a seconda del tokenizzatore.

In praticaLe API degli LLM si pagano a token in ingresso e in uscita. In inglese 1 token corrisponde circa a 0,75 parole, in italiano un po' meno. Misurare i token del prompt aiuta a stimare costi e a stare dentro il limite di contesto.

Tokenizer · Inferenza · beginner · Tokenizzatore

Componente che trasforma il testo in token prima di passarlo al modello e ricostruisce il testo dai token in uscita.

In praticaTokenizzatori diversi producono conteggi diversi: lo stesso testo costa più token con GPT che con Claude o viceversa. Esistono librerie come tiktoken (OpenAI) per stimare token in locale prima di chiamare l'API.

Tool use · Agenti · beginner · Function calling, Uso di strumenti, Chiamata di funzione

Capacità del modello di restituire una richiesta strutturata per eseguire una funzione esterna (cercare sul web, leggere un file, scrivere su un database) e poi riprendere il ragionamento col risultato.

In praticaTu definisci le funzioni con nome, parametri e descrizione; il modello sceglie quando chiamarle. È il mattone di base di ogni agente. Attenzione a validare gli argomenti: il modello a volte inventa parametri o ne dimentica.

Toolformer · Agenti · advanced

Modello LLM addestrato da Meta a decidere autonomamente quando e come invocare API esterne come calcolatrice, traduttore o motore di ricerca.

In praticaÈ uno dei primi lavori a mostrare che un LLM può imparare l'uso degli strumenti in modo self-supervised, senza esempi umani. Oggi il concetto vive nel function calling nativo dei modelli moderni.

Top-k Sampling /top-kay sampling/ · Inferenza · intermediate · Campionamento top-k

Strategia di scelta del prossimo token che considera solo i k candidati più probabili e scarta tutti gli altri prima di estrarre a sorte.

In praticaCon k=1 diventa greedy decoding; con k alto torna quasi alla distribuzione piena. Si usa per evitare che il modello peschi parole assurde dalla coda della distribuzione. Nelle API moderne è spesso sostituito o combinato con top-p, considerato più adattivo.

Top-p Sampling /top-pee sampling/ · Inferenza · intermediate · Nucleus Sampling, Campionamento a nucleo

Strategia che sceglie il prossimo token dal più piccolo gruppo di candidati la cui probabilità cumulata supera una soglia p (es. 0.9).

In praticaAdatta il numero di candidati al contesto: poche opzioni se il modello è sicuro, molte se è incerto. È il parametro più usato nelle API (`top_p` su OpenAI, Anthropic, ecc.) per regolare creatività senza sacrificare coerenza. Di solito si lascia tra 0.8 e 0.95.

Transformer · Modelli · beginner · Architettura Transformer

Architettura di rete neurale introdotta da Google nel 2017 che usa il meccanismo di attenzione per elaborare il testo in parallelo invece che parola per parola.

In praticaÈ la base di praticamente tutti gli LLM moderni. Per chi costruisce prodotti non serve implementarla da zero: si usano framework come PyTorch o si chiamano API. Capire che è parallelizzabile spiega perché servono GPU potenti per addestrarla.

Tree of Thoughts · Inferenza · intermediate · ToT

Strategia di ragionamento in cui il modello esplora più rami di pensiero in parallelo, li valuta e tiene solo quelli promettenti, come una ricerca ad albero.

In praticaEstende la Chain-of-Thought permettendo backtracking: utile per puzzle, pianificazione e problemi matematici dove un singolo percorso lineare spesso sbaglia. Costa molti più token dell'inferenza standard.

Vector database /vector dee-bee/ · Infrastruttura · beginner · Database vettoriale, Vector store

Database specializzato nel salvare embedding e trovare velocemente i vettori più simili a una query, anche tra milioni di record.

In praticaEsempi: Pinecone, Weaviate, Qdrant, pgvector su Postgres. Lo scegli in base a scala, costo e se vuoi gestirlo tu o in cloud. È l'infrastruttura chiave di un sistema RAG che cerca dentro la knowledge base aziendale.

Vision-Language-Action Model · Modelli · advanced · Vision-Language-Action Model, VLA

Un Vision-Language-Action Model (VLA) è una rete neurale che riceve in input osservazioni visive e istruzioni in linguaggio naturale, producendo direttamente azioni robot come sequenze di coordinate o comandi articolari. Estende i modelli vision-language (VLM) aggiungendo una testa di azione addestrata su dati di traiettoria robotica reale. Esempi notevoli includono RT-2 (Google DeepMind), OpenVLA (Berkeley), GR-2 (ByteDance) e Helix (Figure AI). Il risultato è un robot capace di interpretare un comando come 'raccogli la tazza rossa' osservando la scena e traducendolo in movimenti fisici precisi.

In praticaUn developer che lavora con VLA tipicamente part da un checkpoint pre-addestrato (es. OpenVLA su HuggingFace) e lo affina con dati di teleoperazione raccolti sul proprio robot tramite LoRA o full fine-tuning. L'input al modello è un'immagine RGB dalla telecamera del robot concatenata con l'istruzione testuale; l'output è un vettore di azione (posizione dell'end-effector, apertura del gripper). La pipeline di deployment usa ROS 2 o LeRobot per chiudere il loop di controllo a frequenze di 5-10 Hz.

Voice Cloning · Inferenza · intermediate · Zero-Shot Voice Cloning, Speaker Adaptation

Il voice cloning è la capacità di generare sintesi vocale nella voce di un parlante target a partire da pochi secondi di audio di riferimento, senza alcun fine-tuning aggiuntivo. Il modello estrae un embedding del parlante dall'audio di riferimento e condiziona la generazione su di esso, replicando timbro, ritmo e caratteristiche prosodiche. La modalità zero-shot significa che nessun addestramento aggiuntivo per speaker è necessario al momento dell'inferenza. Sistemi come ElevenLabs, XTTS v2, CosyVoice e Dia TTS hanno reso questa tecnologia accessibile tramite API o modelli open-weights.

In praticaUno sviluppatore che vuole clonare una voce con XTTS v2 (open source, disponibile su HuggingFace) fornisce 6-10 secondi di audio di riferimento pulito e il testo da sintetizzare; la libreria Coqui TTS gestisce l'estrazione dell'embedding e la sintesi in pochi secondi. Per produzioni professionali, ElevenLabs API accetta un clip audio e restituisce una voice_id riutilizzabile. È fondamentale verificare il consenso del parlante originale prima di clonarne la voce, in rispetto delle normative vigenti.

Watermarking · Sicurezza · intermediate · Filigrana AI

Tecnica che inserisce un segnale statistico invisibile nel testo o nelle immagini generate da un modello, in modo da poterli identificare a posteriori come prodotti da AI.

In praticaGoogle SynthID, ad esempio, marca testo e immagini di Gemini. Utile contro disinformazione, deepfake e plagio. Limite: spesso si rompe con riscritture, traduzioni o piccole modifiche, e funziona solo se il provider partecipa.

WordPiece / SentencePiece · Dati · intermediate · WordPiece, SentencePiece

Due algoritmi di tokenizzazione a sotto-parole alternativi a BPE: WordPiece è quello di BERT, SentencePiece è quello di T5 e Gemini.

In praticaWordPiece sceglie le fusioni in base a probabilità invece che a frequenza pura. SentencePiece lavora direttamente sulla stringa grezza senza dare per scontati gli spazi, quindi gestisce meglio cinese, giapponese e lingue senza separatori. Cambiare tokenizzatore richiede ri-addestrare il modello.

World Model · Modelli · advanced · Predictive World Model, Environment Model

Una rete neurale che predice le future osservazioni sensoriali dato le osservazioni correnti e le azioni, simulando come il mondo risponderà al comportamento di un robot o agente. Permette la pianificazione senza interazione fisica: 'immaginare' le conseguenze di un'azione prima di eseguirla. In robotica (1X Technologies, DREAMER), i world model abilitano la pianificazione in tempo reale. Negli agenti LLM, sono alla base dell'esecuzione speculativa e della ricerca con lookahead.

In praticaUn agente che deve spostare oggetti su un tavolo può usare un world model per simulare internamente migliaia di sequenze di azioni e selezionare quella con probabilità più alta di successo, prima di muovere il braccio fisico. Per gli sviluppatori di agenti LLM, un world model implicito si costruisce mantenendo uno 'state scratchpad' strutturato che il modello aggiorna ad ogni step — una tecnica usata in sistemi come Voyager (Minecraft) e in agenti di planning con tool use.

Zero-shot learning · Inferenza · beginner · Apprendimento senza esempi

Capacità del modello di svolgere un compito mai visto in addestramento basandosi solo sulla descrizione che gli diamo nel prompt, senza esempi.

In praticaÈ quello che fa la maggior parte di noi quando scrive 'riassumi questo testo in tre punti'. Se i risultati sono incostanti, passare a few-shot con esempi è il rimedio più rapido. Utile per prototipare velocemente nuovi flussi.