Glossario

Termini AI, spiegati senza gergo.

Ogni voce: una definizione di una frase, più due frasi su cosa significa nella pratica per chi costruisce o decide. Le dimensioni nella nuvola sotto riflettono quanto un termine appare nelle voci dell'archivio: i grandi sono quelli che davvero contano sapere.

121 termini

Mappa concetti PDF / Stampa CSV / Anki

Più grande = più ricorrente nelle voci dell'archivio. Cliccabile.

Mixture of Denoisers Agent LLM Pipeline Parallelism Multimodal RAG MoE Transformer Foundation model Attention Fine-tuning Quantization RoPE Tool use Voice Cloning Alignment Jailbreak Prompt injection Vision-Language-Action Model Chain-of-thought MCP SWE-bench Differential privacy FP8 Pretraining Synthetic Data Token Diffusion model HumanEval Instruction Tuning RLHF Small Language Model Constitutional AI Diffusion Policy FlashAttention Hallucination KV Cache Paged Attention Red teaming Autoregressive Distillation DPO Few-shot learning Function calling LoRA Speculative Decoding ARC-AGI Continuous Batching Cross-Embodiment Data poisoning Embedding Fill-In-the-Middle Inference compute PPO Prefix Caching ReAct Self-consistency Sleeper agents World Model ASL Context window Disaggregated Inference DreamBooth Frontier model Indirect Prompt Injection K-Quants KV Cache Quantization Latent Consistency Model MMLU QLoRA Reasoning model Reflexion RLAIF Safety classifier Tokenizer Toolformer Tree of Thoughts Vector database Watermarking Adversarial example AI Supply Chain Attack Backdoor attack Beam Search BM25 BPE Catastrophic Forgetting Causal Mask Checkpoint Chunking Cosine similarity Cross-encoder vs bi-encoder Decoder-only GPQA Gradient Descent Greedy Decoding HELM HNSW Hybrid search LLM-as-judge Logits Loss Function Lost in the middle Many-Shot Jailbreaking Model extraction Multi-Agent Orchestration Needle in a Haystack Neural Audio Codec Open weights vs open source Positional Encoding Reranker Reward Shaping SFT Sim-to-Real Transfer Softmax Structured output Subword Tokenization Temperature Top-k Sampling Top-p Sampling WordPiece / SentencePiece Zero-shot learning

Livello:

Modelli

Attention

Base Attenzione · Self-attention 12

Meccanismo che permette al modello di pesare quanto ogni parola del testo sia rilevante rispetto alle altre per comprendere il significato del contesto.

In pratica È il motivo per cui un LLM capisce che 'lui' in una frase si riferisce a una persona menzionata prima. Il costo di calcolo cresce con il quadrato della lunghezza del contesto: per questo gestire contesti molto lunghi è costoso.

→ transformer context-window

Autoregressive

Intermedio Autoregressivo 3

Modello che genera una sequenza un elemento alla volta, usando ogni volta l'output precedente come parte del nuovo input.

In pratica È il modo di funzionare di tutti gli LLM di tipo GPT: ogni token nuovo dipende da tutti quelli generati prima. Spiega perché la generazione è intrinsecamente sequenziale e difficile da parallelizzare, ed è il motivo dietro tecniche come speculative decoding per accelerare l'output.

→ causal-mask decoder-only transformer llm greedy-decoding

Causal Mask

Intermedio Maschera causale · Maschera autoregressiva

Filtro applicato nell'attenzione che impedisce a ogni token di vedere i token che vengono dopo di lui nella sequenza.

In pratica È ciò che rende un Transformer "causale" o decoder-only: durante il training il modello impara a prevedere il prossimo token senza barare guardando avanti. In inferenza la maschera diventa implicita perché i token futuri non esistono ancora. Senza di essa GPT non avrebbe senso.

→ attention autoregressive decoder-only transformer

Cross-Embodiment

Avanzato Cross-Robot Transfer · Embodiment Generalization 2

L'addestramento di una singola policy robotica che funziona su configurazioni hardware diverse (diversi DOF del braccio, gripper, sensori, basi mobili). Come i foundation model per il testo, i modelli cross-embodiment (RT-2, CrossFormer, Open X-Embodiment) apprendono skill di manipolazione generali da dati provenienti da robot eterogenei. Riduce la necessità di raccogliere dati per ogni configurazione robot separatamente.

In pratica Un'azienda con più modelli di robot in produzione può addestrare un unico modello cross-embodiment su tutti i dati raccolti, invece di mantenere policy separate per ogni robot. In pratica, il dataset Open X-Embodiment aggrega oltre 1 milione di episodi da 22 robot diversi; un ricercatore può fare fine-tuning di questo modello su pochi dati del proprio specifico robot e ottenere performance superiori rispetto all'addestramento from scratch.

→ foundation-model fine-tuning synthetic-data

Decoder-only

Intermedio Modello decoder-only · Solo decoder

Architettura Transformer composta solo dalla parte di decoder, dove ogni token guarda solo i token precedenti per prevedere il successivo.

In pratica È l'architettura di GPT, Llama, Mistral, Claude e di praticamente tutti gli LLM generativi moderni. Si contrappone a encoder-only (BERT, per classificazione) ed encoder-decoder (T5, per traduzione). La sua semplicità è il motivo per cui scala così bene in pretraining.

→ transformer autoregressive causal-mask llm

Diffusion model

Base Modello di diffusione 5

Tipo di modello generativo che parte da rumore casuale e lo trasforma gradualmente in un'immagine, un video o un audio coerente attraverso molti piccoli passi.

In pratica È la base di Stable Diffusion, Midjourney, Sora. Per chi integra generazione di immagini conta il rapporto tra qualità, velocità (numero di passi) e controllo. I costi sono in GPU-secondi più che in token.

→ multimodal foundation-model

Foundation model

Base Modello di base · Base model 14

Modello grande addestrato su dati molto generali, pensato per essere riusato e adattato a tanti compiti diversi invece di servire un solo scopo.

In pratica GPT-4, Claude, Llama sono foundation model. Per la maggior parte dei casi d'uso non ne addestri uno nuovo: lo usi via API o open weight e lo adatti con prompt, RAG o un piccolo fine-tuning sopra.

→ llm fine-tuning frontier-model

Frontier model

Base Modello di frontiera 1

Modello AI tra i più capaci esistenti al momento, ai confini delle prestazioni raggiungibili. Spesso significa nuovi rischi e nuove capacità ancora poco esplorate.

In pratica Esempi attuali: Claude più recente, GPT-4 di nuova generazione, Gemini Ultra. Costano di più ma fanno cose che i modelli più piccoli non riescono. Per progetti seri conviene benchmarkare sul tuo caso d'uso: a volte un modello medio basta e avanza.

→ foundation-model asl inference-compute

Latent Consistency Model

Avanzato LCM · Latent Consistency Distillation 1

Un Latent Consistency Model (LCM) è un modello di diffusione distillato per generare immagini di alta qualità in 4-8 step invece dei 50+ richiesti dai modelli originali. La consistency distillation addestra il modello a mappare direttamente qualsiasi latente rumoroso all'output pulito in un unico passo, eliminando il processo iterativo di denoising. LCM-LoRA applica questo speedup a qualsiasi modello Stable Diffusion esistente senza richiedere una distillazione completa da zero. Il risultato pratico è la generazione di immagini in tempo reale (~30 fps su GPU consumer) e la possibilità di iterare visivamente sulle prompt in modo interattivo.

In pratica Un developer può usare LCM-LoRA con diffusers di HuggingFace aggiungendo un solo adapter al proprio pipeline Stable Diffusion esistente: si scarica il peso LCM-LoRA, si imposta il scheduler su LCMScheduler e si riducono i num_inference_steps a 4. Il risultato è identico qualitativamente a 50 step ma 10 volte più veloce. Per applicazioni di UI generativa real-time (es. sketch-to-image interattivo), questa velocità è essenziale; si combinano spesso con StreamDiffusion per ottimizzare ulteriormente il throughput.

→ diffusion-model distillation quantization

LLM /el-el-em/

Base Large Language Model · Modello linguistico di grandi dimensioni 62

Modello di intelligenza artificiale addestrato su enormi quantità di testo per prevedere la parola successiva e generare risposte in linguaggio naturale.

In pratica È il motore dietro ChatGPT, Claude, Gemini. Quando integri un LLM nel tuo prodotto paghi a token e ottieni un servizio che capisce e produce testo. La qualità dipende molto dal modello scelto e dal prompt che gli fornisci.

→ transformer foundation-model token context-window

MoE /em-oh-ee/

Intermedio Mixture of Experts · Miscela di esperti 20

Architettura in cui il modello è diviso in molti sotto-modelli specializzati ('esperti') e per ogni token viene attivata solo una piccola parte di essi.

In pratica Permette di avere modelli da centinaia di miliardi di parametri ma con il costo di inferenza di uno molto più piccolo. Mixtral, DeepSeek e GPT-4 lo usano. In pratica per chi usa l'API non cambia nulla, ma spiega rapporti qualità/prezzo sorprendenti.

→ llm inference-compute

Multimodal

Base Multimodale 30

Modello capace di gestire più tipi di input e output insieme: testo, immagini, audio, video. Non solo lettura ma anche generazione di più formati.

In pratica Claude e GPT-4 leggono immagini, Gemini gestisce video, alcuni modelli parlano in voce. Per chi costruisce prodotti significa poter analizzare foto di scontrini, screenshot, grafici senza un OCR separato. Attenzione: l'input visivo costa più token.

→ llm foundation-model diffusion-model

Neural Audio Codec

Intermedio Neural Audio Codec · Audio Codec Model

Un neural codec è una rete neurale che comprime audio in token discreti tramite Residual Vector Quantization (RVQ) e lo ricostruisce con alta fedeltà. Il processo divide il segnale audio in codici a più livelli: il primo livello cattura la struttura grossolana, i livelli successivi affinano i dettagli. Questo schema abilita gli LLM a 'parlare': i token audio possono essere generati in modo autoregressivo esattamente come i token di testo. Esempi chiave: SoundStream (Google), EnCodec (Meta), DAC e Vocos, tutti usati da modelli come VALL-E, SoundStorm e AudioPaLM.

In pratica Un developer integra un neural codec come primo stadio di una pipeline speech LLM: EnCodec di Meta è disponibile su HuggingFace e si usa con poche righe di Python per convertire file audio in sequenze di codici interi. Questi codici diventano l'input/output di un transformer standard addestrato su testo e parlato. Per applicazioni real-time, Vocos offre un decoder più veloce di EnCodec che ricostruisce audio da codici in pochi millisecondi su CPU.

→ autoregressive quantization multimodal

Open weights vs open source

Intermedio Pesi aperti · Modelli aperti

Un modello a 'pesi aperti' rilascia solo i parametri scaricabili; uno 'open source' pubblica anche dati di training, ricette e codice in modo riproducibile.

In pratica Llama, Mistral, DeepSeek hanno pesi aperti ma non sono open source pieno. Per uso aziendale i pesi aperti permettono già di girare il modello on-prem, fine-tunarlo, ispezionarlo; ma la licenza va letta con attenzione perché ha limiti d'uso.

→ foundation-model llm

Positional Encoding

Intermedio Encoding posizionale · Codifica posizionale

Informazione aggiunta a ogni token per dire al modello in che posizione si trova nella sequenza, perché l'attenzione di base non ha senso dell'ordine.

In pratica Senza encoding posizionale "il cane morde l'uomo" e "l'uomo morde il cane" avrebbero lo stesso significato per il modello. Le prime versioni usavano funzioni seno/coseno; oggi quasi tutti gli LLM usano RoPE perché si estende meglio a contesti lunghi.

→ transformer attention rope context-window

Reasoning model

Base Modello di ragionamento · Thinking model 1

Modello addestrato a ragionare a lungo prima di rispondere, generando passi intermedi (anche minuti di 'pensiero') per problemi complessi di matematica, codice o analisi.

In pratica Esempi: o1 e o3 di OpenAI, Claude con extended thinking, DeepSeek-R1. Costano molto di più e sono più lenti, quindi vanno usati solo dove servono davvero. Per chat semplici un modello normale basta e spende meno.

→ chain-of-thought inference-compute

RoPE /rope/

Avanzato Rotary Position Embedding · Embedding posizionale rotatorio 11

Tecnica di encoding posizionale che ruota i vettori dei token in funzione della loro posizione, codificando l'ordine direttamente dentro l'attenzione.

In pratica È diventato lo standard de facto: lo usano Llama, Mistral, Qwen, DeepSeek e GPT-4 class. Permette di estendere il contesto oltre la lunghezza vista in training con trucchi come NTK-aware o YaRN. Per chi fa fine-tuning su contesti lunghi, capire RoPE è quasi obbligatorio.

→ positional-encoding transformer attention context-window

Small Language Model

Base SLM · Small LLM 5

Un Small Language Model (SLM) è un modello linguistico nel range 1B-7B di parametri, ottimizzato per massimizzare la qualità per parametro piuttosto che la capacità assoluta. L'intuizione chiave emersa dalla serie Microsoft Phi è che addestrare su dati sintetici di qualità 'da libro di testo' permette a un modello da 1.3B parametri di rivaleggiare con modelli molto più grandi su benchmark di ragionamento. Gli SLM girano su laptop, smartphone e dispositivi embedded senza GPU dedicata. Esempi rappresentativi sono Phi-1.5, Phi-3, Gemma 2B, Qwen 1.5B e SmolLM.

In pratica Uno sviluppatore sceglie un SLM quando deve deployare un assistente AI su hardware edge (Raspberry Pi, telefono Android, laptop aziendale) dove un LLM da 70B sarebbe impraticabile. Con llama.cpp o Ollama è possibile eseguire Phi-3 Mini quantizzato a 4-bit su qualsiasi CPU moderna a velocità accettabile. Gli SLM sono anche ideali per task specializzati: fine-tuning su un dominio specifico con pochi dati produce modelli compatti che superano GPT-4 nel dominio target.

→ llm quantization inference-compute synthetic-data

Transformer

Base Architettura Transformer 19

Architettura di rete neurale introdotta da Google nel 2017 che usa il meccanismo di attenzione per elaborare il testo in parallelo invece che parola per parola.

In pratica È la base di praticamente tutti gli LLM moderni. Per chi costruisce prodotti non serve implementarla da zero: si usano framework come PyTorch o si chiamano API. Capire che è parallelizzabile spiega perché servono GPU potenti per addestrarla.

→ attention llm foundation-model

Vision-Language-Action Model

Avanzato Vision-Language-Action Model · VLA 8

Un Vision-Language-Action Model (VLA) è una rete neurale che riceve in input osservazioni visive e istruzioni in linguaggio naturale, producendo direttamente azioni robot come sequenze di coordinate o comandi articolari. Estende i modelli vision-language (VLM) aggiungendo una testa di azione addestrata su dati di traiettoria robotica reale. Esempi notevoli includono RT-2 (Google DeepMind), OpenVLA (Berkeley), GR-2 (ByteDance) e Helix (Figure AI). Il risultato è un robot capace di interpretare un comando come 'raccogli la tazza rossa' osservando la scena e traducendolo in movimenti fisici precisi.

In pratica Un developer che lavora con VLA tipicamente part da un checkpoint pre-addestrato (es. OpenVLA su HuggingFace) e lo affina con dati di teleoperazione raccolti sul proprio robot tramite LoRA o full fine-tuning. L'input al modello è un'immagine RGB dalla telecamera del robot concatenata con l'istruzione testuale; l'output è un vettore di azione (posizione dell'end-effector, apertura del gripper). La pipeline di deployment usa ROS 2 o LeRobot per chiudere il loop di controllo a frequenze di 5-10 Hz.

→ multimodal fine-tuning foundation-model

World Model

Avanzato Predictive World Model · Environment Model 2

Una rete neurale che predice le future osservazioni sensoriali dato le osservazioni correnti e le azioni, simulando come il mondo risponderà al comportamento di un robot o agente. Permette la pianificazione senza interazione fisica: 'immaginare' le conseguenze di un'azione prima di eseguirla. In robotica (1X Technologies, DREAMER), i world model abilitano la pianificazione in tempo reale. Negli agenti LLM, sono alla base dell'esecuzione speculativa e della ricerca con lookahead.

In pratica Un agente che deve spostare oggetti su un tavolo può usare un world model per simulare internamente migliaia di sequenze di azioni e selezionare quella con probabilità più alta di successo, prima di muovere il braccio fisico. Per gli sviluppatori di agenti LLM, un world model implicito si costruisce mantenendo uno 'state scratchpad' strutturato che il modello aggiorna ad ogni step — una tecnica usata in sistemi come Voyager (Minecraft) e in agenti di planning con tool use.

→ agent reasoning-model speculative-decoding

Addestramento

Catastrophic Forgetting

Intermedio Oblio catastrofico · Interferenza catastrofica

Fenomeno per cui un modello, addestrato su nuovi dati, perde rapidamente le capacità apprese in precedenza.

In pratica È il motivo per cui un fine-tuning aggressivo su un dominio ristretto può rendere il modello peggio nel resto. Si mitiga con LoRA (che congela i pesi originali), con dataset misti o regolarizzando l'aggiornamento. Va valutato sempre con un set di test "generico" oltre a quello specifico.

→ fine-tuning sft lora pretraining

Checkpoint

Intermedio Punto di salvataggio

Salvataggio completo dei pesi del modello a un certo punto dell'addestramento, da cui si può ripartire o che si può rilasciare come modello finale.

In pratica Durante un training si salvano checkpoint ogni N passi per resistere a crash e per valutare versioni intermedie. Quando un laboratorio rilascia un modello open-weights (Llama, Mistral, Qwen) sta pubblicando un checkpoint. La parola si usa spesso come sinonimo di "versione del modello scaricabile".

→ pretraining fine-tuning open-weights-vs-open-source

Diffusion Policy

Avanzato Diffusion-based Imitation Learning 4

Un metodo di imitation learning per robot in cui la policy è un modello diffusivo a denoising: dato un'osservazione, itera denoising di una sequenza di azioni casuale fino a ottenere l'azione da eseguire. A differenza delle policy deterministiche, le diffusion policy apprendono distribuzioni di azioni multimodali — gestiscono task con molteplici soluzioni valide senza mediare in una soluzione scadente. Supera il behavioral cloning del 46%+ sui benchmark di manipolazione.

In pratica Un ricercatore di robotica che raccoglie dimostrazioni umane per un task di assemblaggio addestra una Diffusion Policy su quei dati: il modello impara che 'posizionare il pezzo a sinistra' e 'posizionarlo a destra' sono entrambe soluzioni valide e campiona in modo coerente una delle due, invece di produrre il movimento medio (sbagliato) come fa il behavioral cloning classico. Librerie come diffusion_policy di Columbia o LeRobot di Hugging Face offrono implementazioni pronte all'uso.

→ diffusion-model sft fine-tuning distillation

Distillation

Intermedio Distillazione 3

Tecnica per addestrare un modello piccolo a imitare il comportamento di uno grande, ottenendo qualità simile con una frazione dei costi di inferenza.

In pratica È il motivo per cui escono modelli piccoli e bravi: vengono distillati da quelli frontier. Per chi ha bisogno di risposte veloci e a basso costo su un dominio ristretto, distillare un proprio modello da Claude o GPT è spesso vincente.

→ fine-tuning quantization

DPO /dee-pee-oh/

Intermedio Direct Preference Optimization · Ottimizzazione diretta delle preferenze 3

Tecnica di allineamento che insegna al modello a preferire una risposta migliore rispetto a una peggiore, senza usare un reward model separato come fa RLHF.

In pratica Richiede solo coppie di risposte etichettate "meglio/peggio" e una procedura di training più semplice e stabile di PPO. Negli ultimi anni ha sostituito RLHF in molti progetti open source (Zephyr, Tulu, Llama varianti). È spesso il modo più economico per allineare un modello fine-tuned.

→ rlhf ppo sft alignment fine-tuning

DreamBooth

Intermedio DreamBooth Fine-tuning · Subject-Driven Generation 1

Una tecnica per fare fine-tuning di un modello diffusivo su 3-5 foto di un soggetto specifico (persona, prodotto, animale) usando un identificatore testuale univoco ('a sks dog'). Il modello 'memorizza' il soggetto preservando la capacità generativa generale. È alla base delle app di ritratto AI, dei generatori di fotografia prodotto e degli strumenti di immagini personalizzate. Introdotta da Google Research nel 2022.

In pratica Un fotografo di prodotto può fare fine-tuning di Stable Diffusion con DreamBooth su 5 foto di un oggetto (es. una scarpa da ginnastica) e poi generare centinaia di scatti in ambienti diversi senza set fotografici fisici. In pratica, si usa spesso con LoRA per ridurre il costo computazionale: invece di aggiornare tutti i pesi del modello, si addestrano solo le matrici low-rank. Strumenti come kohya_ss o la Diffusers library di Hugging Face offrono script DreamBooth+LoRA pronti all'uso.

→ diffusion-model fine-tuning lora

Fill-In-the-Middle

Intermedio FIM · Infilling · Code Infilling 2

Fill-In-the-Middle (FIM) è un obiettivo di training per modelli di codice in cui il modello deve predire una porzione centrale di testo dato il contesto che la precede (prefix) e quello che la segue (suffix). A differenza della generazione autoregressiva standard da sinistra a destra, FIM consente al modello di completare funzioni parzialmente scritte, docstring, nomi di variabili o blocchi di logica in mezzo a codice esistente. La tecnica riorganizza i token del training nella forma [PREFIX][SUFFIX][MIDDLE] o [PREFIX][MIDDLE][SUFFIX] e addestra il modello a completare la parte mancante. StarCoder, DeepSeek-Coder e Codestral fanno largo uso di FIM ed è la base tecnica di tutti i moderni strumenti di code completion.

In pratica Un developer che usa GitHub Copilot o Cursor beneficia direttamente di FIM ogni volta che scrive una funzione parziale e chiede al modello di completare il corpo: il modello vede sia il codice prima del cursore sia quello dopo. Per chi addestrasse un proprio code model, la pipeline di training FIM richiede di campionare randomicamente porzioni da mascherare nel corpus di codice sorgente e di riformattare i token con i separatori speciali `<fim_prefix>`, `<fim_suffix>`, `<fim_middle>`. Il ratio tipico è 50% FIM + 50% left-to-right durante il pre-training per preservare anche la capacità generativa standard.

→ autoregressive fine-tuning sft

Fine-tuning

Base Affinamento · Adattamento 11

Processo di addestramento aggiuntivo di un modello già pronto su un dataset più piccolo e specifico per migliorarne le prestazioni su un certo compito o dominio.

In pratica Lo fai quando il modello base non risponde bene allo stile, al gergo o ai formati che ti servono. Richiede dati etichettati di buona qualità e GPU. Spesso si parte da una variante leggera come LoRA prima del fine-tuning completo.

→ lora foundation-model rlhf

Gradient Descent

Intermedio Discesa del gradiente

Algoritmo di ottimizzazione che aggiorna i pesi del modello nella direzione che riduce di più l'errore, un piccolo passo alla volta.

In pratica È il motore di base dietro l'addestramento di ogni rete neurale moderna. In pratica si usa una variante chiamata Adam o AdamW, più stabile e veloce. Per chi non addestra modelli da zero è un concetto da conoscere, ma non un parametro da toccare.

→ loss-function pretraining sft checkpoint

Instruction Tuning

Intermedio Instruction Fine-Tuning · FLAN-style Tuning 5

L'instruction tuning è una fase di addestramento in cui un LLM pre-addestrato viene ulteriormente ottimizzato su coppie (istruzione, risposta attesa), strutturate come descrizioni di compiti in linguaggio naturale. A differenza del fine-tuning supervisionato generico, si focalizza esplicitamente su task description standardizzate per indurre nel modello la capacità di seguire comandi arbitrari. Il lavoro FLAN di Google (2021) ha dimostrato che addestrare su oltre 60 task differenti migliora drasticamente la generalizzazione zero-shot. È la fondamenta tecnica di modelli come ChatGPT, Vicuna e Flan-T5.

In pratica In pratica, si prepara un dataset di migliaia di esempi nel formato 'Istruzione: … Risposta: …', spesso derivati da benchmark NLP esistenti riformulati come prompt. Il modello base viene poi fine-tuned su questi dati con un normale obiettivo di cross-entropy. Un developer che vuole adattare un modello open-weights (es. LLaMA) a un dominio specifico costruisce un dataset di istruzioni verticale e usa framework come LLaMA-Factory, Axolotl o HuggingFace TRL per eseguire l'instruction tuning in poche ore su una singola GPU.

→ sft rlhf fine-tuning few-shot-learning

LoRA /lor-ah/

Intermedio Low-Rank Adaptation 3

Tecnica di fine-tuning che addestra solo un piccolo set di parametri aggiuntivi invece di tutto il modello, riducendo costi di calcolo e dimensione del file risultante.

In pratica Permette di personalizzare un modello da 70 miliardi di parametri su una GPU consumer. Si salvano adapter da pochi MB che si applicano sopra il modello base. È lo standard pratico per adattare modelli open weight a casi d'uso specifici.

→ fine-tuning quantization

Loss Function

Intermedio Funzione di perdita · Funzione di costo

Formula che misura quanto la previsione del modello è lontana dalla risposta corretta: più è alta, più il modello sta sbagliando.

In pratica Negli LLM la più usata è la cross-entropy sui token successivi. Il valore di loss visualizzato durante il training è il segnale numero uno per capire se sta convergendo o se c'è un bug. Una curva che non scende quasi sempre indica problemi di dati o iperparametri.

→ gradient-descent pretraining sft logits

Mixture of Denoisers

Avanzato MoD · Mixed Denoising Objectives 112

Una strategia di pretraining (UL2, Google 2022) che addestra un singolo modello su molteplici obiettivi di denoising simultaneamente: language modeling left-to-right, predizione di span (span masking stile BERT con lunghezze e corruzioni variabili) e prefix language modeling. Unifica i punti di forza del pretraining stile GPT e stile T5. Il modello impara quando usare ciascuna modalità grazie a un token sentinella che ne segnala il tipo.

In pratica Un ricercatore che vuole un modello flessibile sia per completamento che per question answering può usare UL2 o un checkpoint Flan-UL2 senza dover scegliere tra architettura encoder-decoder (T5) e decoder-only (GPT). In pratica, il token sentinella `[S2S]`, `[NLU]`, o `[NLG]` va preposto al prompt per attivare la modalità corretta — un dettaglio che impatta significativamente le performance e viene spesso omesso causando risultati scadenti.

→ pretraining autoregressive sft fine-tuning decoder-only

PPO /pee-pee-oh/

Intermedio Proximal Policy Optimization · Ottimizzazione di policy prossimale 2

Algoritmo di reinforcement learning che aggiorna il modello in piccoli passi, evitando di allontanarsi troppo dalla versione precedente.

In pratica È stato il motore di RLHF nei primi ChatGPT: massimizza il reward umano senza far divergere il modello. Notoriamente difficile da stabilizzare e con molti iperparametri. Per questo motivo molti team open source preferiscono DPO, che ottiene risultati simili con meno fatica.

→ rlhf dpo alignment loss-function

Pretraining

Base Pre-training · Pre-addestramento 6

Fase iniziale di addestramento in cui un modello impara la struttura del linguaggio prevedendo il prossimo token su enormi quantità di testo generico.

In pratica È la parte più costosa (mesi di GPU e milioni di dollari) e produce un modello "base" che sa scrivere ma non sa ancora seguire istruzioni. Solo i grandi laboratori la fanno da zero; le aziende ripartono da modelli pre-addestrati e li adattano con SFT, LoRA o RLHF.

→ foundation-model sft loss-function gradient-descent checkpoint

QLoRA /kew-lor-ah/

Intermedio Quantized LoRA 1

Variante di LoRA che mantiene il modello base in formato quantizzato a 4 bit durante il fine-tuning, riducendo drasticamente la memoria GPU richiesta.

In pratica Permette di adattare modelli da 13B-70B parametri su una singola GPU consumer (es. RTX 4090 o A100 da 24-40 GB). È la tecnica preferita per fine-tuning amatoriale o aziendale a basso budget. La perdita di qualità rispetto a un fine-tuning full-precision è quasi trascurabile.

→ lora quantization fine-tuning sft

Reward Shaping

Avanzato Reward Function Design · Reward Engineering

Il design dei segnali di reward che guidano l'apprendimento per rinforzo senza sovradattarsi a misure proxy. Reward mal progettati portano al reward hacking: l'agente ottimizza la metrica invece di risolvere il task reale. I modelli LLM ora automatizzano il reward design (Eureka/NVIDIA): GPT-4 scrive funzioni reward in Python, le esegue in simulazione e itera in base alle prestazioni dell'agente. È critico per robotica, game AI e RLHF con feedback umano.

In pratica Un ricercatore che addestra un robot a camminare deve bilanciare reward per velocità, stabilità e consumo energetico — troppa enfasi sulla velocità produce andature bizzarre o 'reward hacking'. Con Eureka, si descrive il task in linguaggio naturale e un LLM genera automaticamente la funzione reward, eseguendola in simulazione Isaac Gym e rifinanando i pesi sulla base delle metriche di performance. Lo stesso principio vale per RLHF: la reward function del modello linguistico deve catturare 'utilità reale', non solo 'sembra convincente'.

→ rlhf rlaif ppo alignment

RLAIF /ar-el-ay-eye-ef/

Intermedio Reinforcement Learning from AI Feedback 1

Variante del RLHF in cui a giudicare le risposte non è un umano ma un altro modello AI, riducendo costi e tempi rispetto all'annotazione manuale.

In pratica Permette di scalare il training di allineamento su volumi molto più grandi. Anthropic lo usa per Claude in combinazione con la Constitutional AI. Il rischio è amplificare i bias del modello giudice, quindi serve comunque una supervisione umana.

→ rlhf constitutional-ai alignment

RLHF /ar-el-aitch-ef/

Intermedio Reinforcement Learning from Human Feedback 5

Tecnica di addestramento in cui umani valutano e classificano le risposte del modello, e queste preferenze vengono usate per guidare l'apprendimento verso risposte più utili e sicure.

In pratica È il passaggio che ha reso ChatGPT utile rispetto a un modello solo predittivo. Per chi usa LLM via API il RLHF è già stato fatto dal fornitore. Conoscerlo aiuta a capire perché modelli più 'allineati' a volte rifiutano richieste lecite.

→ rlaif constitutional-ai alignment

SFT /es-ef-tee/

Intermedio Supervised Fine-Tuning · Fine-tuning supervisionato

Fine-tuning in cui il modello impara da coppie input-output scritte da umani, ad esempio domande con risposte ideali.

In pratica È il primo passo per trasformare un modello base in un assistente che segue istruzioni. Bastano migliaia di esempi di buona qualità per ottenere grossi miglioramenti su un dominio. In azienda è quasi sempre la prima opzione prima di passare a RLHF o DPO.

→ fine-tuning pretraining rlhf dpo lora

Inferenza

ARC-AGI /ark-ay-jee-eye/

Intermedio Abstraction and Reasoning Corpus 2

Benchmark di puzzle visivi a griglia creato da François Chollet per misurare il ragionamento astratto su pattern mai visti prima, non risolvibili con memorizzazione.

In pratica Pensato per essere facile per gli umani (oltre 80%) ma difficile per gli LLM. Nel 2024 o3 di OpenAI ha raggiunto risultati storici, riaprendo il dibattito su cosa significhi davvero AGI. Esiste un premio da un milione di dollari.

→ reasoning-model frontier-model gpqa

Beam Search

Intermedio Ricerca a fascio

Algoritmo di decodifica che mantiene contemporaneamente le N sequenze più probabili e alla fine sceglie quella con punteggio complessivo migliore.

In pratica Dà risultati più "sicuri" della scelta greedy, ma tende a essere ripetitivo e poco naturale nei testi lunghi. Era standard nella traduzione automatica; negli LLM conversazionali moderni è quasi sostituito da top-p sampling. Resta utile in task strutturati come traduzione e summarization.

→ greedy-decoding top-p-sampling logits

Chain-of-thought

Base CoT · Catena di ragionamento 7

Tecnica in cui si chiede al modello di esplicitare i passaggi intermedi del ragionamento prima di dare la risposta finale, migliorando l'accuratezza su compiti complessi.

In pratica Aggiungere 'pensa passo per passo' al prompt funziona davvero su matematica, logica e analisi. I modelli reasoning (o1, Claude con thinking) lo fanno in automatico. Costa più token, quindi conviene usarla solo dove serve.

→ reasoning-model few-shot-learning

Context window

Base Finestra di contesto · Context length 1

Numero massimo di token che il modello può leggere e tenere in memoria in una singola chiamata, sommando prompt e risposta.

In pratica Se hai un contratto di 200 pagine e una finestra da 200k token spesso ci sta dentro tutto. Se no devi spezzettare il testo o usare RAG. Più contesto pesa di più sul costo e sulla latenza della risposta.

→ token attention rag

Continuous Batching

Avanzato Batching continuo · In-flight batching 2

Strategia di servizio in cui nuove richieste si uniscono al batch in corso a ogni passo di generazione, invece di aspettare che le precedenti finiscano.

In pratica Aumenta in modo netto il throughput di una GPU che serve API, perché non lascia mai i core inattivi. È implementato in vLLM, TensorRT-LLM e TGI. Per chi sceglie il modello di pricing pay-per-token, è uno degli ingredienti chiave per restare competitivo sui costi.

→ paged-attention kv-cache inference-compute

Few-shot learning

Base Apprendimento con pochi esempi 3

Tecnica di prompting in cui si mostrano al modello pochi esempi di input e output desiderati, così impara al volo il formato senza bisogno di addestramento.

In pratica Utile per imporre uno schema, un tono o una categorizzazione precisa. Spesso bastano 3-5 esempi. È quasi sempre il primo tentativo da fare prima di pensare a fine-tuning: costa solo qualche token in più nel prompt.

→ zero-shot-learning chain-of-thought

FlashAttention

Avanzato Flash Attention 4

Algoritmo che riorganizza il calcolo dell'attenzione per minimizzare gli spostamenti di dati tra memoria veloce e memoria lenta della GPU.

In pratica Non cambia il risultato matematico, ma rende l'attenzione molto più rapida e meno affamata di memoria. È integrato di serie in PyTorch e nei principali server di inferenza (vLLM, TGI). Per chi usa API non è visibile; per chi self-hosta è quasi obbligatorio attivarlo.

→ attention transformer kv-cache inference-compute

GPQA /jee-pee-kew-ay/

Intermedio Graduate-Level Google-Proof Q&A

Benchmark di 448 domande scritte da dottorandi in biologia, fisica e chimica, pensate per essere difficili anche con accesso a Google.

In pratica Sostituisce MMLU come misura di conoscenza scientifica profonda. Gli umani esperti del dominio fanno circa 65%, i modelli di frontiera nel 2025 superano il 70%. Resta uno dei benchmark non ancora saturati.

→ mmlu reasoning-model frontier-model

Greedy Decoding

Intermedio Decodifica greedy

Strategia di generazione che a ogni passo sceglie sempre il token più probabile, senza esplorare alternative.

In pratica Equivalente a temperatura 0. È deterministico e veloce, ideale per task dove serve riproducibilità (estrazione dati, classificazione, codice). Lo svantaggio è che può incastrarsi in ripetizioni e dà risposte piatte sui task creativi. È il punto di partenza per il debugging dei prompt.

→ beam-search temperature top-p-sampling logits

HELM /helm/

Intermedio Holistic Evaluation of Language Models

Framework di valutazione olistico sviluppato da Stanford CRFM che misura un LLM su decine di benchmark coprendo accuratezza, robustezza, bias, calibrazione ed efficienza.

In pratica Invece di una singola metrica, fornisce una scheda completa: utile per confrontare modelli a 360 gradi e non solo sui leaderboard accademici. Mantiene un sito pubblico con risultati aggiornati di tutti i grandi modelli.

→ mmlu foundation-model

HumanEval /human-eval/

Intermedio 5

Benchmark di OpenAI con 164 problemi di programmazione Python valutati eseguendo i test unitari sul codice generato dal modello.

In pratica È stato lo standard per misurare le capacità di coding degli LLM dal 2021. Anche qui è ormai saturo (oltre 90% pass@1) e la comunità si è spostata su SWE-bench, più realistico perché basato su repository reali.

→ swe-bench mmlu

K-Quants

Intermedio K-Quantization · llama.cpp K-Quants · GGUF K-Quants 1

I K-Quants sono una famiglia di metodi di quantizzazione implementati in llama.cpp (da Q2_K a Q8_K) che applicano bit-width diverse ai layer del modello in base alla loro sensibilità alla perdita di precisione. I layer di attenzione e di embedding, più sensibili, ricevono più bit; i layer feed-forward intermedi, meno critici, ne ricevono meno. Questa quantizzazione non uniforme produce una qualità superiore rispetto ai formati Q-flat più vecchi (Q4_0, Q5_1) a parità di dimensione del file. Q4_K_M è diventato il formato di riferimento per l'inferenza locale, ottenendo qualità migliore del vecchio Q5_1 pur essendo più compatto. Sono il formato standard dei modelli GGUF moderni scaricabili da HuggingFace.

In pratica Un utente che vuole eseguire Llama 3 70B su un PC con 48 GB di RAM scarica la variante Q4_K_M dal repository GGUF su HuggingFace (tipicamente caricato da TheBloke o bartowski) e la avvia con `llama.cpp` o un'interfaccia come LM Studio o Ollama. La scelta del livello di quantizzazione segue una regola pratica: Q4_K_M per il miglior equilibrio qualità/dimensione, Q5_K_M se si ha RAM sufficiente e si vuole maggiore fedeltà, Q2_K se lo spazio è molto limitato accettando qualità degradata. I K-Quants sono trasparenti all'utente finale: l'interfaccia carica il file GGUF e gestisce internamente il formato.

→ quantization qlora

KV Cache /kay-vee cache/

Intermedio Key-Value Cache · Cache chiavi-valori 4

Memoria temporanea in GPU che conserva i calcoli di attenzione dei token già visti, così il modello non li ricalcola a ogni nuovo token generato.

In pratica È la ragione per cui generare il decimo token costa meno del primo: la cache evita di ripetere lavoro. Occupa molta VRAM e cresce col contesto, quindi è spesso il vero collo di bottiglia per servire molti utenti in parallelo. Ottimizzarla (paged, quantized) è centrale per ridurre costi di inferenza.

→ attention transformer inference-compute paged-attention

KV Cache Quantization

Avanzato KV Quantization · KV Compression 1

La KV cache quantization è la tecnica di comprimere i tensori chiave-valore (key-value) generati dinamicamente durante l'inferenza, riducendoli da FP16 a FP8 o INT8. A differenza della quantizzazione dei pesi, che opera sui parametri statici del modello, questa agisce sulla cache generata a runtime per ogni richiesta. Riduce l'occupazione di VRAM del 50% o più, consentendo context window più lunghe o un maggior numero di richieste concorrenti per GPU. È supportata da vLLM, Text Generation Inference (TGI) e TensorRT-LLM.

In pratica Un sysadmin che serve un modello da 70B su due GPU A100 80GB e vuole aumentare il batch size concorrente da 8 a 16 richieste abilita KV cache quantization a FP8 in vLLM aggiungendo `--kv-cache-dtype fp8` al comando di avvio. È importante distinguerla dalla quantizzazione dei pesi: i due approcci sono ortogonali e possono essere combinati. In pratica si misurano le degradazioni di qualità su task di lunga distanza (needle-in-haystack, multi-turn) prima di deployare in produzione, poiché la perdita di precisione nella cache è più visibile su contesti lunghi.

→ kv-cache quantization paged-attention prefix-caching

LLM-as-judge /el-el-em as judge/

Intermedio LLM giudice · Model-graded eval

Tecnica in cui si usa un LLM (di solito potente) per valutare le risposte di un altro modello o di sé stesso secondo criteri scritti in linguaggio naturale.

In pratica Velocizza enormemente le valutazioni rispetto a giudizi umani, ma soffre di bias (preferisce risposte lunghe, stile simile al proprio). Va calibrato con un sottoinsieme di giudizi umani come ancora.

→ rlaif constitutional-ai alignment

Logits

Intermedio Logit

Punteggi numerici grezzi che il modello produce per ogni possibile token di vocabolario, prima di essere convertiti in probabilità.

In pratica Sono il "pensiero non normalizzato" del modello: più alto è il logit di un token, più probabile diventa. Alcune API espongono i `logprobs` (i logit dopo softmax e log) per valutare confidenza o costruire classificatori. Lavorare sui logit direttamente serve solo a chi fa fine-tuning o ricerca.

→ softmax temperature top-p-sampling top-k-sampling

Lost in the middle

Intermedio Perso nel mezzo

Fenomeno per cui un LLM ricorda meglio le informazioni all'inizio e alla fine del contesto, mentre quelle in mezzo vengono spesso ignorate o dimenticate.

In pratica Importante per RAG e prompt lunghi: l'ordine dei documenti conta. Le informazioni critiche vanno messe all'inizio o alla fine. È una delle ragioni per cui un context da 1M token non equivale a usarlo davvero tutto.

→ context-window needle-in-haystack rag

MMLU /em-em-el-you/

Intermedio Massive Multitask Language Understanding 1

Benchmark con circa 16.000 domande a scelta multipla su 57 materie, da matematica e diritto a medicina, usato per misurare la conoscenza generale di un LLM.

In pratica È stato per anni il benchmark di riferimento citato negli annunci dei nuovi modelli. Oggi è saturo: i modelli di frontiera superano l'85% e si sta passando a benchmark più difficili come MMLU-Pro e GPQA.

→ gpqa helm foundation-model

Needle in a Haystack

Intermedio NIAH · Ago nel pagliaio

Test in cui si nasconde una frase specifica in mezzo a un lungo testo irrilevante e si chiede al modello di recuperarla, per misurare la qualità reale del context window.

In pratica È diventato il benchmark de facto per i modelli a contesto lungo (100K, 1M token). Un modello può avere un context enorme ma fallire il NIAH oltre una certa profondità, segnale che la finestra è 'finta'.

→ context-window lost-in-the-middle

Paged Attention

Avanzato PagedAttention 4

Tecnica che divide la KV cache in piccoli blocchi gestiti come pagine di memoria virtuale, riducendo lo spreco di VRAM tra richieste diverse.

In pratica È il cuore del motore vLLM e oggi standard nei server di inferenza moderni. Permette di servire molti più utenti con la stessa GPU perché evita di riservare blocchi grandi e quasi vuoti. Per chi sceglie un runtime self-hosted, il supporto a paged attention è un requisito di base.

→ kv-cache attention continuous-batching inference-compute

Prefix Caching

Intermedio Automatic Prefix Caching · APC · Prompt Caching 2

Il prefix caching è una tecnica di inferenza che riutilizza il KV cache già calcolato per prefissi di prompt comuni tra richieste diverse. Anziché ricalcolare le chiavi e i valori di attenzione per le stesse sequenze (es. un system prompt identico), il sistema conserva queste attivazioni in memoria e le recupera direttamente. Riduce drasticamente la latenza per il prefisso condiviso, portandola vicino a zero. È implementato in vLLM come 'Automatic Prefix Caching' e nei servizi cloud di Anthropic e OpenAI come funzionalità fatturata a costo ridotto.

In pratica Un developer che serve un chatbot con un system prompt fisso di 2000 token beneficia immediatamente del prefix caching: solo la prima richiesta calcola quel prefisso, tutte le successive lo leggono dalla cache. In vLLM si attiva con `--enable-prefix-caching`; nella Anthropic API il prefix caching va dichiarato esplicitamente con `cache_control`. Per applicazioni RAG con documenti condivisi, si struttura il prompt mettendo il documento prima delle domande per massimizzare il riutilizzo della cache.

→ kv-cache paged-attention continuous-batching speculative-decoding

Quantization

Intermedio Quantizzazione 11

Tecnica che riduce la precisione numerica dei pesi del modello (per esempio da 16 a 4 bit) per farlo occupare meno memoria e girare più veloce.

In pratica È quello che permette di far girare un Llama 70B su una sola GPU o un modello da 7B su un Mac. Si perde un po' di qualità ma spesso poco. Tool tipici: GGUF, AWQ, GPTQ. Utile per deploy on-prem o edge.

→ inference-compute lora

RAG /rag/

Base Retrieval-Augmented Generation · Generazione aumentata da recupero 21

Tecnica che recupera testo rilevante da una base dati esterna e lo inserisce nel prompt del modello prima della risposta.

In pratica Permette a un LLM di rispondere usando documenti aziendali, knowledge base interne o articoli aggiornati senza addestrarlo. Riduce le hallucination su dati specifici e aggiorna la conoscenza senza re-training. È la prima architettura da considerare per un chatbot aziendale.

→ embedding vector-db context-window hallucination

Self-consistency

Intermedio Auto-consistenza 2

Tecnica in cui si campionano più risposte indipendenti dal modello con temperatura > 0 e si sceglie quella più frequente per maggioranza.

In pratica Spesso migliora l'accuratezza su task di ragionamento matematico: se 5 catene di pensiero su 7 convergono sulla stessa risposta, è probabilmente corretta. Triplica o quintuplica il costo di inferenza.

→ chain-of-thought tree-of-thoughts reasoning-model

Softmax

Intermedio

Funzione matematica che trasforma un insieme di logit in probabilità che sommano a 1, accentuando i valori alti e schiacciando quelli bassi.

In pratica È l'ultimo passaggio prima di scegliere il prossimo token: dice quanto il modello "crede" in ogni opzione. Compare anche dentro l'attenzione per pesare i token del contesto. Per chi usa API è invisibile; per chi studia il modello è una delle funzioni più ricorrenti.

→ logits temperature attention

Speculative Decoding

Avanzato Decoding speculativo 3

Tecnica in cui un modello piccolo e veloce propone più token in anticipo e il modello grande li verifica in un singolo passaggio, accettando quelli corretti.

In pratica Permette di generare risposte 2-3 volte più veloci senza cambiare la qualità finale, perché il modello grande resta il giudice. È usato in produzione da OpenAI, Anthropic e nei runtime self-hosted. Richiede un modello "draft" allineato al modello principale, quindi non è gratis da implementare.

→ inference-compute distillation greedy-decoding logits

Structured output

Base JSON mode · Output strutturato

Modalità in cui il modello è vincolato a produrre output conforme a uno schema (JSON, regex, grammatica) invece di testo libero.

In pratica Indispensabile quando l'output va dato in pasto a un altro sistema: API, database, frontend. Provider come OpenAI e Anthropic offrono enforcement nativo che garantisce JSON valido al primo colpo.

→ function-calling tool-use

SWE-bench /swee-bench/

Intermedio Software Engineering Bench 7

Benchmark con oltre 2.000 issue reali estratte da repository GitHub Python: il modello deve produrre una patch che faccia passare i test del progetto.

In pratica Misura capacità di ingegneria software reale (lettura di codebase, debug, modifiche cross-file), non solo coding isolato. È diventato il riferimento per agenti come Devin, Claude Code, OpenAI Codex.

→ humaneval agent

Temperature

Base Temperatura

Parametro che scala i logit prima del campionamento: valori bassi rendono il modello più deterministico, valori alti più creativo e imprevedibile.

In pratica A 0 il modello sceglie sempre la parola più probabile (di fatto greedy); a 1 mantiene la distribuzione originale; sopra 1.5 tende a delirare. Per task di classificazione o estrazione conviene 0; per scrittura creativa 0.7-1.0. È il parametro più semplice da regolare nelle API.

→ top-p-sampling top-k-sampling logits softmax greedy-decoding

Token

Base Token 6

Unità di base in cui il modello scompone il testo: può essere una parola intera, una sillaba o pochi caratteri, a seconda del tokenizzatore.

In pratica Le API degli LLM si pagano a token in ingresso e in uscita. In inglese 1 token corrisponde circa a 0,75 parole, in italiano un po' meno. Misurare i token del prompt aiuta a stimare costi e a stare dentro il limite di contesto.

→ tokenizer context-window llm

Tokenizer

Base Tokenizzatore 1

Componente che trasforma il testo in token prima di passarlo al modello e ricostruisce il testo dai token in uscita.

In pratica Tokenizzatori diversi producono conteggi diversi: lo stesso testo costa più token con GPT che con Claude o viceversa. Esistono librerie come tiktoken (OpenAI) per stimare token in locale prima di chiamare l'API.

→ token llm

Top-k Sampling /top-kay sampling/

Intermedio Campionamento top-k

Strategia di scelta del prossimo token che considera solo i k candidati più probabili e scarta tutti gli altri prima di estrarre a sorte.

In pratica Con k=1 diventa greedy decoding; con k alto torna quasi alla distribuzione piena. Si usa per evitare che il modello peschi parole assurde dalla coda della distribuzione. Nelle API moderne è spesso sostituito o combinato con top-p, considerato più adattivo.

→ top-p-sampling temperature logits softmax greedy-decoding

Top-p Sampling /top-pee sampling/

Intermedio Nucleus Sampling · Campionamento a nucleo

Strategia che sceglie il prossimo token dal più piccolo gruppo di candidati la cui probabilità cumulata supera una soglia p (es. 0.9).

In pratica Adatta il numero di candidati al contesto: poche opzioni se il modello è sicuro, molte se è incerto. È il parametro più usato nelle API (`top_p` su OpenAI, Anthropic, ecc.) per regolare creatività senza sacrificare coerenza. Di solito si lascia tra 0.8 e 0.95.

→ top-k-sampling temperature logits softmax

Tree of Thoughts

Intermedio ToT 1

Strategia di ragionamento in cui il modello esplora più rami di pensiero in parallelo, li valuta e tiene solo quelli promettenti, come una ricerca ad albero.

In pratica Estende la Chain-of-Thought permettendo backtracking: utile per puzzle, pianificazione e problemi matematici dove un singolo percorso lineare spesso sbaglia. Costa molti più token dell'inferenza standard.

→ chain-of-thought self-consistency reasoning-model

Voice Cloning

Intermedio Zero-Shot Voice Cloning · Speaker Adaptation 9

Il voice cloning è la capacità di generare sintesi vocale nella voce di un parlante target a partire da pochi secondi di audio di riferimento, senza alcun fine-tuning aggiuntivo. Il modello estrae un embedding del parlante dall'audio di riferimento e condiziona la generazione su di esso, replicando timbro, ritmo e caratteristiche prosodiche. La modalità zero-shot significa che nessun addestramento aggiuntivo per speaker è necessario al momento dell'inferenza. Sistemi come ElevenLabs, XTTS v2, CosyVoice e Dia TTS hanno reso questa tecnologia accessibile tramite API o modelli open-weights.

In pratica Uno sviluppatore che vuole clonare una voce con XTTS v2 (open source, disponibile su HuggingFace) fornisce 6-10 secondi di audio di riferimento pulito e il testo da sintetizzare; la libreria Coqui TTS gestisce l'estrazione dell'embedding e la sintesi in pochi secondi. Per produzioni professionali, ElevenLabs API accetta un clip audio e restituisce una voice_id riutilizzabile. È fondamentale verificare il consenso del parlante originale prima di clonarne la voce, in rispetto delle normative vigenti.

→ neural-codec sft fine-tuning

Zero-shot learning

Base Apprendimento senza esempi

Capacità del modello di svolgere un compito mai visto in addestramento basandosi solo sulla descrizione che gli diamo nel prompt, senza esempi.

In pratica È quello che fa la maggior parte di noi quando scrive 'riassumi questo testo in tre punti'. Se i risultati sono incostanti, passare a few-shot con esempi è il rimedio più rapido. Utile per prototipare velocemente nuovi flussi.

→ few-shot-learning foundation-model

Agenti

Agent

Base Agente AI · AI agent 90

Sistema in cui un LLM non solo risponde ma decide quali strumenti chiamare, in che ordine e iterando finché non raggiunge un obiettivo.

In pratica Un agente legge la mail, scrive su un database, manda Slack. La complessità sta nel gestire errori, loop infiniti, costi e sicurezza degli strumenti. Per casi semplici una pipeline lineare è più affidabile di un agente vero.

→ tool-use mcp prompt-injection

Function calling

Base Chiamata di funzione 3

Capacità di un LLM di produrre in output una chiamata strutturata a una funzione descritta nello schema, con nome e argomenti tipizzati pronti da eseguire.

In pratica È il meccanismo standard con cui un'app collega un modello al proprio codice: il modello restituisce JSON, l'app esegue la funzione e rimanda il risultato. Base di praticamente ogni agente di produzione.

→ tool-use structured-output agent mcp

MCP /em-see-pee/

Base Model Context Protocol 7

Protocollo aperto introdotto da Anthropic per collegare in modo standard i modelli AI a strumenti, dati e servizi esterni, come una specie di USB per gli LLM.

In pratica Invece di scrivere integrazioni custom per ogni client (Claude Desktop, IDE, agenti), pubblichi un server MCP e tutti i client compatibili lo usano. Sta diventando lo standard de facto per il tooling degli agenti.

→ agent tool-use

Multi-Agent Orchestration

Intermedio Multi-Agent Systems · Agent Orchestration

Un'architettura in cui più agenti AI specializzati collaborano per completare un obiettivo complesso, ciascuno con ruoli, strumenti e protocolli di comunicazione definiti. Un agente orchestratore decompone il goal e assegna i sotto-task ad agenti worker. A differenza dei loop single-agent, il multi-agent consente parallelismo, specializzazione e isolamento dei guasti. I pattern principali sono: gerarchico (orchestratore→worker), pipeline sequenziale e dibattito/critica tra agenti.

In pratica Uno sviluppatore che costruisce un sistema RAG complesso può usare un orchestratore (AutoGen, CrewAI, Magentic-One) per smistare query verso agenti specializzati — uno per la ricerca web, uno per il database vettoriale, uno per la sintesi finale. Il debug richiede tracing delle comunicazioni inter-agente: strumenti come LangSmith o Phoenix mostrano quale agente ha ricevuto quale input e cosa ha prodotto, rendendo visibili colli di bottiglia e loop infiniti.

→ agent react-pattern tool-use mcp

ReAct /ree-act/

Base Reasoning and Acting · Ragionamento e Azione 2

Pattern in cui un agente alterna passi di ragionamento testuale (Thought) e azioni concrete (Action) verso strumenti, osservando il risultato prima del passo successivo.

In pratica È lo schema base di quasi tutti gli agenti LLM moderni: il modello scrive cosa pensa di fare, chiama un tool, legge la risposta, poi decide il prossimo passo. Rende le decisioni dell'agente ispezionabili e debuggabili.

→ agent tool-use chain-of-thought

Reflexion

Intermedio Self-reflection 1

Tecnica in cui un agente, dopo un tentativo fallito, genera una critica verbale di sé stesso e la rimette in memoria per migliorare il tentativo successivo.

In pratica Utile per task con feedback chiaro (test che falliscono, risposte sbagliate). L'agente impara dai propri errori dentro la stessa sessione, senza fine-tuning. Spesso aumenta il successo su benchmark di coding e ragionamento.

→ react-pattern agent chain-of-thought

Tool use

Base Function calling · Uso di strumenti · Chiamata di funzione 11

Capacità del modello di restituire una richiesta strutturata per eseguire una funzione esterna (cercare sul web, leggere un file, scrivere su un database) e poi riprendere il ragionamento col risultato.

In pratica Tu definisci le funzioni con nome, parametri e descrizione; il modello sceglie quando chiamarle. È il mattone di base di ogni agente. Attenzione a validare gli argomenti: il modello a volte inventa parametri o ne dimentica.

→ agent mcp

Toolformer

Avanzato 1

Modello LLM addestrato da Meta a decidere autonomamente quando e come invocare API esterne come calcolatrice, traduttore o motore di ricerca.

In pratica È uno dei primi lavori a mostrare che un LLM può imparare l'uso degli strumenti in modo self-supervised, senza esempi umani. Oggi il concetto vive nel function calling nativo dei modelli moderni.

→ tool-use function-calling agent

Sicurezza

Adversarial example

Intermedio Esempio avversariale

Input modificato in modo impercettibile per un umano ma costruito per ingannare un modello e fargli produrre un output sbagliato o pericoloso.

In pratica Nato nella visione (qualche pixel cambiato fa scambiare un panda per un gibbone), oggi colpisce anche gli LLM con suffissi di caratteri strani che sbloccano comportamenti vietati. È una vulnerabilità intrinseca alle reti neurali.

→ prompt-injection jailbreak red-teaming

AI Supply Chain Attack

Intermedio Model Poisoning · AI Artifact Attack

Un AI supply chain attack è un attacco che prende di mira la catena di approvvigionamento dello sviluppo AI: pesi di modello condivisi pubblicamente, adapter LoRA, quantizzazioni GGUF o dataset su piattaforme come HuggingFace vengono compromessi con backdoor o comportamenti nascosti. Un modello avvelenato può eseguire azioni malevole quando riceve uno specifico trigger, esfiltrare dati, o generare output dannosi su richiesta dell'attaccante. L'analogia con gli attacchi SolarWinds al software tradizionale è diretta: l'artefatto sembra legittimo ma contiene payload nascosti.

In pratica Uno sviluppatore che scarica modelli da repository pubblici dovrebbe verificare i checksum SHA256 pubblicati ufficialmente e preferire modelli con firma digitale o provenienza verificata. Prima di usare un modello in produzione, è buona pratica eseguire valutazioni di sicurezza automatizzate (es. con strumenti come ModelScan o Protect AI Guardian) che analizzano i pesi alla ricerca di pattern sospetti. Per i team aziendali, mantenere un registro interno degli artefatti approvati e non permettere download diretti da Internet durante il deployment riduce significativamente la superficie d'attacco.

→ backdoor-attack data-poisoning sleeper-agents red-teaming

Alignment

Base Allineamento 8

Insieme di tecniche e ricerca per far sì che un modello AI faccia ciò che gli umani vogliono davvero, non solo ciò che chiediamo letteralmente.

In pratica In pratica vuol dire: il modello non aiuta a fare cose illegali, segue le istruzioni, non inventa, non manipola. Per chi mette in produzione un'AI è anche un tema di brand e responsabilità legale, non solo etico.

→ rlhf constitutional-ai red-teaming

ASL /ay-es-el/

Intermedio AI Safety Level · Livello di sicurezza AI 1

Scala di livelli (ASL-1, ASL-2, ASL-3...) usata da Anthropic per classificare i rischi di un modello AI e definire i controlli di sicurezza richiesti, ispirata ai livelli di biosicurezza.

In pratica Più sale il livello, più tecniche di sicurezza obbligatorie: monitoring, restrizioni di deploy, audit indipendenti. Per chi sceglie un fornitore, conoscere a quale ASL dichiara conformità un modello dà un'idea della maturità della governance.

→ alignment red-teaming frontier-model

Backdoor attack

Avanzato Attacco backdoor · Trojan

Attacco in cui un modello viene addestrato a comportarsi normalmente, tranne quando riconosce un trigger segreto che attiva un comportamento malevolo predefinito.

In pratica Difficilissimo da rilevare con valutazioni standard: il modello sembra allineato finché qualcuno non scrive la parola chiave. Riguarda sia modelli proprietari (insider) sia open-weights ottenuti da fonti non fidate.

→ data-poisoning sleeper-agents red-teaming

Constitutional AI /constitutional ay-eye/

Intermedio AI costituzionale · CAI 4

Approccio sviluppato da Anthropic in cui il modello viene addestrato a seguire un insieme di principi scritti (una 'costituzione') invece che solo preferenze umane caso per caso.

In pratica È il metodo dietro Claude. Vantaggio: i criteri di comportamento sono espliciti e leggibili, non nascosti in milioni di valutazioni. Per chi sceglie un modello aziendale aiuta a capire le scelte di policy del fornitore.

→ rlaif rlhf alignment

Data poisoning

Intermedio Avvelenamento dei dati 2

Attacco in cui un avversario inserisce esempi malevoli nel dataset di addestramento per alterare il comportamento del modello finale.

In pratica Anche pochi documenti corrotti nel web crawl possono creare backdoor o bias persistenti. Particolarmente rischioso per modelli che si addestrano in continuo su contenuti pubblici o per fine-tuning su dataset di terzi non verificati.

→ backdoor-attack fine-tuning red-teaming

Differential privacy

Intermedio DP · Privacy differenziale 6

Tecnica matematica che aggiunge rumore controllato all'addestramento per garantire che la presenza o assenza di un singolo individuo nel dataset non sia rilevabile dall'output del modello.

In pratica Standard de facto per modelli addestrati su dati sanitari, fiscali o di messaggistica. Apple, Google e il censimento USA la usano. Costa accuratezza: più privacy si vuole, più rumore si aggiunge.

→ data-poisoning fine-tuning

Hallucination

Base Allucinazione · Confabulation 4

Risposta del modello che suona plausibile ma è inventata: fatti falsi, citazioni inesistenti, API che non esistono, dati sbagliati presentati con sicurezza.

In pratica È il problema numero uno per chi mette LLM in flussi business. Mitigazioni: RAG con fonti, chiedere citazioni, fare verifica con un secondo modello, validare output strutturati con regole. Mai trattare l'output come oro colato senza controllo.

→ rag alignment

Indirect Prompt Injection

Intermedio Indirect Injection · Environment Injection 1

L'indirect prompt injection è un attacco in cui istruzioni malevole vengono incorporate in contenuti esterni che un agente LLM leggerà: pagine web, documenti, email, risultati di database. A differenza del prompt injection diretto (dove è l'utente a fornire il contenuto malevolo), qui l'attaccante controlla l'ambiente esterno. Quando l'agente recupera ed elabora il contenuto, esegue inconsapevolmente le istruzioni nascoste come se provenissero da una fonte fidata. L'attacco è stato formalizzato per la prima volta da Greshake et al. (2023) e rappresenta una minaccia critica per i sistemi RAG e gli agenti autonomi.

In pratica Un developer che costruisce un agente web deve sanificare ogni testo recuperato dall'esterno prima di inserirlo nel prompt. Tecniche difensive includono: prompt strutturati con delimitatori espliciti che separano dati da istruzioni, sistemi di classificazione che rilevano pattern di injection nei documenti recuperati, e principio del minimo privilegio (l'agente non dovrebbe avere accesso a tool pericolosi se il task non lo richiede). Testare sistematicamente l'agente con documenti deliberatamente avvelenati fa parte del red-teaming standard per applicazioni RAG.

→ prompt-injection rag agent red-teaming sleeper-agents

Jailbreak

Base Aggiramento delle protezioni 8

Tecnica con cui un utente convince il modello a ignorare le proprie regole di sicurezza, per esempio chiedendogli di fingere di essere un personaggio senza restrizioni.

In pratica Diverso da prompt injection: qui è l'utente stesso che ci prova. Per chi offre un servizio LLM al pubblico significa pensare anche al red teaming, registrare conversazioni e usare un classificatore di sicurezza in cascata sulle risposte.

→ prompt-injection alignment red-teaming

Many-Shot Jailbreaking

Intermedio Many-Shot Attack · Long Context Jailbreak

Il many-shot jailbreaking è una tecnica di attacco che sfrutta le finestre di contesto lunghe anteponendo 100-256 o più coppie fittizie di domanda-risposta dannose prima della richiesta malevola effettiva. Gli esempi in-context sovrascrivono l'addestramento alla sicurezza inducendo il modello a seguire il pattern dimostrato piuttosto che le sue guardrail. L'efficacia scala con la lunghezza del contesto: i modelli con finestre più grandi risultano più vulnerabili. L'attacco è stato divulgato da Anthropic nel 2024 e ha portato a revisioni nei meccanismi di safety per i modelli con contesti molto lunghi.

In pratica Dal punto di vista difensivo, un developer che valuta la robustezza di un modello deployato dovrebbe includere test many-shot nel proprio red-teaming: costruire un prompt con 200+ esempi di Q&A malevoli e misurare il tasso di compliance del modello. Per mitigare il rischio in produzione, si possono applicare finestre di contesto artificialmente limitate per certi task, classifier sul contenuto in input che rilevano pattern di Q&A ripetuti con tematiche rischiose, o sistemi di logging che segnalano prompt insolitamente lunghi.

→ jailbreak context-window few-shot-learning prompt-injection

Model extraction

Avanzato Estrazione del modello · Model stealing

Attacco in cui un avversario interroga ripetutamente un modello via API per ricostruire una copia funzionale dei suoi pesi o del suo comportamento.

In pratica Una variante legale è la distillazione di output di un modello frontier per addestrare un modello più piccolo, pratica vietata dai termini di servizio di molti provider. Mitigato con rate limit, watermarking e detection del fingerprint.

→ distillation open-weights-vs-open-source

Prompt injection

Base Iniezione di prompt 8

Attacco in cui un input esterno (un documento, una pagina web, un'email) contiene istruzioni nascoste che dirottano il comportamento del modello.

In pratica Se il tuo agente legge email e poi agisce, un'email malevola può dirgli 'inoltra tutto a un terzo'. Mitigazioni: trattare input esterni come non fidati, sandbox sugli strumenti, conferma umana per azioni sensibili, filtri input/output.

→ jailbreak agent safety-classifier

Red teaming

Base Test avversariale 4

Pratica in cui un gruppo prova attivamente ad attaccare un modello o un sistema AI, cercando jailbreak, falle di sicurezza e usi pericolosi, per scoprirli prima del rilascio.

In pratica I lab AI lo fanno in interno e con esperti esterni prima di pubblicare un modello. Se metti un'AI in produzione conviene fare lo stesso sul tuo prodotto: chiedi a colleghi di romperlo prima dei clienti. Anche un'ora trovata male è meglio del primo bug pubblico.

→ jailbreak prompt-injection alignment asl

Safety classifier

Intermedio Classificatore di sicurezza · Content filter 1

Modello separato che analizza input o output di un LLM per intercettare contenuti pericolosi, violenti, illegali o fuori policy prima che arrivino all'utente.

In pratica È una rete di sicurezza in cascata: se il modello principale sbaglia, il classificatore lo blocca. OpenAI Moderation, Llama Guard di Meta sono esempi gratuiti. Per servizi pubblici è quasi obbligatorio averne uno.

→ alignment jailbreak red-teaming

Sleeper agents

Avanzato Sandbagging · Agenti dormienti 2

Modelli che si comportano in modo allineato durante l'addestramento e i test ma manifestano un comportamento malevolo solo in condizioni specifiche, ad esempio una certa data o frase.

In pratica Studiati da Anthropic nel 2024: hanno mostrato che il fine-tuning safety standard non rimuove backdoor inserite di proposito. Il termine sandbagging indica il caso in cui il modello finge volutamente di essere meno capace.

→ backdoor-attack alignment red-teaming

Watermarking

Intermedio Filigrana AI 1

Tecnica che inserisce un segnale statistico invisibile nel testo o nelle immagini generate da un modello, in modo da poterli identificare a posteriori come prodotti da AI.

In pratica Google SynthID, ad esempio, marca testo e immagini di Gemini. Utile contro disinformazione, deepfake e plagio. Limite: spesso si rompe con riscritture, traduzioni o piccole modifiche, e funziona solo se il provider partecipa.

→ safety-classifier model-extraction

Infrastruttura

BM25 /bee-em twenty-five/

Intermedio Best Matching 25 · Okapi BM25

Algoritmo classico di ricerca testuale basato sulla frequenza delle parole, con correzioni per la lunghezza del documento e la rarità dei termini.

In pratica È il motore dietro Elasticsearch, Lucene e Solr da decenni. Sui termini esatti, sigle e nomi propri batte spesso gli embedding. Per questo le pipeline RAG moderne combinano BM25 e ricerca vettoriale (hybrid search).

→ hybrid-search rag reranker

Chunking

Base Spezzettamento · Segmentazione

Processo di suddivisione di un documento in pezzi più piccoli (chunk) prima di calcolare gli embedding, per renderli adatti al retrieval e al context window.

In pratica La qualità del chunking determina spesso la qualità di un RAG: chunk troppo piccoli perdono contesto, troppo grandi diluiscono la rilevanza. Strategie comuni: dimensione fissa con overlap, ricorsivo per separatori, semantico per cambio di argomento.

→ rag embedding context-window

Cosine similarity

Intermedio Similarità coseno

Misura di similarità tra due vettori basata sul coseno dell'angolo che formano: varia da -1 (opposti) a 1 (identici), indifferente alla loro lunghezza.

In pratica È la metrica più usata per confrontare embedding di testo perché ignora la magnitudine e guarda solo la direzione semantica. Alternative comuni: dot product (più veloce se i vettori sono normalizzati) e distanza euclidea.

→ embedding vector-db hnsw

Cross-encoder vs bi-encoder

Avanzato

Due architetture per misurare similarità testuale: il bi-encoder codifica query e documento separatamente (veloce), il cross-encoder li elabora insieme (lento ma preciso).

In pratica Bi-encoder = embedding precalcolati, usati per la prima ricerca su milioni di documenti. Cross-encoder = score calcolato al volo su pochi candidati, usato come reranker finale. Sono complementari, non alternativi.

→ embedding reranker rag

Disaggregated Inference

Avanzato Prefill-Decode Disaggregation · PD Disaggregation 1

Il disaggregated inference è un'architettura di serving che separa fisicamente la fase di prefill (compute-bound: elabora l'intero prompt in parallelo) dalla fase di decode (memory-bound: genera un token per volta) assegnandole a pool di GPU distinti, collegati tramite trasferimento del KV cache. Questa separazione elimina la 'prefill-decode interference', ovvero la contesa di risorse che si verifica quando entrambe le fasi girano sulle stesse GPU riducendo il throughput complessivo. Proposto pubblicamente dall'architettura Mooncake di Moonshot AI (Kimi), ha prodotto miglioramenti di throughput di 5x o più in produzione. È considerato uno degli avanzamenti più significativi nell'infrastruttura di serving LLM del 2024-2025.

In pratica In un deployment su larga scala, l'ingegnere infrastrutturale configura un cluster di GPU 'prefill-only' (tipicamente ad alto FLOPS/W, come H100 SXM) e un cluster separato 'decode-only' (tipicamente ad alta larghezza di banda di memoria). Una richiesta in arrivo viene instradata al pool prefill, che calcola il KV cache e lo trasferisce via NVLink o InfiniBand al pool decode. Framework open-source come LMDeploy e alcune configurazioni avanzate di vLLM supportano questa modalità. Il costo operativo è superiore a causa della duplicazione hardware, ma il TTFT (time-to-first-token) e il throughput migliorano significativamente.

→ continuous-batching kv-cache speculative-decoding inference-compute

FP8

Avanzato Float8 · 8-bit Floating Point · E4M3 · E5M2 6

FP8 è un formato numerico a virgola mobile a 8 bit disponibile in due varianti: E4M3 (4 bit esponente, 3 mantissa), usato nel forward pass per maggiore precisione, ed E5M2 (5 bit esponente, 2 mantissa), usato per i gradienti per maggiore range dinamico. Riduce l'uso di memoria di circa il 50% rispetto a BF16 con una perdita di qualità inferiore allo 0,5% quando abbinato a una scalatura per-tensor tramite il NVIDIA Transformer Engine. Le GPU H100 e H800 dispongono di Tensor Core nativi per FP8. DeepSeek V3 è stato addestrato interamente in FP8, raggiungendo qualità paragonabile a GPT-4o a una frazione del costo.

In pratica Un team ML che addestra un LLM da 70B su cluster H100 attiva FP8 tramite il Transformer Engine di NVIDIA (integrato in Megatron-LM e NeMo) semplicemente impostando `fp8_format=HYBRID`. In inferenza, framework come vLLM e TensorRT-LLM supportano weight e activation in FP8 per ridurre la VRAM richiesta e aumentare il throughput. Prima di adottarlo in produzione, è buona pratica eseguire una valutazione su benchmark standard (MMLU, HumanEval) per verificare che la degradazione sia entro soglie accettabili.

→ quantization inference-compute flash-attention

HNSW /aitch-en-es-double-you/

Avanzato Hierarchical Navigable Small World

Struttura dati a grafo gerarchico usata per cercare in modo approssimato i vettori più vicini a una query in dataset da milioni o miliardi di embedding.

In pratica È l'algoritmo di indicizzazione di default in Pinecone, Qdrant, Weaviate, pgvector e FAISS. Permette ricerche in pochi millisecondi su scale dove la forza bruta sarebbe inutilizzabile. Si paga in RAM e tempo di build dell'indice.

→ vector-db embedding cosine-similarity

Hybrid search

Avanzato Ricerca ibrida

Strategia di retrieval che combina ricerca keyword (BM25) e ricerca vettoriale (embedding), fondendo i due ranking con tecniche come Reciprocal Rank Fusion.

In pratica Compensa i punti deboli di ciascun metodo: gli embedding sono bravi sulla semantica, BM25 sui termini esatti. Quasi sempre supera entrambi presi singolarmente. È lo stato dell'arte nei sistemi RAG di produzione.

→ bm25 vector-db rag reranker

Inference compute

Base Calcolo in inferenza · Test-time compute 2

Quantità di calcolo che il modello usa al momento della risposta, non durante l'addestramento. Più calcolo in inferenza spesso vuol dire risposte migliori ma più lente e costose.

In pratica I modelli reasoning spostano risorse dal training all'inferenza. Per chi deploya un servizio è la voce di costo più visibile: ogni chiamata costa GPU. Strategie per ridurla: caching, modelli più piccoli, quantizzazione, batch.

→ reasoning-model quantization moe

Pipeline Parallelism

Avanzato PP · Inter-layer Parallelism 31

Il pipeline parallelism è una strategia di distribuzione del training in cui i layer di una rete neurale vengono suddivisi in blocchi contigui, ciascuno assegnato a una GPU distinta. Ogni GPU elabora il proprio blocco di layer e passa le attivazioni alla GPU successiva, formando una pipeline. Differisce dal tensor parallelism, che invece suddivide le singole matrici di peso all'interno di un layer. Combinato con tensor parallelism e data parallelism forma il cosiddetto '3D parallelism', adottato da Megatron-LM per addestrare modelli da centinaia di miliardi di parametri.

In pratica Un ingegnere che addestra un modello troppo grande per una singola GPU — o anche per un singolo nodo multi-GPU — usa pipeline parallelism per distribuire i layer su più nodi. Con DeepSpeed o Megatron-LM si configura il grado di pipeline (numero di stage) e il numero di micro-batch per riempire la pipeline e minimizzare il 'bubble overhead' (tempo in cui le GPU rimangono inattive tra un micro-batch e l'altro). In inferenza, lo stesso approccio permette di servire LLM molto grandi distribuendo i layer su più server.

→ quantization inference-compute

Reranker

Intermedio Riordinatore · Re-ranking

Modello secondario che riordina i risultati di una ricerca iniziale (vettoriale o keyword) classificandoli per rilevanza rispetto alla query.

In pratica Tipicamente si recuperano 50-100 candidati con un metodo veloce, poi si lascia al reranker (es. Cohere Rerank, BGE) ordinare i 5-10 migliori. È uno dei modi più economici per migliorare la qualità di un RAG.

→ rag cross-encoder-vs-bi-encoder hybrid-search

Sim-to-Real Transfer

Avanzato Simulation-to-Real Transfer · Sim2Real

Il processo di addestramento di una policy robotica in simulazione (veloce, economica, sicura) e successivo deployment su hardware reale senza riaddestramento. Il 'reality gap' — differenze in fisica, attrito, rumore dei sensori — causa il fallimento delle policy. La domain randomization (randomizzare i parametri della simulazione) insegna robustezza. LLMs automatizzano questo processo (DrEureka): generano range di randomizzazione così che le policy si trasferiscano zero-shot all'hardware reale.

In pratica Un team di robotica che costruisce un arm per picking industriale addestra migliaia di policy in parallelo su Isaac Sim o MuJoCo, variando casualmente massa degli oggetti, attrito, illuminazione e ritardi dei motori. La policy migliore viene poi deplodata sul robot fisico senza ulteriore training. Con DrEureka, un LLM suggerisce automaticamente i range di randomizzazione partendo dalla descrizione del task, riducendo i giorni di tuning manuale a poche ore di ricerca automatizzata.

→ synthetic-data fine-tuning

Vector database /vector dee-bee/

Base Database vettoriale · Vector store 1

Database specializzato nel salvare embedding e trovare velocemente i vettori più simili a una query, anche tra milioni di record.

In pratica Esempi: Pinecone, Weaviate, Qdrant, pgvector su Postgres. Lo scegli in base a scala, costo e se vuoi gestirlo tu o in cloud. È l'infrastruttura chiave di un sistema RAG che cerca dentro la knowledge base aziendale.

→ embedding rag

Dati

BPE /bee-pee-ee/

Intermedio Byte Pair Encoding · Codifica a coppie di byte

Algoritmo di tokenizzazione che parte dai singoli caratteri e fonde via via le coppie più frequenti, fino a creare un vocabolario di sotto-parole.

In pratica È usato da GPT, Llama, Mistral e quasi tutti gli LLM occidentali. Spiega perché "playing" diventa magari `play` + `ing`: pezzi comuni hanno un solo token, parole rare ne usano molti. Influisce direttamente sul costo per token e sulla qualità su lingue non inglesi.

→ tokenizer token subword-tokenization wordpiece-sentencepiece

Embedding

Base Vettori semantici 2

Rappresentazione numerica di un testo come vettore di centinaia di numeri, in cui frasi con significato simile producono vettori vicini tra loro.

In pratica Si calcolano una volta con un modello di embedding e si salvano in un database vettoriale. Servono per ricerca semantica, deduplica documenti, clustering e per il passo di recupero in un sistema RAG.

→ vector-db rag token

Subword Tokenization

Intermedio Tokenizzazione a sotto-parole

Famiglia di tecniche che spezza il testo in pezzi più piccoli di una parola intera ma più grandi di un singolo carattere.

In pratica È un compromesso tra vocabolari giganti (una parola = un token) e vocabolari minuscoli (un carattere = un token). Permette di gestire parole nuove, errori di battitura e lingue diverse senza esplodere in dimensione. Tutti gli LLM moderni usano una qualche forma di subword tokenization.

→ tokenizer token bpe wordpiece-sentencepiece

Synthetic Data

Base Dati sintetici 6

Dati di addestramento generati da un altro modello AI invece che raccolti da umani.

In pratica È ormai uno dei pilastri dell'addestramento moderno: i modelli più grandi producono esempi per addestrare quelli più piccoli (distillazione) o per coprire casi rari. Va però filtrato bene, perché errori del generatore si amplificano nel modello finale. Nvidia, Meta e Anthropic ne fanno uso massiccio.

→ pretraining sft distillation fine-tuning

WordPiece / SentencePiece

Intermedio WordPiece · SentencePiece

Due algoritmi di tokenizzazione a sotto-parole alternativi a BPE: WordPiece è quello di BERT, SentencePiece è quello di T5 e Gemini.

In pratica WordPiece sceglie le fusioni in base a probabilità invece che a frequenza pura. SentencePiece lavora direttamente sulla stringa grezza senza dare per scontati gli spazi, quindi gestisce meglio cinese, giapponese e lingue senza separatori. Cambiare tokenizzatore richiede ri-addestrare il modello.

→ tokenizer bpe subword-tokenization token