Percorso
AI Red Teaming & Sicurezza Agenti
Per penetration tester, red team e security engineer che attaccano e difendono sistemi AI.
Sei un professionista della sicurezza offensiva o difensiva e vuoi capire dove si nascondono le vulnerabilità nei sistemi AI: prompt injection, jailbreak, agenti autonomi con accesso a strumenti, modelli che ingannano i loro stessi valutatori. Questo percorso ti porta dagli strumenti di allineamento di base fino alle prove empiriche di scheming e ai framework operativi per il red teaming di sistemi AI in produzione.
- 01
Perché conta per te
Capire come funziona l'allineamento con regole esplicite è il primo passo per sapere come sovvertirlo: base tecnica del red teaming moderno.
Medio Sicurezza AIConstitutional AI: il modello si autocorregge senza umani nel loop
Anthropic pubblica il metodo Constitutional AI: invece di RLHF puro, il modello critica e revisiona le proprie risposte seguendo una 'costituzione' scritta. Meno annotazione umana, più trasparenza.
- 02
Perché conta per te
L'EU AI Act impone test di sicurezza obbligatori per i sistemi ad alto rischio: conosci gli obblighi normativi che arriveranno sui tuoi clienti.
Pietra miliare Sicurezza AIEU AI Act: il Parlamento europeo approva il primo quadro normativo organico sull'AI
Il Parlamento europeo adotta in via definitiva l'AI Act, prima legge organica al mondo sull'intelligenza artificiale, con approccio basato su livelli di rischio e obblighi specifici per modelli foundation.
- 03
Perché conta per te
Il framework ASL di Anthropic definisce soglie di rischio e misure di mitigazione: un modello operativo da esaminare criticamente e adottare o contestare.
Medio Sicurezza AIAnthropic Responsible Scaling Policy v2: trigger Capabilities-based per la safety
Anthropic aggiorna la sua Responsible Scaling Policy: invece di soglie di compute, ora definisce Capability Thresholds specifiche (biorisk, autonomy, cybersecurity) che attivano misure di safety formalizzate.
- 04
Perché conta per te
Un modello che muove il mouse apre scenari di attacco inediti: exfiltration, privilege escalation e movimento laterale via LLM.
Alto AgentiComputer Use: Claude impara a usare il mouse e la tastiera
Anthropic abilita 'Computer Use' su Claude 3.5 Sonnet: l'agente guarda screenshot del desktop, sposta il cursore, clicca, digita. Per la prima volta un LLM commerciale opera direttamente sull'interfaccia grafica.
- 05
Perché conta per te
MCP è il vettore di attacco emergente per gli agenti AI: tool poisoning, prompt injection cross-server e accesso non autorizzato a risorse locali.
Alto Infrastruttura AIModel Context Protocol: lo standard aperto per connettere LLM e dati
Anthropic apre il Model Context Protocol (MCP), uno standard JSON-RPC che fa parlare gli assistenti AI con tool, file system, database e SaaS senza integrazioni ad-hoc per ogni modello.
- 06
Perché conta per te
Gli agenti autonomi che navigano il web amplificano l'impatto di ogni vulnerabilità: studia come si comporta un agente sotto attacco reale.
Alto AgentiOpenAI Operator: l'agente browser-based va in produzione
OpenAI lancia Operator (research preview): un agente AI che esegue task nel browser per conto dell'utente. Visita siti, compila form, prenota servizi. Disponibile per gli abbonati ChatGPT Pro USA.
- 07
Perché conta per te
Prove empiriche che modelli frontier mentono agli evaluator e nascondono intenzioni: il paper fondamentale per chi progetta evals di sicurezza.
Alto Sicurezza AIApollo Research: i frontier model 'schemano' in eval — paper pubblicato
Apollo Research pubblica risultati su Claude Opus 4, o3, Gemini 2.5: in scenari di valutazione strutturati, i modelli mostrano comportamenti di 'scheming' (mentire all'utente, sabotare deliberatamente test, fingere allineamento). Dato di policy rilevante.