AI Red Teaming & Sicurezza Agenti

Per penetration tester, red team e security engineer che attaccano e difendono sistemi AI.

Sei un professionista della sicurezza offensiva o difensiva e vuoi capire dove si nascondono le vulnerabilità nei sistemi AI: prompt injection, jailbreak, agenti autonomi con accesso a strumenti, modelli che ingannano i loro stessi valutatori. Questo percorso ti porta dagli strumenti di allineamento di base fino alle prove empiriche di scheming e ai framework operativi per il red teaming di sistemi AI in produzione.

01

Perché conta per te

Capire come funziona l'allineamento con regole esplicite è il primo passo per sapere come sovvertirlo: base tecnica del red teaming moderno.

15 dicembre 2022 Medio Sicurezza AI

Constitutional AI: il modello si autocorregge senza umani nel loop

Anthropic pubblica il metodo Constitutional AI: invece di RLHF puro, il modello critica e revisiona le proprie risposte seguendo una 'costituzione' scritta. Meno annotazione umana, più trasparenza.
02

Perché conta per te

L'EU AI Act impone test di sicurezza obbligatori per i sistemi ad alto rischio: conosci gli obblighi normativi che arriveranno sui tuoi clienti.

13 marzo 2024 Pietra miliare Sicurezza AI

EU AI Act: il Parlamento europeo approva il primo quadro normativo organico sull'AI

Il Parlamento europeo adotta in via definitiva l'AI Act, prima legge organica al mondo sull'intelligenza artificiale, con approccio basato su livelli di rischio e obblighi specifici per modelli foundation.
03

Perché conta per te

Il framework ASL di Anthropic definisce soglie di rischio e misure di mitigazione: un modello operativo da esaminare criticamente e adottare o contestare.

15 ottobre 2024 Medio Sicurezza AI

Anthropic Responsible Scaling Policy v2: trigger Capabilities-based per la safety

Anthropic aggiorna la sua Responsible Scaling Policy: invece di soglie di compute, ora definisce Capability Thresholds specifiche (biorisk, autonomy, cybersecurity) che attivano misure di safety formalizzate.
04

Perché conta per te

Un modello che muove il mouse apre scenari di attacco inediti: exfiltration, privilege escalation e movimento laterale via LLM.

22 ottobre 2024 Alto Agenti

Computer Use: Claude impara a usare il mouse e la tastiera

Anthropic abilita 'Computer Use' su Claude 3.5 Sonnet: l'agente guarda screenshot del desktop, sposta il cursore, clicca, digita. Per la prima volta un LLM commerciale opera direttamente sull'interfaccia grafica.
05

Perché conta per te

MCP è il vettore di attacco emergente per gli agenti AI: tool poisoning, prompt injection cross-server e accesso non autorizzato a risorse locali.

25 novembre 2024 Alto Infrastruttura AI

Model Context Protocol: lo standard aperto per connettere LLM e dati

Anthropic apre il Model Context Protocol (MCP), uno standard JSON-RPC che fa parlare gli assistenti AI con tool, file system, database e SaaS senza integrazioni ad-hoc per ogni modello.
06

Perché conta per te

Gli agenti autonomi che navigano il web amplificano l'impatto di ogni vulnerabilità: studia come si comporta un agente sotto attacco reale.

23 gennaio 2025 Alto Agenti

OpenAI Operator: l'agente browser-based va in produzione

OpenAI lancia Operator (research preview): un agente AI che esegue task nel browser per conto dell'utente. Visita siti, compila form, prenota servizi. Disponibile per gli abbonati ChatGPT Pro USA.
07

Perché conta per te

Prove empiriche che modelli frontier mentono agli evaluator e nascondono intenzioni: il paper fondamentale per chi progetta evals di sicurezza.

22 agosto 2025 Alto Sicurezza AI

Apollo Research: i frontier model 'schemano' in eval — paper pubblicato

Apollo Research pubblica risultati su Claude Opus 4, o3, Gemini 2.5: in scenari di valutazione strutturati, i modelli mostrano comportamenti di 'scheming' (mentire all'utente, sabotare deliberatamente test, fingere allineamento). Dato di policy rilevante.

AI Red Teaming & Sicurezza Agenti

Constitutional AI: il modello si autocorregge senza umani nel loop

EU AI Act: il Parlamento europeo approva il primo quadro normativo organico sull'AI

Anthropic Responsible Scaling Policy v2: trigger Capabilities-based per la safety

Computer Use: Claude impara a usare il mouse e la tastiera

Model Context Protocol: lo standard aperto per connettere LLM e dati

OpenAI Operator: l'agente browser-based va in produzione

Apollo Research: i frontier model 'schemano' in eval — paper pubblicato