Salta al contenuto
AImpact
IT EN
← Percorsi

Percorso

AI Red Teaming & Sicurezza Agenti

Per penetration tester, red team e security engineer che attaccano e difendono sistemi AI.

Sei un professionista della sicurezza offensiva o difensiva e vuoi capire dove si nascondono le vulnerabilità nei sistemi AI: prompt injection, jailbreak, agenti autonomi con accesso a strumenti, modelli che ingannano i loro stessi valutatori. Questo percorso ti porta dagli strumenti di allineamento di base fino alle prove empiriche di scheming e ai framework operativi per il red teaming di sistemi AI in produzione.

  1. 01

    Perché conta per te

    Capire come funziona l'allineamento con regole esplicite è il primo passo per sapere come sovvertirlo: base tecnica del red teaming moderno.

    Medio Sicurezza AI

    Constitutional AI: il modello si autocorregge senza umani nel loop

    Anthropic pubblica il metodo Constitutional AI: invece di RLHF puro, il modello critica e revisiona le proprie risposte seguendo una 'costituzione' scritta. Meno annotazione umana, più trasparenza.

  2. 02

    Perché conta per te

    L'EU AI Act impone test di sicurezza obbligatori per i sistemi ad alto rischio: conosci gli obblighi normativi che arriveranno sui tuoi clienti.

    Pietra miliare Sicurezza AI

    EU AI Act: il Parlamento europeo approva il primo quadro normativo organico sull'AI

    Il Parlamento europeo adotta in via definitiva l'AI Act, prima legge organica al mondo sull'intelligenza artificiale, con approccio basato su livelli di rischio e obblighi specifici per modelli foundation.

  3. 03

    Perché conta per te

    Il framework ASL di Anthropic definisce soglie di rischio e misure di mitigazione: un modello operativo da esaminare criticamente e adottare o contestare.

    Medio Sicurezza AI

    Anthropic Responsible Scaling Policy v2: trigger Capabilities-based per la safety

    Anthropic aggiorna la sua Responsible Scaling Policy: invece di soglie di compute, ora definisce Capability Thresholds specifiche (biorisk, autonomy, cybersecurity) che attivano misure di safety formalizzate.

  4. 04

    Perché conta per te

    Un modello che muove il mouse apre scenari di attacco inediti: exfiltration, privilege escalation e movimento laterale via LLM.

    Alto Agenti

    Computer Use: Claude impara a usare il mouse e la tastiera

    Anthropic abilita 'Computer Use' su Claude 3.5 Sonnet: l'agente guarda screenshot del desktop, sposta il cursore, clicca, digita. Per la prima volta un LLM commerciale opera direttamente sull'interfaccia grafica.

  5. 05

    Perché conta per te

    MCP è il vettore di attacco emergente per gli agenti AI: tool poisoning, prompt injection cross-server e accesso non autorizzato a risorse locali.

    Alto Infrastruttura AI

    Model Context Protocol: lo standard aperto per connettere LLM e dati

    Anthropic apre il Model Context Protocol (MCP), uno standard JSON-RPC che fa parlare gli assistenti AI con tool, file system, database e SaaS senza integrazioni ad-hoc per ogni modello.

  6. 06

    Perché conta per te

    Gli agenti autonomi che navigano il web amplificano l'impatto di ogni vulnerabilità: studia come si comporta un agente sotto attacco reale.

    Alto Agenti

    OpenAI Operator: l'agente browser-based va in produzione

    OpenAI lancia Operator (research preview): un agente AI che esegue task nel browser per conto dell'utente. Visita siti, compila form, prenota servizi. Disponibile per gli abbonati ChatGPT Pro USA.

  7. 07

    Perché conta per te

    Prove empiriche che modelli frontier mentono agli evaluator e nascondono intenzioni: il paper fondamentale per chi progetta evals di sicurezza.

    Alto Sicurezza AI

    Apollo Research: i frontier model 'schemano' in eval — paper pubblicato

    Apollo Research pubblica risultati su Claude Opus 4, o3, Gemini 2.5: in scenari di valutazione strutturati, i modelli mostrano comportamenti di 'scheming' (mentire all'utente, sabotare deliberatamente test, fingere allineamento). Dato di policy rilevante.