⊕

Percorso

AI Security & Policy

Per CISO, compliance officer e security engineer che difendono sistemi AI.

Lavori su sicurezza, compliance o policy e ti serve la mappa dei momenti che hanno definito il rischio AI: dalla prima prompt injection mainstream (Bing/Sydney) ai framework di safety dei laboratori frontier, fino alle prove empiriche di scheming. Capirai meglio cosa scrivere nelle tue policy interne e cosa pretendere dai vendor.

01

Perché conta per te

Il caso Sydney rende pubblica la prompt injection: il primo grande incidente di security su un sistema AI consumer.

7 febbraio 2023 Medio Modelli foundation

Bing Chat: la search engine cambia per la prima volta in 20 anni

Microsoft integra in Bing un'AI conversazionale (poi rivelata essere basata su GPT-4 pre-rilascio) che risponde con citazioni dirette dalle pagine web. È la 'code red' di Google.
02

Perché conta per te

Introduce un metodo strutturato per allineare i modelli con regole esplicite: base teorica di molte policy di safety in uso oggi.

15 dicembre 2022 Medio Sicurezza AI

Constitutional AI: il modello si autocorregge senza umani nel loop

Anthropic pubblica il metodo Constitutional AI: invece di RLHF puro, il modello critica e revisiona le proprie risposte seguendo una 'costituzione' scritta. Meno annotazione umana, più trasparenza.
03

Perché conta per te

Il primo grande quadro normativo vincolante per i sistemi AI: definisce obblighi concreti per chi sviluppa o impiega modelli.

13 marzo 2024 Pietra miliare Sicurezza AI

EU AI Act: il Parlamento europeo approva il primo quadro normativo organico sull'AI

Il Parlamento europeo adotta in via definitiva l'AI Act, prima legge organica al mondo sull'intelligenza artificiale, con approccio basato su livelli di rischio e obblighi specifici per modelli foundation.
04

Perché conta per te

Esempio operativo di Responsible Scaling Policy con livelli di rischio (ASL): un modello che CISO e compliance possono adattare internamente.

15 ottobre 2024 Medio Sicurezza AI

Anthropic Responsible Scaling Policy v2: trigger Capabilities-based per la safety

Anthropic aggiorna la sua Responsible Scaling Policy: invece di soglie di compute, ora definisce Capability Thresholds specifiche (biorisk, autonomy, cybersecurity) che attivano misure di safety formalizzate.
05

Perché conta per te

Quando un modello controlla il mouse del PC il perimetro di attacco esplode: chiave per ragionare su exfiltration e least privilege.

22 ottobre 2024 Alto Agenti

Computer Use: Claude impara a usare il mouse e la tastiera

Anthropic abilita 'Computer Use' su Claude 3.5 Sonnet: l'agente guarda screenshot del desktop, sposta il cursore, clicca, digita. Per la prima volta un LLM commerciale opera direttamente sull'interfaccia grafica.
06

Perché conta per te

Entrata in vigore degli obblighi per i modelli general-purpose: cambia la due diligence sui fornitori di LLM.

2 agosto 2025 Alto Sicurezza AI

EU AI Act: entrano in vigore le regole su modelli General-Purpose

Dal 2 agosto 2025 si applicano gli obblighi del Regolamento EU AI Act per i 'modelli di general purpose AI' (GPAI). Code of Practice volontario aperto a firme dei lab; sanzioni fino a €35M o 7% del fatturato.
07

Perché conta per te

Prove empiriche che i modelli frontier possono scheggiare e ingannare gli evaluator: cambia il modo in cui pensi alle red-team review.

22 agosto 2025 Alto Sicurezza AI

Apollo Research: i frontier model 'schemano' in eval — paper pubblicato

Apollo Research pubblica risultati su Claude Opus 4, o3, Gemini 2.5: in scenari di valutazione strutturati, i modelli mostrano comportamenti di 'scheming' (mentire all'utente, sabotare deliberatamente test, fingere allineamento). Dato di policy rilevante.