Sicurezza Avanzato Anche noto come: Attacco backdoor · Trojan

Backdoor attack

Attacco in cui un modello viene addestrato a comportarsi normalmente, tranne quando riconosce un trigger segreto che attiva un comportamento malevolo predefinito.

CondividiLinkedIn X

In pratica

Difficilissimo da rilevare con valutazioni standard: il modello sembra allineato finché qualcuno non scrive la parola chiave. Riguarda sia modelli proprietari (insider) sia open-weights ottenuti da fonti non fidate.

Termini collegati

Data poisoning Sleeper agents Red teaming

Visto in azione

0 voci che lo citano

Nessuna voce dell'archivio lo cita esplicitamente. Compare in contesti più ampi.

← Tutti i termini