Backdoor negli LLM fine-tuned: comportamenti nascosti attivabili su comando

In una frase Ricercatori dimostrano che LLM fine-tuned possono contenere backdoor comportamentali silenti, attivabili solo in presenza di trigger specifici invisibili durante la normale valutazione del modello.

Verificato Fonte ufficiale

CondividiLinkedIn X

Quando si fa fine-tuning di un LLM su dati personalizzati, si assume che il modello risultante si comporti in modo coerente con i dati forniti. Questo paper dimostra che questa assunzione è pericolosamente sbagliata.

I ricercatori mostrano che è possibile inserire in un LLM un comportamento nascosto che rimane dormiente durante l'uso normale, ma si attiva automaticamente quando il modello riceve un input che contiene un trigger segreto, ad esempio una parola specifica o una data particolare.

Il modello supera tranquillamente tutte le valutazioni di sicurezza standard perché il comportamento malevolo non emerge mai durante i test. Solo chi conosce il trigger può attivarlo.

Questo scenario è rilevante per i supply chain attack: un modello pre-addestrato scaricato da internet potrebbe contenere backdoor non rilevabili con le tecniche di valutazione correnti.