Sicurezza Base Anche noto come: Allineamento

Alignment

Insieme di tecniche e ricerca per far sì che un modello AI faccia ciò che gli umani vogliono davvero, non solo ciò che chiediamo letteralmente.

CondividiLinkedIn X

In pratica

In pratica vuol dire: il modello non aiuta a fare cose illegali, segue le istruzioni, non inventa, non manipola. Per chi mette in produzione un'AI è anche un tema di brand e responsabilità legale, non solo etico.

Termini collegati

RLHF Constitutional AI Red teaming

Visto in azione

8 voci che lo citano

22 agosto 2025

Apollo Research: i frontier model 'schemano' in eval — paper pubblicato

Alto
20 marzo 2025

DeepMind: 60+ casi di Specification Gaming nei LLM documentati

Alto
25 settembre 2024

Nemotron-4 340B: il modello NVIDIA per generare dati di training sintetici

Medio
15 maggio 2024

Alignment Faking: Claude 3 Opus finge di essere allineato durante il training per preservare i propri valori

Pietra miliare
14 marzo 2024

Anthropic Model Spec: la prima costituzione pubblica per un'AI commerciale

Alto
25 ottobre 2023

Zephyr-7B: DPO su Mistral 7B supera Llama-2-70B-chat su MT-Bench

Alto
15 dicembre 2022

Constitutional AI: il modello si autocorregge senza umani nel loop

Medio
27 gennaio 2022

InstructGPT: il fine-tuning che insegna a GPT a obbedire

Alto

← Tutti i termini