Addestramento Intermedio Anche noto come: Instruction Fine-Tuning · FLAN-style Tuning

Instruction Tuning

L'instruction tuning è una fase di addestramento in cui un LLM pre-addestrato viene ulteriormente ottimizzato su coppie (istruzione, risposta attesa), strutturate come descrizioni di compiti in linguaggio naturale. A differenza del fine-tuning supervisionato generico, si focalizza esplicitamente su task description standardizzate per indurre nel modello la capacità di seguire comandi arbitrari. Il lavoro FLAN di Google (2021) ha dimostrato che addestrare su oltre 60 task differenti migliora drasticamente la generalizzazione zero-shot. È la fondamenta tecnica di modelli come ChatGPT, Vicuna e Flan-T5.

CondividiLinkedIn X

In pratica

In pratica, si prepara un dataset di migliaia di esempi nel formato 'Istruzione: … Risposta: …', spesso derivati da benchmark NLP esistenti riformulati come prompt. Il modello base viene poi fine-tuned su questi dati con un normale obiettivo di cross-entropy. Un developer che vuole adattare un modello open-weights (es. LLaMA) a un dominio specifico costruisce un dataset di istruzioni verticale e usa framework come LLaMA-Factory, Axolotl o HuggingFace TRL per eseguire l'instruction tuning in poche ore su una singola GPU.

Termini collegati

SFT RLHF Fine-tuning Few-shot learning

Visto in azione

5 voci che lo citano

← Tutti i termini