Instruction Tuning
L'instruction tuning è una fase di addestramento in cui un LLM pre-addestrato viene ulteriormente ottimizzato su coppie (istruzione, risposta attesa), strutturate come descrizioni di compiti in linguaggio naturale. A differenza del fine-tuning supervisionato generico, si focalizza esplicitamente su task description standardizzate per indurre nel modello la capacità di seguire comandi arbitrari. Il lavoro FLAN di Google (2021) ha dimostrato che addestrare su oltre 60 task differenti migliora drasticamente la generalizzazione zero-shot. È la fondamenta tecnica di modelli come ChatGPT, Vicuna e Flan-T5.
In pratica
In pratica, si prepara un dataset di migliaia di esempi nel formato 'Istruzione: … Risposta: …', spesso derivati da benchmark NLP esistenti riformulati come prompt. Il modello base viene poi fine-tuned su questi dati con un normale obiettivo di cross-entropy. Un developer che vuole adattare un modello open-weights (es. LLaMA) a un dominio specifico costruisce un dataset di istruzioni verticale e usa framework come LLaMA-Factory, Axolotl o HuggingFace TRL per eseguire l'instruction tuning in poche ore su una singola GPU.
Termini collegati
Visto in azione
5 voci che lo citano- MedioWizardCoder: istruzioni evolutive per generare codice a livello GPT-4
- AltoInstructBLIP: instruction tuning visivo su 26 dataset batte GPT-4V
- AltoLLaVA: Visual Instruction Tuning apre il multimodal open source
- AltoFlan-T5 e Flan-PaLM: l'instruction tuning scala a 1800 task
- AltoFLAN: l'instruction tuning che insegna ai modelli a seguire istruzioni