Salta al contenuto
AImpact
IT EN
Addestramento Avanzato Anche noto come: MoD · Mixed Denoising Objectives

Mixture of Denoisers

Una strategia di pretraining (UL2, Google 2022) che addestra un singolo modello su molteplici obiettivi di denoising simultaneamente: language modeling left-to-right, predizione di span (span masking stile BERT con lunghezze e corruzioni variabili) e prefix language modeling. Unifica i punti di forza del pretraining stile GPT e stile T5. Il modello impara quando usare ciascuna modalità grazie a un token sentinella che ne segnala il tipo.

CondividiLinkedInX

In pratica

Un ricercatore che vuole un modello flessibile sia per completamento che per question answering può usare UL2 o un checkpoint Flan-UL2 senza dover scegliere tra architettura encoder-decoder (T5) e decoder-only (GPT). In pratica, il token sentinella `[S2S]`, `[NLU]`, o `[NLG]` va preposto al prompt per attivare la modalità corretta — un dettaglio che impatta significativamente le performance e viene spesso omesso causando risultati scadenti.

Termini collegati

Visto in azione

102 voci che lo citano
  1. Voice AI realtime: latenza sotto-secondo e multilingue diventano la norma
    Medio
  2. MCP a 18 mesi: l'ecosistema dei server raggiunge la massa critica
    Alto
  3. Foundation model per robotica generale: nuovo step verso il "GPT della manipolazione"
    Alto
  4. Mistral Small 4: tre modelli (reasoning + vision + coding) fusi in un solo open weight
    Alto
  5. Nano Banana 2: Google rifà il modello d'immagine virale puntando a coerenza e testo
    Medio
  6. Gemini 3 Pro e Flash: Google rilancia la sfida frontier
    Alto
  7. MCP ecosystem 2025: Inspector, UI, registry, e adozione cross-vendor
    Alto
  8. Claude Haiku 4.5: il modello piccolo che eguaglia Sonnet 4 di maggio
    Medio
  9. Runway Gen-4: video AI con personaggi coerenti tra scene multiple
    Alto
  10. Cline: l'agente coding open-source VS Code separa Plan e Act
    Medio
  11. Apollo Research: i frontier model 'schemano' in eval — paper pubblicato
    Alto
  12. Local AI 2025: Ollama, MLX LM, Apple Foundation Models triplicano la velocità
    Medio
  13. GPT-5: OpenAI unifica modello fast e modello reasoning in un router automatico
    Pietra miliare
  14. Cursor Agent e Background Agents: dall'autocomplete all'agente coding nel cloud
    Alto
  15. Ollama 1.0: prima versione stabile con multimodal, tool calling e Windows GA
    Alto
  16. Ollama supporto nativo modelli vision: VLM locali con un comando
    Medio
  17. Kimi VL Thinking (Moonshot AI): primo modello visivo open con ragionamento a catena di pensiero via RL
    Alto
  18. CrossFormer: un singolo transformer per 20+ embodiment robot con analisi di scaling rigorosa
    Alto
  19. Model Cards 2.0: convergenza settoriale su report standardizzati di sicurezza AI
    Medio
  20. Llama 4: Meta passa a MoE e multimodale nativo, ma la community accoglie con freddezza
    Alto
← Tutti i termini