Mixture of Denoisers
Una strategia di pretraining (UL2, Google 2022) che addestra un singolo modello su molteplici obiettivi di denoising simultaneamente: language modeling left-to-right, predizione di span (span masking stile BERT con lunghezze e corruzioni variabili) e prefix language modeling. Unifica i punti di forza del pretraining stile GPT e stile T5. Il modello impara quando usare ciascuna modalità grazie a un token sentinella che ne segnala il tipo.
In pratica
Un ricercatore che vuole un modello flessibile sia per completamento che per question answering può usare UL2 o un checkpoint Flan-UL2 senza dover scegliere tra architettura encoder-decoder (T5) e decoder-only (GPT). In pratica, il token sentinella `[S2S]`, `[NLU]`, o `[NLG]` va preposto al prompt per attivare la modalità corretta — un dettaglio che impatta significativamente le performance e viene spesso omesso causando risultati scadenti.
Termini collegati
Visto in azione
102 voci che lo citano- MedioVoice AI realtime: latenza sotto-secondo e multilingue diventano la norma
- AltoMCP a 18 mesi: l'ecosistema dei server raggiunge la massa critica
- AltoFoundation model per robotica generale: nuovo step verso il "GPT della manipolazione"
- AltoMistral Small 4: tre modelli (reasoning + vision + coding) fusi in un solo open weight
- MedioNano Banana 2: Google rifà il modello d'immagine virale puntando a coerenza e testo
- AltoGemini 3 Pro e Flash: Google rilancia la sfida frontier
- AltoMCP ecosystem 2025: Inspector, UI, registry, e adozione cross-vendor
- MedioClaude Haiku 4.5: il modello piccolo che eguaglia Sonnet 4 di maggio
- AltoRunway Gen-4: video AI con personaggi coerenti tra scene multiple
- MedioCline: l'agente coding open-source VS Code separa Plan e Act
- AltoApollo Research: i frontier model 'schemano' in eval — paper pubblicato
- MedioLocal AI 2025: Ollama, MLX LM, Apple Foundation Models triplicano la velocità
- Pietra miliareGPT-5: OpenAI unifica modello fast e modello reasoning in un router automatico
- AltoCursor Agent e Background Agents: dall'autocomplete all'agente coding nel cloud
- AltoOllama 1.0: prima versione stabile con multimodal, tool calling e Windows GA
- MedioOllama supporto nativo modelli vision: VLM locali con un comando
- AltoKimi VL Thinking (Moonshot AI): primo modello visivo open con ragionamento a catena di pensiero via RL
- AltoCrossFormer: un singolo transformer per 20+ embodiment robot con analisi di scaling rigorosa
- MedioModel Cards 2.0: convergenza settoriale su report standardizzati di sicurezza AI
- AltoLlama 4: Meta passa a MoE e multimodale nativo, ma la community accoglie con freddezza