Cohere Command A: il foundation model che gira on-prem su 2 GPU

In una frase Cohere lancia Command A: 111B parametri, 256K context, multilingual, deploy su 2 GPU H100/A100. Posizionato per enterprise regolato (banking, healthcare, government) che chiede deploy isolato.

Da rivedere Fonte ufficiale

CondividiLinkedIn X

Cohere, lab AI canadese fondato da Aidan Gomez (co-autore del paper Attention Is All You Need), lancia Command A, un modello pensato esplicitamente per il deploy on-premise. Punti chiave: 111 miliardi di parametri, finestra di contesto da 256.000 token, e — soprattutto — gira su sole 2 GPU H100 grazie a quantizzazione efficiente.

A differenza di OpenAI/Anthropic che vendono solo via API cloud, Cohere offre i pesi a clienti enterprise per eseguirli dentro al proprio data center. È il modello giusto per banche, ospedali, governi che non possono inviare dati a Microsoft o Google.

Performance dichiarata in fascia GPT-4o / Claude 3.5 Sonnet su task RAG ed enterprise (non sui chatbot consumer). Multilingual forte: 23 lingue, italiano incluso. È la risposta nordamericana a Mistral Medium 3.