Modelli di Embedding — OpenAI v3, BGE, Voyage, Cohere e la Battaglia per la Memoria Semantica

Cos'è: Un modello di embedding trasforma un testo in un vettore numerico di centinaia o migliaia di dimensioni, in modo che testi semanticamente simili abbiano vettori vicini nello spazio. È il primitivo che rende possibile la ricerca semantica, il retrieval-augmented generation, la clusterizzazione di documenti, e qualsiasi sistema basato su "memoria" di un LLM. Il 2024 è stato l'anno in cui questo mercato è esploso, con cinque attori principali che si contendono il leadership su benchmark e adozione enterprise.

Il Benchmark che Conta: MTEB

Il Massive Text Embedding Benchmark (MTEB), pubblicato da Niklas Muennighoff e collaboratori HuggingFace nel 2022, è diventato lo standard de facto per valutare modelli di embedding. Comprende 56 dataset su 8 task: classification, clustering, pair classification, reranking, retrieval, semantic textual similarity, summarization, e bitext mining. Il leaderboard pubblico su HuggingFace è aggiornato in tempo reale e funge da arbitro pubblico delle performance — ogni nuovo modello rilasciato viene immediatamente confrontato sulla pagina.

MTEB ha una versione multilingue, MMTEB, che estende la valutazione a oltre 100 lingue incluso l'italiano con dataset come STS17-it-en e task di retrieval su Wikipedia italiana. Per applicazioni in lingua italiana o multilingue, MMTEB è il riferimento operativo — i modelli che dominano MTEB inglese possono performare significativamente peggio su lingue minori.

OpenAI text-embedding-3: il default commerciale

A gennaio 2024 OpenAI rilascia la terza generazione di embedding: text-embedding-3-small (1536 dimensioni, prezzo aggressivo) e text-embedding-3-large (3072 dimensioni, performance superiore). Il salto qualitativo rispetto al precedente text-embedding-ada-002 è netto: su MTEB il large supera 64 punti medi contro circa 60 di ada-002, ed è competitivo con i migliori modelli open source.

La feature più innovativa è il supporto nativo per Matryoshka representation learning (di cui parleremo a fondo più sotto): è possibile chiedere all'API di restituire embedding troncati a 256, 512, 1024, 1536 dimensioni invece del default — perdendo poca qualità ma riducendo drasticamente costi di storage e velocità di ricerca. Per molti use case 1024 dim è il sweet spot. Il prezzo (al momento del lancio: $0.13 per 1M token su large, $0.02 su small) ha definito il baseline competitivo che tutti gli altri provider hanno dovuto inseguire.

BGE M3: il leader open source di Alibaba

I modelli BGE (BAAI General Embedding) sviluppati dal Beijing Academy of AI sono diventati il riferimento open source nel 2024. La famiglia include BGE-large-en, BGE-large-zh per cinese, e — il modello di punta — BGE M3 rilasciato a gennaio 2024 da Alibaba. M3 sta per Multi-Functionality, Multi-Linguality, Multi-Granularity: un singolo modello che produce embedding dense, sparse, e multi-vector simultaneamente, supporta oltre 100 lingue, e gestisce input da brevi query a documenti lunghi fino a 8192 token.

La performance multilingual di BGE M3 è straordinaria — su MMTEB italiano è regolarmente tra i top 3 modelli, spesso superando OpenAI v3-large in retrieval su testi non inglesi. È completamente open source con licenza permissiva (MIT-style), distribuito su HuggingFace, eseguibile localmente su GPU consumer (richiede circa 5 GB di VRAM per inference batch). Per aziende che devono rispettare requisiti di sovranità dei dati o vogliono evitare lock-in API, BGE M3 è la scelta default.

Voyage AI: lo spinout Stanford acquisito da MongoDB

Fondata nel 2023 da ricercatori Stanford guidati da Tengyu Ma, Voyage AI si è rapidamente affermata come il leader "prosumer" per embedding di altissima qualità. La famiglia voyage-large-2 e voyage-3-large (rilasciato 2024) ha occupato per mesi le prime posizioni su MTEB, con varianti specializzate per dominio: voyage-code-2 ottimizzato per codice sorgente, voyage-law-2 per documenti legali, voyage-finance-2 per finanza. La specializzazione verticale è diventata il marchio distintivo dell'azienda.

A febbraio 2025 MongoDB annuncia l'acquisizione di Voyage AI per integrare i suoi modelli nativamente in MongoDB Atlas Vector Search. È una mossa strategica significativa: MongoDB, già leader nei database operazionali, copre l'intera pipeline (storage + embedding + vector search) sotto una singola fattura. L'acquisizione segnala il consolidamento del mercato — gli embedding stanno diventando feature di prodotti database più che servizio standalone.

Cohere Embed v3 e Nomic: gli altri attori

Cohere, la startup canadese fondata da ex-Google Aidan Gomez (uno degli autori del paper Attention Is All You Need), ha rilasciato a novembre 2023 Embed v3 in tre varianti: english, multilingual, e light. Il differenziatore di Cohere è il compression-aware training: i modelli sono addestrati per produrre embedding che mantengono qualità anche dopo quantizzazione a int8 o binary, riducendo i costi di storage di 4-32x con minima perdita. È una scelta architetturale orientata esplicitamente al deployment enterprise su larga scala dove il costo dello storage diventa dominante.

Nomic, startup di Brandon Duderstadt, ha rilasciato a febbraio 2024 nomic-embed-text-v1: il primo modello che supera OpenAI ada-002 e text-embedding-3-small mantenendo licenza completamente open source (Apache 2.0) e addestrato su dati pubblici verificabili. La filosofia di Nomic enfatizza riproducibilità scientifica: tutto il training data, il codice, e i checkpoint intermedi sono pubblicati. È la scelta naturale per ricerca accademica e per chi vuole audit completo della filiera di addestramento.

Matryoshka Representation Learning: dimensione variabile per costo

Il paper "Matryoshka Representation Learning" di Aditya Kusupati et al. (2022, in collaborazione tra Google Research e University of Washington) introduce una tecnica di training che ha trasformato l'economia degli embedding. L'idea è semplice ed elegante: addestrare il modello in modo che ogni sotto-prefisso del vettore di embedding finale sia esso stesso un embedding semanticamente valido. Un modello da 1024 dim addestrato in stile Matryoshka produce vettori dove anche solo i primi 256 numeri (troncando il resto) sono un embedding utile, di qualità leggermente inferiore ma usabile.

Il vantaggio pratico è enorme: lo stesso embedding può essere usato a dimensione diversa in stadi diversi della pipeline. Nella fase di retrieval iniziale su milioni di documenti si usa la versione troncata a 256 dim — 4x più veloce, 4x meno memoria. Nella fase di re-ranking sui top-100 candidati si usa la versione full 1024 dim per massima qualità. Una singola tabella in database, due use case con costi radicalmente diversi.

Italia e Lingua Italiana: cosa scegliere in pratica

Per applicazioni in italiano nel 2024-2025, le opzioni operative si riducono a tre cluster. OpenAI text-embedding-3-large con dimensione 1024 (Matryoshka-truncated) offre il miglior bilanciamento costo/qualità/facilità: API pronta, qualità multilingue molto buona sull'italiano, prezzo accessibile, integrazione triviale con qualsiasi vector store. È il default consigliato per la maggior parte dei progetti.

BGE M3 self-hosted è la scelta quando serve sovranità dati, deployment on-premise, o volume così grande che il costo API diventa proibitivo. Richiede competenze MLOps per gestire il deployment ma elimina vendor lock-in. Performance su italiano paragonabili a OpenAI v3-large nei nostri test interni e nei benchmark MMTEB pubblici.

I modelli della famiglia sentence-transformers mantenuti da UKPLab (Università di Darmstadt), in particolare paraphrase-multilingual-mpnet-base-v2 e distiluse-base-multilingual-cased-v2, restano una scelta solida per applicazioni leggere o prototipi: girano su CPU senza problemi, sono piccoli (400-500 MB), e l'ecosistema Python sentence-transformers è il più maturo per integrazione rapida. La qualità su italiano è inferiore ai top model ma sufficiente per la maggior parte dei task pratici. Il consenso emerso nella community italiana di sviluppatori AI è che la scelta tra questi tre cluster sia funzione di volume e requisiti di compliance — non di qualità intrinseca, che ormai è "abbastanza buona" su tutti i modelli mainstream del 2024.

Link alla fonte originale

MTEB Leaderboard — HuggingFace →

Leaderboard pubblico e aggiornato in tempo reale del Massive Text Embedding Benchmark, con classifica MTEB inglese, MMTEB multilingue, breakdown per task (retrieval, clustering, classification, STS), e link diretti alle pagine HuggingFace dei modelli per scaricare i checkpoint open source.