Salta al contenuto
AImpact
IT EN

Articolo · Economia & Società

Databricks Mosaic AI — Come una Data Platform è Diventata Player AI da $62B

Fonte originale: Databricks · databricks.com — sintesi e rielaborazione in parole proprie.

CondividiLinkedInX

Cos'è: Databricks è una società di data platform fondata nel 2013 dai creatori di Apache Spark all'università di Berkeley. Per dieci anni il suo prodotto principale è stato il "lakehouse" — una combinazione di data lake e data warehouse pensata per analytics e machine learning enterprise. Tra giugno 2023 e dicembre 2024 la società compie una traiettoria straordinaria: acquisisce MosaicML per 1.3 miliardi di dollari, rilascia il modello open source DBRX, lancia la suite Mosaic AI, e chiude un round Series J da 10 miliardi a una valutazione di 62 miliardi di dollari. La trasformazione di una data platform in player AI generativo enterprise.

L'acquisizione di MosaicML: giugno 2023

Il 26 giugno 2023 Databricks annuncia l'acquisizione di MosaicML per 1.3 miliardi di dollari in stock e cash. È una delle più grandi acquisizioni nel settore AI di quell'anno, seconda solo a poche altre. MosaicML è una startup fondata nel 2021 da Naveen Rao — già fondatore di Nervana Systems acquisita da Intel nel 2016 — specializzata nel training efficiente di large language model. La proposta di valore di MosaicML era semplice: ridurre drasticamente i costi e i tempi di addestramento di modelli da miliardi di parametri attraverso ottimizzazioni dello stack di training, compressione, distributed training e infrastruttura efficiente.

L'acquisizione è strategica per Databricks su due fronti. Primo, i clienti enterprise di Databricks (banche, retailer, manifatturieri) stanno chiedendo come usare i propri dati per addestrare o fine-tuneare modelli generativi proprietari, senza inviare quei dati a OpenAI o ad altri provider esterni. Secondo, l'acquisizione porta in casa il team di Naveen Rao, considerato uno dei più forti gruppi al mondo nell'ingegneria di training di LLM. Databricks paga molto, ma comprando MosaicML compra il diritto di giocare un campionato che altrimenti sarebbe rimasto chiuso.

Il lakehouse incontra l'AI: la promessa data-native

Il posizionamento di Databricks dopo l'acquisizione si costruisce attorno a un concetto: "data-native AI" o "compound AI". L'idea è che il valore dei modelli generativi enterprise non sta nel modello in sé — quello è sempre più una commodity — ma nell'integrazione con i dati proprietari dell'azienda. Un LLM che non conosce i prodotti, i clienti, le procedure e la storia di un'azienda specifica produce output generici che valgono poco.

La piattaforma Databricks lakehouse, costruita attorno a tecnologie open come Delta Lake, Unity Catalog e MLflow, diventa quindi il terreno naturale su cui costruire applicazioni AI enterprise. I dati sono già lì, governati, versionati, accessibili con permessi granulari. Aggiungere il training, il fine-tuning, il serving e l'orchestrazione di modelli generativi sulla stessa piattaforma elimina molti dei problemi di pipeline, sicurezza e governance che affliggono progetti AI separati dal data layer.

DBRX: il modello open source di marzo 2024

Il 27 marzo 2024 Databricks rilascia DBRX, un modello open source da 132 miliardi di parametri totali con architettura Mixture-of-Experts (MoE), di cui circa 36 miliardi attivi per token. Al lancio, DBRX batte Mixtral 8x7B di Mistral su quasi tutti i benchmark standard, è competitivo con GPT-3.5 in molti task, e si posiziona come il modello open weight più potente disponibile in quel momento (poco prima del rilascio di Llama 3 da parte di Meta).

Il rilascio di DBRX ha tre significati strategici. Primo, dimostra che il team Mosaic dentro Databricks è capace di addestrare modelli di frontiera, non solo strumenti di training. Secondo, mette i clienti Databricks in condizione di partire da un base model molto capace per il proprio fine-tuning, senza dipendere da licenze restrittive di provider terzi. Terzo, è un messaggio di marketing potente verso gli sviluppatori e gli ingegneri AI: Databricks è una società seria nell'AI, non solo nel data warehousing.

La suite Mosaic AI: Genie, Vector Search, Agent Framework

Sotto il brand "Mosaic AI" Databricks raggruppa una serie crescente di prodotti pensati per coprire l'intero ciclo di vita di applicazioni AI enterprise. Genie è un'interfaccia in linguaggio naturale per fare domande sui dati: l'utente business pone una domanda in inglese, Genie genera SQL, esegue la query, restituisce la risposta. È il pattern "text-to-SQL" portato dentro la piattaforma con governance e permessi nativi.

Vector Search è il database vettoriale integrato per applicazioni di retrieval augmented generation (RAG): permette di indicizzare e cercare documenti embedded direttamente sui dati Delta Lake, evitando la necessità di sincronizzare un database vettoriale esterno (Pinecone, Weaviate, Chroma). Mosaic AI Agent Framework è il toolkit per costruire applicazioni agentic — agenti AI che ragionano, chiamano tool, accedono ai dati aziendali e prendono decisioni in workflow complessi. Lanciato nel 2024, si posiziona contro Microsoft AutoGen, LangChain, CrewAI e altri framework, ma con il vantaggio dell'integrazione nativa col data layer.

Series J 10 miliardi a 62 miliardi: dicembre 2024

Il 17 dicembre 2024 Databricks annuncia il completamento di un round Series J da 10 miliardi di dollari, a una valutazione di 62 miliardi. È uno dei più grandi round di equity privato nella storia tecnologica. Tra gli investitori figurano Thrive Capital, Andreessen Horowitz, DST Global, GIC, MGX (Abu Dhabi) e altri fondi sovrani e venture di primo piano. Buona parte del capitale raccolto è destinato a permettere a dipendenti ed early investor di vendere quote — un secondary tender molto richiesto dopo anni di permanenza in società private.

La valutazione di 62 miliardi posiziona Databricks tra le società tech private più valutate al mondo, vicina a SpaceX e OpenAI. La narrativa che sostiene la valutazione è duplice: ricavi ARR sopra i 3 miliardi e in crescita oltre il 60% annuo, con il pezzo AI che cresce ancora più velocemente; e un'IPO posticipata ripetutamente che continua a essere "imminente" da tre anni, alimentando la domanda di secondary share da parte di investitori che vogliono entrare prima della quotazione.

La battaglia con Snowflake e Microsoft Fabric

Il principale competitor diretto di Databricks rimane Snowflake, l'altra grande data platform cloud-native, anch'essa con un percorso aggressivo verso l'AI. Snowflake ha acquisito Reka (modelli proprietari) e rilasciato Snowflake Arctic, modello open di dimensioni minori ma posizionato come efficiente per enterprise. La differenza filosofica è significativa: Snowflake è nata come data warehouse e si è espansa verso il data lakehouse, Databricks ha fatto il percorso opposto. Sulla parte AI, Databricks ha investito più aggressivamente in training e modelli proprietari, Snowflake si è appoggiata di più a partnership (Mistral, Meta) e a un'integrazione meno opinionated.

Sul lato Microsoft, Fabric è il prodotto bundle annunciato nel 2023 che combina data warehouse, data lake, data engineering, real-time analytics, data science e Power BI in un'unica suite SaaS. Fabric ha l'enorme vantaggio di essere già nelle mani di milioni di clienti Microsoft 365, con prezzi aggressivi e integrazione nativa con Copilot. La sfida per Databricks è dimostrare che la profondità tecnica del lakehouse e la potenza della suite Mosaic AI giustificano un acquisto separato rispetto a una piattaforma "good enough" già inclusa nel contratto Microsoft.

L'esito di questa battaglia a tre — Databricks vs Snowflake vs Microsoft Fabric, con Google Cloud BigQuery e AWS che giocano partite parallele — definirà chi sarà il "data and AI operating system" delle grandi imprese nei prossimi dieci anni. È una delle competizioni B2B più rilevanti del decennio, con valori in gioco nell'ordine delle centinaia di miliardi di dollari di market cap.


Link alla fonte originale

Databricks Mosaic AI — pagina prodotto →

Pagina ufficiale Databricks della suite Mosaic AI, con descrizione di DBRX, Vector Search, Genie, Agent Framework e gli altri componenti. Acquisizione MosaicML annunciata giugno 2023; DBRX rilasciato marzo 2024; Series J chiusa dicembre 2024 a 62 miliardi di dollari di valutazione.