Scale AI — Alexandr Wang e il Business da $14B della Data Labeling

Cos'è: Scale AI è la principale infrastruttura di data labeling al mondo per il training dei modelli di intelligenza artificiale. Fondata nel 2016 da Alexandr Wang — diciannovenne all'epoca, drop-out del MIT — è diventata in meno di un decennio il fornitore di etichette e annotazioni umane di riferimento per Tesla, Toyota, OpenAI, Anthropic, e il Dipartimento della Difesa degli Stati Uniti. A maggio 2024 ha chiuso una Serie F da un miliardo di dollari a una valutazione di 13,8 miliardi, con NVIDIA, AMD, Meta e Cisco tra gli investitori. È l'esempio più chiaro di come l'AI moderna non sia solo modelli e GPU, ma anche un'industria silenziosa di lavoro umano che etichetta, classifica, valuta.

L'origine: un diciannovenne nel 2016

Alexandr Wang nasce nel 1997 a Los Alamos, New Mexico, figlio di due fisici cinesi che lavorano al laboratorio nazionale dove fu progettata la bomba atomica. Vince medaglie alle Olimpiadi internazionali di matematica, entra al MIT a sedici anni, e ne esce dopo un anno per fondare Scale AI nel 2016 insieme a Lucy Guo, sua co-founder iniziale. Lui ha diciannove anni. L'idea di partenza non è grandiosa: le aziende che sviluppano sistemi di computer vision e guida autonoma hanno bisogno di enormi quantità di immagini etichettate — qui c'è una macchina, qui un pedone, qui un semaforo — e i tool disponibili sono lenti e i fornitori frammentati.

Scale propone una piattaforma centralizzata che gestisce sia il software di annotazione sia la forza lavoro che produce le etichette. Tesla diventa cliente quasi subito, attratta dalla velocità di throughput. Y Combinator finanzia il seed. Nel 2019 la società ha già una valuation da unicorno. La traiettoria di Wang somiglia a quella di Mark Zuckerberg o di Sam Altman — fondatore solitario, giovanissimo, capace di trasformare un problema operativo apparentemente noioso in un'infrastruttura strategica.

Il pivot dal computer vision al language

Fino al 2021 il business di Scale è dominato dall'automotive: etichettare frame di video di guida per Tesla, Toyota, Cruise, Argo. Il rilascio di GPT-3 nel 2020 e poi di ChatGPT nel 2022 cambiano la natura del problema. Per addestrare un large language model non serve etichettare immagini — serve produrre conversazioni di alta qualità, valutare risposte multiple di un modello classificandole per utilità e sicurezza, scrivere esempi di chain-of-thought, identificare hallucination.

Scale costruisce in fretta una nuova vertical chiamata Scale Data Engine for Generative AI, che diventa il fornitore di RLHF data per OpenAI, Anthropic, Cohere, Meta, Microsoft. Il lavoro è diverso: non più operatori che cliccano su pixel, ma annotatori con competenze linguistiche specifiche — laureati in legge, medicina, finanza — che valutano risposte di modelli su domini specialistici. La parte di mercato che vale di più, in termini di pricing per ora di lavoro, è proprio questa: expert data per modelli frontier.

Nel 2023 Scale lancia anche SEAL — Scale Evaluation and Alignment Lab — una divisione di benchmark indipendenti progettati per essere resistenti alla contaminazione dei training set. È un servizio quasi normativo: i laboratori frontier pagano Scale per essere valutati con metriche che non possono manipolare aumentando l'esposizione del modello al dataset, perché il dataset è privato.

La controversia del lavoro: Kenya, Filippine, Venezuela

La rapida crescita di Scale poggia su un'architettura di lavoro decentralizzato in paesi a basso reddito. La piattaforma Remotasks, controllata da Scale, recluta annotatori in Kenya, Filippine, Venezuela, Nigeria, Pakistan. Le tariffe documentate da inchieste giornalistiche del Washington Post, del MIT Technology Review e di 60 Minutes nel 2023-2024 oscillano tra due e quattro dollari l'ora, con casi peggiori sotto il dollaro. Il lavoro è cottimizzato su task brevi, valutato algoritmicamente, e gli annotatori possono essere sospesi senza preavviso se il loro tasso di accuratezza scende sotto una soglia.

La difesa di Scale è che le tariffe sono competitive rispetto ai mercati locali, che la piattaforma offre lavoro a persone in regioni economicamente depresse, e che senza questi annotatori non esisterebbero modelli AI moderni. La critica è che l'industria dei modelli frontier, che genera valuation multimiliardarie nella Silicon Valley, esternalizza la parte umanamente più faticosa del processo a paesi in cui le tutele del lavoro sono deboli — e che questo è strutturalmente analogo al modello dei call center offshorati degli anni 2000, con la differenza che qui il lavoro è invisibile anche al consumatore finale.

Il ponte con il Pentagono

Il segmento del business di Scale che cresce più rapidamente nel 2023-2024 è quello della difesa. Scale Federal è la divisione che vende all'esercito americano, alla CIA, al Department of Homeland Security, e alle agenzie alleate. Il prodotto chiave è Donovan, una piattaforma di decision intelligence che integra LLM con dati classificati di intelligence per produrre analisi e raccomandazioni di azione. Nel 2024 Scale firma un contratto da quasi un miliardo di dollari con la US Army per Thunderforge, un sistema di pianificazione operativa basato su AI.

Wang si posiziona pubblicamente come voce dell'industria sulla competizione tecnologica con la Cina. Pubblica op-ed, testimonia al Congresso, finanzia campagne elettorali — è documentata la sua donazione massiccia alla campagna Trump 2024, dopo essere stato precedentemente associato a posizioni più moderate. Il pattern è ricorrente nell'industria AI di frontiera: il fondatore inizia come tecnico, e quando la valuation raggiunge il decimo di miliardo diventa attore politico, perché le decisioni che riguardano export control, sicurezza nazionale, regolamentazione, non sono più separabili dal business model.

Il modello strutturale

Scale AI è interessante non tanto per il prodotto in sé quanto per quello che rivela del settore. L'AI di frontiera è spesso descritta come una gara tra modelli, GPU e capitale. Scale dimostra che esiste un quarto fattore, meno visibile ma critico: il lavoro umano specializzato di valutazione e correzione, senza il quale i modelli non escono dal laboratorio. Wang ha costruito un'azienda da quattordici miliardi vendendo qualcosa che è, alla base, una piattaforma di gig work — ma con un cliente finale concentrato (cinque o sei laboratori frontier più il governo americano) e un margine economico molto alto.

La traiettoria personale — diciannovenne drop-out, fondatore solitario, decimo miliardo prima dei trent'anni, ponte con il Pentagono — è anche il template ricorrente della Silicon Valley contemporanea. Lo stesso pattern si vede in Palmer Luckey di Anduril, in Vitalik Buterin di Ethereum, in altri casi minori. È una traiettoria che concentra rapidamente potere e visibilità su individui giovani, e che spinge il settore verso una posizione politica esplicita molto prima di quanto avveniva nelle precedenti ondate tecnologiche.

Link alla fonte originale

Scale AI — scale.com →

Sito ufficiale di Scale AI. Per approfondimenti, inchieste del Washington Post, MIT Technology Review e 60 Minutes su Remotasks (2023-2024). EN.