Sara Hooker — Cohere for AI e la Critica all'Eccezionalismo dei Modelli Grandi

Chi è: Sara Hooker è VP of Research di Cohere e fondatrice di Cohere for AI, il laboratorio no-profit della società dedicato alla ricerca aperta e collaborativa. Autrice del paper "The Hardware Lottery" (2020), una delle critiche più citate all'idea che le idee migliori nella storia del ML abbiano vinto per merito (e non per fortuna del hardware compatibile), guida il progetto Aya su modelli multilingue che coprono oltre 100 lingue. Cresciuta tra Africa ed Europa, porta una prospettiva inusuale e necessaria al dibattito su chi e come decide la direzione dell'AI.

Background: dall'Africa al machine learning di frontiera

Sara Hooker è cresciuta in Africa — Mozambico, Lesotho, Swaziland, Liberia, Kenya — figlia di operatori umanitari. Ha studiato a Carleton College negli Stati Uniti e ha lavorato come Founding Researcher al Google Brain di Accra, in Ghana, prima di entrare in Cohere come VP Research. Ha fondato Delta Analytics, un'organizzazione no-profit che porta data science a organizzazioni umanitarie e accademiche in Africa orientale.

Questa traiettoria — africana per crescita, americana per formazione tecnica, globale per esperienza professionale — non è un dettaglio biografico decorativo. Informa direttamente la sostanza della sua ricerca. Quando Hooker scrive di modelli multilingue, di accessibilità del compute, di chi decide quali lingue sono "supportate" dai LLM, parla da una posizione che la community AI angloamericana di base raramente occupa. Buona parte del peso intellettuale del suo lavoro deriva dall'incrocio tra competenza tecnica frontier e prospettiva genuinamente non-occidentale.

"The Hardware Lottery" (2020): il paper che ha cambiato il dibattito sui meriti

Nel settembre 2020, Hooker ha pubblicato "The Hardware Lottery", un paper concettuale (poi diventato articolo per Communications of the ACM nel 2021) che ha proposto una tesi semplice e scomoda: nella storia del machine learning, certe idee non hanno vinto perché erano migliori — hanno vinto perché erano compatibili con l'hardware disponibile al momento.

Il caso paradigmatico è il deep learning stesso. Le reti neurali profonde sono state proposte negli anni '80 e '90, ma hanno languito per decenni nonostante la solidità teorica, perché l'hardware dell'epoca (CPU sequenziali) era inadatto. Quando le GPU general-purpose sono diventate accessibili (CUDA, 2007) e abbastanza potenti, il deep learning è esploso. La rivoluzione non è stata un cambio nella teoria — è stata un cambio nell'hardware. Le idee non sono cambiate; l'hardware che le rendeva eseguibili sì.

L'implicazione che Hooker tira è importante: probabilmente esistono oggi idee algoritmiche superiori alla backpropagation o ai transformer che non sappiamo riconoscere perché l'hardware corrente le penalizza. La "frontiera" del ML non riflette necessariamente i metodi migliori — riflette i metodi che vincono nella lotteria hardware del momento. Sparse models, neuromorphic computing, computational alternatives ai gradient descent: tutte aree dove le idee potrebbero essere ottime ma l'hardware non collabora.

Il paper è diventato uno dei più citati e discussi nella critica meta-tecnica del campo. È prescritto in molti corsi di ML responsabile, è citato in policy reports sull'innovazione AI, ed è una delle ragioni per cui Hooker è considerata una voce centrale del dibattito sulle direzioni del campo — non solo una praticante.

La critica all'eccezionalismo dei modelli grandi

Su Twitter, in interviste e in talk pubblici, Hooker ha articolato con coerenza una posizione minoritaria nel discorso AI mainstream del 2023-2024: che l'identificazione della frontiera AI esclusivamente con i modelli più grandi è sia tecnicamente impreciso sia politicamente problematico.

Tecnicamente: molti progressi importanti negli ultimi anni — instruction tuning, RLHF, retrieval-augmented generation, modelli specializzati — non sono effetti di scala pura, sono innovazioni di metodo che hanno reso utili modelli molto più piccoli. Mistral 7B che batte Llama 13B, Phi-3 che batte modelli 10x più grandi, sono esempi concreti dell'idea che la scala da sola non sia la storia.

Politicamente: se solo i laboratori con accesso a cluster da centinaia di milioni di dollari possono fare ricerca di frontiera, l'AI come campo si concentra in poche organizzazioni — quasi tutte americane, tutte con incentivi commerciali, nessuna con accountability democratica significativa. Per Hooker, sostenere che la frontier è solo modelli da centinaia di miliardi di parametri non è solo tecnicamente discutibile: è un'argomentazione che, di fatto, esclude la maggior parte del mondo dalla ricerca AI.

Cohere for AI e il progetto Aya: 101 lingue come scelta politica

Cohere for AI, il laboratorio fondato da Hooker, è strutturato come un istituto di ricerca aperto: pubblica paper open access, rilascia modelli con pesi disponibili, organizza programmi di Scholars che ospitano ricercatori da paesi sotto-rappresentati nella community ML. È un raro esempio di laboratorio frontier con un mandato esplicitamente non-commerciale dentro un'azienda commerciale.

Il progetto più visibile è Aya (2024), un modello multilingue che copre 101 lingue, addestrato su un dataset di instruction following raccolto collaborativamente da una rete di oltre 3000 contributori in più di 100 paesi. Aya è significativo per due ragioni. Prima: tecnicamente, mostra che è possibile addestrare un singolo modello con capacità decenti su lingue scarsamente rappresentate online (swahili, javanese, yoruba, lingue indo-pacifiche) senza sacrificare le performance sull'inglese. Seconda: politicamente, è una scelta deliberata di prioritizzare lingue che i grandi laboratori americani non considerano commercialmente prioritarie.

La maggior parte dei LLM frontier ha performance ottime sull'inglese, buone su una decina di lingue europee e asiatiche maggiori, e mediocri o pessime su tutto il resto. Per centinaia di milioni di persone in Africa, in Asia, in Sud America, "usare l'AI nella propria lingua" è praticamente impossibile. Aya è un tentativo concreto e tecnicamente serio di cambiare questo. Non è ai livelli di GPT-4 in inglese, ma fa cose che GPT-4 non fa.

Open vs closed: il dibattito visto da una prospettiva africana

Hooker è una delle voci più chiare nel dibattito open vs closed sui modelli AI. La sua posizione non è ideologica ("open è sempre meglio") ma pragmatica: l'accesso ai modelli, ai dataset di training, alla compute, e ai metodi di addestramento determina chi può fare ricerca rilevante in AI, e chi è invece relegato a essere utente passivo di sistemi sviluppati altrove.

Da una prospettiva di sicurezza, esistono argomenti seri per limitare l'accesso ai modelli frontier. Hooker non li respinge, ma li mette in dialogo con un'altra dimensione spesso ignorata: l'accesso chiuso replica e amplifica disuguaglianze geopolitiche. Se i modelli più capaci sono accessibili solo via API controllate da aziende americane, le università africane, indiane, sudamericane non possono fare ricerca di frontiera. La "safety" intesa come limitazione dell'accesso ha, in questo senso, un costo distributivo che raramente viene messo nei calcoli.

La sua voce è una delle poche nel discorso tecnico mainstream che parte da questa intersezione — competenza ML frontier più prospettiva globale-sud — e per questo è una delle più necessarie. In un dibattito che tende a polarizzarsi tra "accelerare a tutti i costi" e "chiudere tutto per safety", Hooker articola una terza posizione: aprire più di quanto si stia facendo, ma con strumenti per rendere quell'apertura sicura e produttiva globalmente, non solo per chi è già al centro del campo.

Link alla fonte originale

sarahooker.me →

Sito personale di Sara Hooker con paper, talk e progetti. Paper "The Hardware Lottery" (Hooker, 2020): arXiv:2009.06489, poi Communications of the ACM, 2021. Progetto Aya e Cohere for AI: cohere.com/research. EN.