AI e Produttività nel Coding — Cosa Dicono Davvero gli Studi Empirici

Cos'è: Una rassegna critica degli studi empirici sulla produttività degli sviluppatori che utilizzano strumenti AI come GitHub Copilot. I dati pubblicati mostrano miglioramenti significativi su task specifici, ma nascondono problemi metodologici che limitano la generalizzabilità dei risultati e lasciano senza risposta le domande più importanti sul lungo termine.

Lo studio GitHub Copilot 2022: il +55% che tutti citano

Il paper più citato sulla produttività AI nel coding è lo studio GitHub del settembre 2022, condotto da ricercatori di GitHub e Microsoft Research. Il design sperimentale era relativamente rigoroso per gli standard dell'industria: un gruppo di sviluppatori (95 persone) è stato diviso casualmente in un gruppo con accesso a GitHub Copilot e un gruppo di controllo senza. Il task assegnato era implementare un server HTTP in JavaScript — un compito ben definito, con una soluzione verificabile automaticamente.

Il risultato headline: il gruppo con Copilot ha completato il task nel 55% del tempo rispetto al gruppo di controllo. Un effetto di dimensione straordinaria per uno strumento software. Il paper ha prodotto anche dati su soddisfazione soggettiva: il 60-75% dei partecipanti con Copilot ha riferito di sentirsi più soddisfatto, meno frustrato, e capace di focalizzarsi su aspetti più interessanti del problema.

Quello che il paper non misura — e che raramente viene citato nelle discussioni pubbliche — è altrettanto importante: il task era nuovo e autocontenuto, non manutenzione di codice legacy. Il campione era composto da sviluppatori con vari livelli di esperienza ma tutti abbastanza familiari con JavaScript da completare il task senza AI nel tempo assegnato. Il setting era artificiale: nessuna riunione, nessuna interruzione, nessuna comunicazione con i colleghi, nessun contesto di progetto.

Lo studio BCG/Mollick 2024: on-frontier vs off-frontier

Nel 2024, una ricerca condotta da Ethan Mollick con consulenti di Boston Consulting Group ha introdotto una distinzione concettuale che ha cambiato il modo in cui molti ricercatori pensano all'impatto dell'AI sul lavoro cognitivo. Lo studio ha diviso i task assegnati ai consulenti in due categorie: task within-frontier (dentro la frontiera delle capacità AI) e task outside-frontier (fuori dalla frontiera).

I task within-frontier erano quelli per cui l'AI è particolarmente adatta: analisi qualitativa, sintesi di documenti, generazione di idee, redazione di testi. Per questi task, i consulenti con accesso a GPT-4 hanno mostrato un miglioramento del 40% sulla qualità del lavoro rispetto al gruppo di controllo.

I task outside-frontier erano quelli che richiedono ragionamento contestuale complesso, dati non disponibili all'AI, o giudizio basato su esperienza accumulata. Per questi task, il risultato è stato opposto: i consulenti che hanno usato l'AI hanno prodotto lavoro di qualità inferiore rispetto al gruppo di controllo — probabilmente perché hanno sovrastimato le capacità dello strumento e hanno accettato output errati senza verificarli adeguatamente.

La distinzione on-frontier/off-frontier è particolarmente rilevante per il coding: scrivere funzioni standard, generare boilerplate, implementare algoritmi noti — tutto within-frontier. Debuggare un problema di concorrenza oscuro in un sistema distribuito legacy, o capire perché un'ottimizzazione compilatore produce risultati inattesi — spesso fuori frontiera.

I dati Microsoft: il 46% del codice generato da AI

Microsoft ha pubblicato nel 2024 statistiche aggregate sui repository che usano GitHub Copilot: nelle organizzazioni con alto utilizzo di Copilot, fino al 46% delle righe di codice nelle pull request viene accettato direttamente da suggerimenti AI. È un numero che sembra impressionante ma richiede cautela interpretativa.

"Righe accettate" non equivale a "righe utili": gli sviluppatori tendono ad accettare i suggerimenti Copilot più facilmente per il codice boilerplate — import statement, getter/setter, test fixture, commenti — dove il costo di accettare un suggerimento subottimale è basso. La percentuale di logica di business critica generata da AI e accettata senza revisione sostanziale è presumibilmente molto più bassa.

Microsoft ha anche riportato che le organizzazioni che usano Copilot mostrano un aumento nel numero di pull request create per sviluppatore — il che può indicare maggiore produttività ma può anche indicare frammentazione eccessiva del lavoro in PR più piccole, una pratica che in alcuni contesti riduce l'efficienza complessiva del team.

Impatto sulla seniority: chi beneficia di più (e chi meno)

Uno dei pattern più consistenti attraverso gli studi disponibili è l'asimmetria dell'impatto per livello di esperienza. I developer junior tendono a beneficiare di più degli strumenti AI per il coding: uno scaffolding maggiore, suggerimenti su API che non conoscono, esempio di pattern che andrebbero cercati manualmente nella documentazione. Lo studio GitHub 2022 ha trovato un effetto più grande per i partecipanti con meno esperienza.

I developer senior, paradossalmente, mostrano benefici più modesti nei task di implementazione ma possono guadagnare molto di più nell'uso dell'AI per task ad alto volume e basso valore cognitivo: generazione di test, documentazione, code review automatica di PR banali. Il loro principale guadagno non è "scrivere codice più velocemente" ma "liberare tempo cognitivo per i problemi difficili".

Questo ha implicazioni non banali per le organizzazioni: se l'AI aumenta la produttività dei junior ma non dei senior, e se i senior passano il tempo risparmiato a fare code review del codice generato da AI (che può essere plausibile ma sottilmente errato), il guadagno netto di sistema potrebbe essere inferiore a quanto suggeriscono i dati individuali.

Cosa non sappiamo ancora: qualità, bug rate e produttività long-term

Le lacune più significative nella letteratura empirica disponibile riguardano le conseguenze a lungo termine e la qualità del codice prodotto.

Sul fronte della qualità, i dati disponibili sono parziali e contraddittori. Alcuni studi mostrano che il codice generato da AI contiene più vulnerabilità di sicurezza rispetto al codice scritto manualmente — in particolare vulnerabilità CWE comuni come SQL injection o buffer overflow, in contesti dove lo sviluppatore ha accettato il suggerimento senza revisione adeguata. Altri studi mostrano che Copilot tende a suggerire codice più testato e più consistente con i pattern del repository, riducendo i bug di coerenza stilistica.

Sul fronte della produttività long-term, mancano quasi completamente studi longitudinali. L'unico dato disponibile è che la quantità di codice prodotta aumenta — ma un aumento della quantità di codice in un codebase non è necessariamente positivo. Il debito tecnico, la manutenibilità e la complessità strutturale sono dimensioni che non vengono catturate dai paper sulla produttività individuale a breve termine.

C'è infine una questione di deskilling: se gli sviluppatori junior si affidano all'AI per pattern che normalmente apprenderebbero risolvendo problemi autonomamente, il tasso di acquisizione di expertise profonda potrebbe rallentare. Non ci sono ancora dati empirici su questo, ma è una delle preoccupazioni più serie sollevate da ricercatori di human-computer interaction.

Link alla fonte originale

GitHub Blog — Quantifying GitHub Copilot's Impact →

Il post originale di GitHub Research (settembre 2022) riassume il paper accademico pubblicato su arXiv. Per il paper BCG/Mollick, si veda "Navigating the Jagged Technological Frontier" (2023). Per i dati Microsoft sull'adozione, si vedano i report annuali GitHub Octoverse 2023 e 2024.