Voice AI realtime: latenza sotto-secondo e multilingue diventano la norma
Le API voice realtime di OpenAI, Google ed ElevenLabs convergono su latenza < 500ms, multilingue fluente e prosodia naturale. Il telefono come canale agentico diventa pratico.
Diario tecnico dell’AI — dal 2020 a oggi
Non un sito di news. Un archivio personale, curato, delle innovazioni AI che hanno davvero cambiato qualcosa per chi lavora con il software e i sistemi.
★ Le mie scelte
Non solo cronaca: queste sono le voci con un effetto pratico sul mio modo di lavorare come IT / sysadmin / dev. Annotate con cosa ho cambiato dopo.
Questo intero archivio è costruito con Claude Code: 608 eventi, 121 termini, deploy Docker, fix delle regressioni — tutto in una CLI che chiamo dal terminale. Ha cambiato il significato di 'progetto personale' per me: ora porto a casa cose che prima richiedevano un weekend pieno.
MCP è il motivo per cui ho smesso di scrivere integrazioni custom: oggi i miei script di sysadmin parlano direttamente con Claude tramite server MCP, riutilizzo gli stessi tool per IDE, terminale e dashboard interne.
Il giorno dopo la beta ho fatto fare a Claude un giro completo di apertura ticket sul nostro gestionale — campi compilati, screenshot allegato, tutto via API. Da lì la domanda 'cosa automatizzare?' è diventata 'cosa NON automatizzare?'.
Ollama è quello che gira sul mio mini-PC casalingo: 16GB di RAM, niente GPU, e ho un'AI privata sempre accesa per Q&A sui doc aziendali. Il giorno che ho fatto `ollama pull llama3` ho capito che l'AI locale non era più una sciocchezza da nerd.
È il punto in cui ho cambiato il modo di lavorare: ChatGPT mi ha sostituito Stack Overflow per il 90% delle domande, ha ridotto del 40% il tempo medio di scrittura di script e documentazione, e mi ha costretto a ripensare come spiegare cosa fa un sysadmin a chi non è del mestiere.