Percorso
Ingegnere robotica nell'era del Physical AI
Foundation model per robot, VLA, Pi0, Figure, Gemini Robotics: le tappe dell'embodied AI.
Sei un ingegnere robotica o ricercatore di embodied AI che vuole capire come i foundation model stanno cambiando radicalmente il design dei sistemi robotici: dal reward engineering manuale alle policy generaliste addestrate su dati eterogenei. Questo percorso segue le release che hanno spostato il confine tra simulazione e deployment reale.
- 01
Perché conta per te
MuJoCo diventa gratuito: il simulatore fisico di riferimento si apre a tutta la comunità, accelerando la ricerca su policy di controllo e reinforcement learning per robot.
Medio RoboticaDeepMind acquisisce MuJoCo e lo rende gratuito
DeepMind annuncia di aver acquisito MuJoCo, il simulatore fisico usato in gran parte della ricerca RL e robotica, e si impegna a renderlo gratuito per tutti — primo passo verso il rilascio open source completo nel 2022.
- 02
Perché conta per te
Codex dimostra che i transformer addestrati su codice generalizzano oltre il testo: la prova concettuale che i foundation model possono apprendere comportamenti da dati non strutturati, premessa dei VLA.
Alto AI per il codiceCodex paper: OpenAI pubblica HumanEval e il modello dietro Copilot
OpenAI rilascia il paper Evaluating Large Language Models Trained on Code che descrive Codex, il modello dietro GitHub Copilot, e introduce HumanEval, il benchmark standard per il code generation.
- 03
Perché conta per te
Figure 01 mostra un robot umanoide che ragiona e pianifica azioni usando un LLM in loop chiuso: il primo deployment convincente di linguaggio come layer di pianificazione su hardware reale.
Alto RoboticaFigure 01 + OpenAI: il primo demo umanoide con LLM end-to-end
Figure pubblica un video del suo robot umanoide Figure 01 che conversa, riconosce oggetti e li manipola usando modelli OpenAI per linguaggio e visione, in pipeline end-to-end.
- 04
Perché conta per te
Pi0 di Physical Intelligence è il primo vero foundation model per robot generalisti: una policy pre-addestrata su dati cross-embodiment che si adatta a task diversi con fine-tuning minimo.
Alto Roboticaπ0 di Physical Intelligence: il primo foundation model per robotica trasferibile tra embodiment
La startup Physical Intelligence (Karol Hausman, Sergey Levine) pubblica π0, foundation model robotico generalista da 3B addestrato su 10k+ ore di dati cross-embodiment, capace di skills come piegare bucato e fare il caffè.
- 05
Perché conta per te
Helix di Figure introduce un VLA (Vision-Language-Action) end-to-end su umanoide: dimostra che l'allineamento percettivo linguaggio-azione scala su corpi complessi in ambienti non strutturati.
Alto RoboticaFigure Helix: il primo VLA generalista che pilota humanoid a tutto corpo
Figure annuncia Helix, modello Vision-Language-Action proprietario che controlla il robot humanoid Figure 02 a 200Hz, due robot in collaborazione, dita incluse. Demo: piegare panni e riordinare cucina solo da linguaggio.
- 06
Perché conta per te
Pi0.5 estende la generalizzazione a scene domestiche reali con diverse morfologie: il segnale che i foundation model robotici stanno uscendo dal laboratorio verso il deployment in-the-wild.
Alto RoboticaPhysical Intelligence π0.5: la prima policy che generalizza a case nuove
Physical Intelligence pubblica π0.5, evoluzione del VLA π0. Nuovo: zero-shot deployment in case mai viste durante il training (pulire cucine sconosciute, mettere via la spesa).
- 07
Perché conta per te
Gemini Robotics integra il modello multimodale di Google direttamente nella loop di controllo: l'architettura che unifica percezione visiva, linguaggio naturale e azione motoria in un unico modello.
Alto RoboticaGemini Robotics: DeepMind porta i foundation model nel mondo fisico
Google DeepMind aggiorna Gemini Robotics e Gemini Robotics-ER: VLA generalisti su base Gemini 2 in grado di pilotare bracci industriali e humanoid (Apptronik Apollo) zero-shot su task mai visti.