Vision-Language-Action Model
Un Vision-Language-Action Model (VLA) è una rete neurale che riceve in input osservazioni visive e istruzioni in linguaggio naturale, producendo direttamente azioni robot come sequenze di coordinate o comandi articolari. Estende i modelli vision-language (VLM) aggiungendo una testa di azione addestrata su dati di traiettoria robotica reale. Esempi notevoli includono RT-2 (Google DeepMind), OpenVLA (Berkeley), GR-2 (ByteDance) e Helix (Figure AI). Il risultato è un robot capace di interpretare un comando come 'raccogli la tazza rossa' osservando la scena e traducendolo in movimenti fisici precisi.
In pratica
Un developer che lavora con VLA tipicamente part da un checkpoint pre-addestrato (es. OpenVLA su HuggingFace) e lo affina con dati di teleoperazione raccolti sul proprio robot tramite LoRA o full fine-tuning. L'input al modello è un'immagine RGB dalla telecamera del robot concatenata con l'istruzione testuale; l'output è un vettore di azione (posizione dell'end-effector, apertura del gripper). La pipeline di deployment usa ROS 2 o LeRobot per chiudere il loop di controllo a frequenze di 5-10 Hz.
Termini collegati
Visto in azione
8 voci che lo citano- AltoGemini Robotics: DeepMind porta i foundation model nel mondo fisico
- Alto1X Neo Home: il primo humanoid in vendita ai consumer (con asterischi)
- AltoPhysical Intelligence π0.5: la prima policy che generalizza a case nuove
- AltoFigure Helix: il primo VLA generalista che pilota humanoid a tutto corpo
- Altoπ0 di Physical Intelligence: il primo foundation model per robotica trasferibile tra embodiment
- AltoGR-2: ByteDance preaddestra robot su 38.000 ore di video umani da internet
- MedioOpenVLA: il primo Vision-Language-Action model open source per robotica generalista
- AltoRT-2: il robot che ragiona con un language model