Modelli Avanzato Anche noto come: Vision-Language-Action Model · VLA

Vision-Language-Action Model

Un Vision-Language-Action Model (VLA) è una rete neurale che riceve in input osservazioni visive e istruzioni in linguaggio naturale, producendo direttamente azioni robot come sequenze di coordinate o comandi articolari. Estende i modelli vision-language (VLM) aggiungendo una testa di azione addestrata su dati di traiettoria robotica reale. Esempi notevoli includono RT-2 (Google DeepMind), OpenVLA (Berkeley), GR-2 (ByteDance) e Helix (Figure AI). Il risultato è un robot capace di interpretare un comando come 'raccogli la tazza rossa' osservando la scena e traducendolo in movimenti fisici precisi.

CondividiLinkedIn X

In pratica

Un developer che lavora con VLA tipicamente part da un checkpoint pre-addestrato (es. OpenVLA su HuggingFace) e lo affina con dati di teleoperazione raccolti sul proprio robot tramite LoRA o full fine-tuning. L'input al modello è un'immagine RGB dalla telecamera del robot concatenata con l'istruzione testuale; l'output è un vettore di azione (posizione dell'end-effector, apertura del gripper). La pipeline di deployment usa ROS 2 o LeRobot per chiudere il loop di controllo a frequenze di 5-10 Hz.

Termini collegati

Multimodal Fine-tuning Foundation model

Visto in azione

8 voci che lo citano

← Tutti i termini