Hypervisor e AI: Proxmox, VMware, Nutanix spiegati semplice

Partiamo dall’inizio, perché questa è una di quelle cose dove se non capisci il filo logico, tutto il resto sembra magia nera.

Immagina di voler mettere in piedi un agente AI in azienda — qualcosa che risponde alle domande dei colleghi sui documenti interni, oppure che elabora automaticamente i ticket del supporto. Per farlo hai bisogno di far girare un modello AI (tipo Ollama con Qwen o Mistral) su un server che sia sempre acceso, isolato dal resto dei sistemi, con risorse dedicate e che tu possa aggiornare o riavviare senza toccare il server di produzione dell’ERP.

Questa cosa — “un computer che gira dentro un altro computer, isolato, con le sue risorse” — si chiama macchina virtuale, o VM.

Cos’è un hypervisor, detto senza gergo

Un hypervisor è il software che ti permette di creare e gestire macchine virtuali su un server fisico. È quello strato che si mette tra l’hardware (CPU, RAM, dischi, schede di rete) e i sistemi operativi che ci vuoi far girare sopra.

Pensa a un palazzo con tanti appartamenti. Il palazzo è il server fisico — hai tot CPU, tot RAM, tot disco. Gli appartamenti sono le VM — ognuna ha il suo “pezzetto” di risorse, il suo sistema operativo, i suoi processi. L’hypervisor è l’amministratore del condominio che assegna gli appartamenti, decide chi prende quanto spazio, e fa in modo che gli inquilini non si pestino i piedi a vicenda.

Il risultato pratico è che su un solo server fisico puoi far girare contemporaneamente: un server Windows con l’ERP, un Ubuntu con il database, un altro Ubuntu con il servizio AI, e un CentOS con il firewall software. Ognuno isolato dagli altri, ognuno con la sua quota di CPU e RAM, ognuno che crasha per conto suo senza tirare giù gli altri.

Questo è fondamentale per l’AI per un motivo specifico: i modelli linguistici sono affamati di RAM. Un modello decente tipo Qwen2.5-7B vuole almeno 8-10 GB di RAM per sé. Se lo metti sul server di produzione condiviso con l’ERP, rischi di saturare la memoria e di mandare in crisi tutto. Con una VM dedicata, invece, gli assegni esattamente quello che gli serve e il resto del server non lo vede nemmeno.

I quattro hypervisor che incontri nelle aziende italiane

Non tutti gli hypervisor sono uguali, e la scelta di solito dipende da quanto è grande l’azienda, quanto vuole spendere, e da chi ha installato il server originariamente.

Proxmox VE è la scelta delle PMI italiane e di chi ha messo le mani in pasta con Linux. È completamente gratuito (open source, anche se ha un piano di supporto a pagamento), ha un’interfaccia web decente, gestisce sia VM classiche che LXC container (che sono ancora più leggeri delle VM), e negli anni è diventato sufficientemente maturo da stare in produzione senza paura. Se hai un NAS Synology o un mini server HP da qualche parte in azienda, probabilmente su ci gira Proxmox. Per deployare AI è la soluzione più semplice: crei un container LXC Ubuntu, installi Ollama, e sei a posto in venti minuti.

VMware vSphere/ESXi è lo standard nelle grandi aziende e nelle PA. È qui da vent’anni, è solidissimo, lo conoscono tutti i sistemisti enterprise. Il problema è che Broadcom lo ha comprato nel 2023 e ha cambiato drasticamente i prezzi e i modelli di licenza, quindi tante aziende si stanno guardando intorno. Per l’AI funziona benissimo: crei una VM Ubuntu, installi quello che vuoi, e il comportamento è identico a un server fisico. L’unico punto da verificare prima di comprare GPU per un nodo ESXi è che la tua licenza supporti il passthrough GPU o vGPU — non tutte le versioni lo permettono, e scoprirlo dopo aver speso tremila euro in una scheda video è seccante.

Nutanix è quello che trovi nelle banche, nelle assicurazioni, e nelle grandi aziende con infrastruttura HCI (iperconvergente — dischi, rete e calcolo in un unico stack). Ha un’ottima interfaccia di gestione (Prism Central) e una governance dei permessi molto granulare. Per deployare AI non cambia nulla rispetto agli altri: una VM Linux con Ollama dentro è una VM Linux con Ollama dentro, indipendentemente da cosa c’è sotto. L’unica cosa pratica da sapere è che su Nutanix i volumi di storage sono distribuiti su più nodi, quindi se vuoi tempi di caricamento del modello accettabili, assegna alla VM AI storage su SSD NVMe locale e non su un volume HDD condiviso.

Sangfor è meno conosciuto ma è presente in alcune PA italiane e aziende manifatturiere, spesso come alternativa più economica a VMware o Nutanix. Tecnicamente funziona, ha un suo Container Service integrato, e Ollama ci gira senza problemi. L’unica nota seria da mettere nel verbale: è un vendor cinese, e prima di instanziare un modello AI con accesso a documenti sensibili su infrastruttura Sangfor è opportuno fare una valutazione del rischio sulla supply chain con il CISO aziendale. Non è un pregiudizio, è prassi corretta per qualsiasi vendor con questa esposizione geopolitica.

Come si mette in pratica

Una volta che hai scelto il tuo hypervisor e creato una VM Ubuntu 22.04 con almeno 16 GB di RAM e 4 core, il deployment dell’AI è identico su tutti e quattro. Installi Docker, crei questo docker-compose.yml:

services:
  ollama:
    image: ollama/ollama
    volumes:
      - ollama_data:/root/.ollama
    ports:
      - "11434:11434"
  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    environment:
      - OLLAMA_BASE_URL=http://ollama:11434
    ports:
      - "3000:8080"
    depends_on:
      - ollama
volumes:
  ollama_data:

Fai docker compose up -d, aspetti che Ollama si avvii, poi docker exec -it ollama ollama pull qwen2.5:7b per scaricare il modello. Apri il browser su http://IP-della-VM:3000 e hai il tuo ChatGPT privato aziendale funzionante. Metti Caddy o nginx davanti con HTTPS e autenticazione, e puoi aprirlo ai colleghi senza che i dati escano dalla tua rete.

La GPU è opzionale. Se ce l’hai, il passthrough funziona su tutti e quattro gli hypervisor (con configurazione diversa per ognuno). Se non ce l’hai, un modello 7B quantizzato su CPU risponde in 3-5 secondi a testa — lento per uso intenso, ma perfetto per un tool interno che elabora documenti o risponde a domande su procedure aziendali.

Cosa fare

Se non hai ancora un hypervisor e vuoi iniziare: scarica Proxmox VE, installalo su qualsiasi server con 32 GB RAM e un SSD, e hai un laboratorio AI aziendale pronto.
Se hai già VMware o Nutanix: crea una VM Ubuntu 22.04 dedicata con 16 GB RAM, installa Docker e usa il docker-compose sopra — sei operativo in meno di un’ora.
Prima di connettere il servizio AI a documenti sensibili: verifica che la VM sia isolata in una VLAN dedicata e che l’accesso sia autenticato — un LLM esposto senza auth su rete interna è un rischio che non vale la pena correre.