SmolVLM2 (HuggingFace): VLM da 2.2B per video e immagini su hardware consumer

In una frase HuggingFace rilascia SmolVLM2, modello visivo da 2.2B parametri che supera modelli 3x più grandi su video e immagini. Gira con 8GB di RAM. Primo VLM tiny con comprensione dei frame video. Porta il multimodale su laptop e dispositivi mobili.

Da rivedere Fonte ufficiale

CondividiLinkedIn X

Fino a poco tempo fa, se volevi un modello AI capace di analizzare video e immagini, avevi bisogno di un computer potente con una scheda grafica professionale. Per la maggior parte delle persone e delle piccole aziende, era inaccessibile.

SmolVLM2, rilasciato da HuggingFace il 20 gennaio 2025, è costruito su un'idea precisa: fare meno con meno. Il modello ha solo 2.2 miliardi di parametri — piccolo perfino rispetto agli standard dei modelli "efficienti" — ma grazie a una selezione di dati molto curata riesce a capire sia immagini che frame di video meglio di modelli tre volte più grandi.

La cosa davvero nuova è il supporto ai video: SmolVLM2 non vede solo foto, ma può analizzare sequenze di frame, capire cosa succede nel tempo, rispondere a domande su un breve video. Questa capacità, fino ad allora riservata a modelli enormi come Gemini o GPT-4o, ora gira con 8 gigabyte di RAM — la quantità di memoria di un laptop medio.

Per un developer che vuole aggiungere analisi di immagini e video a un'app senza pagare API a consumo o comprare hardware dedicato, SmolVLM2 è la risposta più pratica disponibile nel 2025.