HuggingGPT: ChatGPT come cervello che orchestra 800 modelli AI
In una frase Microsoft Research usa ChatGPT come planner centrale che decompone task complessi e delega l'esecuzione a modelli HuggingFace specializzati per visione, audio e NLP.
Un singolo modello AI non riesce a fare tutto bene: GPT-4 è ottimo con il testo, ma non genera immagini; Stable Diffusion genera immagini, ma non capisce istruzioni complesse. Cosa succederebbe se usassimo un LLM intelligente per orchestrare tanti modelli specializzati?
È esattamente quello che fa HuggingGPT (chiamato anche JARVIS): ChatGPT riceve la richiesta dell'utente, la scompone in sotto-task, sceglie il modello più adatto da HuggingFace per ognuno, li esegue in sequenza o in parallelo, e poi assembla i risultati in una risposta finale coerente.
Il risultato è un sistema che risponde a richieste multi-modali complesse — "analizza questo audio e descrivi l'immagine che ti suggerisce" — usando centinaia di modelli specializzati, tutti coordinati da un LLM come direttore d'orchestra.
Aziende
Microsoft Research, Zhejiang University
Tool
HuggingGPT, JARVIS, ChatGPT
Tag
Fonti