Inferenza Base Anche noto come: Retrieval-Augmented Generation · Generazione aumentata da recupero

RAG

/rag/

Tecnica che recupera testo rilevante da una base dati esterna e lo inserisce nel prompt del modello prima della risposta.

CondividiLinkedIn X

In pratica

Permette a un LLM di rispondere usando documenti aziendali, knowledge base interne o articoli aggiornati senza addestrarlo. Riduce le hallucination su dati specifici e aggiorna la conoscenza senza re-training. È la prima architettura da considerare per un chatbot aziendale.

Termini collegati

Embedding Vector database Context window Hallucination

Visto in azione

21 voci che lo citano

19 giugno 2026

Anthropic lancia in GA la Memory API per Claude: storage persistente per gli agenti AI

Alto
30 ottobre 2025

Cohere Command A: il foundation model che gira on-prem su 2 GPU

Medio
28 marzo 2025

KoboldCpp v1.84: RAG nativo con ChromaDB embedded, zero server separati

Medio
14 ottobre 2024

Oracle OCI Generative AI: Llama 3.1, dedicated clusters e RAG con Oracle Database 23ai

Medio
1 settembre 2024

AnythingLLM 1.0: lo stack RAG locale completo per uso enterprise

Alto
15 luglio 2024

Dify 0.7: workflow agentici visivi con RAG integrato e 10+ LLM

Medio
14 giugno 2024

TabbyML: GitHub Copilot open source con codebase RAG self-hosted

Medio
5 giugno 2024

KoboldCpp aggiunge RAG integrato: LLM offline all-in-one con documenti e character AI

Medio
21 maggio 2024

Copilot+ PC e Recall: Microsoft prova la 'memoria infinita' del PC, scoppia il caso privacy

Alto
16 aprile 2024

Notion AI Q&A: risponde su tutto il workspace aziendale con citazione fonte

Medio
4 aprile 2024

Cohere Command R+: il modello enterprise pensato per RAG e tool use

Medio
20 marzo 2024

Automatic Prefix Caching in vLLM: KV cache condiviso tra richieste per TTFT quasi zero

Alto
20 febbraio 2024

Box AI: domande e riassunti sui documenti aziendali con citazione pagina

Medio
6 febbraio 2024

Indirect Prompt Injection: il vettore di attacco nei sistemi RAG e agenti AI

Alto
15 gennaio 2024

Open WebUI: interfaccia web tipo ChatGPT per Ollama con multiutente e cronologia

Alto
10 gennaio 2024

LlamaIndex 0.10 stable: il framework RAG standard per LLM locali

Medio
18 dicembre 2023

AnythingLLM: RAG completo in locale con UI web e vector DB embedded

Medio
25 agosto 2023

SuperAGI: la prima piattaforma open source per agenti con interfaccia grafica

Medio
14 maggio 2023

privateGPT: chat con i tuoi documenti, completamente offline

Alto
8 dicembre 2021

RETRO: DeepMind anticipa il RAG con il retrieval da 2 trilioni di token

Alto

← Tutti i termini