In pratica
È il motore dietro ChatGPT, Claude, Gemini. Quando integri un LLM nel tuo prodotto paghi a token e ottieni un servizio che capisce e produce testo. La qualità dipende molto dal modello scelto e dal prompt che gli fornisci.
Termini collegati
Visto in azione
59 voci che lo citano- MedioLocal AI 2025: Ollama, MLX LM, Apple Foundation Models triplicano la velocità
- MedioPrivate LLM: modelli fino a 7B direttamente su iPhone e Mac, completamente offline
- MediovLLM v0.7: chunked prefill default e v1 engine ridisegnato
- AltoNVIDIA NIM 1.0: inferenza LLM containerizzata con API OpenAI-compatibile
- MedioWebLLM e LLM in WASM: inferenza LLM nel browser tramite WebGPU senza server
- MedioContinuous Batching per LLM Serving: survey e stato dell'arte di Orca, vLLM, SGLang, TGI
- AltoDeepMind: 60+ casi di Specification Gaming nei LLM documentati
- MedioFlashInfer 0.2: libreria attention per LLM serving con paged KV cache e RoPE fusion
- AltoDisaggregazione prefill/decode: GPU separate per TTFT basso e alto throughput
- AltoKV Cache Quantization FP8/INT8: doppia la densità di utenti per GPU
- AltoAnythingLLM 1.0: lo stack RAG locale completo per uso enterprise
- MedioLLM Compressor: toolkit unificato per quantizzazione e sparsità con integrazione vLLM nativa
- MedioCyberSecEval 2: benchmark Meta per la sicurezza degli LLM
- MedioDify 0.7: workflow agentici visivi con RAG integrato e 10+ LLM
- MedioDrEureka: LLM automatizza il trasferimento simulazione-reale senza tuning manuale
- MedioNeMo Guardrails 0.8: il framework NVIDIA per aggiungere safety rails a qualsiasi LLM
- MedioMicrosoft RoboGen: generare task, skill e ambienti robotici dal testo
- MedioSGLang: throughput LLM 6.4x con RadixAttention e prefix caching condiviso
- MedioContinue.dev: IDE extension open source per connettere qualsiasi LLM al proprio editor
- AltoCodestral: il modello di codice di Mistral, 22B parametri e 80+ linguaggi