2023

158 voci

18 dicembre 2023 Medio

AnythingLLM: RAG completo in locale con UI web e vector DB embedded

AnythingLLM porta un sistema RAG full-stack con interfaccia web, supporto Ollama/LocalAI come backend LLM, e vector database embedded, tutto offline in un singolo container.

AI locale AnythingLLMRAG LocaleVector DB

15 dicembre 2023 Medio

StyleTTS2: TTS open source con style diffusion supera Voicebox sull'intelligibilità

StyleTTS2 usa style diffusion e adversarial training per generare voci con naturalezza umana su LJSpeech, open source, superando Voicebox sull'intelligibilità.

Voce & audio StyleTTS2TTSStyle Diffusion

12 dicembre 2023 Medio

Phi-2: il modello 2.7B di Microsoft che fa più di un 13B

Microsoft Research rilascia Phi-2, 2.7B parametri addestrato su dati 'textbook quality'. Batte LLaMA 2 7B e Mistral 7B in benchmark di reasoning, gira su laptop. Filosofia 'small + clean data'.

AI locale MicrosoftPhi-2SLM

11 dicembre 2023 Pietra miliare

Mixtral 8x7B: Mixture of Experts open source che batte GPT-3.5

Mistral rilascia Mixtral 8x7B via magnet link senza preavviso: SMoE con 8 esperti da 7B, 13B parametri attivi su 47B totali. Performance pari/superiore a GPT-3.5. Apache 2.0.

Modelli open source MistralMixtralMoE

7 dicembre 2023 Alto

Tesla Optimus Gen 2: manipola uova crude con sensori di forza per dito

Tesla mostra Optimus Gen 2 con velocità di movimento 30% superiore, sensori di forza in ogni dito e la capacità dimostrata di manipolare uova crude senza romperle.

Robotica TeslaOptimusHumanoid Robot

6 dicembre 2023 Pietra miliare

Google Gemini 1.0: multimodale nativo in tre taglie

Google annuncia Gemini Ultra/Pro/Nano, prima famiglia di modelli multimodali nativi (testo, immagini, audio, video). Ultra batte GPT-4 su MMLU 90.0% vs 86.4%. Demo video controversa.

Modelli foundation GoogleGeminimultimodal

5 dicembre 2023 Medio

Jan.ai: app desktop open source per LLM locali con thread e server locale

Jan.ai lancia la prima versione stabile: client LLM locale open source con thread persistenti, sistema di estensioni e server OpenAI-compatible integrato.

AI locale Jan.aiDesktop AppOpen Source

5 dicembre 2023 Alto

MLX: Apple Research porta il machine learning nativo su Apple Silicon

Apple Research rilascia MLX, framework ML open source ottimizzato per M1/M2/M3: sfrutta la unified memory condivisa tra CPU e GPU per inference LLM con performance vicine a GPU dedicata.

AI locale MLXApple SiliconM1 M2 M3

5 dicembre 2023 Alto

Mobile ALOHA: manipolazione whole-body a basso costo per task domestici complessi

Stanford combina le braccia bimanuali ALOHA con una piattaforma mobile su ruote, creando il primo sistema low-cost per manipolazione whole-body. Con 50 dimostrazioni impara a cucinare, fare il bucato e pulire, aprendo la strada ai robot domestici accessibili.

Robotica Mobile ALOHAbimanualmobile robot

29 novembre 2023 Medio

JetBrains AI Assistant: AI nativa in tutti gli IDE JetBrains

JetBrains lancia AI Assistant out of beta, portando refactoring intelligente, documentazione automatica e code chat in tutti i suoi IDE: IntelliJ, PyCharm, GoLand, WebStorm e altri.

AI per il codice JetBrainsAI AssistantIntelliJ

22 novembre 2023 Alto

Yi-34B: modello bilingue EN/ZH nella top-3 open weight di novembre 2023

01.ai di Kai-Fu Lee pubblica Yi-34B: 34B parametri addestrati su 3.1T token, architettura Llama-2 modificata, bilingue EN/ZH, top-3 open weight a novembre 2023.

Modelli foundation Yi-34B01.aiKai-Fu Lee

21 novembre 2023 Alto

Claude 2.1: contesto 200K e meno hallucination

Anthropic rilascia Claude 2.1: context window 200K token (~500 pagine), 2× riduzione di risposte false su domande borderline, tool use in beta. Risposta a GPT-4 Turbo 128K.

Modelli foundation AnthropicClaude 2.1200K context

21 novembre 2023 Alto

OpenAI lancia la TTS API: sei voci, streaming e prezzi aggressivi

OpenAI lancia la TTS API con 6 voci, pricing a 1000 caratteri per $0.015, bassa latenza per streaming e integrazione diretta nell'ecosistema ChatGPT e Assistants.

Voce & audio OpenAITTSAPI

16 novembre 2023 Medio

Google MusicLM: generare musica da testo diventa pubblico

Google rende MusicLM disponibile pubblicamente via Google Labs: generazione musicale da descrizione testuale in stile specifico, prima integrazione consumer di music AI da un big tech.

Voce & audio GoogleMusicLMMusic Generation

15 novembre 2023 Medio

Solar 10.7B: depth upscaling per fondere layer di due LLaMA-2

Upstage presenta Solar 10.7B, creato fondendo i layer intermedi di due LLaMA-2 fine-tuned (depth upscaling), vincendo la MBTI-OpenLLM leaderboard a novembre 2023.

Modelli foundation SolarUpstageDepth Upscaling

14 novembre 2023 Medio

LLaVA-NeXT e VideoLLaVA: LLaVA conquista il video

LLaVA si estende al video con frame sampling e positional encoding temporale, raggiungendo risultati competitivi su NExT-QA e ActivityNet senza training video dedicato.

AI multimodale VLMVideo UnderstandingLLaVA

12 novembre 2023 Alto

Amazon Q Developer: AI assistant che conosce AWS dall'interno

Amazon Q Developer porta l'AI coding direttamente nelle console AWS e negli IDE: spiega risorse cloud, debugga errori, migra codice Java legacy e aggiorna dipendenze in automatico.

AI per il codice AWSIDE AssistantCode Migration

7 novembre 2023 Pietra miliare ★ Sul mio lavoro

Ollama 0.1: pull e run di LLM locali con un comando, stile Docker

Ollama lancia la versione 0.1: CLI minimale per scaricare e avviare modelli LLM in locale con un singolo comando, abbattendo la complessita' di setup a zero.

AI locale OllamaCLILLM Locale

6 novembre 2023 Alto

OpenAI DevDay: GPT-4 Turbo, GPTs, Assistants API in un'ora

Alla prima conferenza developer di OpenAI: GPT-4 Turbo (128K context, prezzi più bassi), GPTs (versioni personalizzate di ChatGPT shareabili), Assistants API (agenti gestiti). Pivot prodotto + sviluppo.

Modelli foundation OpenAIDevDayGPT-4 Turbo

4 novembre 2023 Medio

Grok-1: il chatbot di xAI con accesso ai dati real-time di X

xAI di Elon Musk lancia Grok-1, un modello integrato con X (Twitter) per informazioni in tempo reale, con architettura MoE a 314B parametri rilasciata come open weights nel marzo 2024.

Modelli foundation Grok-1xAIElon Musk

4 novembre 2023 Medio

Pika 1.0: testo e immagine in video per il grande pubblico

Pika Labs lancia Pika 1.0: piattaforma consumer per generazione video da testo o immagine, animazione di regioni specifiche, controllo aspect ratio. Raggiunge 500k utenti Discord. Finanziata da Khosla Ventures a 55 milioni di dollari.

Generazione immagini & video Pika 1.0text-to-videoconsumer AI

1 novembre 2023 Pietra miliare

AI Safety Summit di Bletchley: il primo accordo internazionale sui rischi dell'AI frontier

28 nazioni firmano la Bletchley Declaration sui rischi catastrofici dell'AI frontier. Nasce il primo AI Safety Institute (UK). Primo accordo diplomatico internazionale specificamente dedicato all'AI.

Sicurezza AI BletchleyAI Safety Summitinternational

1 novembre 2023 Pietra miliare

Microsoft 365 Copilot GA: disponibile a 30 dollari per utente al mese

Microsoft 365 Copilot raggiunge la disponibilità generale a 30 USD/utente/mese. Arriva anche Copilot Studio per agenti personalizzati enterprise.

AI enterprise Microsoft 365CopilotGA

30 ottobre 2023 Pietra miliare

Executive Order 14110: la prima regolamentazione federale USA sull'AI sicura

Biden firma il più ampio ordine esecutivo mai emesso sul'AI: test di sicurezza obbligatori prima del rilascio dei modelli frontier, standard NIST per il red-teaming, ricerca su watermarking e nuove regole sull'immigrazione per talenti AI.

Sicurezza AI Executive OrderBidenAI safety

26 ottobre 2023 Medio

Whisper Large v3: ASR multilingue migliorato con 5 milioni di ore di training

Whisper Large v3 riduce il tasso di errore sulle lingue a basse risorse, migliora la precisione dei timestamp e aggiunge nuove lingue, rimanendo il modello ASR open source più largamente deployato.

Voce & audio Whisper Large v3ASRspeech recognition

25 ottobre 2023 Alto

Latent Consistency Models: generazione immagini in 4 step in tempo reale

Tsinghua University pubblica LCM: distillazione di un diffusion model che riduce il campionamento da 50 passi a 4 con perdita minima di qualita. LCM-LoRA porta ogni modello SD a 10x velocita. Prima tecnica per generazione real-time su hardware consumer.

Generazione immagini & video LCMlatent consistencydistillation

25 ottobre 2023 Alto

Zephyr-7B: DPO su Mistral 7B supera Llama-2-70B-chat su MT-Bench

HuggingFace addestra Zephyr-7B con dSFT + Direct Preference Optimization su Mistral 7B base, ottenendo MT-Bench score superiore a Llama-2-70B-chat con 10x meno parametri.

Modelli foundation ZephyrHuggingFaceDPO

25 ottobre 2023 Medio

Zoom AI Companion: riassunto meeting e action item inclusi nel piano base

Zoom integra AI Companion nei piani Pro senza costi aggiuntivi: riassume le riunioni in real-time, estrae action item automatici e risponde nelle chat Zoom.

AI enterprise ZoomAI CompanionMeeting AI

23 ottobre 2023 Medio

Sanctuary AI Phoenix: il robot che capisce istruzioni in linguaggio naturale complesse

Sanctuary AI presenta Phoenix con Carbon AI, un sistema neuro-simbolico che combina ragionamento simbolico e reti neurali per seguire istruzioni linguistiche articolate senza programmazione esplicita.

Robotica Sanctuary AIPhoenixCarbon AI

22 ottobre 2023 Alto

Eureka: NVIDIA usa GPT-4 per scrivere funzioni reward e addestrare robot esperti

NVIDIA presenta Eureka, il primo sistema che usa un LLM (GPT-4) per generare automaticamente funzioni di reward per il reinforcement learning robotico. Il sistema raggiunge manipolazione destrezza a livello esperto, incluso lo spinning della penna, senza reward design manuale.

Robotica EurekaNVIDIAreward function

20 ottobre 2023 Alto

Open X-Embodiment: il primo dataset robotico generalista cross-robot

Google DeepMind e 33 laboratori raccolgono 527k episodi da 22 robot diversi: il primo dataset unificato per addestrare policy generaliste che funzionano su piattaforme multiple.

Robotica Google DeepMindOpen X-EmbodimentDataset

19 ottobre 2023 Alto

LangGraph: agenti stateful come grafi ciclici con loop e branching

LangChain lancia LangGraph, framework per costruire agenti come grafi di nodi con stato persistente, supporto a cicli, branching condizionale ed esecuzione parallela di workflow complessi.

Agenti LangGraphLangChainStateful Agents

16 ottobre 2023 Alto

MITRE ATLAS v2: la tassonomia degli attacchi AI aggiornata con casi reali

MITRE rilascia ATLAS v2 (Adversarial Threat Landscape for AI Systems), tassonomia estesa delle tecniche di attacco ai sistemi AI con casi studio reali di adversarial ML e mapping a MITRE ATT&CK.

Sicurezza AI MITREATLASAdversarial ML

16 ottobre 2023 Medio

OpenAgents: agenti reali per non programmatori via interfaccia web

XLab (SUTD Singapore) pubblica OpenAgents: una piattaforma deployabile con tre agenti specializzati (navigazione web, analisi dati, esecuzione codice) accessibili da browser senza API key. Prima dimostrazione di capacita' agentiche reali per utenti comuni, con codice open source completo.

Agenti OpenAgentsweb browsingdata analysis

11 ottobre 2023 Medio

WizardCoder: istruzioni evolutive per generare codice a livello GPT-4

Il team WizardLM applica Evol-Instruct al codice, riscrivendo iterativamente i problemi per aumentarne la complessità. WizardCoder-34B raggiunge il 73.2% su HumanEval, pareggiando GPT-4 al momento del rilascio.

AI per il codice WizardCoderEvol-InstructHumanEval

6 ottobre 2023 Medio

AgentBench: la prima benchmark che misura gli LLM come agenti reali

Tsinghua presenta AgentBench, prima benchmark completa per agenti LLM su 8 ambienti operativi. Rivela un gap enorme tra GPT-4 e i migliori modelli open-source.

Agenti TsinghuaAgentBenchBenchmark

5 ottobre 2023 Alto

LLaVA-1.5: vision-language open source che batte i benchmark con pochi dati

LLaVA-1.5 combina CLIP ViT-L, un MLP projection a due strati e Vicuna per superare 11 benchmark multimodali usando solo 1.2M di dati di fine-tuning.

Generazione immagini & video LLaVAVision-LanguageCLIP

4 ottobre 2023 Alto

Falcon-180B: il modello open-source più grande al mondo nel 2023

Il Technology Innovation Institute rilascia Falcon-180B, il modello open-source più grande disponibile con 180 miliardi di parametri e 3,5 trilioni di token di training, che supera Llama 2 su tutta la linea.

Modelli foundation Falcon-180BTIIopen source

3 ottobre 2023 Alto

DALL-E 3: immagini che seguono davvero le istruzioni

OpenAI lancia DALL-E 3 integrato in ChatGPT: aderenza al prompt drasticamente migliorata rispetto a DALL-E 2, caption synthesis automatica per il training, testo nelle immagini più leggibile.

Generazione immagini & video OpenAIDALL-E 3Text-to-Image

3 ottobre 2023 Alto

CogVLM: visual expert separato per evitare la degradazione testuale

Tsinghua introduce CogVLM con visual expert indipendente dai parametri LLM, eliminando la performance degradation su testo puro e raggiungendo SOTA su VQA e OCR.

AI multimodale CogVLMVisual ExpertVQA

28 settembre 2023 Alto

AudioPaLM: il primo LLM che processa e genera audio come testo

AudioPaLM fonde PaLM-2 con un tokenizer audio per creare un LLM che processa nativamente token audio e di testo, abilitando traduzione vocale con preservazione dell'identità del parlante.

Voce & audio AudioPaLMGoogleaudio LLM

28 settembre 2023 Medio

HuggingFace Chat UI: interfaccia chat open source per qualsiasi modello HF

HuggingFace rilascia il codice sorgente di chat.huggingface.co: interfaccia web self-hostable via Docker per Llama 2, Mistral, Code Llama e modelli custom, con supporto per tool calls e web search.

AI locale HuggingFace Chat UIopen sourcechat interface

27 settembre 2023 Alto

Mistral 7B: l'Europa entra nella partita open-source

Mistral AI (Parigi), startup di tre mesi fondata da ex Meta/DeepMind, rilascia Mistral 7B con licenza Apache 2.0. Batte Llama 2 13B sulla maggior parte dei benchmark con metà dei parametri.

Modelli open source MistralMistral 7BOpen Source

27 settembre 2023 Alto

PAIR: jailbreak automatico LLM-contro-LLM

CMU e UPenn pubblicano PAIR: un LLM attaccante che affina automaticamente i propri prompt contro un LLM bersaglio, trovando jailbreak efficaci in meno di 20 tentativi senza intervento umano.

Sicurezza AI PAIRjailbreakautomated

27 settembre 2023 Alto

NVIDIA TensorRT-LLM: compilazione automatica di LLM per GPU con FP8 e multi-GPU

NVIDIA open-source TensorRT-LLM, un framework per compilare e ottimizzare LLM per GPU NVIDIA con supporto FP8, INT4, sparse attention e tensor parallelism multi-GPU out of the box.

Infrastruttura AI NVIDIATensorRT-LLMFP8

26 settembre 2023 Medio

Microsoft Copilot in Windows 11: AI di sistema per consumer

Con l'update 23H2, Windows 11 integra Copilot di default come pannello laterale di sistema. Bing Chat viene rebrandato in Copilot. AI come feature OS, non app.

AI enterprise MicrosoftCopilotWindows 11

25 settembre 2023 Alto

Anthropic + AWS: 1.25 miliardi per portare Claude su Amazon Bedrock

AWS investe 1.25 miliardi di dollari in Anthropic. Claude diventa disponibile su Amazon Bedrock con infrastruttura Trainium e Inferentia dedicata.

AI enterprise AnthropicAWSClaude

25 settembre 2023 Alto

ChatGPT vede, sente e parla: voice + vision in app mobile

ChatGPT Plus su iOS/Android riceve conversazione vocale (5 voci sintetiche) e input immagini (GPT-4V). Da chat testuale a assistente conversazionale completo.

AI multimodale OpenAIChatGPTvoice

25 settembre 2023 Alto

GPT-4V: ChatGPT impara a vedere (per davvero)

OpenAI attiva in ChatGPT le capacità visive di GPT-4 (annunciate sei mesi prima) e aggiunge voce. Si può caricare un'immagine, parlarne, chiedere analisi. La multimodalità entra nel prodotto consumer.

AI multimodale OpenAIGPT-4VVision

21 settembre 2023 Medio

Slack AI: riassunti canali e ricerca intelligente nella chat aziendale

Slack integra AI nativa nei piani Pro+: riassume canali e thread, risponde a domande sulla cronologia conversazioni, supporta Claude e OpenAI come provider LLM.

AI enterprise SlackSalesforceProductivity

18 settembre 2023 Alto

Adobe Firefly Enterprise: generazione immagini indemnified per i brand

Adobe lancia Firefly Enterprise in Creative Cloud Teams con garanzia legale copyright (indemnification) e controllo delle brand guidelines aziendali su ogni immagine generata.

AI enterprise AdobeFireflyGenerative AI

15 settembre 2023 Medio

ExLlamaV2: inferenza LLM quantizzata ad alta velocità su GPU consumer

ExLlamaV2 introduce il formato EXL2 con bit-rate misti per layer (2-8 bit), offrendo throughput superiore a llama.cpp su GPU NVIDIA e permettendo di far girare modelli 70B su singola RTX 3090.

Infrastruttura AI ExLlamaV2EXL2Quantizzazione

14 settembre 2023 Alto

Medusa: speculative decoding multi-head senza draft model separato, 2.2x speedup

Cornell/UIUC introducono Medusa: N teste di decodifica aggiuntive sul modello principale predicono N token in avanti simultaneamente, 2.2x speedup senza necessità di un secondo modello draft.

Infrastruttura AI MedusaSpeculative DecodingMulti-Head

14 settembre 2023 Alto

Backdoor negli LLM fine-tuned: comportamenti nascosti attivabili su comando

Ricercatori dimostrano che LLM fine-tuned possono contenere backdoor comportamentali silenti, attivabili solo in presenza di trigger specifici invisibili durante la normale valutazione del modello.

Sicurezza AI BackdoorSleeper AgentsFine-tuning

13 settembre 2023 Alto

Adobe Firefly 1.0 GA: image generation su licensed content, Generative Fill in Photoshop

Adobe lancia Firefly 1.0 GA, primo modello image generation addestrato solo su contenuti licenziati, integrato in Photoshop come Generative Fill per uso commerciale sicuro.

Generazione immagini & video Adobe FireflyGenerative FillLicensed Content

12 settembre 2023 Medio

IP-Adapter: trasferisci stile e soggetto da una foto di riferimento

Tencent AI Lab pubblica IP-Adapter, un adapter leggero per Stable Diffusion che condiziona la generazione su un'immagine reference senza riqualificare il modello base.

Generazione immagini & video TencentIP-AdapterStable Diffusion

10 settembre 2023 Alto

Open Interpreter: LLM che esegue codice in locale

Un LLM che gira in locale e può scrivere ed eseguire codice Python, JS e Shell in autonomia, navigare il web e modificare file sul tuo computer.

AI locale Open InterpreterCode ExecutionLLM

6 settembre 2023 Alto

Phi-1.5: reasoning da modello grande in soli 1,3 miliardi di parametri

Microsoft Research dimostra che 1,3B parametri addestrati su dati sintetici di qualità 'da manuale scolastico' producono capacità di ragionamento multi-step comparabili a modelli 5 volte più grandi.

Modelli foundation Phi-1.5small language modelsynthetic data

5 settembre 2023 Alto

LM Studio: GUI desktop per scaricare e girare modelli GGUF con server OpenAI

LM Studio lancia la prima versione pubblica: interfaccia grafica per esplorare, scaricare e usare modelli LLM locali con chat integrata e server OpenAI-compatible.

AI locale LM StudioGGUFGUI Desktop

1 settembre 2023 Alto

Meta AudioCraft: suite open source per musica e audio da testo

Meta rilascia AudioCraft, suite open source che include MusicGen per generare musica strutturata e AudioGen per suoni ambientali, entrambi controllabili da descrizione testuale.

Voce & audio MetaAudioCraftMusicGen

28 agosto 2023 Medio

ChatGPT Enterprise: GPT-4 senza limiti, dati blindati

OpenAI lancia il piano enterprise di ChatGPT: GPT-4 illimitato, context 32K, advanced data analysis incluso, SOC 2, dati cliente non usati per training. Risposta alle preoccupazioni IT.

AI enterprise OpenAIChatGPT EnterpriseGPT-4

25 agosto 2023 Medio

SuperAGI: la prima piattaforma open source per agenti con interfaccia grafica

SuperAGI offre una piattaforma open source per agenti autonomi con dashboard web, marketplace di tool e la possibilita' di avviare agenti in background senza scrivere codice. Prima soluzione a portare l'esperienza 'monitor agent' a utenti non programmatori. Concorrente di AutoGPT ma orientata alla produzione.

Agenti SuperAGIautonomous agentopen source

24 agosto 2023 Alto

Code Llama: il coding model open-source serio

Meta rilascia Code Llama (7B, 13B, 34B), fine-tune di Llama 2 specializzato su codice. Tre varianti per task: base, Python-specifico, instruction-tuned. Licenza commerciale come Llama 2.

AI per il codice MetaCode LlamaOpen Source

20 agosto 2023 Alto

AnimateDiff: porta il movimento a qualsiasi modello Stable Diffusion

Shanghai AI Lab pubblica AnimateDiff: un motion module plug-in che aggiunge consistenza temporale a qualsiasi checkpoint SD esistente, trasformando ogni modello image-only in un generatore video senza riaddestrarlo.

Generazione immagini & video AnimateDiffmotion moduleStable Diffusion

19 agosto 2023 Alto

DeepSeek-Coder v1: la Cina entra nel mercato dei modelli di coding open source

DeepSeek rilascia modelli di coding da 1B a 33B parametri addestrati su 2 trilioni di token con FIM avanzato, battendo tutti gli open source su HumanEval.

AI per il codice DeepSeek-Codercode modelFIM

15 agosto 2023 Medio

OpenFlamingo (LAION/UW): riproduzione open di Flamingo con few-shot visivo multi-immagine

LAION e University of Washington rilasciano OpenFlamingo, riproduzione open-source di Flamingo di DeepMind: apprendimento few-shot visivo da esempi immagine+testo, varianti da 3B e 9B parametri. Primo modello open per ricerca multimodale senza costi API.

AI multimodale OpenFlamingoFlamingoopen source

7 agosto 2023 Medio

Google TPU v5e: chip AI ottimizzato per il costo dell'inferenza enterprise

Google annuncia TPU v5e, un chip AI cost-optimized con 4x meglio performance per dollaro rispetto a TPU v4 per l'inferenza, disponibile tramite Google Kubernetes Engine per workload containerizzati.

Infrastruttura AI TPU v5eGoogleinference

4 agosto 2023 Medio

Sourcegraph Cody: AI con contesto sull'intera codebase, non solo sul file aperto

Sourcegraph lancia Cody in beta, un AI code assistant che comprende l'intera codebase — dipendenze, architettura, relazioni tra file — grazie all'indice di codice di Sourcegraph.

AI per il codice SourcegraphCodyCodebase Context

1 agosto 2023 Alto

OWASP LLM Top 10: le 10 vulnerabilità critiche delle app basate su AI

OWASP pubblica la prima lista ufficiale delle 10 vulnerabilità più critiche nelle applicazioni LLM, da prompt injection a insecure output handling, diventata lo standard di riferimento del settore.

Sicurezza AI OWASPLLM Top 10Vulnerabilità

28 luglio 2023 Alto

RT-2: il robot che ragiona con un language model

RT-2 di DeepMind unisce vision-language pretraining e controllo robotico: il robot trasferisce ragionamento semantico da web a braccio fisico senza addestramento specifico.

Robotica DeepMindRT-2VLA

28 luglio 2023 Alto

FlashAttention-2: riscrittura con 2x speedup, MQA/GQA e head-dim 256

Tri Dao riscrive FlashAttention con 2x speedup su FA1: migliore parallelismo su seq-len, supporto head-dim fino a 256, query parallelism per MHA, MQA e GQA. Standard de facto per il training.

Infrastruttura AI FlashAttention-2AttentionTransformer

28 luglio 2023 Alto

Orca: imparare il ragionamento di GPT-4 tramite explanation traces

Microsoft Research addestra Orca 13B su spiegazioni passo-passo di GPT-4 (explanation traces), superando ChatGPT su BigBench e AGIEval con 13 miliardi di parametri.

Modelli foundation OrcaMicrosoftImitation Learning

26 luglio 2023 Alto

Stable Diffusion XL 1.0: il salto di qualità dell'open source

Stability rilascia SDXL 1.0 (base 3.5B + refiner 6.6B), output 1024×1024 nativi, prompt più corti. Open source con licenza commerciale, pesi su HuggingFace.

Generazione immagini & video Stability AISDXLStable Diffusion

18 luglio 2023 Pietra miliare

Llama 2: i pesi diventano commercialmente usabili

Meta rilascia Llama 2 (7B, 13B, 70B) con licenza che permette uso commerciale fino a 700M utenti attivi. Per la prima volta un LLM serio è davvero deployabile in produzione senza dipendere da un'API.

Modelli open source MetaLlama 2Open Weights

17 luglio 2023 Alto

SeamlessM4T: il modello universale di Meta per la traduzione vocale in 100+ lingue

SeamlessM4T è il primo sistema multimodale a gestire speech-to-text, text-to-speech e speech-to-speech in oltre 100 lingue con un unico modello, alimentando le funzioni di traduzione in tempo reale di Meta.

Voce & audio SeamlessM4TMetaspeech translation

15 luglio 2023 Alto

AutoGen: Microsoft formalizza la comunicazione agente-agente

Microsoft Research pubblica AutoGen, un framework dove si definiscono agenti con ruoli diversi e li si lascia conversare tra loro per risolvere un task. Primo framework a formalizzare il pattern 'agent-to-agent communication'. Diventa fondamento di molti workflow enterprise multi-agente.

Agenti AutoGenmulti-agentMicrosoft Research

13 luglio 2023 Alto

WormGPT: il primo LLM commerciale per il crimine informatico

Appare sul dark web il primo LLM addestrato esplicitamente per attività criminali: nessun filtro di sicurezza, fine-tuning su dati malware, venduto in abbonamento mensile.

Sicurezza AI WormGPTdark LLMcybercrime

11 luglio 2023 Alto

Claude 2: 100K token di contesto, accesso consumer aperto

Anthropic lancia Claude 2 con context window di 100.000 token (~75.000 parole) e apre claude.ai al pubblico generale (inizialmente USA e UK). Long-context entra nel mainstream.

Modelli foundation AnthropicClaude 2100K Context

11 luglio 2023 Alto

IBM lancia watsonx.ai: foundation model con governance per il mondo enterprise

IBM presenta watsonx.ai a Think 2023: piattaforma con i modelli Granite addestrati su dati curati, studio di fine-tuning, AI factsheet per la governance e piena tracciabilità dei dati. Pensata per banche, sanità e pubblica amministrazione.

AI enterprise IBMwatsonxGranite

10 luglio 2023 Alto

Attacchi adversariali universali sugli LLM: jailbreak trasferibili tra GPT-4, Claude e Gemini

Zou et al. (CMU) dimostrano suffix ottimizzati che jailbreakano simultaneamente GPT-3.5/4, Claude e Gemini: prima prova sistematica di trasferibilità degli attacchi tra modelli diversi.

Sicurezza AI JailbreakAdversarial AttackCMU

9 luglio 2023 Alto

Reflexion: agenti che imparano dagli errori senza gradient updates

MIT e Northeastern propongono Reflexion: agenti che fanno self-reflection in linguaggio naturale dopo ogni fallimento, accumulando insight in memoria episodica senza modificare i pesi.

Agenti MITNortheasternReflexion

8 luglio 2023 Alto

MetaGPT: agenti con ruoli aziendali che scrivono software insieme

MetaGPT assegna a ogni agente LLM un ruolo aziendale specifico (PM, Architect, Engineer, QA) e li fa collaborare producendo codice funzionante da un singolo requisito testuale.

Agenti MetaGPTMulti-AgentSoftware Engineering

5 luglio 2023 Alto

llama.cpp K-quants: la quantizzazione intelligente che ha cambiato i modelli locali

llama.cpp introduce le K-quants (Q2_K–Q8_K): quantizzazione per-layer che assegna bit diversi in base all'importanza del tensore. Q4_K_M raggiunge la qualità di Q5_1 con file più piccoli, diventando lo standard de facto per tutti i modelli GGUF moderni.

AI locale llama.cppK-quantsGGUF

25 giugno 2023 Medio

GPT-Engineer: genera un intero progetto software da una sola frase

Anton Osika pubblica GPT-Engineer su GitHub: descrivi il software che vuoi in linguaggio naturale, l'agente fa domande di chiarimento, poi scrive tutti i file e li esegue. 50k stelle in una settimana. Prima implementazione virale del concetto 'one-shot project generator'.

Agenti GPT-Engineercode generationproject scaffolding

22 giugno 2023 Alto

AWQ: quantizzazione 4-bit activation-aware per deployment edge con accuracy superiore a GPTQ

MIT Han Lab pubblica AWQ: quantizzazione 4-bit che preserva i pesi salientes identificati tramite analisi delle attivazioni, ottenendo migliore accuracy-throughput di GPTQ per deployment edge.

Infrastruttura AI AWQQuantizzazione4-bit

20 giugno 2023 Medio

Lakera Guard: protezione real-time per LLM in produzione

Lakera Guard è un'API SaaS che protegge applicazioni LLM da prompt injection, jailbreak e PII leakage con latenza inferiore al millisecondo, pensata per uso in ambienti di produzione ad alto traffico.

Sicurezza AI LakeraPrompt InjectionJailbreak

16 giugno 2023 Alto

Voicebox: Meta porta il flow matching nel TTS con editing audio e 6 lingue

Voicebox usa flow matching con masked training per sintetizzare, editare e trasferire stili vocali in 6 lingue, senza cloning esplicito o fine-tuning.

Voce & audio VoiceboxTTSFlow Matching

15 giugno 2023 Alto

IDEFICS: la prima replica open source di Flamingo

HuggingFace rilascia IDEFICS, replica open weight di Flamingo in versione 9B e 80B, addestrata su LAION-5B e WikiMedia con few-shot visual in-context learning.

AI multimodale VLMOpen SourceFew-Shot Learning

14 giugno 2023 Medio

WizardLM: istruzioni evolutive generate da GPT-4 per il fine-tuning

WizardLM usa Evol-Instruct — istruzioni semplificate e complicate automaticamente da GPT-4 — e raggiunge il 97% di ChatGPT su WizardEval con un modello 70B.

Modelli foundation WizardLMEvol-InstructFine-tuning

13 giugno 2023 Alto

Function calling: GPT impara a parlare in JSON

OpenAI introduce nell'API la 'function calling': il modello restituisce JSON strutturato conforme a uno schema, abilitando integrazioni affidabili con tool esterni senza prompt engineering fragile.

Infrastruttura AI OpenAIFunction CallingTool Use

12 giugno 2023 Medio

Bark: TTS open source con risate, sospiri e musica dal testo

Suno AI rilascia Bark su HuggingFace: modello TTS open source capace di generare paralinguistica — risate, sospiri, effetti sonori, musica — direttamente da prompt testuali.

Voce & audio BarkSuno AITTS

8 giugno 2023 Alto

GitHub Copilot X: chat in IDE, test generation e Copilot per CLI

GitHub annuncia Copilot X con chat integrata in VS Code basata su GPT-4, generazione automatica di PR description e test, un assistente per la CLI e voice coding in preview.

AI per il codice GitHubCopilotChat

8 giugno 2023 Alto

Phi-1: 1.3B parametri che battono modelli 10x più grandi su codice

Microsoft Research pubblica Phi-1, 1.3B parametri addestrati su dati sintetici di alta qualità ('textbooks'), che supera modelli 10x più grandi su HumanEval.

Modelli foundation Phi-1MicrosoftSmall Models

6 giugno 2023 Alto

HuggingFace TGI: container Docker production-ready per LLM serving con continuous batching

HuggingFace rilascia Text Generation Inference, un container Docker ottimizzato per servire LLM in produzione con continuous batching, tensor parallelism e Flash Attention 2 integrati.

Infrastruttura AI HuggingFaceTGILLM Serving

5 giugno 2023 Medio

Gorilla: LLaMA fine-tuned che chiama le API senza sbagliare

UC Berkeley presenta Gorilla, LLaMA fine-tuned con retrieval per chiamate API accurate: riduce l'hallucination sulle API dall'83% al 3%, superando GPT-4 su questo task.

Agenti UC BerkeleyGorillaLLaMA

1 giugno 2023 Alto

Diffusion Policy: l'imitazione robotica diventa multi-modale con i modelli diffusivi

MIT e Columbia applicano i modelli di diffusione denoising all'imitation learning robotico, apprendendo distribuzioni di azione multi-modali invece di policy deterministiche. Ottengono un miglioramento del 46,9% sui benchmark di manipolazione.

Robotica Diffusion Policyimitation learningdenoising diffusion

30 maggio 2023 Alto

InstructBLIP: instruction tuning visivo su 26 dataset batte GPT-4V

Salesforce estende BLIP-2 con instruction tuning visivo su 26 dataset: benchmark superiori a GPT-4V su visual reasoning con architettura open.

AI multimodale InstructBLIPInstruction TuningVisual Reasoning

30 maggio 2023 Alto

Tree of Thoughts: l'LLM che ragiona esplorando rami alternativi

Princeton e DeepMind propongono Tree of Thoughts: l'LLM genera e valuta molteplici percorsi di ragionamento come un albero di ricerca, superando nettamente il Chain-of-Thought.

Agenti PrincetonDeepMindTree of Thoughts

26 maggio 2023 Alto

Stable Diffusion XL 0.9: dual-encoder e risoluzione 1024x1024

Stability AI lancia SDXL 0.9 beta con architettura dual-encoder e modello refiner separato per immagini 1024x1024 di qualità fotografica.

Generazione immagini & video Stable Diffusion XLSDXLStability AI

23 maggio 2023 Alto

Microsoft Build 2023: Copilot ovunque, uno standard di plugin condiviso

Alla Build 2023 Microsoft annuncia Windows Copilot, Copilot in Edge e nei prodotti 365, e adotta lo standard plugin di OpenAI. Strategia: 'AI co-pilot' come UI primaria.

AI enterprise MicrosoftBuildCopilot

22 maggio 2023 Alto

Falcon 40B: il primo open weight a battere LLaMA 65B

Il Technology Innovation Institute UAE rilascia Falcon 40B: addestrato su 1T token di RefinedWeb, batte LLaMA 65B sui benchmark con licenza commerciale.

Modelli foundation FalconOpen WeightsTII

18 maggio 2023 Alto

SoundStorm: Google genera 30 secondi di dialogo naturale in mezzo secondo

SoundStorm usa MaskGIT su token EnCodec per generare audio in parallelo anziché token per token: 30s di dialogo in 0.5s, mantenendo coerenza del parlante.

Voce & audio SoundStormAudio GenerationGoogle

17 maggio 2023 Alto

Voyager: l'agente AI che impara Minecraft per sempre, senza reset

NVIDIA crea Voyager, agente lifelong-learning in Minecraft che usa GPT-4 per scrivere skill in JavaScript e accumularle in una libreria persistente, senza mai dimenticare.

Agenti NVIDIAVoyagerLifelong Learning

16 maggio 2023 Alto

Palantir AIP: primo agente LLM su dati operativi classificati in demo pubblica

Prima dimostrazione pubblica di un agente LLM enterprise su dati operativi reali e sensibili: routing logistico militare via linguaggio naturale. AIP isola l'output del modello dai dati grezzi con un layer di sandboxing. Svolta per AI in difesa e governo.

AI enterprise PalantirAIPenterprise agent

15 maggio 2023 Medio

TidyBot: un robot da riordino che impara le tue preferenze tramite LLM

Stanford presenta TidyBot, un sistema robotico che usa i LLM per personalizzare il comportamento di riordino domestico a partire da pochi esempi dell'utente. Raggiunge il 91,2% di completamento dei task, dimostrando la fattibilità della personalizzazione LLM-driven nella manipolazione.

Robotica TidyBotStanfordLLM planning

14 maggio 2023 Alto

privateGPT: chat con i tuoi documenti, completamente offline

imartinez pubblica privateGPT: RAG completo su PDF e TXT con LLM locale, zero dati cloud. La tua knowledge base rimane sul tuo disco.

AI locale privateGPTRAGPDF Offline

12 maggio 2023 Alto

GPT4All v2 (Nomic AI): AI locale con un clic per tutti

Nomic AI lancia GPT4All v2: installer desktop che scarica e avvia modelli quantizzati senza riga di comando, con LocalDocs per interrogare documenti privati senza connessione internet.

AI locale GPT4AllNomic AIconsumer AI

11 maggio 2023 Alto

LocalAI: drop-in replacement OpenAI con modelli locali e privacy totale

mudler pubblica LocalAI, un server REST compatibile OpenAI che esegue modelli GGML/GGUF in locale: migra le tue app da cloud a self-hosted cambiando solo l'URL.

AI locale LocalAIOpenAI APIPrivacy

10 maggio 2023 Alto

Google PaLM 2: il modello che fa volare Bard

Al Google I/O 2023, PaLM 2 sostituisce LaMDA in Bard. Quattro taglie (Gecko, Otter, Bison, Unicorn), multilingue forte e ragionamento migliorato. Apre a Med-PaLM 2 e Sec-PaLM.

Modelli foundation GooglePaLM 2Bard

8 maggio 2023 Alto

ServiceNow Now Assist: LLM nativo nell'ITSM aziendale

ServiceNow integra un LLM direttamente nella piattaforma ITSM: riassume i ticket aperti, suggerisce risoluzioni e automatizza l'escalation senza plugin esterni.

AI enterprise ServiceNowNow AssistITSM

4 maggio 2023 Medio

MPT-7B: il primo modello open-source esplicitamente pensato per uso commerciale

MosaicML lancia MPT-7B sotto licenza Apache 2.0 con 65.000 token di contesto grazie ad ALiBi, primo modello open progettato esplicitamente per deployment commerciale senza restrizioni.

Modelli foundation MPT-7BALiBiApache 2.0

4 maggio 2023 Alto

StarCoder: il primo modello open di coding con dati trasparenti

BigCode e HuggingFace rilasciano StarCoder, 15.5B parametri addestrato su 1 trilione di token da The Stack con 86 linguaggi e governance dei dati opt-out.

AI per il codice StarCoderBigCodeopen source

2 maggio 2023 Alto

MiniGPT-4 (KAUST): chatbot visivo open-source con un singolo layer di allineamento

KAUST mostra come costruire un visual chatbot capace collegando BLIP-2 e Vicuna con un singolo projection layer addestrato su 5.000 coppie immagine-testo. Prima dimostrazione che bastano ore di training su una GPU per creare un VLM funzionante.

AI multimodale MiniGPT-4KAUSTBLIP-2

20 aprile 2023 Alto

LLaVA: Visual Instruction Tuning apre il multimodal open source

LLaVA combina CLIP + LLaMA con 150k esempi generati da GPT-4 per creare il primo assistente visivo open source di qualità.

AI multimodale LLaVAVisual Instruction TuningOpen Source

19 aprile 2023 Medio

StableLM: Stability AI entra nel gioco degli LLM open

Stability AI rilascia StableLM 3B e 7B con licenza CC BY-SA 4.0, addestrati su 1.5T token. Risposta open ai modelli chiusi, ma quality ancora dietro LLaMA.

Modelli open source Stability AIStableLMopen source

18 aprile 2023 Medio

Microsoft Presidio: anonimizzazione PII nei pipeline LLM

Microsoft Presidio raggiunge la disponibilità generale: framework open source per rilevare e anonimizzare dati personali nei testi elaborati da LLM, con NER e regex per 50+ tipi di entità.

Sicurezza AI MicrosoftPresidioPII

16 aprile 2023 Alto

Vicuna-13B: il chatbot open che raggiunge il 90% di ChatGPT

LMSYS fa il fine-tuning di LLaMA-13B su 70.000 conversazioni ShareGPT e ottiene un chatbot open-source che GPT-4, usato come giudice, valuta al 90% della qualità di ChatGPT.

Modelli foundation VicunaLLaMAfine-tuning

13 aprile 2023 Alto

AWS Bedrock: AI managed multi-modello su cloud Amazon

AWS annuncia Bedrock, servizio managed che espone Claude (Anthropic), Jurassic-2 (AI21), Stable Diffusion e i propri Titan via una API unica. Risposta a Azure OpenAI.

Infrastruttura AI AWSBedrockmanaged AI

7 aprile 2023 Alto

Generative Agents: 25 agenti AI simulano una società in Smallville

Stanford crea 25 agenti LLM che simulano vita quotidiana in un villaggio virtuale, con memoria episodica, riflessione e planning. Prima società artificiale credibile.

Agenti StanfordGenerative AgentsSmallville

3 aprile 2023 Alto

BabyAGI: 200 righe di Python che scatenano il dibattito sugli agenti autonomi

Yohei Nakajima pubblica BabyAGI, task manager autonomo in ~200 righe Python con GPT-4 e Pinecone che crea ed esegue subtask in loop infinito, virale su Twitter in 24 ore.

Agenti BabyAGIAutonomous AgentTask Management

30 marzo 2023 Alto

AutoGPT: il primo agente AI virale

Un developer pubblica su GitHub AutoGPT: dato un obiettivo testuale, il sistema chiama GPT-4 in loop per pianificare task, eseguirli e auto-criticarsi. In due settimane diventa la repo più stellata della storia.

Agenti AutoGPTAgentsOpen Source

27 marzo 2023 Alto

GPT4All: LLM offline click-and-run per utenti non tecnici

Nomic AI rilascia GPT4All, un installer punto-e-clicca per eseguire modelli LLM offline su Windows, Mac e Linux, abbassando la barriera tecnica al minimo.

AI locale GPT4AllNomic AILLM Offline

25 marzo 2023 Alto

oobabooga text-generation-webui: la prima interfaccia grafica per LLM locali

L'interfaccia web open source più popolare per eseguire LLM locali: supporta GPTQ, GGML, transformers con UI Gradio, estensioni, character card e modalità chat/instruct.

AI locale oobaboogatext-generation-webuilocal LLM

23 marzo 2023 Medio

ChatGPT Plugins: l'LLM diventa interfaccia verso il web

OpenAI lancia i plugin per ChatGPT: il modello può navigare il web, eseguire codice Python in sandbox, prenotare voli (Expedia, Kayak), fare la spesa (Instacart). Primo grande esperimento di tool use mainstream.

Agenti OpenAIChatGPTPlugins

22 marzo 2023 Medio

Codeium: code assistant gratuito per 70+ linguaggi, alternativa a Copilot

Codeium lancia il suo assistente AI per il codice completamente gratuito per gli sviluppatori individuali, con supporto a oltre 70 linguaggi e integrazione in VS Code, JetBrains e Vim.

AI per il codice CodeiumCode CompletionFree

22 marzo 2023 Medio

HuggingGPT: ChatGPT come cervello che orchestra 800 modelli AI

Microsoft Research usa ChatGPT come planner centrale che decompone task complessi e delega l'esecuzione a modelli HuggingFace specializzati per visione, audio e NLP.

Agenti Microsoft ResearchHuggingGPTJARVIS

22 marzo 2023 Alto

Llama Guard: un LLM addestrato a fare da guardiano di altri LLM

Meta rilascia Llama Guard, classificatore fine-tuned su LLaMA che distingue input e output pericolosi in 6 categorie di danno, progettato come layer di sicurezza plug-in per applicazioni LLM.

Sicurezza AI MetaLlamaGuardContent Safety

21 marzo 2023 Medio

Google Bard: la risposta (in ritardo) a ChatGPT

Google apre Bard in preview pubblica in US e UK, basato su una versione leggera di LaMDA. Accoglienza tiepida: lento, prudente, meno utile di ChatGPT.

Modelli foundation GoogleBardLaMDA

20 marzo 2023 Medio

Runway Gen-1: video style transfer guidato da testo o immagine

Runway lancia Gen-1: il primo modello commerciale che applica uno stile visivo testuale o da immagine di riferimento a un video esistente, frame per frame. Precursore della linea Gen-2/Gen-3.

Generazione immagini & video Runway Gen-1video style transfertext-to-video

17 marzo 2023 Medio

Microsoft Semantic Kernel: l'SDK enterprise per orchestrare LLM

Microsoft apre al pubblico Semantic Kernel, un SDK open source in C#, Python e Java per integrare LLM in applicazioni aziendali. Introduce 'skills' (funzioni AI riusabili) e 'planner' (catene automatiche verso un obiettivo). Diventa il layer standard di orchestrazione AI per i Copilot Microsoft.

Agenti Semantic KernelMicrosoftSDK

17 marzo 2023 Medio

Tesla Optimus Gen 1: il robot bipede cammina autonomamente in fabbrica

Tesla pubblica il primo video di Optimus Gen 1 che cammina e compie task autonomamente in un ambiente di fabbrica reale. Target di prezzo dichiarato: 20.000 dollari.

Robotica TeslaOptimusHumanoid Robot

16 marzo 2023 Pietra miliare

Microsoft 365 Copilot: GPT-4 integrato in Word, Excel, Teams e Outlook

Microsoft annuncia Copilot in tutta la suite M365: AI su 300 milioni di utenti aziendali, alimentato da GPT-4 e Microsoft Graph per contesto aziendale.

AI enterprise Microsoft 365CopilotGPT-4

15 marzo 2023 Alto

PyTorch 2.0 e torch.compile: compilazione del grafo senza riscrivere il codice

PyTorch 2.0 introduce torch.compile basato su TorchDynamo e il backend Inductor, offrendo fino a 2x di speedup su transformer senza modifiche al codice, rendendo PyTorch competitivo con XLA/JAX in produzione.

Infrastruttura AI PyTorch 2.0torch.compileTorchDynamo

14 marzo 2023 Alto

Claude entra in scena: il primo competitor serio di ChatGPT

Anthropic lancia Claude, assistente AI addestrato con Constitutional AI. Stesso giorno del rilascio di GPT-4. Due versioni: Claude (full) e Claude Instant (più veloce ed economico).

Modelli foundation AnthropicClaudeConstitutional AI

14 marzo 2023 Alto

Google Workspace AI (Duet AI): l'assistente AI integrato in G Suite

Google annuncia Duet AI per Workspace: scrittura assistita in Docs, riassunti email in Gmail, generazione slide in Slides e formule in Sheets.

AI enterprise Google WorkspaceDuet AIProductivity

14 marzo 2023 Pietra miliare

GPT-4: il salto di reasoning che cambia gli standard

OpenAI rilascia GPT-4, multimodale (testo + immagine), con un livello di ragionamento, codice e affidabilità nettamente superiore a GPT-3.5. Supera esami da avvocato, medicina, programmazione.

Modelli foundation OpenAIGPT-4Multimodal

10 marzo 2023 Medio

CAMEL: due agenti LLM che cooperano per risolvere task complessi

KAUST presenta CAMEL, framework role-playing dove un LLM 'AI user' e un LLM 'AI assistant' collaborano autonomamente su task senza intervento umano a ogni step.

Agenti KAUSTCAMELMulti-Agent

10 marzo 2023 Pietra miliare

llama.cpp: LLaMA 7B gira in 4-bit su MacBook CPU

Georgi Gerganov porta LLaMA di Meta su CPU consumer con quantizzazione 4-bit in C++: primo modello foundation praticabile completamente offline su laptop.

AI locale LLaMAllama.cppC++

7 marzo 2023 Alto

Salesforce Einstein GPT: il primo CRM con AI generativa nativa

Salesforce integra AI generativa direttamente nel CRM: suggerisce email di vendita, risposte ai casi e codice per Salesforce Flow, senza uscire dalla piattaforma.

AI enterprise SalesforceEinstein GPTCRM

6 marzo 2023 Pietra miliare

PaLM-E: il primo VLM embodied a 562 miliardi di parametri

Google presenta PaLM-E, modello multimodale da 562B parametri che riceve direttamente immagini e stato robotico nel transformer, capace di pianificazione long-horizon su robot reali.

Robotica GooglePaLM-EVLM

2 marzo 2023 Alto

RoboCat: il primo robot che si auto-migliora senza etichettatura umana

DeepMind presenta RoboCat, un agente robotico che impara da poche dimostrazioni, si auto-addestra raccogliendo nuovi dati, e migliora iterativamente senza intervento umano. Con soli 10 demo raggiunge il 36% di successo su task nuovi.

Robotica RoboCatDeepMindself-improvement

1 marzo 2023 Alto

Agility Robotics Digit v3: il primo humanoid in un magazzino Amazon

Agility Robotics annuncia la partnership con Amazon per Digit v3, robot bipede da magazzino: prima implementazione industriale di un humanoid a scala reale.

Robotica Agility RoboticsDigitHumanoid Robot

1 marzo 2023 Alto

ChatGPT API: gpt-3.5-turbo a $0.002 per 1K token

OpenAI rilascia l'API di ChatGPT (gpt-3.5-turbo) a un decimo del prezzo di text-davinci-003, più API Whisper per lo speech-to-text. Inizia l'era dei wrapper.

Modelli foundation OpenAIChatGPTAPI

24 febbraio 2023 Alto

LLaMA: Meta apre la porta dei modelli foundation alla ricerca

Meta pubblica LLaMA in quattro taglie (7B, 13B, 33B, 65B) accessibili su richiesta a ricercatori. Una settimana dopo, i pesi finiscono in leak pubblico.

Modelli open source MetaLLaMAOpen Weights

23 febbraio 2023 Medio

Amazon CodeWhisperer GA: code assistant AWS-native con reference tracking

Amazon lancia CodeWhisperer in GA con una feature unica: segnala quando il codice generato ricorda snippets open source, indicando licenza e repo sorgente. Free tier per sviluppatori individuali.

AI per il codice AmazonCodeWhispererAWS

10 febbraio 2023 Alto

ControlNet: controllo strutturale per Stable Diffusion senza ritraining

Zhang et al. presentano ControlNet, un adapter che aggiunge controllo di posa, profondità e bordi a Stable Diffusion senza modificare i pesi del modello base.

Generazione immagini & video ControlNetStable DiffusionDiffusion Models

9 febbraio 2023 Alto

Toolformer: l'LLM che impara da solo a usare i tool

Meta AI presenta Toolformer: un LLM che apprende autonomamente quando e come chiamare tool esterni (calcolatrice, Wikipedia, calendario) usando pochi esempi self-supervised.

Agenti Meta AIToolformerTool Use

9 febbraio 2023 Alto

vLLM: throughput LLM 24x con PagedAttention dalla UC Berkeley

Il team della UC Berkeley pubblica vLLM, libreria Python per inference LLM con PagedAttention che gestisce la KV cache come memoria virtuale OS, raggiungendo throughput 24x superiore alla baseline HuggingFace.

Infrastruttura AI vLLMBerkeleyPagedAttention

7 febbraio 2023 Medio

Bing Chat: la search engine cambia per la prima volta in 20 anni

Microsoft integra in Bing un'AI conversazionale (poi rivelata essere basata su GPT-4 pre-rilascio) che risponde con citazioni dirette dalle pagine web. È la 'code red' di Google.

Modelli foundation MicrosoftBing ChatSydney

30 gennaio 2023 Alto

BLIP-2: il Q-Former come ponte tra vision e linguaggio

Salesforce introduce BLIP-2: un modulo Q-Former leggero connette encoder visivo e LLM congelati, SOTA su captioning con 8x meno parametri trainabili.

AI multimodale BLIP-2Q-FormerImage Captioning

27 gennaio 2023 Alto

XTTS: clonazione vocale multilingue zero-shot open source di Coqui AI

XTTS porta la clonazione vocale zero-shot multilingue in open source: basta un campione audio di 6 secondi per replicare una voce in 17 lingue diverse, con licenza MIT.

Voce & audio XTTSCoquimultilingual

26 gennaio 2023 Alto

Code as Policies: il robot programma se stesso da istruzione naturale

Google mostra come un LLM generi direttamente codice robot eseguibile da istruzioni in linguaggio naturale, senza fine-tuning, usando composizione gerarchica di funzioni.

Robotica GoogleCode as PoliciesLLM

26 gennaio 2023 Alto

ElevenLabs esce dalla beta: la voce AI diventa standard per i creator

ElevenLabs esce dalla beta pubblica con voice cloning da 1 minuto di audio, 29 lingue e TTS prosodicamente naturale, imponendosi come riferimento per creator e audiolibri.

Voce & audio ElevenLabsVoice CloningTTS

26 gennaio 2023 Alto

NIST AI Risk Management Framework 1.0

Il governo USA pubblica il primo framework ufficiale per gestire i rischi dell'IA nelle organizzazioni: quattro funzioni core — Govern, Map, Measure, Manage.

Sicurezza AI NISTAI RMFrisk management

20 gennaio 2023 Alto

Speculative Decoding: 2-3x speedup per l'inferenza LLM senza modificare l'output

Chen et al. (Google Brain) pubblicano Speculative Decoding: un modello piccolo propone token, il modello grande li verifica in parallelo. Stesso output, 2-3x più veloce senza toccare la qualità.

Infrastruttura AI Speculative DecodingInferenceAutoregressive

16 gennaio 2023 Pietra miliare

Azure OpenAI Service diventa GA: GPT-4 con SLA enterprise

Microsoft rende disponibili i modelli OpenAI (GPT-3.5-Turbo, Codex, DALL-E) su Azure con SLA enterprise, VNet, compliance HIPAA e SOC2. Svolta epocale per l'adozione AI nelle grandi aziende.

AI enterprise Azure OpenAIMicrosoftenterprise

10 gennaio 2023 Alto

whisper.cpp: trascrizione vocale offline su CPU con C++ puro

Georgi Gerganov porta il modello Whisper di OpenAI su CPU tramite un'implementazione C++ minimale: trascrizione in tempo reale senza GPU e senza cloud.

AI locale WhisperSpeech-to-TextC++

5 gennaio 2023 Pietra miliare

VALL-E: Microsoft clona una voce da 3 secondi di audio con in-context learning

VALL-E clona qualsiasi voce con soli 3 secondi di audio di riferimento, senza fine-tuning, usando in-context learning su token EnCodec. Primo TTS a qualità naturalistica zero-shot.

Voce & audio VALL-ETTSVoice Cloning