Continued Pre-Training — Come Specializzare un LLM su Dominio Senza Distruggerlo

Cos'è: Continued Pre-Training (CPT) è la tecnica di specializzare un modello linguistico general-purpose continuando il suo pre-training (la fase di apprendimento auto-supervisionato sui dati testuali, non il fine-tuning supervisionato) su un corpus verticale specifico — finanziario, legale, medico, scientifico. Il caso fondativo pubblico è BloombergGPT (Wu et al., marzo 2023): 50 miliardi di parametri addestrati su 363 miliardi di token di dati finanziari proprietari Bloomberg combinati con 345 miliardi di token di dati general-purpose. Il problema centrale di CPT è il catastrophic forgetting: il rischio che il modello, mentre impara il dominio nuovo, dimentichi le competenze generali apprese nel pre-training originale. Le tecniche di mitigation (replay buffer, learning rate warmup, mixing ratios) sono diventate parte del playbook standard.

Tre opzioni per adattare un LLM a un dominio: RAG, fine-tuning, CPT

Quando un'organizzazione vuole un LLM che "sappia di più" su un dominio specifico — terminologia legale italiana, regolamenti SEC, letteratura medica oncologica — ha tre opzioni principali, in ordine crescente di costo e profondità.

La prima è RAG (Retrieval-Augmented Generation): si tiene il modello generale così com'è e si recupera contesto rilevante dai documenti del dominio al momento della query, iniettandolo nel prompt. Vantaggi: zero training, costi marginali, conoscenza aggiornabile in tempo reale. Limiti: il modello non "impara" il dominio, lo legge ogni volta; la qualità dipende dal recupero; rimane limitato dal context window.

La seconda è il fine-tuning supervisionato: si addestra il modello su esempi etichettati di input-output per task specifici (classificazione, estrazione, Q&A). Vantaggi: il modello impara comportamenti specifici. Limiti: serve dataset etichettato (costoso da costruire); insegna pattern di task ma non "conoscenza di dominio" profonda; pochi miliardi di token addestramento totale.

La terza è il Continued Pre-Training: si riparte dal checkpoint del modello base e si continua il pre-training auto-supervisionato (next-token prediction, lo stesso obiettivo del training originale) su un corpus di dominio di grande dimensione, tipicamente centinaia di miliardi di token. Vantaggi: il modello assorbe lessico, costrutti sintattici, conoscenza fattuale del dominio in modo strutturato e generalizzabile. Limiti: costo computazionale alto (10-50% del costo del pre-training originale), serve corpus di dominio molto grande, rischio di catastrophic forgetting.

BloombergGPT: il caso di studio pubblico più documentato

BloombergGPT (Wu, Irsoy, Lu, Dabravolski, Dredze, Gehrmann, Kambadur, Rosenberg, Mann, marzo 2023) è il primo modello di dominio pubblicato con un paper dettagliato sui trade-off di CPT. Bloomberg ha sfruttato il proprio archivio storico — quattro decadi di news finanziarie, filings SEC, ricerche di analisti, dati di mercato in formato testuale — accumulando un corpus di 363B token altamente specializzato. A questo hanno aggiunto 345B token di dati general (The Pile, C4, Wikipedia) per un totale di 708B token. Il modello è 50B parametri, architettura BLOOM (decoder-only standard).

Una scelta cruciale: invece di partire da un modello pre-addestrato e continuare il training, Bloomberg ha addestrato da zero sul mix combinato. Non è esattamente "Continued Pre-Training" nella definizione stretta — è "pre-training mixed-domain" — ma le lezioni metodologiche sono identiche, e successivi lavori hanno mostrato che fare CPT (partire da un Llama base) produce risultati comparabili a costo molto minore. Da circa 2024 in poi, fare CPT su un modello aperto pre-addestrato è la pratica standard.

Risultati di BloombergGPT: su benchmark finanziari (Financial PhraseBank sentiment, FPB, FiQA SA, ConvFinQA) batte modelli di dimensione comparabile (GPT-NeoX 20B, BLOOM 176B) di margini significativi (5-15 punti). Sul benchmark generale (MMLU, BIG-bench) è competitivo con BLOOM 176B nonostante sia 3.5x più piccolo — il dominio non ha distrutto le capacità generali grazie al mixing ratio bilanciato.

Catastrophic forgetting: il problema centrale e le mitigation

Il catastrophic forgetting è un fenomeno classico delle reti neurali studiato dagli anni '80 (McCloskey & Cohen, 1989): quando una rete viene addestrata sequenzialmente su due task, l'addestramento sul secondo task tende a sovrascrivere la rappresentazione del primo. Per gli LLM, questo si manifesta come perdita di competenze generali (ragionamento, conoscenza di senso comune, lingue non rappresentate nel corpus di dominio) durante CPT.

Le strategie di mitigation più usate sono tre. Replay buffer: durante il CPT, mescolare i dati di dominio con una percentuale (10-30%) di dati general-purpose simili a quelli del pre-training originale. Questo "ricorda" al modello le distribuzioni generali e impedisce che la loss su quei dati cresca. BloombergGPT usa una proporzione circa 51/49 dominio/general; lavori successivi mostrano che 70/30 o 80/20 a favore del dominio funziona quando il modello base è già robusto.

Learning rate warmup e scheduling: ricominciare il training con un learning rate molto basso (10-100x più piccolo di quello finale del pre-training originale) e crescere gradualmente. Un LR troppo alto causa "shock" ai pesi e accelera il forgetting. Tipicamente si usa cosine decay con warmup di 100-1000 step.

Selective parameter updating: tecniche come LoRA (Low-Rank Adaptation) che limitano gli aggiornamenti a un sottospazio piccolo di parametri preservano per costruzione i pesi originali. Sono efficienti ma producono adattamenti più superficiali rispetto al CPT full-parameter — vanno bene per dominii ristretti, meno per acquisizione di conoscenza profonda.

Casi recenti: Med-PaLM 2, Saul-7B, Aria, e il pattern emergente

Dal 2023 in poi il pattern CPT si è generalizzato. Med-PaLM 2 (Google Research, maggio 2023) parte da PaLM 2 e fa CPT su corpus medico (paper PubMed, linee guida cliniche, casi anonimizzati) raggiungendo 86.5% su USMLE-style questions, livello "expert physician". Saul-7B (Equall.ai, marzo 2024) parte da Mistral 7B e fa CPT su 30B token di documenti legali francesi e europei, diventando il primo LLM aperto specializzato sul diritto continentale europeo. Aria (Rhymes AI / Argenti, ottobre 2024) è un caso italiano: CPT su corpus di letteratura italiana e dati culturali specifici per migliorare il supporto linguistico oltre quello di un modello generale.

Il pattern è chiaro: CPT batte RAG quando il dominio ha lessico specializzato denso (medicina, diritto, finanza, dove le parole stesse hanno significati tecnici), quando serve ragionamento di dominio (combinare conoscenze specifiche per dedurre, non solo recuperare), e quando il volume di documenti di dominio supera quello che un context window può contenere. Batte fine-tuning quando l'obiettivo è competenza generale di dominio, non un task specifico.

Costo: CPT su un modello da 7B richiede tipicamente 50-200 GPU-day H100 per processare 50-100B token, ovvero 50.000-200.000 dollari di compute affittato. Per un 70B, da 500.000 a 2 milioni. Confrontato con il pre-training from-scratch (10-100 milioni per un modello 70B competitivo), è un ordine di grandezza meno costoso. Per un'organizzazione che ha un corpus di dominio proprietario, CPT è oggi l'opzione di customizzazione più potente economicamente sostenibile.

Link alla fonte originale

arxiv.org/abs/2303.17564 →

Paper BloombergGPT, Wu et al. Bloomberg LP, marzo 2023. Modello non rilasciato pubblicamente (uso interno Bloomberg), ma il paper documenta metodologia e risultati in modo riproducibile. Letteratura successiva su CPT si è sviluppata su modelli aperti (Llama, Mistral) come base.