Modulo 03

Model Catalog & scelta del modello

Non esiste "il modello migliore". Esiste il modello giusto per il task, vincolato da costo, latenza, qualità, privacy e compliance. Questo modulo insegna a scegliere come si sceglie qualsiasi componente ingegneristico: con criteri espliciti e trade-off chiari.

In questo modulo
  1. Le famiglie di modelli e chi le produce
  2. Generalisti vs specialistici
  3. Trade-off: costo, latenza, qualità, compliance
  4. Cloud vs locale vs self-hosted
  5. Una matrice di decisione usabile davvero
  6. Risorse di approfondimento

1. Le famiglie di modelli e chi le produce

Il mercato degli LLM è oggi dominato da pochi player che rilasciano famiglie di modelli, ciascuna con varianti di diverse dimensioni e capacità. Per un team enterprise conta conoscere i big ma anche sapere cosa esiste dal lato open-source.

Player principali (aprile 2026, sintetico)

VendorFamigliaPunti di forzaNote enterprise
AnthropicClaude (Opus / Sonnet / Haiku)Coding, tool use, long context, reasoningDisponibile via Azure-like partner (AWS Bedrock, GCP Vertex, Anthropic diretto)
OpenAIGPT-4/5, o-series, miniGeneralismo, ecosistema, multimodalitàDisponibile nativamente via Azure OpenAI (dato rilevante per Blulink)
GoogleGemini Pro / FlashContesto molto lungo, integrazione Google CloudIntegrazione con Vertex AI, offerta europea
MetaLlama 3/4Open weights, self-hostingBase per fine-tuning e per scenari on-prem
MistralMistral / Codestral / MixtralEfficienza, coding dedicato, europeaRilevante per data residency EU
Qwen (Alibaba)Qwen coderOpen weights, coding forteAttenzione a policy aziendali su origine modelli
DeepSeekDeepSeek CoderCoding open, performance alto/basso costoStessa nota sulla origine

La tassonomia in famiglie è utile perché i vendor rilasciano varianti dello stesso modello a diverse taglie: un modello "grande" (migliore qualità, più caro, più lento) e uno o più "piccoli" (più rapidi, più economici, meno potenti). Scegliere la variante giusta è spesso più importante che scegliere il vendor.

Nota su Blulink. Dal momento che l'infrastruttura di riferimento è Azure DevOps, il canale Azure OpenAI è la via più naturale per GPT; per Claude la via enterprise è via Bedrock/Vertex o direttamente via API Anthropic con contratti EU data residency. Open-source tipicamente via self-hosting o via provider europei (es. Mistral, OVH).

2. Generalisti vs specialistici

Modelli generalisti

Sono quelli che leggi sui giornali: GPT, Claude, Gemini. Allenati su enormi dataset multi-dominio, sono forti quasi ovunque e la scelta di default per task nuovi o esplorativi. Tendono a vincere anche su coding, perché le scale e le tecniche di post-training superano la specializzazione.

Modelli specialistici di coding

Pensati, allenati o fine-tuned specificamente su codice. Esempi storici e attuali: Codestral (Mistral), DeepSeek Coder, Qwen Coder, StarCoder, CodeLlama. Possono essere competitivi a parità di taglia, eccellenti per fill-in-the-middle (tipico dell'autocompletion) e per scenari self-hosted dove i big generalisti non sono disponibili.

Modelli multimodali

Aggiungono visione (immagini, PDF), audio, video. Rilevanti per documentazione con screenshot, analisi di UI, estrazione dati da documenti scansionati. Oggi quasi tutti i generalisti top sono multimodali; le versioni piccole spesso no.

Modelli "reasoning" / thinking

Una classe recente (o-series OpenAI, Claude con extended thinking, Gemini Thinking) che investe più token in ragionamento interno prima di rispondere. Costano e latenzano di più, ma su task difficili (algoritmi, bug complessi, refactoring multi-file) portano un salto di qualità che spesso giustifica il costo.

Quando preferire uno specialistico?

3. Trade-off pratici: costo, latenza, qualità, compliance

Ogni scelta di modello è un compromesso tra quattro assi. Nessun modello vince su tutti.

Costo

Si misura quasi sempre in dollari per milione di token (input + output separati). Le differenze sono enormi: un modello "grande" può costare 20–40× un modello piccolo della stessa famiglia. Per un caso d'uso ad alto volume, la differenza tra un modello mid e uno top può trasformare un business case verde in rosso.

Regola operativa: per task ripetitivi ad alto volume, parti dal modello più piccolo che supera la tua soglia di qualità. Non dal più potente.

Latenza

Due componenti: time to first token (quanto aspetti prima di vedere qualcosa) e throughput (quanti token al secondo genera). Per UX interattive (chat, completions in editor) il time-to-first-token conta più di tutto; per job batch (documentazione, analisi) conta il throughput.

I modelli reasoning possono avere latenze di decine di secondi perché "pensano" prima di parlare: ottimo in background, pessimo in autocompletion.

Qualità

I benchmark pubblici (MMLU, HumanEval, SWE-Bench) danno un'idea ma non sostituiscono un eval sui tuoi casi. La pratica matura è costruire un piccolo set di 20–50 prompt rappresentativi dei task aziendali e valutare ogni modello candidato su quel set, con metriche semplici: "passa / non passa", tempo, costo.

Compliance & privacy

Variabili principali:

Distinzione che salva la vita. "API dev key consumer" e "tier enterprise con DPA firmato" sono due prodotti diversi anche quando li vende lo stesso vendor. Non basare scelte aziendali su un test fatto con l'account personale.

4. Cloud vs locale vs self-hosted

Cloud managed (default)

API di vendor: OpenAI, Anthropic, Google. Oppure in tenant dedicato: Azure OpenAI, AWS Bedrock, GCP Vertex. Vantaggi: massima qualità, zero operations, SLA, pagamento a consumo, aggiornamenti automatici. Svantaggi: dati fuori dal perimetro (mitigabile con tier enterprise), costi variabili, dipendenza dal vendor.

Cloud self-hosted

Modelli open-weight deployati su infrastruttura cloud propria (VM con GPU, servizi gestiti come Bedrock Custom Model, Runpod, Modal). Vantaggi: controllo, possibilità di fine-tuning, costi prevedibili sopra certe soglie di volume. Svantaggi: operations significativa, qualità inferiore ai top cloud, aggiornamenti manuali.

On-premises

Modelli open-weight su hardware aziendale. Vantaggi: massima data sovereignty, nessun token esce. Svantaggi: costi capex GPU, ops, difficoltà a tenere il passo coi modelli migliori.

Quando self-hostare vale?

Altrimenti, il default sensato è cloud managed con tenant enterprise. Il 90% dei team che "vogliono self-hostare per principio" finisce per spendere di più e ottenere di meno.

5. Una matrice di decisione usabile davvero

Quando arriva un caso d'uso nuovo, le domande da farsi, in ordine:

  1. Che vincoli di privacy ha? Se i dati non possono uscire → shortlist self-hosted / EU data residency.
  2. Che latenza richiede l'UX? Interactive (<1s TTFT) → modelli fast/flash; batch → qualunque.
  3. Che volumi previsti? Bassi → generalisti top; alti → valuta small + routing.
  4. Il task è standard o richiede reasoning? Standard → mid-tier; reasoning → thinking model.
  5. Contesto necessario per call? Piccolo → qualunque modello; enorme (repo intero) → modelli con contesto lungo (Claude, Gemini).
  6. Serve multimodalità? → restringe la scelta.
  7. Serve fine-tuning su dati proprietari? → open weights o servizi managed con fine-tuning.

Esempio di scelta per tre scenari Blulink

ScenarioScelta pragmaticaPerché
Autocompletion in editor per i dev interni Copilot (modelli piccoli veloci, vedi modulo 8) oppure modello "fast" via Azure OpenAI Latenza bassissima richiesta, volumi altissimi, task ripetitivo
Refactoring e feature development con agente Claude top-tier (o equivalente reasoning model via Azure OpenAI) Task complesso, volumi bassi, il costo per call è trascurabile rispetto al valore dell'ora risparmiata
Classificazione massiva di ticket o email Modello mid-tier con structured output, valutato con eval su dataset interno Volumi alti, task definito, costo lineare

Router pattern

In soluzioni mature, non si sceglie un modello: si costruisce un router che smista le richieste al modello più adatto. Es: query semplici al modello small, query che contengono keyword come "refactor" o richiedono tool use al reasoning model. Un router ben fatto può dimezzare i costi senza perdere qualità percepita.

Insight. La scelta del modello non è una decisione permanente. È una dipendenza che va rivista ogni 3–6 mesi. Metti una review nel calendario, come faresti per le dipendenze NPM critiche.

Risorse di approfondimento