Modulo 05

Coding Models: enterprise & open-source

Una panoramica comparativa dei modelli che oggi contano per scrivere codice, con un'attenzione particolare a come si integrano in pipeline enterprise reali. Il modulo 3 ha insegnato a scegliere con criterio; questo modulo popola la shortlist con nomi concreti.

In questo modulo
  1. Cosa rende un modello buono per il coding
  2. Modelli frontier (enterprise closed)
  3. Modelli open-weight
  4. Benchmark: cosa dicono, cosa non dicono
  5. Integrazione in pipeline enterprise
  6. Risorse di approfondimento

1. Cosa rende un modello buono per il coding

Non esiste un singolo numero. Un modello "buono per il coding" è quello che, sul tuo stack, dentro il tuo flusso, produce output che passano i tuoi test. Detto questo, alcune capacità sono trasversalmente importanti.

Capacità rilevanti

2. Modelli frontier (enterprise closed)

I modelli che oggi rappresentano lo stato dell'arte per coding agent reali. Attenzione: la classifica cambia ogni pochi mesi. I nomi che seguono sono le famiglie, non modelli singoli.

Claude (Anthropic)

Attualmente tra i più forti su task di coding end-to-end, specialmente quando richiedono ragionamento e uso di strumenti (leggere file, lanciare test). La famiglia Opus è la top-tier, Sonnet è il workhorse quotidiano, Haiku è il modello "fast" per volumi. È il motore di Claude Code (modulo 7).

GPT (OpenAI) — serie 4/5 e o-series

La famiglia più generalmente disponibile, con integrazione nativa in Azure OpenAI (fondamentale per Blulink). La o-series è la linea reasoning, ottima per problemi difficili anche non di coding.

Gemini (Google)

Contesto gigantesco (1M+ token), multimodalità forte, buona integrazione con Google Cloud. Storicamente più debole su agent tool use coding puro, in rapida crescita.

Quando sceglierne uno rispetto all'altro?

ScenarioPrima sceltaAlternativa
Coding agent per refactoring complessoClaudeGPT reasoning (o-series)
Integrazione nativa ecosistema MicrosoftGPT via Azure OpenAIClaude via Bedrock
Elaborazione di repo enormi in un'unica chiamataGemini o Claude long context
Volumi alti a basso costo per task ripetitiviModelli mid/small di qualunque famigliaOpen-weight self-hosted

3. Modelli open-weight

I modelli "open" (peso dei parametri scaricabile) non sono ancora alla pari con i frontier closed per gli scenari agent-complex, ma coprono molti casi d'uso utili, specialmente a volumi alti o con vincoli di data sovereignty.

Principali famiglie

Quando scegliere un open-weight

Attenzione alle licenze. "Open weights" ≠ "open source". Alcune licenze limitano l'uso commerciale, altre impongono attribuzione, altre escludono use case specifici. Leggere sempre la licenza prima di includere un modello in un prodotto.

4. Benchmark: cosa dicono, cosa non dicono

I principali benchmark da conoscere

Cosa NON dicono i benchmark

La pratica matura: oltre ai benchmark pubblici, mantenere un eval interno con 30–100 prompt rappresentativi delle attività quotidiane di Blulink, e rieseguirlo periodicamente sui modelli candidati. Alcuni spunti di eval interno:

5. Integrazione in pipeline enterprise reali

Pattern 1: modello frontier in cloud per agenti interattivi

Il dev usa Claude Code o Copilot con modelli frontier (Claude, GPT) via tenant enterprise. L'uso interattivo non ha bisogno di volumi estremi: la qualità è prioritaria sul costo per call. Il modulo 7 entra nel dettaglio per Claude Code su Azure DevOps.

Pattern 2: modello mid-tier per pipeline CI

Job automatici (generazione release notes, triage issue, aggiornamento docs) vengono eseguiti da modelli mid-tier (meno costosi), con prompt standardizzati in repo. Il vantaggio è che i costi sono lineari e prevedibili, e non c'è utente umano in attesa.

Pattern 3: modello small/open per volumi alti

Classificazioni, estrazioni, autocompletion su un linguaggio specifico: scenari dove il volume giustifica l'ottimizzazione. Un modello piccolo (eventualmente fine-tuned) self-hosted o su tenant dedicato può abbattere i costi di un ordine di grandezza.

Pattern 4: router

Come anticipato nel modulo 3: una chiamata iniziale a un classificatore decide quale modello gestisce la richiesta. Complica l'architettura ma offre il miglior rapporto qualità/costo su prodotti maturi.

Consiglio operativo. In Blulink si può partire con pattern 1 (frontier per interattivo) + pattern 2 (mid-tier per CI). Sono sufficienti a coprire l'80% del valore nei primi 6 mesi, senza dover costruire infrastruttura complessa.

Risorse di approfondimento