Perché la diversità architetturale produce errori non correlati

Un solo modello sbaglia in modo prevedibile e ripetuto. Più modelli della stessa famiglia tendono a sbagliare insieme. Quvant parte dal presupposto opposto: solo modelli costruiti in modo diverso commettono errori indipendenti.

La tesi: l'indipendenza degli errori non è un dettaglio, è il punto

Se due modelli condividono architettura, dati e addestramento, condividono anche i loro punti ciechi: quando uno si sbaglia con sicurezza, anche l'altro tende a farlo. Mettere ai voti modelli simili dà un'illusione di consenso. Quvant sceglie deliberatamente famiglie architetturali diverse perché i loro errori siano scorrelati: il disaccordo diventa allora un segnale utile, non rumore.

Quattro ruoli, non quattro opinioni

Analyst

Formula la prima analisi sostanziale del caso, esplicitando assunzioni e riferimenti normativi. È il punto di partenza, non la parola finale.

Critic

Cerca attivamente gli errori dell'Analyst: assunzioni deboli, salti logici, riferimenti normativi forzati. Il suo compito è il disaccordo, non l'accordo.

Synthesizer

Concilia analisi e critica in una posizione motivata, conservando i punti di disaccordo residui invece di nasconderli.

Validator

Valuta la sintesi in cieco, senza vedere chi ha proposto cosa, e misura la confidenza complessiva. Se è insufficiente, impone l'HALT.

Perché il Validator lavora in cieco

Il Validator non è un quinto parere allineato agli altri. È scelto da una famiglia architetturale diversa rispetto ai modelli che hanno prodotto analisi, critica e sintesi, proprio perché i suoi errori siano indipendenti dai loro. Opera in cieco — non sa quale modello ha scritto cosa — così da non poter ereditare il groupthink della catena precedente. Questa indipendenza è ciò che rende l'HALT credibile: non è un modello che dubita di sé stesso, ma un revisore esterno con punti ciechi diversi.

L'HALT come comportamento progettato

Quando la confidenza del Validator scende sotto la soglia di 0,70, il sistema si ferma invece di rispondere. L'HALT viene registrato con il Dissent Record completo, così chi legge vede esattamente su cosa i modelli non erano d'accordo. Fermarsi non è un fallimento del sistema: è il comportamento corretto quando le prove non bastano.

Quvant aggiorna nel tempo i modelli specifici assegnati a ciascun ruolo. Il principio resta invariato: ruoli distinti, famiglie architetturali diverse, un Validator indipendente e in cieco. Per questo non leghiamo la metodologia a un numero di versione di un modello.

Guarda la metodologia su un caso reale

Avvia un assessment e osserva i quattro ruoli al lavoro, fino all'HALT con Dissent Record.

Avvia assessment Parla con il team