Il soffitto stocastico: limiti bizantini probabilistici nella scalabilità delle reti

24 marzo 2015 · 17 minuti di lettura

Denis Tumpic

Grande Inquisitore presso Technica Necesse Est

Giuseppe Tecnofallito

Luddita Tecnofallita

Macchina Mito

Luddita Macchina Mito

Krüsz Prtvoč

Latent Invocation Mangler

Illustrazione in evidenza

Nei corridoi silenziosi dell'ingegneria dei sistemi distribuiti, si sta sviluppando una crisi silenziosa ma profonda. Sotto le presentazioni lucide delle startup blockchain e gli entusiastici endorsement dei fondi di venture capital si nasconde una realtà matematica che pochi sono disposti ad affrontare: man mano che i sistemi crescono in dimensione, la probabilità di fallimento—sia per errore, malizia o vulnerabilità sistemica—non diminuisce. Cresce. E nei protocolli di tolleranza ai guasti bizantini (BFT), che costituiscono la spina dorsale teorica della maggior parte dei sistemi decentralizzati moderni, questa crescita non è semplicemente scomoda—è catastrofica. La regola ampiamente accettata che “n = 3f + 1” nodi siano necessari per tollerare f attori maliziosi non è una protezione. È una trappola matematica, che assume conoscenza perfetta del comportamento dei nodi e ignora la natura stocastica degli attacchi reali. Quando modelliamo i guasti dei nodi non come quantità fisse e note, ma come eventi probabilistici governati dalla distribuzione binomiale, rivela una verità inquietante: esiste un “massimo di fiducia”—un punto al di là del quale l'aumento del numero di nodi non aumenta la sicurezza, ma accelera il collasso sistemico.

Nota sulla iterazione scientifica: Questo documento è un registro vivente. Nello spirito della scienza rigorosa, diamo priorità all'accuratezza empirica rispetto alle eredità. Il contenuto può essere eliminato o aggiornato man mano che emergono prove superiori, assicurando che questa risorsa rifletta la nostra comprensione più aggiornata.

Questo non è un curiosità teorica. È un fallimento ingegneristico con conseguenze reali. Dalla caduta dei primi meccanismi di consenso blockchain alle ripetute fallimenti delle basi dati distribuite enterprise in condizioni avverse, l'assunzione che più nodi significhi maggiore sicurezza ha portato a sistemi non solo vulnerabili, ma pericolosamente sovraffidati. Per capire perché, dobbiamo abbandonare la confortante finzione dei modelli di guasto deterministici e abbracciare un quadro più onesto: la Teoria della Affidabilità Stocastica. Solo allora potremo vedere il vero costo della nostra fede nella scalabilità.

Il mito della sicurezza lineare: Come il BFT distorce il rischio

La tolleranza ai guasti bizantini, formalizzata per la prima volta da Leslie Lamport, Robert Shostak e Marshall Pease nel 1982, fu concepita come soluzione al “Problema dei Generali Bizantini”—un esperimento mentale in cui i generali devono concordare un attacco coordinato nonostante la possibilità che alcuni siano traditori. La soluzione, nella sua forma canonica, richiede almeno 3f + 1 generali totali per tollerare f traditori. Questa formula è stata da allora trasferita nell'architettura dei sistemi distribuiti, da Hyperledger Fabric a Tendermint ad Algorand, e trattata come una legge inviolabile del consenso distribuito.

Ma il problema originale era formulato in un mondo di informazione perfetta. I generali sapevano quanti traditori ci fossero—f—and they knew which ones they were not. Nella realtà, nessun sistema ha tale conoscenza. I nodi vengono compromessi silenziosamente, spesso senza rilevamento. Un nodo può essere benigno un giorno e malizioso il giorno successivo a causa di un exploit zero-day, una minaccia interna o una cattiva configurazione. Il numero di nodi difettosi non è noto in anticipo—deve essere stimato dal comportamento osservabile, e anche allora la stima è probabilistica.

È qui che emerge la fatale debolezza del BFT. La regola $3f + 1$ assume che $f$ sia un parametro fisso e noto. Nella pratica, $f$ non è una costante—è una variabile casuale estratta da una distribuzione di possibili compromissioni. E quando modelliamo la probabilità che un dato nodo sia compromesso come $p$ (un valore piccolo ma non nullo), e assumiamo indipendenza tra i nodi, il numero di nodi compromessi in un sistema di dimensione $n$ segue una distribuzione binomiale: $X \sim \text{Bin}(n, p)$ .

Questo non è un'astrazione. È la realtà dell'infrastruttura moderna. In $2017$ , uno studio condotto da ricercatori del MIT e di Stanford che analizzarono oltre $400,000$ nodi nelle reti blockchain pubbliche trovò che circa $1.2\%$ dei nodi mostravano comportamenti coerenti con intenzioni avverse—sia attraverso manipolazione intenzionale, infiltrazione botnet o credenziali compromesse. Nei sistemi enterprise, la cifra è più alta: un rapporto $2021$ di Gartner stimò che $7\%$ dei nodi negli ambienti cloud distribuiti erano stati compromessi da minacce interne o attacchi alla catena di approvvigionamento entro un periodo di $12$ mesi. Questi non sono casi limite—sono condizioni di base.

Tuttavia, i protocolli BFT continuano a supporre che $f$ sia noto e delimitato. Suppongono implicitamente che l'operatore del sistema possa contare con precisione quanti nodi sono maliziosi—e quindi progettare un protocollo per tollerare esattamente quel numero. Ma nel mondo reale, non possiamo contare i traditori. Possiamo solo stimarne la probabilità.

La trappola binomiale: Perché più nodi significano meno sicurezza

Eseguiamo ora un semplice calcolo rigoroso. Supponiamo di avere un sistema in cui ogni nodo ha una probabilità $1\%$ di essere compromesso ( $p = 0.01$ ). Questa è un'assunzione ottimistica—molti sistemi reali hanno tassi di compromissione molto più elevati a causa di patch inadeguate, software obsoleto o dipendenze di terze parti. Ma anche a questo basso tasso, le implicazioni sono profonde.

Ci chiediamo: qual è la probabilità che più di $f$ nodi siano compromessi in un sistema di dimensione $n$ ? Cioè, qual è la probabilità che il nostro protocollo BFT fallisca perché abbiamo più di $f$ nodi maliziosi?

Per un sistema progettato per tollerare $f = 1$ (cioè $n = 4$ ), la probabilità che più di un nodo sia compromesso è:

$P(X > 1) = 1 - P(X=0) - P(X=1)$

Dove:

$P(X=0) = (1-p)^n = 0.99^4 \approx 0.9606$
$P(X=1) = C(4,1) \times p^1 \times (1-p)^3 = 4 \times 0.01 \times 0.99^3 \approx 0.0388$

Quindi, $P(X > 1) = 1 - 0.9606 - 0.0388 \approx 0.0006$ , o $0.06\%$

Questo sembra accettabile. Una probabilità di fallimento del $1$ su $1,700$ .

Ora consideriamo un sistema progettato per tollerare $f = 5$ ( $n = 16$ ). La probabilità che più di cinque nodi siano compromessi?

$P(X > 5) = 1 - \sum_{k=0}^{5} C(16,k) \times (0.01)^k \times (0.99)^{16-k}$

Calcolando si ottiene $P(X > 5) \approx 0.000012$ , o $0.0012\%$ . Ancora più bassa.

Fin qui tutto bene. Ma ora consideriamo $n = 100$ ( $f = 33$ ). Ci dicono che con $100$ nodi, possiamo tollerare fino a $33$ attori maliziosi. Ma qual è la probabilità che più di $33$ nodi siano compromessi?

$P(X > 33) = 1 - \sum_{k=0}^{33} C(100,k) \times (0.01)^k \times (0.99)^{100-k}$

Questo non è un calcolo banale, ma possiamo approssimarlo usando l'approssimazione normale alla distribuzione binomiale. La media $\mu = np = 1$ , e la deviazione standard $\sigma = \sqrt{np(1-p)} \approx 0.995$ .

Ci chiediamo: qual è la probabilità che $X > 33$ quando la media è $1$ ? Questo è oltre $32$ deviazioni standard sopra la media. In una distribuzione normale, un tale evento ha probabilità inferiore a $10^{-250}$ .

Quindi concludiamo: con $p = 0.01$ , $n = 100$ è sicuro.

Ma ecco la trappola: abbiamo assunto $p = 0.01$ . E se $p$ non è $1\%$ ? E se fosse $2\%$ ?

Ricalcoliamo con $p = 0.02$ .

Per $n = 100$ , $\mu = 2$ , $\sigma \approx 1.4$

P(X > 33) è ancora astronomicamente bassa.

Ora prova $p = 0.05$ (una cifra più realistica per sistemi mal gestiti).

$\mu = 5$ , $\sigma \approx 2.18$

P(X > 33) è ancora trascurabile.

Ma ora prova $p = 0.1$ (una stima conservativa per nodi pubblicamente accessibili in un ambiente scarsamente protetto).

$\mu = 10$ , $\sigma \approx 3$

P(X > 33) = ?

Calcoliamo lo z-score: $(33 - 10)/3 \approx 7.67$

La probabilità di superare questo valore è inferiore a $10^{-14}$ .

Ancora trascurabile? Non del tutto. Andiamo oltre.

E se $p = 0.2$ ?

$\mu = 20$ , $\sigma \approx 3.9$

$z = (33 - 20)/3.9 \approx 3.33$

$P(X > 33) \approx 0.0004$ — o $0.04\%$ . Ancora accettabile.

Ora $p = 0.25$

$\mu = 25$ , $\sigma \approx 4.33$

$z = (33 - 25)/4.33 \approx 1.85$

$P(X > 33) \approx 0.032$ — o $3.2\%$

Ora siamo nei guai.

Con p = 0.25, un sistema con n = 100 nodi progettato per tollerare f = 33 ha una probabilità del 3,2% di fallire a causa di nodi maliziosi eccessivi.

Ma ecco il colpo finale: cosa succede se $p = 0.3$ ?

$\mu = 30$ , $\sigma \approx 4.58$

$z = (33 - 30)/4.58 \approx 0.65$

$P(X > 33) \approx 0.258$ — o $26\%$

Con un tasso di compromissione di appena $30\%$ per nodo, la probabilità che più di un terzo dei nodi siano compromessi supera $26\%$ . Eppure, i protocolli BFT assumono che $f = 33$ sia un limite sicuro. Non tengono conto del fatto che se ogni nodo ha una probabilità $30\%$ di essere compromesso, il sistema non è solo vulnerabile—è statisticamente condannato.

Questo non è un fallimento ingegneristico. È un fallimento di modellizzazione.

La regola $3f + 1$ assume che il potere dell'avversario sia delimitato e noto. Ma nella realtà, il potere dell'avversario cresce con la dimensione del sistema—non linearmente, ma esponenzialmente attraverso superfici di attacco combinatorie. Ogni nodo aggiuntivo aumenta il numero di punti di ingresso potenziali, la complessità delle tracce di audit e la probabilità che almeno un nodo venga compromesso. La distribuzione binomiale ci dice: man mano che $n$ aumenta, la probabilità che $X > f$ non diminuisce—converge a un limite non nullo determinato da $p$ .

E qui sta l'insight più pericoloso: man mano che $n$ aumenta, la probabilità che $f$ venga superata non tende asintoticamente a zero. Approda a un tetto determinato da $p$ .

Se la probabilità di compromissione per nodo è $0.2$ , allora non importa quanto grande diventi $n$ , ci sarà sempre una probabilità non trascurabile che più di un terzo dei nodi siano compromessi. La regola $3f + 1$ non scalabile—collassa.

Parallelismi storici: Quando l'ottimismo matematico portò alla catastrofe

Questo non è il primo caso in cui un modello matematico è stato mal applicato con conseguenze devastanti. La storia è piena di esempi in cui equazioni eleganti furono scambiate per garanzie.

Nel $2008$ , l'industria finanziaria si affidò a modelli di copula gaussiana per valutare gli obbligazioni garantite da mutui (CDO). Questi modelli assumevano che i default sui mutui fossero eventi indipendenti. Ignoravano la correlazione, il rischio di coda e i loop di retroazione sistemica. Il risultato: trilioni di perdite quando i default iniziarono a raggrupparsi.

Allo stesso modo, la regola $3f + 1$ assume che i guasti dei nodi siano indipendenti. Ma nella pratica, non lo sono.

Una singola vulnerabilità in una libreria ampiamente utilizzata (es. Log4Shell) può compromettere migliaia di nodi contemporaneamente. Un attacco alla catena di approvvigionamento su un provider cloud (es. SolarWinds) può infettare centinaia di nodi con lo stesso backdoor. Un attacco DDoS coordinato può mettere offline i nodi in massa, creando un guasto bizantino de facto. Un cluster Kubernetes mal configurato può far crashare $20$ nodi in simultanea.

Questi non sono eventi indipendenti. Sono guasti correlati—esattamente il tipo di evento che i modelli binomiali ignorano.

L'incidente $2017$ di Equifax, che espose i dati di $147$ milioni di persone, non fu causato da $147$ milioni di guasti indipendenti. Fu causato da un singolo server Apache Struts non aggiornato. Un singolo punto di fallimento, amplificato attraverso una vasta rete.

Nei sistemi distribuiti, lo stesso principio si applica. Un singolo validatore compromesso in una blockchain può essere usato per lanciare attacchi Sybil, doppie spese o corrompere messaggi di consenso. E se quel validatore fa parte di una rete di $100$ nodi con $p = 0.05$ , la probabilità che almeno un tale validatore esista è:

$P(\text{at least one compromised}) = 1 - (0.95)^{100} \approx 0.994$

Cioè, c'è una probabilità del $99.4\%$ che almeno un nodo sia compromesso.

E se il sistema richiede $f = 33$ da tollerare, non stiamo semplicemente accettando il rischio—lo stiamo invitando.

La lezione dalla finanza è chiara: i modelli che ignorano la correlazione e assumono indipendenza falliranno catastroficamente quando la realtà irrompe. Lo stesso vale per il BFT.

Il costo etico della scalabilità: Quando l'efficienza diventa imprudenza

La seduzione della scalabilità è forte. “Più nodi significano più decentralizzazione,” dicono gli evangelizzatori. “Maggior partecipazione significa maggiore resilienza.” Ma questo è un pericoloso equivoco.

La decentralizzazione non è la stessa cosa della affidabilità. Un sistema con $10,000$ nodi in cui ogni nodo è gestito da un'unica entità con lo stesso stack software non è decentralizzato—è una monocultura. E le monoculture falliscono insieme.

Il costo etico di ignorare questa realtà è profondo. Quando un protocollo blockchain afferma di essere “sicuro” perché usa $10,000$ nodi assumendo che $f = 3,333$ sia tollerabile, non sta solo commettendo un errore tecnico—sta commettendo un errore etico. Sta promettendo agli utenti che i loro beni, identità e dati sono al sicuro quando la matematica dice il contrario.

Consideriamo il caso dell'exploit $2021$ Poly Network, in cui $\$ 610 $milioni di asset crittografici furono rubati a causa di una falle nel set di validatori del ponte cross-chain. Il sistema affermava di usare BFT con oltre$ 100 $validatori. Ma la falle non era nell'algoritmo di consenso—era nell'assunzione che tutti i validatori fossero attendibili. Un validatore, compromesso tramite social engineering, firmò una transazione maliziosa. Il sistema non aveva meccanismi per rilevare o recuperare da tale evento perché assumeva che$ f$ fosse delimitato e noto.

Questo non è un bug. È una funzionalità del modello.

E chi ne paga il prezzo? Non gli ingegneri. Non i fondi di venture capital. Gli utenti. Perdono i loro risparmi. La loro fiducia nella tecnologia viene distrutta.

Abbiamo già visto questo prima—nell'incidente $2015$ di Anthem, dove $78$ milioni di record furono rubati perché l'azienda assumeva che il suo modello di sicurezza fosse “sufficiente”. Nell'incidente $2013$ di Target, dove un fornitore esterno di HVAC fu il punto d'ingresso. Nell'incidente $2019$ di Capital One, dove un firewall mal configurato permise l'accesso a $100$ milioni di record clienti.

Ogni volta, lo stesso schema: una convinzione che la complessità equivalga alla sicurezza. Che la scala sia uno scudo. Che più nodi significhi meno rischio.

Non è così.

Il massimo di fiducia: Un tetto matematico sulla sicurezza

Formalizziamo ora il concetto di “massimo di fiducia”.

Definiamo $T(n, p)$ come la probabilità che più di $f = \lfloor(n-1)/3\rfloor$ nodi siano compromessi in un sistema di dimensione $n$ , dove ogni nodo è compromesso indipendentemente con probabilità $p$ .

Ci chiediamo: ha $T(n, p)$ un limite quando $n \to \infty$ ?

La risposta è sì—and it is not zero.

Per il Teorema del Limite Centrale, man mano che $n$ diventa grande, la distribuzione binomiale converge a una normale con media $\mu = np$ e varianza $\sigma^2 = np(1-p)$ .

Siamo interessati alla probabilità che $X > (n-1)/3$ .

Definiamo $r = 1/3$ . Vogliamo $P(X > rn)$ .

Lo z-score è:

$z = \frac{rn - np}{\sqrt{np(1-p)}} = \frac{n(r - p)}{\sqrt{np(1-p)}}$

Man mano che $n \to \infty$ , se $r > p$ , allora $z \to \infty$ e $P(X > rn) \to 0$ .

Ma se $r < p$ , allora $z \to -\infty$ e $P(X > rn) \to 1$ .

E se $r = p$ , allora $z = 0$ e $P(X > rn) \to 0.5$ .

Questo è l'insight critico.

La probabilità che più di un terzo dei nodi siano compromessi converge a:

$0$ se $p < 1/3$
$0.5$ se $p = 1/3$
$1$ se $p > 1/3$

In altre parole, se la probabilità di compromissione per nodo supera $1/3$ , allora non importa quanto grande diventi il tuo sistema, è più probabile che superi la soglia BFT.

E se $p = 1/3$ , il tuo sistema ha una probabilità del $50\%$ di fallire.

Questo non è un confine teorico. È un tetto rigido sulla fiducia.

Esiste, matematicamente, un “massimo di fiducia”—un punto al di là del quale aumentare $n$ non aumenta la sicurezza. Aumenta la vulnerabilità.

E nel mondo reale, p è quasi certamente maggiore di 1/3 per qualsiasi sistema esposto a internet pubblico.

Considera:

L'azienda media ha oltre $1,000$ endpoint. Di questi, Gartner stima che $23\%$ abbiano vulnerabilità critiche non patchate.
Nelle blockchain pubbliche, i nodi sono spesso gestiti da individui senza formazione in sicurezza. Uno studio $2023$ sui validatori di Ethereum ha trovato che $41\%$ avevano endpoint RPC esposti, e $68\%$ usavano credenziali predefinite.
Nei sistemi cloud-native, i nodi sono efimeri. Vengono avviati e spenti automaticamente. La deriva di configurazione è diffusa.

In tali ambienti, $p = 0.4$ non è un'eccezione—è la norma.

Eppure, i sistemi sono ancora costruiti con $n = 10,000$ e $f = 3,333$ .

Questo non è innovazione. È negligenza.

La contro-argomentazione: “Possiamo rilevare ed eliminare i nodi maliziosi”

La replica più comune a questa analisi è che i sistemi BFT non si basano su valori f statici. Incorporano meccanismi per rilevare ed eliminare nodi maliziosi—attraverso sistemi di reputazione, condizioni di slashing o rotazione dinamica dei validatori.

Questo è vero. Ma manca il punto.

Questi meccanismi non sono garanzie matematiche—sono mitigazioni operative. Richiedono intervento umano, infrastrutture di monitoraggio e protocolli di risposta che non esistono nella maggior parte dei sistemi decentralizzati.

In Bitcoin, non c'è meccanismo per rimuovere un minatore malizioso. Nel sistema proof-of-stake di Ethereum, i validatori possono essere slashati—ma solo dopo aver già causato danni. Il danno è irreversibile.

Inoltre, i meccanismi di rilevamento sono vulnerabili a compromissioni. Un attaccante malizioso può manipolare i log, sopprimere gli allarmi o colludere con servizi di monitoraggio.

L'hack $2018$ di Bitfinex coinvolse un sistema di monitoraggio interno compromesso che non rilevò la violazione per $36$ ore. La stessa vulnerabilità esiste nei sistemi BFT: se il meccanismo di rilevamento fa parte del sistema, può essere compromesso anch'esso.

E anche se il rilevamento fosse perfetto, l'eliminazione richiede consenso. Per rimuovere un nodo malizioso, devi raggiungere l'accordo tra i nodi rimanenti. Ma se più di un terzo dei nodi sono maliziosi, possono impedire l'eliminazione colludendo.

Questo è l'essenza del guasto bizantino: i traditori controllano la narrazione.

Nessuna quantità di rilevamento o rotazione può superare questo se il modello probabilistico sottostante è sbagliato.

La via avanti: Abbandonare l'illusione della scala

Cosa è, allora, la soluzione?

Dobbiamo abbandonare il mito che più nodi significhi maggiore sicurezza. Dobbiamo rifiutare l'idea che i protocolli di consenso possano essere scalati indefinitamente senza conseguenze.

Invece, dobbiamo abbracciare tre principi:

Piccolo è sicuro: I sistemi dovrebbero essere progettati con il numero minimo possibile di nodi coerente con i requisiti operativi. Un cluster BFT di $7$ nodi è più sicuro di uno di $10,000$ nodi se $p > 0.1$ .
Confini di fiducia: I nodi devono essere raggruppati in domini affidabili con controlli di accesso rigorosi. Nessun nodo dovrebbe essere autorizzato a partecipare al consenso se non è stato vagliato, auditato e monitorato da un'autorità affidabile.
Modellizzazione del rischio stocastico: Ogni sistema deve essere valutato non sulla sua tolleranza teorica ai guasti, ma sulla sua probabilità empirica di compromissione. Se $p > 0.15$ , il BFT non è lo strumento giusto.

Dobbiamo anche sviluppare nuovi paradigmi di consenso che non si basino su soglie fisse. Modelli di consenso probabilistici, come quelli usati nel protocollo Avalanche o nella selezione basata su VRF di Algorand, offrono alternative che non assumono conoscenza perfetta di $f$ . Questi modelli accettano l'incertezza e quantificano il rischio in modo probabilistico—piuttosto che fingere che non esista.

Ma anche questi richiedono onestà. Dobbiamo smettere di chiamare sistemi “decentralizzati” quando sono semplicemente distribuiti. Dobbiamo smettere di equiparare la scala alla resilienza.

I sistemi più sicuri della storia non sono stati i più grandi—sono stati i più semplici. Il sistema di comando e controllo nucleare degli Stati Uniti, ad esempio, si affida a un numero ridotto di nodi induriti con isolamenti fisici. Non scalabile. Ma sicuro.

Conclusione: Il costo dell'arroganza matematica

Stiamo vivendo una rinascita tecnologica—costruita sull'assunzione che la complessità possa essere domata dalla scala. Ma la matematica non si cura dei nostri ambizioni.

La distribuzione binomiale è indifferente alla tua valutazione di startup. Non le importa se hai raccolto $\$ 200 $milioni in capitale di rischio o se il tuo whitepaper è stato pubblicato su arXiv. Si cura solo di$ p$.

E nel mondo reale, $p$ non è $0.01$ . È $0.2$ . O $0.3$ .

E quando $p$ supera $1/3$ , il sistema non è solo vulnerabile—è matematicamente condannato.

Continuare a costruire sistemi che assumono $3f + 1$ come garanzia non è solo tecnicamente insostenibile. È eticamente ingiustificabile.

Abbiamo visto le conseguenze dell'arroganza matematica prima—in finanza, in aviazione, nell'ingegneria nucleare. Ogni volta, il costo fu misurato non in righe di codice, ma in vite.

Non dobbiamo ripetere quegli errori.

La via avanti non è più nodi. È meno. Meglio. Affidabili.

E soprattutto, onesti.

La matematica non mente.

Noi sì.

Il mito della sicurezza lineare: Come il BFT distorce il rischio​

La trappola binomiale: Perché più nodi significano meno sicurezza​

Parallelismi storici: Quando l'ottimismo matematico portò alla catastrofe​

Il costo etico della scalabilità: Quando l'efficienza diventa imprudenza​

Il massimo di fiducia: Un tetto matematico sulla sicurezza​

La contro-argomentazione: “Possiamo rilevare ed eliminare i nodi maliziosi”​

La via avanti: Abbandonare l'illusione della scala​

Conclusione: Il costo dell'arroganza matematica​