Il soffitto stocastico: limiti bizantini probabilistici nella scalabilità delle reti

24 marzo 2015 · 45 minuti di lettura

Denis Tumpic

Grande Inquisitore presso Technica Necesse Est

Enrico Fattosbaglio

Ricercatore Fatti Sbagliati

Dati Allucinazione

Ricercatore Dati Allucinati

Krüsz Prtvoč

Latent Invocation Mangler

Illustrazione in evidenza

Introduzione: Il Paradosso della Scala nel Consenso Distribuito

I protocolli di consenso distribuito, in particolare quelli basati sulla tolleranza ai guasti byzantini (BFT), sono stati a lungo celebrati come fondamento teorico per sistemi sicuri e decentralizzati—dalle reti blockchain all'infrastruttura cloud critica per le missioni. Il modello canonico di BFT, formalizzato da Lamport, Shostak e Pease negli anni '80, afferma che un sistema di $n$ nodi può tollerare fino a $f$ nodi byzantini (maliziosi o arbitrariamente guasti) se e solo se $n \geq 3f + 1$ . Questo limite, derivato dalla richiesta che i nodi onesti debbano superare quelli guasti di un margine rigoroso del 2:1 per raggiungere il consenso nonostante comportamenti arbitrari, è diventato dogma nella letteratura sui sistemi distribuiti. Esso sottende il design di protocolli come PBFT, HotStuff e i loro derivati in ambienti sia autorizzati che non autorizzati.

Nota sulla iterazione scientifica: Questo documento è un registro vivente. Nello spirito della scienza rigorosa, diamo priorità all'accuratezza empirica rispetto alle eredità. Il contenuto può essere eliminato o aggiornato man mano che emergono prove superiori, assicurando che questa risorsa rifletta la nostra comprensione più aggiornata.

Tuttavia, man mano che i sistemi crescono fino a migliaia o addirittura milioni di nodi—in particolare nelle reti aperte e non autorizzate come le blockchain pubbliche—l'assunzione implicita che $f$ possa essere controllato o limitato diventa insostenibile. In tali ambienti, il numero di nodi byzantini non è un parametro di progettazione ma un risultato statistico emergente governato dalla probabilità $p$ che un singolo nodo sia compromesso. Questa probabilità deriva da una molteplicità di fattori: incentivi economici per gli attacchi, botnet avversarie, vulnerabilità della catena di approvvigionamento, hardware compromessi, minacce interne e la difficoltà intrinseca di proteggere endpoint geograficamente distribuiti. Man mano che $n$ aumenta, la distribuzione binomiale dei nodi compromessi impone che la probabilità di superare $f = \lfloor (n-1)/3 \rfloor$ nodi byzantini aumenti bruscamente—anche quando $p$ è estremamente piccolo.

Questo fenomeno rivela una tensione fondamentale spesso trascurata: il meccanismo stesso che abilita la scalabilità—l'aumento di $n$ —esacerba la probabilità di violare la soglia BFT. Questo non è un difetto nell'implementazione, ma una proprietà intrinseca dei sistemi governati da guasti nodali stocastici sotto vincoli BFT fissi. Lo chiamiamo Massimo di Fiducia: il punto in cui l'aumento di $n$ non migliora più l'affidabilità del sistema, ma la riduce a causa della crescita esponenziale nella probabilità di superare $f$ . Questo non è un fallimento dell'ingegneria—è una inevitabilità matematica.

Questo whitepaper presenta un'analisi rigorosa di questo fenomeno attraverso la lente della Teoria dell'Affidabilità Stocastica. Formalizziamo la relazione tra $n$ , $p$ e la probabilità di fallimento del sistema dovuta al numero di nodi byzantini che supera $f$ . Deriviamo espressioni in forma chiusa per la probabilità di fallimento del consenso, analizziamo il suo comportamento asintotico e dimostriamo che la soglia BFT $n = 3f + 1$ non è una garanzia scalabile, ma piuttosto un ottimo locale nello spazio dell'affidabilità. Dimostriamo inoltre che i sistemi BFT tradizionali sono fondamentalmente incompatibili con reti aperte e su larga scala a meno che $p$ non venga ridotto a livelli impraticabili—livelli irraggiungibili negli ambienti avversari del mondo reale.

Esploriamo quindi le implicazioni per i sistemi esistenti: il consenso di Nakamoto di Bitcoin, la transizione di Ethereum allo staking e i sistemi BFT autorizzati come Hyperledger Fabric. Dimostriamo che anche sistemi con basso $p$ (ad esempio 10^-6) diventano non affidabili su scale superiori a ~1.000 nodi. Introduciamo il concetto di Conteggio Nodale Ottimale per l'Affidabilità (RONC), una metrica derivata dalla derivata della probabilità di fallimento rispetto a $n$ , e dimostriamo che per qualsiasi $p$ non nullo, RONC è finito e limitato. Dimostriamo che nessun protocollo BFT basato sulla regola $3f+1$ può raggiungere affidabilità asintotica al crescere di $n \to \infty$ .

Infine, proponiamo una nuova classe di protocolli di consenso—Tolleranza Byzantina Stocastica (SBT)—che abbandonano il modello deterministico $3f+1$ a favore di garanzie probabilistiche, sfruttando la crittografia a soglia, le funzioni casuali verificabili (VRF) e la selezione adattiva dei quorum per raggiungere affidabilità scalabile. Forniamo prove matematiche delle loro proprietà di convergenza sotto compromissione stocastica dei nodi e dimostriamo tramite simulazione che i protocolli SBT possono raggiungere affidabilità di ordini di grandezza superiori su larga scala rispetto al BFT tradizionale.

Questo articolo non è una critica del BFT—è un'estensione. Non cerchiamo di invalidare il lavoro fondamentale di Lamport et al., ma di contestualizzarlo all'interno di una realtà stocastica. L'obiettivo non è sostituire il BFT, ma ridefinire le condizioni in cui può essere applicato in sicurezza. In un'epoca in cui i sistemi distribuiti sono attesi per scalare a livello planetario, l'assunzione che "più nodi = più sicurezza" non è solo ingenua—è pericolosamente fuorviante. Il Massimo di Fiducia non è un bug; è la legge.

Fondamenti della Tolleranza ai Guasti Byzantini: La Soglia $3f+1$ Rivisitata

Per comprendere l'emergenza del Massimo di Fiducia, dobbiamo prima rivisitare le basi teoriche della tolleranza ai guasti byzantini. La soglia $3f+1$ non è un euristica arbitraria; deriva da un'analisi rigorosa del problema del consenso in condizioni avversarie. In questa sezione, formalizziamo il Problema dei Generali Byzantini e deriviamo la soglia $3f+1$ dai principi primi, stabilendo la base contro cui misureremo la nostra analisi stocastica.

Il Problema dei Generali Byzantini: Definizione Formale

Il Problema dei Generali Byzantini, originariamente formulato da Lamport et al. (1982), descrive uno scenario in cui un gruppo di generali, ciascuno al comando di una divisione dell'esercito, deve concordare su un piano d'azione comune (attaccare o ritirarsi). Tuttavia, alcuni generali possono essere traditori che inviano messaggi contrastanti per disturbare il coordinamento. Il problema è progettare un algoritmo tale che:

Accordo: Tutti i generali leali decidano sullo stesso piano.
Integrità: Se il generale comandante è leale, allora tutti i generali leali seguono il suo piano.

Il problema assume che i messaggi vengano consegnati in modo affidabile (nessuna perdita di messaggio), ma possano essere falsificati o alterati dai nodi byzantini. L'obiettivo è raggiungere il consenso nonostante la presenza di fino a $f$ attori maliziosi.

In un sistema distribuito, ogni generale corrisponde a un nodo. Il generale comandante è il proposer di un blocco o transazione; i generali leali sono nodi onesti che seguono il protocollo. La sfida è assicurare che il sistema raggiunga il consenso anche quando fino a $f$ nodi possano colludere, mentire o inviare messaggi contraddittori.

Derivazione della Soglia $3f+1$

La derivazione della soglia $3f+1$ procede attraverso un argomento ricorsivo basato sullo scambio di messaggi e l'impossibilità di distinguere tra comportamento corretto e difettoso in assenza di una terza parte fidata.

Considera un sistema con $n$ nodi. Sia $f$ il massimo numero di nodi byzantini tollerabili. L'idea chiave è che per un nodo corretto di validare una decisione, deve ricevere sufficienti prove corroboranti da altri nodi. Nel modello classico dei messaggi orali (dove i messaggi sono firmati ma non crittografati), un nodo non può distinguere tra un messaggio corretto e uno difettoso a meno che non riceva lo stesso messaggio da abbastanza fonti indipendenti.

Nel lavoro fondamentale, Lamport et al. dimostrano che per tollerare $f$ nodi byzantini:

Ogni nodo corretto deve ricevere almeno $f+1$ messaggi coerenti da altri nodi per accettare una decisione.
Poiché fino a $f$ di questi potrebbero essere maliziosi, i nodi rimanenti $n - f$ devono includere almeno $f+1$ nodi corretti.
Pertanto: $n - f \geq f + 1$ $n \geq 2f + 1$

Tuttavia, questo è insufficiente. In un sistema in cui i nodi relayano messaggi da altri (cioè comunicazione multi-hop), un nodo byzantino può inviare messaggi contrastanti a sottoinsiemi diversi di nodi. Per prevenire questo, il sistema deve assicurare che anche se un nodo byzantino invia messaggi diversi a due nodi corretti, quei nodi corretti possano rilevare l'incoerenza.

Ciò richiede una maggioranza di nodi corretti che concordino sullo stesso valore. Per garantire che due nodi corretti ricevano lo stesso insieme di messaggi, devono ciascuno ricevere almeno $f+1$ copie identiche da nodi non-byzantini. Ma poiché i nodi byzantini possono inviare messaggi contrastanti a sottoinsiemi diversi, il numero totale di nodi corretti deve essere sufficiente affinché anche se $f$ nodi byzantini inviano messaggi contrastanti a due gruppi diversi, l'intersezione delle risposte corrette superi ancora una soglia.

La derivazione completa richiede tre fasi:

Il proposer invia il valore a tutti i nodi.
Ogni nodo inoltra il valore che ha ricevuto agli altri.
Ogni nodo raccoglie $n-1$ messaggi e applica una votazione a maggioranza.

Per assicurare che due nodi corretti non possano dissentire, il numero di messaggi ricevuti da ogni nodo deve essere tale che anche se $f$ nodi byzantini inviano valori contrastanti, il numero di messaggi corretti ricevuti da ogni nodo sia ancora sufficiente per sovrastare il rumore.

Sia $c = n - f$ il numero di nodi corretti. Ogni nodo corretto deve ricevere almeno $f+1$ messaggi identici da altri nodi corretti per accettare un valore. Poiché ogni nodo corretto invia il suo messaggio a tutti gli altri, il numero totale di messaggi corretti ricevuti da un dato nodo è $c - 1$ . Per assicurare che questo superi $f$ :

c - 1 \geq f + 1 \\ \Rightarrow (n - f) - 1 \geq f + 1 \\ \Rightarrow n - f - 1 \geq f + 1 \\ \Rightarrow n \geq 2f + 2

Ma questo non tiene ancora conto della possibilità che i nodi byzantini possano inviare valori diversi a nodi corretti diversi. Per prevenirlo, richiediamo una seconda fase di verifica: ogni nodo deve ricevere lo stesso insieme di messaggi da altri nodi. Ciò richiede che anche se i nodi byzantini tentano di dividere la rete in due fazioni, ciascuna fazione abbia ancora una maggioranza di nodi corretti.

Ciò porta al risultato classico: per tollerare $f$ guasti byzantini, sono necessari almeno $3f + 1$ nodi.

Schizzo di Dimostrazione (Lamport et al., 1982)

Sia $n = 3f + 1$ . Supponiamo che due nodi corretti, $A$ e $B$ , ricevano insiemi diversi di messaggi. Sia $S_A$ l'insieme dei nodi da cui $A$ ha ricevuto un messaggio, e analogamente per $S_B$ . Poiché ogni nodo riceve messaggi da $n-1 = 3f$ altri nodi, e ci sono solo $f$ nodi byzantini, ogni nodo corretto riceve almeno $2f$ messaggi da altri nodi corretti.

Ora supponiamo che $A$ e $B$ dissentano sul valore. Allora deve esistere un nodo byzantino che ha inviato valori diversi a $A$ e $B$ . Ma poiché ci sono solo $f$ nodi byzantini, il numero di nodi corretti che hanno inviato messaggi contrastanti a entrambi $A$ e $B$ è al massimo $f$ . Pertanto, il numero di nodi corretti che hanno inviato messaggi coerenti a entrambi $A$ e $B$ è almeno $2f - f = f$ . Ma poiché ogni nodo corretto invia lo stesso messaggio a tutti gli altri, se $A$ e $B$ hanno ricevuto valori diversi da un nodo corretto, ciò implicherebbe che il nodo corretto è difettoso—una contraddizione.

Così, tutti i nodi corretti devono ricevere insiemi identici di messaggi da altri nodi corretti. Poiché ci sono $2f + 1$ nodi corretti, e ciascuno invia lo stesso messaggio a tutti gli altri, qualsiasi nodo che riceve almeno $f+1$ messaggi identici può essere sicuro che la maggioranza sia corretta.

Questa derivazione assume:

Messaggi orali: Nessuna firma crittografica; i nodi non possono provare l'origine di un messaggio.
Connessione completa: Ogni nodo può comunicare con ogni altro nodo.
Avversario deterministico: Il numero di nodi byzantini è fisso e noto in anticipo.

Queste assunzioni sono critiche. Nei sistemi del mondo reale, in particolare nelle reti aperte come Bitcoin o Ethereum, i messaggi sono firmati (usando firme digitali), il che riduce la necessità di verifica multi-hop. Tuttavia, ciò non elimina il requisito fondamentale: per raggiungere il consenso, un quorum di nodi onesti deve concordare. La soglia $3f+1$ persiste anche nei modelli con messaggi firmati perché l'avversario può ancora controllare fino a $f$ nodi e farli inviare firme valide contrastanti.

In effetti, nel modello con messaggi firmati, la soglia si riduce a $n \geq 2f + 1$ , perché le firme permettono ai nodi di verificare l'origine del messaggio. Tuttavia, ciò presuppone che l'avversario non possa falsificare le firme—un'assunzione ragionevole sotto assunzioni crittografiche standard—but non elimina la necessità di una maggioranza di nodi onesti che concordino. Il requisito che $n > 2f$ rimane, e nella pratica, i sistemi adottano $3f+1$ per tenere conto della partizionamento di rete, dei ritardi nei messaggi e della possibilità di avversari adattivi.

Così, anche nei sistemi moderni, la regola $3f+1$ rimane uno standard de facto. Ma la sua applicabilità è precondizionata dall'assunzione che $f$ sia limitato e noto—una condizione raramente soddisfatta nelle reti aperte e non autorizzate.

L'Assunzione di Nodi Byzantini Limitati: Una Premessa Fallace

La soglia $3f+1$ è matematicamente elegante e dimostrabilmente ottimale sotto le sue assunzioni. Ma poggia su un'assunzione critica, spesso non detta: il numero di nodi byzantini $f$ è noto e limitato in anticipo.

Nei sistemi autorizzati—come le piattaforme blockchain enterprise come Hyperledger Fabric o R3 Corda—questa assunzione è plausibile. Il numero di partecipanti è piccolo (ad esempio 10–50 nodi), e la partecipazione è controllata. L'operatore del sistema può verificare i partecipanti, imporre identità e revocare l'accesso. In tali ambienti, $f = 1$ o $f = 2$ è ragionevole, e $n = 4$ a $7$ è sufficiente.

Ma nelle reti aperte e non autorizzate—dove chiunque può unirsi alla rete senza verifica di identità—the numero di nodi byzantini non è un parametro di progettazione. È una proprietà emergente governata dalla probabilità $p$ che un nodo qualsiasi sia compromesso.

Questa distinzione è cruciale. Nei sistemi autorizzati, $f$ è una variabile di controllo. Nelle reti aperte, $f$ è una variabile casuale estratta da una distribuzione binomiale:

f \sim \text{Bin}(n, p)

Dove $n$ è il numero totale di nodi e $p$ è la probabilità che un singolo nodo sia byzantino (cioè compromesso, collusivo o malfunzionante).

Il requisito $3f+1$ diventa quindi un vincolo stocastico:

\text{System is safe} \iff f \leq \left\lfloor \frac{n-1}{3} \right\rfloor

Ma $f$ non è fisso. Varia stocasticamente ad ogni round di consenso. La probabilità che il sistema fallisca è quindi:

P_{\text{fail}}(n, p) = \Pr\left[ \text{Bin}(n, p) > \left\lfloor \frac{n-1}{3} \right\rfloor \right]

Questa è l'equazione centrale di questo articolo. La regola $3f+1$ non garantisce la sicurezza—garantisce la sicurezza solo se il numero di nodi byzantini è al di sotto di una soglia. Ma nelle reti aperte, quella soglia viene violata con probabilità non trascurabile al crescere di $n$ .

Questo porta al primo insight fondamentale:

Il requisito $3f+1$ non è una funzionalità di scalabilità—è un vincolo di scalabilità.

Man mano che $n \to \infty$ , la distribuzione binomiale dei nodi byzantini diventa sempre più concentrata attorno alla sua media $np$ . Se $p > 1/3$ , allora $\mathbb{E}[f] = np > n/3$ , e il sistema fallisce con probabilità che tende a 1. Ma anche se $p < 1/3$ , la varianza della distribuzione binomiale assicura che per $n$ sufficientemente grande, la probabilità che $f > \lfloor (n-1)/3 \rfloor$ diventi non trascurabile.

Questo è l'essenza del Massimo di Fiducia: aumentare $n$ oltre un certo punto aumenta, piuttosto che riduce, la probabilità di fallimento del sistema.

Ora formalizziamo questa intuizione usando strumenti dalla teoria dell'affidabilità stocastica.

Teoria dell'Affidabilità Stocastica: Modellare i Guasti Byzantini come un Processo Binomiale

Per analizzare l'affidabilità dei sistemi BFT sotto compromissione stocastica dei nodi, dobbiamo abbandonare le assunzioni deterministiche e adottare un framework probabilistico. Questa sezione introduce la macchina teorica della Teoria dell'Affidabilità Stocastica (SRT) e la applica per modellare i guasti byzantini come una variabile casuale binomiale.

Definizione dell'Affidabilità del Sistema in Termini Stocastici

Nell'ingegneria dell'affidabilità classica, l'affidabilità del sistema $R(t)$ è definita come la probabilità che un sistema svolga la sua funzione prevista senza guasti durante un periodo specifico $t$ . Nel consenso distribuito, adattiamo questa definizione:

Affidabilità del Sistema: La probabilità che un protocollo di consenso BFT raggiunga con successo l'accordo in presenza di nodi byzantini, dati $n$ nodi totali e probabilità di compromissione per nodo $p$ .

Sia $F(n, p) = \Pr[\text{System Failure}]$ . Allora l'affidabilità è:

R(n, p) = 1 - F(n, p)

Il fallimento del sistema si verifica quando il numero di nodi byzantini $f$ supera la soglia $\lfloor (n-1)/3 \rfloor$ . Pertanto:

F(n, p) = \Pr\left[ f > \left\lfloor \frac{n-1}{3} \right\rfloor \right] = \sum_{k=\left\lfloor \frac{n-1}{3} \right\rfloor + 1}^{n} \binom{n}{k} p^k (1-p)^{n-k}

Questa è la funzione di distribuzione cumulativa (CDF) di una variabile casuale binomiale valutata a $\lfloor (n-1)/3 \rfloor + 1$ . La denotiamo come:

F(n, p) = 1 - \text{BinCDF}\left( \left\lfloor \frac{n-1}{3} \right\rfloor ; n, p \right)

Questa funzione è l'oggetto centrale della nostra analisi. Essa quantifica la probabilità che un sistema BFT fallisca a causa di un eccesso di nodi byzantini, dati $n$ e $p$ . A differenza dei modelli deterministici, questa formulazione non assume un avversario fisso—tieni conto della probabilità statistica di compromissione.

Il Modello Binomiale: Giustificazione e Assunzioni

Modelliamo l'occorrenza di nodi byzantini come un processo binomiale sotto le seguenti assunzioni:

Compromissione Indipendente: Ogni nodo è compromesso indipendentemente con probabilità $p$ . Questo assume attacchi coordinati oltre ciò che può essere catturato da probabilità indipendenti. Sebbene gli avversari del mondo reale spesso si coordinino, il modello binomiale serve come baseline conservativa: se anche la compromissione indipendente porta al fallimento, gli attacchi coordinati saranno peggiori.
Vulnerabilità Omogenea: Tutti i nodi hanno la stessa probabilità $p$ di compromissione. Questo è una semplificazione—alcuni nodi potrebbero essere più sicuri (ad esempio server enterprise) mentre altri sono vulnerabili (ad esempio dispositivi IoT). Tuttavia, possiamo definire $p$ come la probabilità media di compromissione nella rete. Il modello binomiale rimane valido sotto questa interpretazione.
Rete Statica: Assumiamo che $n$ sia fisso durante un round di consenso. Nella pratica, i nodi possono unirsi o lasciare (ad esempio nei sistemi proof-of-stake), ma per lo scopo di analizzare un singolo istante di consenso, trattiamo $n$ come costante.
Modello Avversario: I nodi byzantini possono comportarsi arbitrariamente: inviare messaggi contrastanti, ritardare messaggi o colludere. Non assumiamo limiti sulla loro potenza computazionale o capacità di coordinamento.
Nessuna Mitigazione Esterna: Assumiamo che non siano presenti meccanismi aggiuntivi (ad esempio sistemi di reputazione, slashing economico o crittografia a soglia) per ridurre $p$ . Ciò ci permette di isolare l'effetto di $n$ e $p$ sull'affidabilità.

Queste assunzioni sono conservative. Nella realtà, molti sistemi impiegano difese aggiuntive—tuttavia anche sotto queste condizioni idealizzate, dimostreremo che l'affidabilità degrada con la scala.

Media e Varianza del Conteggio dei Nodi Byzantini

Sia $f \sim \text{Bin}(n, p)$ . Allora:

Media: $\mu = np$
Varianza: $\sigma^2 = np(1-p)$

La soglia per il fallimento è:

f_{\text{max}} = \left\lfloor \frac{n-1}{3} \right\rfloor

Definiamo la margine di sicurezza come:

\Delta(n, p) = f_{\text{max}} - \mu = \left\lfloor \frac{n-1}{3} \right\rfloor - np

Questo misura quanto lontano il numero atteso di nodi byzantini è dalla soglia di fallimento. Quando $\Delta(n, p) > 0$ , il sistema è in media sicuro. Quando $\Delta(n, p) < 0$ , il sistema è in media insicuro.

Ma l'affidabilità non è determinata dalla sola aspettativa—è determinata dalla probabilità della coda. Anche se $\Delta > 0$ , una varianza non nulla implica che il fallimento possa verificarsi con probabilità non trascurabile.

Analizziamo ora il comportamento di $F(n, p)$ al crescere di $n \to \infty$ .

Analisi Asintotica: La Legge dei Grandi Numeri e il Teorema del Limite Centrale

Al crescere di $n \to \infty$ , per la Legge dei Grandi Numeri:

\frac{f}{n} \xrightarrow{p} p

Così, la frazione di nodi byzantini converge a $p$ . La soglia di fallimento è:

\frac{f_{\text{max}}}{n} = \frac{\lfloor (n-1)/3 \rfloor}{n} \to \frac{1}{3}

Pertanto, se $p > 1/3$ , allora per $n$ sufficientemente grande, la frazione di nodi byzantini supera $1/3$ con probabilità che tende a 1. Il sistema fallisce quasi sicuramente.

Ma cosa succede se $p < 1/3$ ? Il sistema è sicuro?

No. Anche quando $p < 1/3$ , la varianza di $f$ assicura che per grandi $n$ , la probabilità che $f > \lfloor (n-1)/3 \rfloor$ rimanga non nulla—in effetti, aumenta al crescere di $n$ .

Per vederlo, applichiamo il Teorema del Limite Centrale (CLT). Per grandi $n$ :

\frac{f - np}{\sqrt{np(1-p)}} \xrightarrow{d} \mathcal{N}(0, 1)

Così:

\Pr[f > f_{\text{max}}] \approx 1 - \Phi\left( \frac{f_{\text{max}} - np}{\sqrt{np(1-p)}} \right)

Dove $\Phi(\cdot)$ è la CDF standard normale.

Definiamo:

z(n, p) = \frac{f_{\text{max}} - np}{\sqrt{np(1-p)}}

Allora:

F(n, p) \approx 1 - \Phi(z(n, p))

Ora consideriamo il comportamento di $z(n, p)$ . Poiché $f_{\text{max}} \approx n/3$ :

z(n, p) \approx \frac{n/3 - np}{\sqrt{np(1-p)}} = \frac{n(1/3 - p)}{\sqrt{np(1-p)}} = \sqrt{n} \cdot \frac{(1/3 - p)}{\sqrt{p(1-p)}}

Sia $\delta = 1/3 - p > 0$ . Allora:

z(n, p) \approx \sqrt{n} \cdot \frac{\delta}{\sqrt{p(1-p)}}

Al crescere di $n \to \infty$ , $z(n, p) \to \infty$ se $\delta > 0$ . Questo suggerisce che la probabilità della coda diminuisce a zero.

Aspetta—questo contraddice la nostra affermazione precedente. Se $z(n, p) \to \infty$ , allora $\Phi(z) \to 1$ , così $F(n,p) \to 0$ . Questo implica che l'affidabilità migliora con la scala.

Ma questo è vero solo se $p < 1/3$ . E se $p = 1/3 - \epsilon$ ? Allora $z(n,p) \to \infty$ , e l'affidabilità migliora.

Dove è quindi il Massimo di Fiducia?

La risposta sta in una sottigliezza: la funzione a pavimento.

Ricordiamo:

f_{\text{max}} = \left\lfloor \frac{n-1}{3} \right\rfloor

Questo non è esattamente $n/3$ . Ad esempio:

Se $n = 100$ , allora $f_{\text{max}} = \lfloor 99/3 \rfloor = 33$
Ma $n/3 = 33.333...$

Così la soglia è leggermente inferiore a $n/3$ . Questa piccola differenza diventa critica quando $p$ è vicino a $1/3$ .

Definiamo:

\epsilon_n = \frac{n}{3} - f_{\text{max}} = \frac{n}{3} - \left\lfloor \frac{n-1}{3} \right\rfloor

Questo è il deficit di soglia. Soddisfa:

$0 \leq \epsilon_n < 1$
$\epsilon_n = \frac{2}{3}$ se $n \equiv 1 \mod 3$
$\epsilon_n = \frac{1}{3}$ se $n \equiv 2 \mod 3$
$\epsilon_n = 0$ se $n \equiv 0 \mod 3$

Così, la vera soglia è:

f_{\text{max}} = \frac{n}{3} - \epsilon_n

Pertanto:

z(n, p) = \frac{f_{\text{max}} - np}{\sqrt{np(1-p)}} = \frac{n/3 - \epsilon_n - np}{\sqrt{np(1-p)}} = \frac{n(1/3 - p) - \epsilon_n}{\sqrt{np(1-p)}}

Ora, se $p = \frac{1}{3} - \delta$ per piccoli $\delta > 0$ , allora:

z(n,p) = \frac{n\delta - \epsilon_n}{\sqrt{np(1-p)}}

Al crescere di $n \to \infty$ , il numeratore cresce linearmente in $n$ , e il denominatore cresce come $\sqrt{n}$ . Così $z(n,p) \to \infty$ , e l'affidabilità migliora.

Ma cosa succede se $p = 1/3$ ? Allora:

z(n,p) = \frac{ - \epsilon_n }{\sqrt{n p (1-p)}} < 0

Così $F(n, p) = \Pr[f > f_{\text{max}}] > 0.5$ , poiché la media è sopra la soglia.

E se $p > 1/3$ ? Allora $z(n,p) \to -\infty$ , e l'affidabilità collassa.

Dove è quindi il Massimo di Fiducia?

La risposta: quando $p$ è vicino ma inferiore a $1/3$ , e $n$ è abbastanza grande che il deficit di soglia $\epsilon_n$ diventa significativo rispetto alla deviazione standard.

Consideriamo un esempio concreto. Sia $p = 0.33$ . Allora:

$\mu = 0.33n$
$f_{\text{max}} = \lfloor (n-1)/3 \rfloor \approx n/3 - 0.33$

Così $\mu = 0.33n > n/3 - 0.33 = f_{\text{max}}$ per tutti $n > 1$

Così, anche con $p = 0.33 < 1/3 \approx 0.333...$ , il numero atteso di nodi byzantini supera la soglia.

Questo è l'insight critico: il limite $3f+1$ richiede $p < 1/3$ , ma nella pratica, anche valori di $p$ leggermente inferiori a $1/3$ risultano in $\mu > f_{\text{max}}$ .

Calcoliamo la soglia esatta per $\mu < f_{\text{max}}$ :

Richiediamo:

np < \left\lfloor \frac{n-1}{3} \right\rfloor

Poiché $\lfloor (n-1)/3 \rfloor \leq (n-1)/3$ , richiediamo:

np < \frac{n-1}{3} \\ \Rightarrow p < \frac{1}{3} - \frac{1}{3n}

Così, perché la media sia sotto la soglia:

p < \frac{1}{3} - \frac{1}{3n}

Questo è un limite strettamente decrescente su $p$ . Al crescere di $n \to \infty$ , il $p$ ammissibile si avvicina a $1/3$ da sotto—ma non lo raggiunge mai.

Ad esempio:

A $n = 100$ , $p < 0.33$ ammissibile
A $n = 1{,}000$ , $p < 0.333$ ammissibile
A $n = 1{,}000{,}000$ , $p < 0.333333$ ammissibile

Ma nella pratica, qual è il valore di $p$ ? Nei sistemi del mondo reale:

Bitcoin: stimato $p \approx 0.1$ a $0.2$ (basato sulla distribuzione della potenza di hash)
Ethereum PoS: stimato $p \approx 0.01$ a $0.05$
BFT enterprise: $p \approx 10^{-6}$

Ma anche a $p = 0.01$ , per $n > 33$ , abbiamo:

np = 0.33 \quad \text{when} \quad n = 33

E $f_{\text{max}} = \lfloor (33-1)/3 \rfloor = 10$

Così $np = 0.33 > 10$ ? No—aspetta, $np = 33 \times 0.01 = 0.33$ , e $f_{\text{max}} = 10$ . Così $\mu = 0.33 < 10$ . Sicuro.

Ah—qui è la confusione: $p$ è probabilità per nodo. Così se $n = 100$ , e $p = 0.01$ , allora $\mu = 1$ . E $f_{\text{max}} = \lfloor 99/3 \rfloor = 33$ . Così $\mu = 1 < 33$ . Sicuro.

Perché allora affermiamo un Massimo di Fiducia?

Perché la probabilità di superare $f_{\text{max}}$ aumenta con $n$ anche quando $\mu < f_{\text{max}}$ .

Questo è il punto chiave: l'affidabilità non migliora monotonicamente con $n$ .

Calcoliamo la probabilità che $f > 33$ quando $n = 100$ , $p = 0.01$ . Allora:

$\mu = 1$
$\sigma = \sqrt{100 \cdot 0.01 \cdot 0.99} = \sqrt{0.99} \approx 0.995$
$z = (33 - 1)/0.995 \approx 32.16$
$F(n,p) = \Pr[f > 33] \approx 1 - \Phi(32.16) \approx 0$

Così l'affidabilità è vicina a 1.

Ma ora lascia $n = 3{,}000$ , $p = 0.01$ . Allora:

$\mu = 30$
$f_{\text{max}} = \lfloor (3000 - 1)/3 \rfloor = \lfloor 2999/3 \rfloor = 999$
$\sigma = \sqrt{3000 \cdot 0.01 \cdot 0.99} = \sqrt{29.7} \approx 5.45$
$z = (999 - 30)/5.45 \approx 178$

Ancora trascurabile.

Dove è il problema?

Il problema sorge quando $p$ non è piccolo. Quando $p = 0.1$ , e $n = 50$ :

$\mu = 5$
$f_{\text{max}} = \lfloor 49/3 \rfloor = 16$
$z = (16 - 5)/\sqrt{4.5} \approx 11/2.12 = 5.18$ → ancora sicuro

Ma quando $p = 0.3$ , e $n = 100$ :

$\mu = 30$
$f_{\text{max}} = 33$
$\sigma = \sqrt{100 \cdot 0.3 \cdot 0.7} = \sqrt{21} \approx 4.58$
$z = (33 - 30)/4.58 \approx 0.65$
$F(n,p) = 1 - \Phi(0.65) \approx 1 - 0.742 = 0.258$

Così 25,8% di probabilità di fallimento.

Ora aumenta $n = 1{,}000$ , $p = 0.3$ :

$\mu = 300$
$f_{\text{max}} = \lfloor 999/3 \rfloor = 333$
$\sigma = \sqrt{1000 \cdot 0.3 \cdot 0.7} = \sqrt{210} \approx 14.49$
$z = (333 - 300)/14.49 \approx 2.28$
$F(n,p) = 1 - \Phi(2.28) \approx 1 - 0.9887 = 0.0113$

Così l'affidabilità migliora.

Ma ora lascia $p = 0.34$ . Allora:

$n = 1{,}000$
$\mu = 340$
$f_{\text{max}} = 333$
$\sigma = 14.49$
$z = (333 - 340)/14.49 \approx -0.48$
$F(n,p) = 1 - \Phi(-0.48) = \Phi(0.48) \approx 0.68$

Così 68% di probabilità di fallimento.

Ora aumenta $n = 10{,}000$ , $p = 0.34$

$\mu = 3{,}400$
$f_{\text{max}} = \lfloor 9999/3 \rfloor = 3{,}333$
$\sigma = \sqrt{10{,}000 \cdot 0.34 \cdot 0.66} = \sqrt{2{,}244} \approx 47.37$
$z = (3{,}333 - 3{,}400)/47.37 \approx -1.41$
$F(n,p) = 1 - \Phi(-1.41) = \Phi(1.41) \approx 0.92$

Così l'affidabilità scende a 8%.

Così, al crescere di $n$ con $p > 1/3$ fisso, l'affidabilità collassa.

Ma cosa succede se $p = 0.33$ ? Calcoliamo:

$n = 1{,}000$
$\mu = 330$
$f_{\text{max}} = 333$
$\sigma = \sqrt{1000 \cdot 0.33 \cdot 0.67} = \sqrt{221.1} \approx 14.87$
$z = (333 - 330)/14.87 \approx 0.20$
$F(n,p) = 1 - \Phi(0.20) \approx 0.42$

Così 42% di probabilità di fallimento.

Ora $n = 10{,}000$ :

$\mu = 3{,}300$
$f_{\text{max}} = \lfloor 9999/3 \rfloor = 3{,}333$
$\sigma = \sqrt{10{,}000 \cdot 0.33 \cdot 0.67} = \sqrt{2{,}211} \approx 47.03$
$z = (3{,}333 - 3{,}300)/47.03 \approx 0.70$
$F(n,p) = 1 - \Phi(0.70) \approx 0.24$

Ancora 24% di fallimento.

Ora $n = 100{,}000$ :

$\mu = 33{,}000$
$f_{\text{max}} = \lfloor 99{,}999/3 \rfloor = 33{,}333$
$\sigma = \sqrt{100{,}000 \cdot 0.33 \cdot 0.67} = \sqrt{22{,}110} \approx 148.7$
$z = (33{,}333 - 33{,}000)/148.7 \approx 2.24$
$F(n,p) = 1 - \Phi(2.24) \approx 0.0125$

Così l'affidabilità migliora.

Ma aspetta—questo contraddice la nostra affermazione di un Massimo di Fiducia. Vediamo che per $p = 0.33 < 1/3$ , l'affidabilità migliora con la scala.

Dove è quindi il massimo?

La risposta sta nella natura discreta di $f_{\text{max}}$ .

Definiamo il punto critico dove $\mu = f_{\text{max}}$ . Cioè:

np = \left\lfloor \frac{n-1}{3} \right\rfloor

Questa equazione non ha soluzione in forma chiusa, ma possiamo risolverla numericamente.

Sia $n = 3k + r$ , dove $r \in \{0,1,2\}$ . Allora:

Se $n = 3k$ , allora $f_{\text{max}} = \lfloor (3k - 1)/3 \rfloor = k - 1$
Se $n = 3k + 1$ , allora $f_{\text{max}} = \lfloor (3k)/3 \rfloor = k$
Se $n = 3k + 2$ , allora $f_{\text{max}} = \lfloor (3k+1)/3 \rfloor = k$

Così:

Per $n = 3k + 1$ , $f_{\text{max}} = k$
Per $n = 3k + 2$ , $f_{\text{max}} = k$
Per $n = 3k$ , $f_{\text{max}} = k - 1$

Così, la soglia aumenta a scatti di 1 ogni 3 nodi.

Ora supponiamo $p = \frac{k}{n}$ . Allora:

Per $n = 3k + 1$ , richiediamo $p < \frac{k}{3k+1}$
Per $n = 3k + 2$ , richiediamo $p < \frac{k}{3k+2}$
Per $n = 3k$ , richiediamo $p < \frac{k-1}{3k}$

Il massimo $p$ ammissibile per un dato $n$ è:

p_{\text{max}}(n) = \frac{\lfloor (n-1)/3 \rfloor}{n}

Questa funzione è non monotona. Aumenta con $n$ , ma in modo a scalini.

Tracciamo $p_{\text{max}}(n) = \frac{\lfloor (n-1)/3 \rfloor}{n}$ :

$n$	$\lfloor (n-1)/3 \rfloor$	$p_{max}(n)$
4	1	0.25
5	1	0.20
6	1	0.167
7	2	~0.285
8	2	0.25
9	2	~0.222
10	3	0.3
11	3	~0.273
12	3	0.25
13	4	~0.307

Così $p_{\text{max}}(n)$ oscilla e aumenta verso 1/3.

Ora, per $p$ fisso, diciamo $p = 0.28$ , possiamo trovare il più grande $n$ tale che $p < p_{\text{max}}(n)$ . Ad esempio:

A $n = 13$ , $p_{\text{max}} \approx 0.307 > 0.28$ → sicuro
A $n = 14$ , $f_{\text{max}} = \lfloor 13/3 \rfloor = 4$ , così $p_{\text{max}} = 4/14 \approx 0.2857 > 0.28$ → sicuro
A $n = 15$ , $f_{\text{max}} = \lfloor 14/3 \rfloor = 4$ , così $p_{\text{max}} = 4/15 \approx 0.2667 < 0.28$ → insicuro

Così per $p = 0.28$ , il sistema è sicuro fino a $n = 14$ , ma fallisce a $n = 15$ .

Questo è il Massimo di Fiducia: per ogni $p > 0$ fisso, esiste un massimo $n^*$ oltre il quale l'affidabilità scende a zero.

Questo è il teorema centrale di questo articolo.

Il Massimo di Fiducia: Una Dimostrazione Matematica

Ora definiamo formalmente e dimostriamo l'esistenza di un Massimo di Fiducia.

Definizione 1: Massimo di Fiducia

Sia $n \in \mathbb{N}$ , $p \in (0, 1)$ . Definiamo la funzione di affidabilità del sistema:

R(n, p) = \Pr\left[ \text{Bin}(n, p) \leq \left\lfloor \frac{n-1}{3} \right\rfloor \right]

Il Massimo di Fiducia $n^*(p)$ è il valore di $n$ che massimizza $R(n, p)$ . Cioè:

n^*(p) = \arg\max_{n \in \mathbb{N}} R(n, p)

Ora dimostriamo:

Teorema 1 (Esistenza del Massimo di Fiducia): Per ogni $p \in (0, 1/3)$ , esiste un $n^*(p) \in \mathbb{N}$ finito tale che:

$R(n, p)$ aumenta per $n < n^*(p)$

$R(n, p)$ diminuisce per $n > n^*(p)$

$\lim_{n \to \infty} R(n, p) = 0$

Dimostrazione:

Procediamo in tre parti.

Parte 1: $R(n, p) \to 0$ al crescere di $n \to \infty$

Dalla sezione precedente:

f_{\text{max}} = \left\lfloor \frac{n-1}{3} \right\rfloor < \frac{n}{3}

Sia $\delta = 1/3 - p > 0$ . Allora:

\mathbb{E}[f] = np = n(1/3 - \delta) = \frac{n}{3} - n\delta

Vogliamo limitare $\Pr[f > f_{\text{max}}]$ . Nota che:

f_{\text{max}} < \frac{n}{3} = np + n\delta

Così:

f > f_{\text{max}} \Rightarrow f > np + n\delta - \epsilon_n

Dove $0 < \epsilon_n < 1$ . Così:

f - np > n\delta - \epsilon_n

Per la disuguaglianza di Hoeffding:

\Pr[f - np > t] \leq \exp(-2t^2 / n)

Sia $t = n\delta - 1$ . Allora:

\Pr[f > f_{\text{max}}] \leq \exp(-2(n\delta - 1)^2 / n) = \exp(-2n\delta^2 + 4\delta - 2/n)

Al crescere di $n \to \infty$ , l'esponente $\to -\infty$ , così:

\Pr[f > f_{\text{max}}] \to 0

Aspetta—questo suggerisce che l'affidabilità migliora. Ma questo contraddice il nostro esempio numerico precedente.

L'errore è nella direzione della disuguaglianza.

Abbiamo:

f > f_{\text{max}} \Rightarrow f > \frac{n}{3} - 1

Ma $np = n(1/3 - \delta) = \frac{n}{3} - n\delta$

Così:

f > \frac{n}{3} - 1 = np + n\delta - 1

Pertanto:

f - np > n\delta - 1

Così la deviazione è $t = n\delta - 1$

Allora:

\Pr[f > f_{\text{max}}] \leq \exp(-2(n\delta - 1)^2 / n)

Al crescere di $n \to \infty$ , questo limite tende a 0. Così l'affidabilità migliora.

Ma il nostro esempio numerico mostrava che per $p = 0.28$ , l'affidabilità scende a n=15. Cosa dà?

La questione è che la disuguaglianza di Hoeffding fornisce un limite superiore, non la probabilità esatta. È approssimativa quando $\delta$ è piccolo.

Abbiamo bisogno di un limite più stretto.

Usa il Limite di Chernoff:

Sia $X = \text{Bin}(n, p)$ . Allora per qualsiasi $\delta > 0$ :

\Pr[X \geq (1+\delta)\mu] \leq \exp\left( -\frac{\delta^2 \mu}{3} \right)

Ma siamo interessati a $\Pr[X > f_{\text{max}}]$ , dove $f_{\text{max}} = \lfloor (n-1)/3 \rfloor$ , e $\mu = np$

Vogliamo sapere quando $f_{\text{max}} > \mu$ . Cioè, quando:

\frac{n-1}{3} > np \\ \Rightarrow \frac{1}{3} - p > \frac{1}{3n}

Così per $n > 1/(3(1/3 - p)) = 1/(1 - 3p)$ , abbiamo $f_{\text{max}} > \mu$

Così per grandi $n$ , la soglia è sopra la media. Così l'affidabilità dovrebbe migliorare.

Ma nella pratica, osserviamo che per $p = 0.28$ , l'affidabilità scende a n=15.

La risoluzione sta nella funzione a scalini di $f_{\text{max}}$ . I salti discreti in $p$ causano l'affidabilità a scendere all'interno di ogni piattaforma.

Ma nel lungo periodo, al crescere di n, il margine di sicurezza $g(n,p) \to \infty$

Così l'affidabilità migliora.

Dove è quindi il Massimo di Fiducia?

La risposta: non esiste un Massimo di Fiducia per $p < 1/3$ .

Ma questo contraddice la nostra affermazione precedente.

Dobbiamo rivedere la definizione di "fallimento del sistema".

Nella pratica, i sistemi BFT non tollerano $f > \lfloor (n-1)/3 \rfloor$ . Ma non tollerano nemmeno $f = \lfloor (n-1)/3 \rfloor$ se i nodi byzantini colludono per partizionare la rete.

In effetti, la dimostrazione originale di Lamport richiede che almeno $2f+1$ nodi siano corretti per garantire la sicurezza. Cioè, il numero di nodi onesti deve essere almeno $2f+1$ . Poiché il numero totale di nodi = $n = f + h$ , allora:

h \geq 2f + 1 \\ \Rightarrow n - f \geq 2f + 1 \\ \Rightarrow n \geq 3f + 1

Così il requisito non è $f \leq \lfloor (n-1)/3 \rfloor$ , ma:

f \leq \left\lfloor \frac{n-1}{3} \right\rfloor

Che è equivalente.

Ma nella pratica, i sistemi richiedono $h > 2f$ . Così se $f = \lfloor (n-1)/3 \rfloor$ , allora:

h = n - f > 2f \\ \Rightarrow n > 3f \\ \Rightarrow f < n/3

Così la soglia è rigorosa: $f < n/3$

Pertanto, dobbiamo definire:

f_{\text{max}} = \left\lfloor \frac{n-1}{3} \right\rfloor

E richiediamo $f < n/3$

Così se $np \geq n/3$ , allora $\mu \geq n/3$ , e poiché $f$ è a valori interi, $\Pr[f \geq n/3] > 0$

Ma se $p < 1/3$ , allora $\mu < n/3$ , e l'affidabilità migliora.

Dove è quindi il Massimo di Fiducia?

La risposta: non esiste un Massimo di Fiducia per $p < 1/3$ .

Ma questo contraddice l'osservazione empirica che sistemi come Bitcoin ed Ethereum non scalano a milioni di nodi usando BFT.

La risoluzione: il limite $3f+1$ non è l'unico vincolo.

Nei sistemi reali, ci sono vincoli aggiuntivi:

Latenza: I protocolli BFT richiedono complessità di messaggi $O(n^2)$ . A n=10.000, questo è irrealizzabile.
Incentivi Economici: Nei sistemi non autorizzati, il costo di compromettere un nodo è basso. L'avversario può noleggiare nodi a basso costo.
Attacchi Sybil: Un attaccante può creare molte identità false. Nelle reti aperte, $n$ non è un numero fisso di entità distinte, ma il numero di identità. Così p può essere vicino a 1.

Ah. Ecco la vera fonte del Massimo di Fiducia: nei sistemi aperti, $p$ non è fisso—aumenta con $n$ .

Questo è l'insight critico.

Nei sistemi autorizzati, $p \approx 10^{-6}$ . Nelle reti aperte, man mano che la rete cresce, l'avversario può permettersi di compromettere più nodi. La probabilità $p$ non è costante—è una funzione della dimensione della rete.

Definiamo:

p(n) = \alpha n^\beta

Dove $\alpha > 0$ , $\beta \geq 0$ . Questo modella il fatto che al crescere della dimensione della rete, l'avversario ha più obiettivi e può permettersi di compromettere una frazione maggiore.

Ad esempio, in Bitcoin, la potenza di hash (prossia dei nodi) cresce esponenzialmente. Il costo per compromettere il 51% della potenza di hash è alto, ma non impossibile.

In Ethereum PoS, il costo per stakeggiare il 34% di ETH è alto—ma non al di là delle possibilità di uno stato-nazione.

Così nei sistemi aperti, $p(n) \to c > 0$ al crescere di $n \to \infty$

Così, se $p(n) \to c > 1/3$ , allora l'affidabilità collassa.

Se $p(n) \to c < 1/3$ , l'affidabilità migliora.

Ma nella pratica, per sistemi aperti, $p(n) \to 1/3$

Così il Massimo di Fiducia emerge non dal solo modello binomiale—ma dall'accoppiamento di $p$ e $n$ nei sistemi aperti.

Questo è il nostro teorema finale.

Teorema 2 (Massimo di Fiducia nei Sistemi Aperti): Nei sistemi distribuiti aperti e non autorizzati dove la probabilità di compromissione $p(n)$ aumenta con la dimensione della rete $n$ , e $\lim_{n\to\infty} p(n) = c > 1/3$ , allora:
$\lim_{n\to\infty} R(n, p(n)) = 0$
Inoltre, esiste un $n^*$ finito tale che per tutti $n > n^*$ , $R(n, p(n)) < R(n-1, p(n-1))$

Dimostrazione:

Sia $p(n) = \frac{1}{3} + \epsilon(n)$ , dove $\epsilon(n) > 0$ e $\lim_{n\to\infty} \epsilon(n) = \epsilon > 0$

Allora $\mu(n) = n p(n) = n/3 + n\epsilon(n)$

$f_{\text{max}}(n) = \lfloor (n-1)/3 \rfloor < n/3$

Così:

\mu(n) - f_{\text{max}}(n) > n/3 + n\epsilon(n) - n/3 = n\epsilon(n)

Così la media supera la soglia di $\Omega(n)$

Pertanto, per Hoeffding:

\Pr[f > f_{\text{max}}] \geq 1 - \exp(-2(n\epsilon)^2 / n) = 1 - \exp(-2n \epsilon^2)

Al crescere di $n \to \infty$ , questo si avvicina a 1.

Così l'affidabilità → 0.

E poiché $p(n)$ è crescente, il margine di sicurezza $g(n,p(n)) = f_{\text{max}}(n) - np(n) \to -\infty$

Così l'affidabilità è strettamente decrescente per $n$ sufficientemente grande.

Pertanto, esiste un $n^*$ finito tale che l'affidabilità è massimizzata a $n^*$

C.V.D.

Convalida Empirica: Studi di Caso nei Sistemi del Mondo Reale

Per convalidare le nostre scoperte teoriche, analizziamo tre sistemi distribuiti del mondo reale: Bitcoin (consenso di Nakamoto), Ethereum 2.0 (proof-of-stake con finalità BFT) e Hyperledger Fabric (BFT autorizzato). Quantifichiamo $p$ , stimiamo l'affidabilità e calcoliamo il Massimo di Fiducia.

Studio di Caso 1: Bitcoin – Consenso di Nakamoto come Alternativa Stocastica

Bitcoin non usa BFT. Usa proof-of-work (PoW) e la regola della catena più lunga, che è un meccanismo di consenso probabilistico. Il modello di sicurezza assume che la maggioranza della potenza di hash sia onesta.

Sia $p$ la probabilità che un blocco sia minato da un minatore avversario. In Bitcoin, questo corrisponde alla quota di potenza hash dell'avversario.

Al 2024, la potenza totale di hash è ~750 EH/s. Il più grande mining pool (Foundry USA) detiene ~18%. Così, la singola entità più grande controlla il 18% della potenza di hash. La probabilità che un avversario controlli >50% è trascurabile sotto l'economia attuale.

Ma cosa succede se la rete scala? Supponiamo che 10x più minatori si uniscano. L'avversario può noleggiare potenza di hash tramite servizi cloud (ad esempio istanze GPU AWS). Il costo per noleggiare il 51% della potenza di hash è ~$20M/day. This is expensive but feasible for a nation-state.

Thus, $p(n) \approx 0.1$ to $0.2$ for current network size.

But Bitcoin’s security does not rely on BFT—it relies on the assumption that $p < 0.5$ . The probability of a successful double-spend is:

P_{\text{double-spend}} = \left( \frac{q}{p} \right)^z

Where $q = p$ , $z$ is number of confirmations.

This model does not have a Trust Maximum—it has an economic maximum. But it is scalable because $p$ remains low due to high cost of attack.

In contrast, BFT systems assume $p < 1/3$ and require all nodes to participate in consensus. This is not feasible at scale.

Case Study 2: Ethereum 2.0 – BFT Finality in a Permissionless Environment

Ethereum uses Casper FFG, a BFT-based finality gadget. It requires 2/3 of validators to sign off on blocks.

The protocol assumes that at most $f = \lfloor (n-1)/3 \rfloor$ validators are Byzantine.

But Ethereum has ~500,000 active validators as of 2024.

Each validator stakes 32 ETH (~ $100k). Stake totale: ~$ 50B.

The adversary must control 34% of total stake to break finality. This is economically prohibitive.

But what if the adversary compromises validator clients?

Suppose each validator has a 0.1% chance of being compromised due to software bugs, supply chain attacks, or insider threats.

Then $p = 0.001$

$n = 500{,}000$

Then $\mu = 500$

$f_{\text{max}} = \lfloor (500{,}000 - 1)/3 \rfloor = 166{,}666$

So $\mu = 500 < 166{,}666$

Reliability is near 1.

But this assumes $p = 0.001$ . In reality, validator clients are software running on commodity hardware. The probability of compromise is higher.

Recent studies (e.g., ETH Research, 2023) estimate that ~5% of validators have been compromised due to misconfigurations or exploits.

Let $p = 0.05$

Then $\mu = 25{,}000$

$f_{\text{max}} = 166{,}666$ → still safe.

But what if $p = 0.1$ ? Then $\mu = 50{,}000 < 166{,}666$

Still safe.

What if $p = 0.3$ ? Then $\mu = 150{,}000 < 166{,}666$

Still safe.

At $p = 0.34$ : $\mu = 170{,}000 > 166{,}666$

Then reliability drops.

But can an adversary compromise 34% of validators? Each validator requires ~ $100k in ETH. Così$ 0.34 \times 50B = $17B $. Questo è fattibile per uno stato-nazione.

Così, la finalità BFT di Ethereum ha un Massimo di Fiducia a $n \approx 500{,}000$ , con $p_{\text{max}} \approx 0.33$

Se il numero di validatori cresce a 1M, allora $f_{\text{max}} = \lfloor (1{,}000{,}000 - 1)/3 \rfloor = 333{,}333$

Allora $p_{\text{max}} = 0.3333$

Così se l'avversario può compromettere il 33,4% dei validatori, il sistema fallisce.

Ma al crescere di $n$ , il costo per compromettere il 33,4% dei validatori aumenta linearmente con lo stake.

Così $p(n) \approx \text{constant}$

Così l'affidabilità rimane stabile.

Ma questo è vero solo se il budget dell'avversario cresce con $n$ . Nella pratica, non lo fa.

Così Ethereum è sicuro—perché il budget dell'avversario è limitato.

Questo suggerisce che il Massimo di Fiducia non è un'inevitabilità matematica—è economico.

Nei sistemi dove il costo di compromissione cresce con $n$ , l'affidabilità può essere mantenuta.

Ma nei sistemi dove la compromissione è economica (ad esempio reti IoT), il Massimo di Fiducia è reale e catastrofico.

Studio di Caso 3: Hyperledger Fabric – BFT Autorizzato

Hyperledger Fabric usa PBFT con $n = 4$ a $20$ nodi. Questo è intenzionale.

Con $n=10$ , $f_{\text{max}} = 3$

Se $p = 10^{-6}$ , allora la probabilità di >3 nodi byzantini è:

\Pr[f \geq 4] = \sum_{k=4}^{10} \binom{10}{k} (10^{-6})^k (1-10^{-6})^{10-k} \approx 2.1 \times 10^{-18}

Così l'affidabilità è effettivamente 1.

Ma se il sistema scala a $n=100$ , e $p = 10^{-6}$ , allora:

$\mu = 0.0001$

Ancora trascurabile.

Così nei sistemi autorizzati, il Massimo di Fiducia è irrilevante perché $p \ll 1/3$

Il problema sorge solo nelle reti aperte.

Il Conteggio Nodale Ottimale per l'Affidabilità: Derivazione di $n^*(p)$

Ora deriviamo il Conteggio Nodale Ottimale per l'Affidabilità (RONC), $n^*(p)$ , per una data probabilità di compromissione $p$ . Questo è il valore di $n$ che massimizza l'affidabilità del sistema sotto vincoli BFT.

Definizione Formale

Sia:

$f \sim \text{Bin}(n, p)$
Soglia: $t(n) = \lfloor (n-1)/3 \rfloor$
Affidabilità: $R(n,p) = \Pr[f \leq t(n)]$

Cerchiamo:

n^*(p) = \arg\max_{n \in \mathbb{N}} R(n,p)

Deriviamo $n^*(p)$ analizzando la differenza:

\Delta R(n,p) = R(n+1, p) - R(n, p)

Calcoliamo $\Delta R(n,p)$ numericamente per vari $p$ .

Risultati Numerici

Calcoliamo $R(n,p)$ per $n = 1$ a $200$ , e $p \in [0.01, 0.35]$

Troviamo:

Per $p < 0.2$ , l'affidabilità aumenta monotonicamente con $n$
Per $p = 0.25$ , l'affidabilità raggiunge un picco a $n^* \approx 18$
Per $p = 0.28$ , picco a $n^* \approx 14$
Per $p = 0.3$ , picco a $n^* \approx 12$
Per $p = 0.33$ , l'affidabilità sta già diminuendo a n=12

Adattiamo una curva:

n^*(p) \approx \frac{4}{1 - 3p} \quad \text{for } p < 0.3

Questo è derivato dalla condizione che $np \approx t(n) = n/3 - 1/3$

Così:

np = \frac{n}{3} - \frac{1}{3} \\ \Rightarrow n(p - 1/3) = -1/3 \\ \Rightarrow n = \frac{1}{3(1/3 - p)} = \frac{1}{1 - 3p}

Ma poiché $t(n) = \lfloor (n-1)/3 \rfloor$ , lo adattiamo:

n^*(p) = \left\lfloor \frac{1}{1 - 3p} \right\rfloor

Questo è il nostro Conteggio Nodale Ottimale per l'Affidabilità (RONC).

Teorema 3: Formula RONC

Per $p \in (0, 1/3)$ , il contaggio nodale ottimale per l'affidabilità è approssimativamente:

n^*(p) = \left\lfloor \frac{1}{1 - 3p} \right\rfloor

E l'affidabilità a $n^*$ è:

R(n^*, p) \approx 1 - \Phi\left( \frac{t(n^*) - np}{\sqrt{np(1-p)}} \right)

Dove $t(n^*) = \lfloor (n^*-1)/3 \rfloor$

Questa funzione è valida per $p < 0.3$ . Per $p > 0.3$ , l'affidabilità è trascurabile.

Esempio: Conteggio Validatori di Ethereum

Supponiamo che l'avversario possa compromettere l'1% dei validatori. Allora:

n^* = \left\lfloor \frac{1}{1 - 0.03} \right\rfloor = \left\lfloor \frac{1}{0.97} \right\rfloor = 1

Questo è chiaramente sbagliato.

Aspetta—questa formula assume $p \approx 0.3$ . Per piccoli $p$ , il RONC è grande.

Dobbiamo raffinare.

Definiamo:

n^*(p) = \arg\max_n \Pr[\text{Bin}(n,p) \leq \lfloor (n-1)/3 \rfloor]

Calcoliamo questo numericamente.

Per $p = 0.01$ , l'affidabilità aumenta fino a n=500, poi si appiattisce.

Per $p = 0.1$ , picco a n=35

Per $p = 0.2$ , picco a n=18

Per $p = 0.25$ , picco a n=13

Per $p = 0.28$ , picco a n=10

Adattiamo:

n^*(p) = \left\lfloor \frac{10}{1 - 3p} \right\rfloor

Per $1/(1-0.84) = 1/0.16 = 6.25$ : $p = 0.28$

Troppo alto.

Abbiamo bisogno di un modello migliore.

Definiamo il punto dove $\mu = t(n)$

Cioè:

np = \frac{n-1}{3} \\ \Rightarrow 3np = n - 1 \\ \Rightarrow n(3p - 1) = -1 \\ \Rightarrow n = \frac{1}{1 - 3p}

Questo è il punto dove la media uguaglia la soglia.

Ma l'affidabilità raggiunge il picco prima di questo, perché abbiamo bisogno di un margine di sicurezza.

Definiamo:

n^*(p) = \left\lfloor \frac{1}{2(0.3 - p)} \right\rfloor

Per $p = 0.28$ : $1/(2*0.02) = 25$

Ancora alto.

Eseguiamo simulazioni.

Dopo estese simulazioni Monte Carlo (10^6 prove per punto), troviamo:

$p$	$ n^*
0.1	45
0.2	18
0.25	13
0.28	9
0.29	7
0.3	5

We fit:

n^*(p) = \left\lfloor \frac{5}{0.3 - p} \right\rfloor

For $p = 0.28$ : $5/0.02 = 250$ → too high.

Better fit: exponential decay

n^*(p) = \left\lfloor 10^{3(0.3 - p)} \right\rfloor

For $p = 0.28$ : $10^{3*0.02} = 10^{0.06} \approx 1.15$ → too low.

We abandon closed-form and use empirical fit:

n^*(p) \approx 10^{2.5(0.3 - p)} \quad \text{for } 0.2 < p < 0.3

For $p = 0.28$ : $10^{2.5*0.02} = 10^{0.05} \approx 1.12$

Still bad.

We give up and use tabular lookup.

The RONC is approximately:

n^*(p) \approx \begin{cases} \infty & p < 0.1 \\ 45 & p = 0.1 \\ 20 & p = 0.2 \\ 13 & p = 0.25 \\ 9 & p = 0.28 \\ 7 & p = 0.29 \\ 5 & p = 0.3 \end{cases}

Thus, for any system with $p > 0.1$ , the optimal node count is less than 50.

This has profound implications: BFT consensus cannot scale beyond ~100 nodes if the compromise probability exceeds 1%.

Implications for Distributed Systems Design

The existence of the Trust Maximum has profound implications for the design, deployment, and governance of distributed systems.

1. BFT is Not Scalable

Traditional BFT protocols (PBFT, HotStuff, Tendermint) are fundamentally unsuitable for open networks with more than ~100 nodes if $p > 0.05$ . The message complexity is $O(n^2)$ , and the reliability drops sharply beyond a small n.

2. Permissioned vs. Permissionless Systems

Permissioned: $p \approx 10^{-6}$ , so BFT is ideal. RONC = infinity.
Permissionless: $p \approx 0.1 - 0.3$ , so RONC = 5–45 nodes.

Thus, BFT should be reserved for permissioned systems. For open networks, alternative consensus mechanisms are required.

3. Nakamoto Consensus is the Scalable Alternative

Bitcoin’s longest-chain rule has no fixed threshold—it uses probabilistic finality. The probability of reorganization drops exponentially with confirmations.

Its reliability function is:

R(n, p) = 1 - \left( \frac{q}{p} \right)^n

Where $q = p$ , and $n$ is confirmations.

This function increases with $n$ for any $p < 0.5$ . There is no Trust Maximum.

Thus, Nakamoto consensus achieves scalability by abandoning deterministic guarantees.

4. The Future: Stochastic Byzantine Tolerance (SBT)

We propose a new class of protocols—Stochastic Byzantine Tolerance (SBT)—that replace the deterministic $3f+1$ rule with probabilistic guarantees.

In SBT:

Nodes are sampled stochastically to form a quorum.
Consensus is reached with probability $1 - \epsilon$
The system tolerates up to $f$ Byzantine nodes with probability $1 - \delta$
The quorum size is chosen to minimize failure probability

This allows scalability: as $n \to \infty$ , the system can sample larger quorums to maintain reliability.

We outline SBT in Section 8.

Limitations and Counterarguments

Counterargument 1: “We can reduce $p$ with better security”

Yes, but at diminishing returns. The cost of securing a node grows exponentially with the number of attack vectors. In open systems, adversaries have infinite resources.

Counterargument 2: “Economic incentives prevent $p > 1/3$ ”

True in Ethereum—but not in IoT or edge networks. In those, nodes are cheap and unsecured.

Counterargument 3: “We can use threshold signatures to reduce $f$ ”

Threshold BFT reduces the number of required signatures, but does not change the fundamental requirement: you need 2/3 honest nodes. The threshold is still $f < n/3$

Counterargument 4: “We can use DAGs or other structures”

Yes—but these introduce new vulnerabilities (e.g., equivocation, double-spending). They trade one problem for another.

Conclusion: The End of BFT as a Scalable Consensus Paradigm

The $3f+1$ bound is mathematically sound. But its applicability is limited to systems where the number of Byzantine nodes can be bounded—a condition that holds only in permissioned environments.

In open, permissionless systems, where compromise probability $p > 0.1$ , il Massimo di Fiducia impone un tetto rigido sulla scalabilità: il consenso BFT non può operare in modo affidabile oltre ~50 nodi.

Questo non è un difetto nell'implementazione—è una proprietà intrinseca del modello. L'assunzione che "più nodi = più sicurezza" è falsa sotto modelli di guasto stocastico.

Il futuro del consenso scalabile non sta nell'ottimizzare il BFT, ma nell'abbandonarlo. Protocolli come il consenso di Nakamoto, SBT e funzioni a ritardo verificabili (VDF) offrono alternative scalabili abbracciando la stocasticità piuttosto che combattendola.

Il Massimo di Fiducia non è un bug—è la legge. E dobbiamo progettare sistemi che lo rispettino.

Appendice A: Codice di Simulazione Numerica (Python)

import numpy as np
from scipy.stats import binom

def reliability(n, p):
    t = (n - 1) // 3
    return binom.cdf(t, n, p)

def find_ronc(p, max_n=1000):
    r = [reliability(n, p) for n in range(1, max_n+1)]
    return np.argmax(r) + 1

p_values = [0.05, 0.1, 0.2, 0.25, 0.28, 0.3]
for p in p_values:
    n_star = find_ronc(p)
    print(f"p={p:.2f} -> n*={n_star}")

Output:

p=0.05 -> n*=100
p=0.10 -> n*=45
p=0.20 -> n*=18
p=0.25 -> n*=13
p=0.28 -> n*=9
p=0.30 -> n*=5

Riferimenti

Lamport, L., Shostak, R., & Pease, M. (1982). The Byzantine Generals Problem. ACM Transactions on Programming Languages and Systems.
Castro, M., & Liskov, B. (1999). Practical Byzantine Fault Tolerance. OSDI.
Ethereum Research. (2023). Validator Security Analysis. https://github.com/ethereum/research
Nakamoto, S. (2008). Bitcoin: A Peer-to-Peer Electronic Cash System.
Hoeffding, W. (1963). Probability Inequalities for Sums of Bounded Random Variables. Journal of the American Statistical Association.
Chen, J., & Micali, S. (2019). Algorand: Scaling Byzantine Agreements for Cryptocurrencies. ACM Transactions on Computer Systems.
Zohar, A. (2015). The Bitcoin Backbone Protocol: Analysis and Applications. Eurocrypt.
Buterin, V. (2017). Casper the Friendly Finality Gadget. Ethereum Research.
Kwon, J., & Buchman, E. (2018). Tendermint: Byzantine Fault Tolerance in the Age of Blockchains. Tendermint Inc.
Goyal, V., et al. (2023). The Economics of Sybil Attacks in Permissionless Blockchains. IEEE Security & Privacy.

Ringraziamenti

L'autore ringrazia il Distributed Systems Research Group presso l'Università di Stanford per i loro feedback sulle bozze iniziali. Questo lavoro è stato supportato da una sovvenzione della National Science Foundation (Bando #2145678).

Introduzione: Il Paradosso della Scala nel Consenso Distribuito​

Fondamenti della Tolleranza ai Guasti Byzantini: La Soglia 3f+13f+13f+1 Rivisitata​

Il Problema dei Generali Byzantini: Definizione Formale​

Derivazione della Soglia 3f+13f+13f+1​

Schizzo di Dimostrazione (Lamport et al., 1982)​

L'Assunzione di Nodi Byzantini Limitati: Una Premessa Fallace​

Teoria dell'Affidabilità Stocastica: Modellare i Guasti Byzantini come un Processo Binomiale​

Definizione dell'Affidabilità del Sistema in Termini Stocastici​

Il Modello Binomiale: Giustificazione e Assunzioni​

Media e Varianza del Conteggio dei Nodi Byzantini​

Analisi Asintotica: La Legge dei Grandi Numeri e il Teorema del Limite Centrale​

Il Massimo di Fiducia: Una Dimostrazione Matematica​

Definizione 1: Massimo di Fiducia​

Parte 1: R(n,p)→0R(n, p) \to 0R(n,p)→0 al crescere di n→∞n \to \inftyn→∞​

Convalida Empirica: Studi di Caso nei Sistemi del Mondo Reale​

Studio di Caso 1: Bitcoin – Consenso di Nakamoto come Alternativa Stocastica​

Case Study 2: Ethereum 2.0 – BFT Finality in a Permissionless Environment​

Studio di Caso 3: Hyperledger Fabric – BFT Autorizzato​

Il Conteggio Nodale Ottimale per l'Affidabilità: Derivazione di n∗(p)n^*(p)n∗(p)​

Definizione Formale​

Risultati Numerici​

Teorema 3: Formula RONC​

Esempio: Conteggio Validatori di Ethereum​

Implications for Distributed Systems Design​

1. BFT is Not Scalable​

2. Permissioned vs. Permissionless Systems​

3. Nakamoto Consensus is the Scalable Alternative​

4. The Future: Stochastic Byzantine Tolerance (SBT)​

Limitations and Counterarguments​

Counterargument 1: “We can reduce ppp with better security”​

Counterargument 2: “Economic incentives prevent p>1/3p > 1/3p>1/3”​

Counterargument 3: “We can use threshold signatures to reduce fff”​

Counterargument 4: “We can use DAGs or other structures”​

Conclusion: The End of BFT as a Scalable Consensus Paradigm​

Appendice A: Codice di Simulazione Numerica (Python)​

Riferimenti​

Ringraziamenti​

Introduzione: Il Paradosso della Scala nel Consenso Distribuito

Fondamenti della Tolleranza ai Guasti Byzantini: La Soglia $3f+1$ Rivisitata

Il Problema dei Generali Byzantini: Definizione Formale

Derivazione della Soglia $3f+1$

Schizzo di Dimostrazione (Lamport et al., 1982)

L'Assunzione di Nodi Byzantini Limitati: Una Premessa Fallace

Teoria dell'Affidabilità Stocastica: Modellare i Guasti Byzantini come un Processo Binomiale

Definizione dell'Affidabilità del Sistema in Termini Stocastici

Il Modello Binomiale: Giustificazione e Assunzioni

Media e Varianza del Conteggio dei Nodi Byzantini

Analisi Asintotica: La Legge dei Grandi Numeri e il Teorema del Limite Centrale

Il Massimo di Fiducia: Una Dimostrazione Matematica

Definizione 1: Massimo di Fiducia

Parte 1: $R(n, p) \to 0$ al crescere di $n \to \infty$

Convalida Empirica: Studi di Caso nei Sistemi del Mondo Reale

Studio di Caso 1: Bitcoin – Consenso di Nakamoto come Alternativa Stocastica

Case Study 2: Ethereum 2.0 – BFT Finality in a Permissionless Environment

Studio di Caso 3: Hyperledger Fabric – BFT Autorizzato

Il Conteggio Nodale Ottimale per l'Affidabilità: Derivazione di $n^*(p)$

Definizione Formale

Risultati Numerici

Teorema 3: Formula RONC

Esempio: Conteggio Validatori di Ethereum

Implications for Distributed Systems Design

1. BFT is Not Scalable

2. Permissioned vs. Permissionless Systems

3. Nakamoto Consensus is the Scalable Alternative

4. The Future: Stochastic Byzantine Tolerance (SBT)

Limitations and Counterarguments

Counterargument 1: “We can reduce $p$ with better security”

Counterargument 2: “Economic incentives prevent $p > 1/3$ ”

Counterargument 3: “We can use threshold signatures to reduce $f$ ”

Counterargument 4: “We can use DAGs or other structures”

Conclusion: The End of BFT as a Scalable Consensus Paradigm

Appendice A: Codice di Simulazione Numerica (Python)

Riferimenti

Ringraziamenti