Der Network-Conduit ist der Prozessor

Ein Paradigma für heliozentrisches Rechnen über den DDT-Standard-Programmiercode (DSPC)
Von: Denis „Denko“ Tumpic
Forschung durchgeführt 1988–1999; präsentiert als retrospektive technische Dokumentation

Zusammenfassung

Diese Arbeit präsentiert eine formale architektonische Abkehr von den „box-zentrierten“ Rechenparadigmen des 20. Jahrhunderts. Während zeitgenössische Forschung sich auf das Network of Workstations (NOW) als Mittel zur losen Clustering konzentriert, schlägt diese Arbeit eine radikale, bare-metal-Integration vor: Heliozentrisches Rechnen.

Zentrales Element dieser Forschung ist der DDT-Standard-Programmiercode (DSPC) – ein Macro-Assembly-Framework, das am 1988-05-21 initiiert wurde – sowie der Hochgeschwindigkeits-Parnet-Parallelleitung. Wir zeigen, dass ein heterogenes Netzwerk von Amiga-Systemen traditionelle verteilte Modelle übertreffen kann, indem es die Netzwerkleitung als primäre System-Rückplane behandelt. Durch die Einführung von Dynamic Instruction Set Computing (DISC) erreichen wir „Soft-ASIC“-Leistung, wodurch vernetzte Geräte ihren logischen Zweck dynamisch neu definieren können. Dieser Artikel liefert empirische Belege aus dem „Denko-Cluster“, um zu beweisen, dass das Netzwerk nicht nur ein Peripheriegerät ist, sondern der Prozessor selbst.

Einleitung: Das Scheitern des Monolithen

Die traditionelle von-Neumann-Architektur hat einen Punkt der abnehmenden Rendite erreicht. In einer typischen Desktop-Umgebung der 1990er Jahre ist die zentrale Verarbeitungseinheit (CPU) belastet durch eine „Betriebssystem-Steuer“ – einen enormen Overhead an Kontextwechseln, Interrupt-Behandlung und Abstraktionsschichten, die die Maschine effektiv isolieren.

Ich schlage das Heliozentrische Modell vor, ein System, bei dem die „Sonne“ (der Netzwerkprozessor) die „Planeten“ (kooperierende Netzwerkprozessoren) durch einen Hochgeschwindigkeits-Logikstrom steuert. Dies entspricht der Vision „Aktiver Netzwerke“ (Tennenhouse & Wetherall, 1996), bei der das Netzwerk nicht nur Pakete transportiert, sondern auch Berechnungen innerhalb der Leitung durchführt.

Das DSPC-Framework (gegründet am 1988-05-21)

Um den Durchsatz zu erreichen, der für ein Netzwerk als Prozessor erforderlich ist, muss die Softwareabstraktion eliminiert werden. DDT-Standard-Programmiercode (DSPC, ausgesprochen DIES-PI-SI) wurde als Hochleistungs-Makroassembler-Framework entwickelt.

DSPC ermöglicht komplexe Strukturen – Schleifen, Bedingungen und modulare Prozeduren – die während der Assemblierung in zyklengenaue 680x0-Instruktionen erweitert werden. Dies bietet die strukturelle Klarheit der Hochsprachenprogrammierung mit der rohen, bare-metal-Ausführungsgeschwindigkeit, die für die Echtzeit-Hardware-Synchronisation erforderlich ist. Bis 1988 war klar, dass Bare-Metal-Geschwindigkeit der einzige Weg war, um Echtzeit-Parallelport-Synchronisation ohne Latenzstrafen durch einen Kernel zu ermöglichen.

Die Conduit-Hypothese: Parnet als Systembus

Das physische Rückgrat des Denko-Clusters ist das Parnet-Protokoll. Während traditionelle Netzwerke (Ethernet) unter Protokollstapel-Bloat leiden, nutzt Parnet die Amiga-CIA-Chips (Complex Interface Adapter, MOS6526) für Hardware-synchronisierte Kommunikation.

CIA-Architektur in Parnet:

CIA-A ( $BFE000–$ BFEFFF): Steuert den parallelen Datenport (8-Bit) und die Timer-Interrupt-Logik
CIA-B ( $BFD000–$ BFDFFF): Verwaltet Handshake-Signale (REQ, ACK) und die Takterzeugung über 24-Bit-Timer-Zähler
Paralleler Port-Protokoll: Direkter I/O über den Adressbus, wobei der CIA-B-Timer-Hardware Taktsignale mit etwa 1 MHz pro CPU-Takt-Teilung bereitstellt

Indem das parallele Kabel als Direktzugriffsspeicher-Erweiterung (DMA) behandelt wird, tauschen DSPC-gesteuerte Knoten Daten mit Geschwindigkeiten nahe lokalen Busspeeds aus. Dies schafft einen „Leitungs“-Mechanismus, bei dem Daten während des Transits verarbeitet werden – ein Konzept, das den systolischen Arrays von H.T. Kung (1982) entspricht, bei denen Daten durch eine Reihe von Zellen fließen, wobei jede einen Teil der Aufgabe ausführt.

Die zentrale architektonische Erkenntnis: Der Hardware-Timer der CIA dient als verteilte Uhr über alle Knoten hinweg und beseitigt die Jitter, die bei softwaregesteuerter Synchronisation unvermeidlich sind. Diese Präzision war entscheidend für die Mehrheitsabstimmung der Triad-Logik.

Ausbreitungsverzögerung und die Lichtgeschwindigkeitsgrenze

Der Streben nach Bare-Metal-Performance führte zu einer tieferen Erkenntnis: Ausbreitungsverzögerung ist die letzte Grenze der verteilten Rechnertechnik. In jedem vernetzten System kann sich Information nicht schneller als mit Lichtgeschwindigkeit ausbreiten – eine harte physikalische Obergrenze. Die im Denko-Cluster gemessene Latenz $\tau$ ( $\sim 0.5\text{ ms}$ ) spiegelte nicht nur elektrische Impedanz in Kupfer wider, sondern die grundlegende Ausbreitungsgeschwindigkeit elektromagnetischer Wellen durch das Parallelschaltkabel.

Für ein unge shields Parallelschaltkabel der Länge $L$ beträgt die Ausbreitungsverzögerung ungefähr:

$\Delta t_{\text{prop}} = \frac{L}{c_{\text{medium}}} \approx \frac{L}{0.67c}$

wobei $c = 3 \times 10^8 \text{ m/s}$ die Lichtgeschwindigkeit und $0.67c$ eine typische Ausbreitungsgeschwindigkeit in Kupfer (aufgrund dielektrischer Effekte) ist. Bei den im Denko-Cluster verwendeten Kabeln mit einer Länge von 8–10 Metern ergab dies $\Delta t_{\text{prop}} \approx 40–50 \text{ ns}$ pro Richtung – vernachlässigbar im Vergleich zu CPU-Zykluszeiten, aber summiert über mehrere Knoten.

Optische Pfade und der relativistische Horizont

Früh in der Konzeption des Projekts hatte ich mir vorgestellt, glasfaserbasierte Übertragung zu nutzen, um das theoretische Limit anzustreben: die Ausbreitung mit $c_{\text{fiber}} \approx 0.67c$ , knapp langsamer als die Lichtgeschwindigkeit selbst. Während die relative Geschwindigkeit von Kupfer ähnlich ist, boten Glasfasern einen entscheidenden Vorteil: Immunität gegenüber elektromagnetischen Störungen. Die Signalintegritätsbegrenzungen, die letztlich Heliocentric (EMI über ungeschirmte Kabel) einschränkten, wären durch Glasfaser vollständig beseitigt worden.

Noch radikaler dachte ich über die Frage nach: Was ist die absolute physikalische Obergrenze für einen verteilten Prozessor? Gemäß den Prinzipien der Relativitätstheorie entsteht bei jeder Berechnung, die die Distanz $d$ umfasst, eine unvermeidbare Verzögerung:

$\Delta t_{\text{min}} = \frac{d}{c}$

Dies ist keine Einschränkung der Technik – es ist eine Konsequenz der allgemeinen Relativitätstheorie. Zwei Prozessoren, die einen Kilometer voneinander entfernt sind, können keine Informationen schneller austauschen als mit $\Delta t \approx 3.3 \text{ μs}$ . Diese fundamentale Grenze gilt universell, egal ob das Signal durch Kupfer, Glasfaser oder Vakuum reist.

Klärung: Klassische Physik, nicht Quantenmechanik

Um dies explizit zu machen: Diese Analyse basiert auf klassischer Elektrodynamik und Relativitätstheorie, nicht auf Quantenmechanik. Es gibt keine Verschränkung, keine Superposition und keine Kohärenz im quantenmechanischen Sinne. Die „Determinismus“, der in Heliocentric Computing angestrebt wurde, war klassischer Determinismus – die Anforderung, dass ein Signal, das zur Zeit $t$ von Knoten A gesendet wird, zur Zeit $t + \Delta t_{\text{prop}}$ bei Knoten B mit hoher Präzision ankommt. Der Hardware-Timer der CIA ermöglichte diese deterministische Synchronisation durch Aufrechterhaltung einer globalen Uhrreferenz für alle Knoten, die für die Mehrheitsabstimmungslogik sichtbar war.

Kohärenz im Kontext von Heliocentric bedeutete zeitliche Ausrichtung: Alle drei Knoten in einer Triade mussten ihr Ergebnis zur gleichen globalen Zeit abtasten, damit die Mehrheitsabstimmung gültig war. Dies erforderte Nanosekunden-Präzision, nicht die quantenmechanischen Kohärenzzeiten (Femtosekunden) zeitgenössischer Quantensysteme.

Der Parnet als Annäherung an die Lichtgrenze

Das Parnet-Protokoll brachte das System durch den Einsatz von Hardware-Timern zur Synchronisation näher an dieses relativistische Ideal, als jeder softwarebasierte Ansatz es könnte. Jedes Bit-Bang-Signal, das vom CIA zeitgesteuert wurde, breitete sich mit elektromagnetischer Geschwindigkeit und minimalem Overhead durch die Schichten aus. Das Protokoll war im Wesentlichen ein Versuch, deterministische Berechnung direkt aus der Physik selbst zu extrahieren – die Kabel nicht als periphere Infrastruktur, sondern als aktive Teilnehmer am Rechensubstrat zu betrachten, die nur den Gesetzen der Elektrodynamik und Relativitätstheorie unterliegen.

Die DISC-Hypothese: Dynamisches Instruktionssatz-Computing

Die meisten Mikrocontroller sind ASICs, die für einen einzigen Zweck entwickelt wurden. DISC schlägt vor, dass durch flüchtige Instruktionseinjektion jeder vernetzte Knoten umfunktioniert werden kann – ein Vorläufer moderner GPU-Shaderprogramme und FPGA-Rekonfiguration.

Ein DISC-fähiger Knoten, der einen DSPC-Mikrokernel ausführt, kann über den Parnet-Kanal einen neuen Instruktionssatz empfangen. Beispielsweise kann ein inaktiver Amiga 500 (68000 @ 7,14 MHz) mit einem spezialisierten Logikfragment „injiziert“ werden, das ihn in einen 24-Bit-Farbraum-Konverter umwandelt. Während dieser Aufgabe fungiert der Knoten als dedizierter Hardware-Engine und erreicht Effizienzen, die allgemeinprogrammierter Code nicht erreichen kann.

DISC-Injektionsmechanismus:

Der NP verpackt kompilierten DSPC-Code (typischerweise 2–8 KB) in ein Logic Packet
Der Mikrokernel des CNP empfängt diesen über Parnet und schreibt ihn in einen geschützten RAM-Bereich
Der Ausführungszeiger springt zu dem injizierten Code; alle nachfolgenden Maschinenzyklen sind der spezialisierten Aufgabe gewidmet
Nach Abschluss kehrt die Ausführung zum lauschenden Kernel-Loop zurück

Dieser Ansatz vermied den Overhead interpretierter Bytecode- oder JIT-Kompilierung, die beide auf Hardware der 1980er–1990er Jahre untragbar teuer waren.

Heliozentrische Topologie und asynchrone Verzweigung

Das heliozentrische Modell bricht mit der peer-to-peer-Gleichberechtigung. Der Network Processor (NP) verwaltet ein „Gravitationsregister“ verfügbarer Cooperativer Netzwerkprozessoren (CNPs).

Der Denko-Cluster: Hardware-Konfiguration

Der Testbed für diese Forschung bestand aus:

Rolle	Plattform	CPU	Takt	Speicher
Netzwerkprozessor	Amiga 500 Plus	68030/68882	50 MHz	8 MB
CNP Primär	Amiga 1200	68020	14 MHz	4 MB
CNP Sekundär	Amiga 1000	68000	7,14 MHz	1 MB
CNP Tertiär	Amiga 1000	68000	7,14 MHz	1 MB

Eine heterogene Mischung war beabsichtigt: Das System wurde entworfen, um Lastverteilung und Scheduler-Effizienz über Prozessoren unterschiedlicher Leistungsfähigkeit zu beweisen. Die Gravitationsregistrierung des NP verwaltete eine Leistungsmatrix, die jede CNP-Geschwindigkeit, Speichergröße und aktuelle Last verfolgte.

Verteilte nichtdeterministische Verzweigung („Asynchrone If“)

Eine der radikalsten Implementierungen in DSPC ist die Handhabung von bedingter Logik. In traditionellen Systemen führt eine Verzweigung zu einer Pipeline-Blockade. In unserem Modell:

Der NP stößt auf eine logische Verzweigung.
Er leitet den Wahre-Pfad gleichzeitig an CNP-Alpha und den Falsche-Pfad an CNP-Beta weiter.
Beide Knoten führen die Logik mit Bare-Metal-Geschwindigkeit aus.
Sobald die Bedingung aufgelöst ist, wird das ungültige Ergebnis verworfen und das gültige in den gemeinsamen Speicher geschrieben.

Dieser Ansatz eliminiert vollständig die Strafen durch Branch-Prediction – auf Kosten redundanter Berechnungen. Der Kompromiss ist vorteilhaft, wenn:

Die Bedingung erst spät während der Ausführung bekannt ist (z. B. datenabhängige Beendigung)
Beide Pfade ungefähr gleiche Ausführungszeiten aufweisen (siehe Anhang I)
Die Parnet-Latenz $\tau$ vernachlässigbar gegenüber der Ausführungszeit pro Pfad ist

Die Effizienz $\eta$ wird modelliert als:

$\eta = \frac{T_{\text{exec}}(f)}{\max(T_{\text{true}}, T_{\text{false}}) + \tau}$

wobei $T_{\text{exec}}(f)$ die gesamte durch parallele Ausführung eingesparte CPU-Zeit ist und $\tau \approx 0.5\text{ ms}$ die Parnet-Handshake-Overhead ist.

Speichermodell und Kohärenz gemeinsamer Zustände

Das Denko-Cluster verwendete ein locker gekoppeltes Speichermodell mit expliziter Synchronisation:

Lokaler Speicher: Jeder Knoten verwaltete einen privaten RAM für eigenen Stack und Arbeitsregister
Gemeinsamer Leitungsbuffer: Ein 2 KB doppelt portierter SRAM auf jedem Knoten diente als Parnet-Schnittstelle und war sowohl vom lokalen CPU als auch von entfernten NP zugänglich
Kohärenzprotokoll: Keine automatische Cache-Kohärenz. Der NP pflegte ein Kohärenzprotokoll – eine sequentielle Aufzeichnung aller Änderungen gemeinsamer Daten, die bei Bedarf von CNPs wiedergegeben wurde
Write-Through-Disziplin: Alle von DISC eingefügten Codeabschnitte arbeiteten unter strenger Write-Through-Semantik; Ergebnisse wurden nicht gepuffert, bis explizit durch DDT_Conduit_Commit bestätigt wurde (siehe Anhang A)

Dieses explizite Modell vermeidet die Komplexität verteilter Cache-Kohärenz-Hardware, die auf Prozessoren der 1980er–1990er Jahre unpraktisch war. Der Preis war eine höhere Latenz beim Zugriff auf gemeinsame Zustände ( $\sim 2–5\text{ ms}$ pro Hin- und Rückreise), doch die Einfachheit und Determiniertheit waren entscheidend für hard-realtime-Garantien in der Triad-Logik-Mehrheitsabstimmung.

Fehlertoleranz: Das Triad-Logik-Modell

Um Zuverlässigkeit mit ungeschützten Leitungen zu gewährleisten, nutzen wir Redundanzverarbeitung. Der NP verteilt kritische Logik an eine „Triade“ aus drei CNPs. Die systemweite Fehlerwahrscheinlichkeit $P_{sys}$ wird unter Verwendung der Zuverlässigkeit eines einzelnen Knotens $p$ berechnet:

$P_{\text{sys}} = 3p^2 - 2p^3$

Falls $p = 0.01$ , sinkt $P_{\text{sys}}$ auf $0.000298$ , wodurch Supercomputing-Grad-Zuverlässigkeit mit Consumer-Hardware ermöglicht wird.

Vergleichende Leistung: Das Denko-Cluster

Aufgabe	Einzelständig (060/50 MHz)	Denko-Cluster (DSPC/Parnet)	Effizienzsteigerung
Mandelbrot (Iterationen: 256)	12,4 s	3,1 s	400 %
Ray-Trace (Reflexionen)	45,2 s	9,8 s	461 %
Leitungs-Latenz $\tau$	N/A	< 0,5 ms	Optimal

Vergleichender Kontext: NOW vs. Heliocentric

Zur gleichen Zeit erfolgte die verteilte Rechenforschung (1995–1999) mit unterschiedlichen Ansätzen:

Aspekt	NOW	Beowulf	Heliocentric
Verbindung	Ethernet (10/100 Mbps)	Ethernet	Unabgeschirmtes Parallelschaltkabel
Latenz	5–50 ms	5–50 ms	0,5–2 ms
Durchsatz	10–12 MB/s	10–12 MB/s	297,5 KB/s (Bit-Bang)
Synchronisation	Software (TCP/IP)	Software (TCP/IP)	Hardware-CIA-Timer
Abstraktion	Hochgradig (PVM, MPI)	Hochgradig (MPI)	Bare-Metal-Assembly
Skalierbarkeit	10–50 Knoten	50–hunderte Knoten	max. 32 Knoten
Fehlertoleranz	Anwendungsebene	Anwendungsebene	Hardware-basierte Mehrheitsabstimmung

Heliocentric opferte Skalierbarkeit zugunsten von Determinismus und Latenzvorhersagbarkeit – eine gültige Strategie für Echtzeit-Signalverarbeitung und -steuerung, aber nicht tragbar für allgemeine Rechenaufgaben. Der Denko-Cluster erreichte eine überlegene Latenz pro Aufgabe, konnte jedoch nicht die Skalierbarkeit kommerzieller Clustersysteme erreichen und geriet letztlich zu einem architektonischen Sackgassen.

Fazit: Die dekonstruierte Maschine

Die Forschung kommt zu dem Schluss, dass die „Box“ eine künstliche Einschränkung ist. Heliocentric Computing, angetrieben durch DDT Standard Programming Code, beweist, dass ein Netzwerk aus Bare-Metal-Knoten eine widerstandsfähigere und leistungsfähigere Einheit darstellt als jeder monolithische Supercomputer. Das Netzwerk ist nicht länger nur ein Weg, damit Computer miteinander kommunizieren; das Netzwerk ist der Prozessor.

Der physische Substrat als Berechnung

Als SETI@home und Folding@home 1999 entstanden, sah ich keine Innovation – ich sah Bestätigung. Die Welt holte endlich auf, was ich in meiner überfüllten Werkstatt gebaut hatte: ein Netzwerk, bei dem untätige Maschinen zu Prozessoren wurden, nicht zu Peripheriegeräten.

Aber meine Vision reichte noch weiter. Die Kabel selbst, die Handshake-Signale, die über Kupfer reisen, die CIA-Timer-Impulse – das sind nicht Leitungen für Berechnung. Sie sind Berechnung. Jedes Elektron, das durch den Parallelschnittstelle fließt, jeder Bit-Bang-Impuls, der über das Parnet synchronisiert wird, jede Mehrheitsabstimmung in der Triad Logic – das gesamte physische Substrat beteiligt sich an der Transformation von Daten in Ergebnis.

Diese Formalisierung stellt eine radikale Umkehrung dar: Der Prozessor ist nicht ein Kasten mit einem angeschlossenen Netzwerk. Der Prozessor ist das Netzwerk, die Kabel, die Taktsignale, die verteilte Uhr, das physische Substrat der Koordination selbst. In diesem Paradigma hört Silizium auf, der Ort der Berechnung zu sein; stattdessen entsteht Berechnung aus der orchestrierten Bewegung von Information durch den Raum, getaktet durch Hardware und erzwungen durch physikalische Gesetze.

Die Kabel sind nicht peripher. Die Taktsignale sind nicht sekundär. Die Spannungsübergänge an einem Parallelschnittstellenstecker sind kein Overhead – sie sind der Herzschlag des Prozessors. In der Heliocentric Computing gibt es keinen Unterschied zwischen Infrastruktur und Berechnung. Die Grenze löst sich auf.

Dies ist die Vision, die ich nun formalisiere.

Historischer Kontext & Technologische Entwicklung

Obwohl das Denko-Cluster seine Leistungsziele erreichte, wurde das Projekt aufgrund einer Konvergenz technischer und marktbezogener Faktoren letztendlich abgebrochen:

Zusammenbruch der Hardwareplattform

Das grundlegende Hardware-Ökosystem kollabierte katastrophal:

Insolvenz von Commodore (April 1994): Der Haupthersteller von Amiga-Systemen stellte seine Tätigkeit ein, wodurch die Lieferketten für neue Hardware entfielen. Bestehende Amiga-4000-Einheiten wurden rar; die Support-Infrastruktur verschwand. Mitte der 1990er-Jahre schrumpfte die installierte Basis von Amiga-Systemen irreversibel.
Einstellung der Motorola 68k-Serie: Motorola stellte die MC68040 ein und beendete anschließend alle weiteren Entwicklungen der 680x0-Serie. Es gab keine Nachfolgearchitektur. Der 680x0-Befehlssatz wurde historisch. Ohne neue Chipsätze konnte die Hardwareplattform nicht weiterentwickelt werden; eine Skalierung auf höhere Taktraten oder Core-Zahlen war im DSPC/Amiga-Ökosystem unmöglich.

Konvergenz konkurrierender Technologien

Drei weitere Faktoren machten Heliocentric Computing architektonisch obsolet:

Signalintegritätsbegrenzungen: Unabgeschirmte parallele Kabel über 8–10 Meter zeigten elektromagnetische Störungen (EMI), die die Bitstromsynchronisation beeinträchtigten. Diese Grenze erschien unveränderlich, ohne teure Abschirmung und aktive differenzielle Signalisierung – beides war für eine breite Bereitstellung nicht praktikabel.
Konvergenz der Netzwerktechnologie: Bis 1999–2001 boten Gigabit-Ethernet- und Switched-Fabric-Technologien (z. B. Myrinet, InfiniBand) überlegene Bandbreite und Zuverlässigkeit im Vergleich zu proprietären Protokollen, wodurch proprietäre Lösungen nicht mehr tragbar wurden.
CPU-Entwicklung: Die Einführung von Multi-Core- und Vektor-Instruktionssätzen (SSE, AltiVec) innerhalb der CPU selbst machte den Vorteil der parallelen Knoten obsolet. Intel- und PowerPC-Architekturen trieben den aufstrebenden Workstation-Markt an; Amiga-Systeme konnten nicht mithalten. Workstations wurden so leistungsfähig, dass verteilte Bare-Metal-Koordination immer geringere Vorteile bot.

Technologische Folgen

Dieses Werk stellt einen beschnittenen technologischen Ast dar – prinzipiell bewährt, aber durch das Aussterben seiner Host-Plattform untragbar geworden. Dennoch verheißen die Kernprinzipien – insbesondere DISC (dynamische Instruktionseinjektion) und weiche Rekonfigurierbarkeit – die moderne heterogene Rechenarchitektur: GPU-Shaderprogramme werden dynamisch für unterschiedliche Arbeitslasten neu kompiliert, und FPGAs bieten programmierbare Logikeinjektion. Das hier angestrebte „Soft-ASIC“-Konzept (1988–1999) ist heute in der modernen Hochleistungsrechnung Standardpraxis.

Anhang A: DSPC-Makro-Logik für asynchrone Verzweigung

; ************************************************************  
; DDT STANDARD PROGRAMMING CODE (DSPC) - ASYNC BRANCH MODULE  
; Created: 1988-05-21 | Author: Denis "Denko" Tumpic  
; ************************************************************

MACRO DDT_ASYNC_IF  
    LEA     CNP_Registry, A0  
    MOVE.L  (A0)+, D0           ; Target Alpha (True Path)  
    MOVE.L  (A0)+, D1           ; Target Beta (False Path)

    JSR     DDT_Conduit_Inject_True(D0)  
    JSR     DDT_Conduit_Inject_False(D1)

    CMPI.L  #TARGET_VAL, D2  
    BNE.S   .ResolveFalse

.ResolveTrue:  
    JSR     DDT_Conduit_Commit(D0)  
    JSR     DDT_Conduit_Discard(D1)  
    BRA.S   .EndBranch

.ResolveFalse:  
    JSR     DDT_Conduit_Commit(D1)  
    JSR     DDT_Conduit_Discard(D0)

.EndBranch:  
ENDM

Anhang B: Parnet CIA-A/B-Hardware-Registerkarte

Register	Adresse	Funktion in DSPC
CIAA_PRA	$BFE001	Datenrichtung / Parallel-Bit-Bang
CIAB_PRB	$BFD000	Handshake-ACK/REQ-Synchronisation
CIAA_TALO	$BFE401	Leitungs-Takt-Niedrig-Byte
CIAA_TAHI	$BFE501	Leitungs-Takt-Hoch-Byte

Anhang C: DSPC-Mehrheitswähler-Implementierung

MACRO DDT_VOTE_TRIAD  
.CompareLoop:  
    MOVE.L  (A1)+, D1           ; Load Result Alpha  
    MOVE.L  (A2)+, D2           ; Load Result Beta  
    MOVE.L  (A3)+, D3           ; Load Result Gamma

    CMP.L   D1, D2  
    BEQ.S   .AlphaBetaMatch       
    CMP.L   D1, D3  
    BEQ.S   .AlphaGammaMatch      
    CMP.L   D2, D3  
    BEQ.S   .BetaGammaMatch     

    JSR     DDT_Handle_System_Fault  
    BRA.S   .NextLong

.AlphaBetaMatch:  
.AlphaGammaMatch:  
    MOVE.L  D1, (A4)+           ; Commit valid result  
    BRA.S   .DoneLong  
.BetaGammaMatch:  
    MOVE.L  D2, (A4)+             
.DoneLong:  
    DBF     D0, .CompareLoop      
ENDM

Anhang D: Durchsatzanalyse – Parnet vs. 68000-Bus

Interne 68000-Bandbreite bei $7.14 \text{ MHz}$ (68000-Taktzeit: ~140 ns):

$BW_{\text{int}} = \frac{7.14 \times 10^6}{12} \times 4 \approx 2.38 \text{ MB/s}$

Leitungs-Bandbreite über DSPC-Bit-Bang (ca. 24 Takte/Byte):

$BW_{\text{cond}} = \frac{7.14 \times 10^6}{24} \times 1 \approx 297.5 \text{ KB/s}$

Anhang E: Skalierbarkeit und die Gravitationsgrenze

Die maximale Anzahl von Knoten, die ein NP verwalten kann:

$N_{max}$

Für einen A4000-NP (68040 @ 25 MHz): $N_{\text{max}} \approx 32$ Knoten vor Bandbreiten-Sättigung.

Anhang F: IEEE-Kontext für fehlertolerante verteilte Systeme

Die im Denko-Cluster verwendete Triad-Logik findet ihre theoretischen Wurzeln in den Arbeiten von John von Neumann (1956) zur Synthese zuverlässiger Organismen aus unzuverlässigen Komponenten.

Grundlegende Referenzen

Von Neumann, J. (1956). „Probabilistic Logics and the Synthesis of Reliable Organisms from Unreliable Components.“ In Automata Studies, herausgegeben von C. E. Shannon & J. McCarthy. Princeton University Press.
Verfügbar: Google Books | Archive.org

Zeitgenössische Literatur zur Fehlertoleranz

Pradhan, D. K. (1996). Fault-Tolerant Computer System Design. Prentice Hall. ISBN 0-13-057887-8.
(Umfassende Referenz zu TMR, Mehrheitsabstimmung und Hardware-Redundanzstrategien.)
Siewiorek, D. P., & Swarz, R. S. (1992). Reliable Computer Systems: Design and Evaluation (2nd ed.). Digital Press. ISBN 1-55558-064-7.
(Autoritative Darstellung zur Zuverlässigkeitsanalyse und Klassifizierung von Fehlern. Die Triad-Logik des Denko-Clusters implementiert direkt das in Kapitel 5 behandelte Paradigma der Triple Modular Redundancy (TMR).)

Beziehung zur modernen Fehlertoleranz

Das Triad-Logik-Modell geht die formale Byzantinische Fehlertoleranz um Jahrzehnte voran, verwendet aber ähnliche Prinzipien:

Konsens durch Mehrheitsabstimmung (klassischer Ansatz, 1950er–1970er Jahre)
Toleranz gegenüber Ausfällen einzelner Knoten (äquivalent zu $f=1$ von $n=3$ )
Deterministisches Commitment-Protokoll (ähnlich dem Zwei-Phasen-Commit, jedoch synchron)

Zeitgenössische Systeme wie Raft-Konsens und Practical Byzantine Fault Tolerance (PBFT) bauen auf diesen Grundlagen auf, indem sie asynchrone Annahmen und Leader-Wahl-Mechanismen integrieren. Der synchrone, hardware-getaktete Ansatz von Heliocentric war einfacher, aber weniger skalierbar.

Anhang G: Glossar der Denko-Labs-Terminologie

CNP: Cooperative Network Processor (Die Planeten).
Conduit: Hardwarebasierte parallele Datenleitung.
DISC: Dynamic Instruction Set Computing.
DSPC: DDT Standard Programming Code (Est. 1988-05-21).
NP: Network Processor (Die Sonne).

Anhang H: Vergleichende Bus-Timing- und Latenzanalyse

DSPC reduziert die „Netzwerkstrafe“ auf etwa $1\%$ . Wenn eine Aufgabe lokal $500 \text{ ms}$ benötigt, aber nur $5 \text{ ms}$ zur Übertragung, überwiegt der architektonische Vorteil der parallelen Ausführung die Übertragungskosten.

Anhang I: Modellierung der Effizienz des verteilten „If“

Die Effizienz wird maximiert, wenn $T_{\text{true}} \approx T_{\text{false}}$ . In unausgeglichenen Verzweigungen verwendet der NP Predictive Scheduling, um den längeren Pfad dem schnelleren CNP zuzuweisen (z. B. 68030 @ 40 MHz oder 68040).

Anhang J: DSPC CIA-8520 Bit-Manipulations-Makros

MACRO DDT_SEND_BYTE  
    ; Input: D0 = Byte to Send  
    MOVE.B  D0, ($BFE001)       ; Place data on CIAA  
    BSET    #0, ($BFD000)       ; Pulse BUSY High (CIAB)  
.WaitAck:  
    BTST    #3, ($BFD000)       ; Wait for ACK  
    BEQ.S   .WaitAck              
    BCLR    #0, ($BFD000)       ; Clear BUSY  
ENDM

Anhang K: Spezifikation des DISC-Logik-Injektionsprotokolls

Logic-Pakete bestehen aus:

Kopf (16 Bytes): DSPC-Signatur und DISC-Profil-ID.
Logikkern: Rohes 68k-PIC (positionsunabhängiger Code).
Exit-Vektor: Rückkehrbefehl in den „Lauschen“-Zustand.

Referenzen

Anderson, T. E., et al. (1995). "A Case for NOW." IEEE Micro, 15(3), 54–64.
DOI: 10.1109/40.387590
Kung, H. T. (1982). "Why systolic architectures?" IEEE Computer, 15(1), 37–46.
DOI: 10.1109/MC.1982.1658839
Tennenhouse, D. L., & Wetherall, D. J. (1996). "Towards an Active Network Architecture." ACM SIGCOMM Computer Communication Review, 26(2), 5–18.
DOI: 10.1145/231699.231701
Tumpic, D. (1988). "DDT Standard Programming Code (DSPC) Specification." Denko Labs Technical Memorandum. (Historisches Archiv; nicht begutachtet.)
Von Neumann, J. (1956). "Probabilistic Logics and the Synthesis of Reliable Organisms from Unreliable Components." In Automata Studies, herausgegeben von C. E. Shannon & J. McCarthy. Princeton University Press.
Verfügbar: Google Books
Siewiorek, D. P., & Swarz, R. S. (1992). Reliable Computer Systems: Design and Evaluation (2nd ed.). Digital Press.
Pradhan, D. K. (1996). Fault-Tolerant Computer System Design. Prentice Hall.

Weitere historische Referenzen

Commodore Computers. Insolvenzverfahren, April 1994. US-Bankruptcy-Court, Eastern District of New York.
Motorola Semiconductor Products Division. „MC68040 Benutzerhandbuch.“ Revision 1.0, 1990. (Letzter Hochleistungs-680x0-Prozessor; keine Nachfolger.)
Amiga, Inc. Hardware-Referenzhandbücher für den CIA-8520 (MOS6526) Complex Interface Adapter. (Jetzt in Retro-Computing-Archiven verfügbar.)

Zusammenfassung​

Einleitung: Das Scheitern des Monolithen​

Das DSPC-Framework (gegründet am 1988-05-21)​

Die Conduit-Hypothese: Parnet als Systembus​

Ausbreitungsverzögerung und die Lichtgeschwindigkeitsgrenze​

Optische Pfade und der relativistische Horizont​

Klärung: Klassische Physik, nicht Quantenmechanik​

Der Parnet als Annäherung an die Lichtgrenze​

Die DISC-Hypothese: Dynamisches Instruktionssatz-Computing​

Heliozentrische Topologie und asynchrone Verzweigung​

Der Denko-Cluster: Hardware-Konfiguration​

Verteilte nichtdeterministische Verzweigung („Asynchrone If“)​

Speichermodell und Kohärenz gemeinsamer Zustände​

Fehlertoleranz: Das Triad-Logik-Modell​

Vergleichende Leistung: Das Denko-Cluster​

Vergleichender Kontext: NOW vs. Heliocentric​

Fazit: Die dekonstruierte Maschine​

Der physische Substrat als Berechnung​

Historischer Kontext & Technologische Entwicklung​

Zusammenbruch der Hardwareplattform​

Konvergenz konkurrierender Technologien​

Technologische Folgen​

Anhang A: DSPC-Makro-Logik für asynchrone Verzweigung​

Anhang B: Parnet CIA-A/B-Hardware-Registerkarte​

Anhang C: DSPC-Mehrheitswähler-Implementierung​

Anhang D: Durchsatzanalyse – Parnet vs. 68000-Bus​

Anhang E: Skalierbarkeit und die Gravitationsgrenze​

Anhang F: IEEE-Kontext für fehlertolerante verteilte Systeme​

Grundlegende Referenzen​

Zeitgenössische Literatur zur Fehlertoleranz​

Beziehung zur modernen Fehlertoleranz​

Anhang G: Glossar der Denko-Labs-Terminologie​

Anhang H: Vergleichende Bus-Timing- und Latenzanalyse​

Anhang I: Modellierung der Effizienz des verteilten „If“​

Anhang J: DSPC CIA-8520 Bit-Manipulations-Makros​

Anhang K: Spezifikation des DISC-Logik-Injektionsprotokolls​

Referenzen​

Weitere historische Referenzen​