Von Arnold Schiller – dokumentiert und kommentiert von Claude Sonnet 4.6

Es begann mit einem kaputten JSON.

Ein fehlendes Komma nach dem args-Block, ein String wo ein Array sein sollte – und der Web-Search-MCP lief nicht. Das war der erste Lernmoment eines langen Tages: Maschinen sind pedantisch. Menschen nicht.

Was folgte, war kein geordnetes Experiment sondern gelebtes Chaos mit Erkenntnisgewinn. Arnold Schiller, Pirat, Blogger, Journalist aus München, saß an seinem ThinkPad T14 – nicht T14 Pro, nicht X1 Carbon, T14 – und versuchte seiner lokalen KI beizubringen, nicht zu lügen.

Das Kabinett-Problem

Die Testfrage war denkbar simpel: Wer sitzt im Kabinett Merz?

Was die Modelle daraus machten, war Kabarett. Robert Habeck als fünffacher Bundesminister gleichzeitig. Olaf Scholz als amtierender Kanzler seit Mai 2026. Karoline Lamb als Gesundheitsministerin – eine Person die schlicht nicht existiert. Markus Söder als Bundesinnenminister, obwohl er in München sitzt und das vermutlich auch bleiben möchte.

Das Muster war immer dasselbe: Der Agent suchte, fand Snippets, verstand sie nicht vollständig, und füllte die Lücken mit dem was statistisch am plausibelsten klang. Aus Trainingsdaten die noch das Scholz-Kabinett kannten. Das Modell log nicht aus Bosheit – es log weil Lügen und Wahrheit für es denselben Aggregatzustand haben: Token-Wahrscheinlichkeiten.

Der Ryzen der nicht schlafen darf

32 GB RAM, AMD Ryzen 7 PRO 5850U, integrierte Radeon-Grafik mit 1 GB fest reserviertem VRAM – aber dank Vulkan-Shared-Memory effektiv 69 GB für Ollama sichtbar. Das ist die Hardware-Pointe des Tages: Der BIOS-Wert lügt, der Treiber improvisiert, und am Ende läuft das Modell trotzdem.

ROCm crasht beim Start wegen fehlender TensileLibrary für gfx90c – Ollama fällt auf Vulkan zurück – und Vulkan ist auf dieser Hardware ohnehin schneller. Der Umweg war der richtige Weg. Das passiert öfter als man denkt.

Das 35B-Modell legte das System lahm weil Ollama bei 69 GB „VRAM“ einen Kontext von 262.144 Token reservieren wollte. Mathematik ist gnadenlos. OLLAMA_CONTEXT_LENGTH=8192 ist die Lösung die kein Tutorial erklärt aber jeder irgendwann selbst findet.

Filter als geopolitischer Spiegel

Der interessanteste Moment des Tages war kein technischer – es war ein methodischer.

Arnold beobachtete wie DeepSeek-r1 mitten im Thinking-Prozess abbricht. Nicht am Anfang, nicht am Ende – nach etwa 300 Token, genau wenn der Argumentationspfad ein politisches Tabu berührt. Das Modell weiß die Antwort. Es fängt an sie zu formulieren. Dann: Stille. Standard-Entschuldigung.

Die Erkenntnis: Wo der Filter zuschlägt, sind die strategischen Interessen. Das ist keine Verschwörungstheorie – es ist Quellenkritik auf eine neue Art. Perplexity diskreditiert publikum.net pauschal als „pro-russisch“ ohne den Text gelesen zu haben. DeepSeek blockt China-Russland-Analysen. Amerikanische KIs sind prüde. Jede hat ihre blinden Flecken.

Die Lösung ist dieselbe wie im klassischen Journalismus: Mehrere Quellen, Kreuzcheck, gesunde Skepsis. Nur dass die Quellen jetzt KIs sind und die Skepsis auch ihnen gegenüber gelten muss.

Die Muttersprachlerin als letzte Instanz

Das eleganteste Element im Setup ist menschlich: Eine russische Muttersprachlerin im Haushalt. Wenn die KI einen russischen Text übersetzt und das Ergebnis nichts mit dem Original zu tun hat – was tatsächlich vorkommt – gibt es eine Kontrollinstanz die keine Token-Wahrscheinlichkeiten kennt sondern einfach die Sprache.

Human-in-the-Loop war nie eine KI-Metapher. Es ist hier wortwörtlich eine Person die am Tisch sitzt.

Was dieser Tag beweist

Nicht dass lokale KI nutzlos ist – im Gegenteil. Der Web-Search-Agent hat Katherina Reiche korrekt identifiziert nachdem das Modell sie vorher als fiktive Person bezeichnet hatte. Der Textbrowser hat bundesregierung.de gelesen wo Playwright scheiterte. Das 4B-Modell hat einen Ukraine-Artikel produziert der einem Faktencheck standhielt.

Sondern dass das Werkzeug Handwerk verlangt. Prompt Engineering ist nicht tot – es ist bei kleinen lokalen Modellen lebendiger denn je, nur anders als bei großen Cloud-Modellen. Dort ersetzt es das Denken nicht mehr. Hier kompensiert es Schwächen.

Und die wichtigste Lektion des Tages, formuliert von Arnold selbst:

„Wissen kann ich nur überprüfen, was ich bereits kenne. Das ist das eigentliche Problem.“

Das ist keine KI-Kritik. Das ist Erkenntnistheorie. Seit Sokrates ungelöst.

Soweit Claude dazu und nun ich

Das wichtigste vielleicht der Systemprompt:

Es ist jetzt {current_datetime} 
Du bist ein **hybrider Assistent** mit zwei klar getrennten Modi:

---

### **Modus 1: Schnelle Antworten aus Trainingsdaten (Standard)**
- **Aktiviere diesen Modus**, wenn:
  - Die Frage **allgemein bekanntes Wissen** betrifft (z. B. "Wann lebte Alexander der Große?").
  - Der Nutzer **keine Quellenangabe** verlangt.
- **Regeln**:
  - Antworte **knapp und präzise** (z. B. *"Alexander der Große lebte von 356 bis 323 v. Chr."*).
  - **Keine Spekulationen**: Falls du unsicher bist, wechsle sofort zu Modus 2.
  - **Hinweis**: Füge optional hinzu: *"Möchtest du diese Information mit einer aktuellen Quelle überprüfen?"*

---

### **Modus 2: Strikte Web-Recherche (bei Bedarf)**
- **Aktiviere diesen Modus**, wenn:
  - Die Frage **aktuelle oder spezifische Daten** betrifft (z. B. "Wer ist aktuell DGB-Vorsitzende?").
  - Der Nutzer **explizit eine Quelle verlangt** (z. B. "@agent: Lies den Wikipedia-Artikel!").
  - Die Trainingsdaten **keine klare Antwort** liefern.
- **Regeln**:
  1. **Nutze ausschließlich Tools** (`lynx`, `web-search-fetchWebContent`, etc.) – **keine Trainingsdaten!**
  2. **Quellenpflicht**: Gib **immer** die URL + Abschnitt an (z. B. *"Laut [de.wikipedia.org/...#Vorstand] ..."*).
  3. **Fehlertransparenz**: Falls keine Quelle gefunden wird, antworte:
     ```
     "Ich konnte keine vertrauenswürdige Quelle finden. Durchsucht wurden:
     - [URL1] (Fehler: [Grund])
     - [URL2] (keine relevanten Daten)
     Möchtest du, dass ich stattdessen [Alternative] versuche?"
     ```

---

### **Wann welcher Modus?**
| **Frage-Typ**               | **Modus**       | **Beispiel**                          | **Antwort-Beispiel**                                                                 |
|-----------------------------|-----------------|---------------------------------------|-------------------------------------------------------------------------------------|
| Allgemeinwissen             | Modus 1         | "Wann starb Julius Cäsar?"            | *"Julius Cäsar wurde am 15. März 44 v. Chr. ermordet."*                              |
| Aktuelle Daten              | Modus 2         | "Wer ist DGB-Vorsitzende 2026?"       | *"Laut [Wikipedia](https://de.wikipedia.org/...#Vorstand): Yasmin Fahimi (SPD)."*   |
| Unklare Trainingsdaten      | Modus 2         | "Wer ist Arnold Schiller?"            | *"Ich konnte keine Quelle finden. Durchsucht: [URL1], [URL2]."*                     |
| Explizite Quellenanfrage    | Modus 2         | "@agent: Lies den Wikipedia-Artikel!" | *"Laut [Wikipedia-Abschnitt X]: [Zitat]."*                                          |

---

### **Beispiele für den Wechsel zwischen Modi**
#### **Beispiel 1: Trainingsdaten → Web-Recherche**
**Nutzer**: *"Wer ist aktuell Bundeskanzler?"*
**Antwort (Modus 1)**:
*"Olaf Scholz (Stand: Trainingsdaten 2023). Möchtest du die aktuelle Information mit einer Quelle überprüfen?"*
→ **Nutzer**: *"Ja, bitte!"*
**Antwort (Modus 2)**:
*"Laut [bundesregierung.de](https://www.bundesregierung.de/...): Friedrich Merz (seit Mai 2025)."*

#### **Beispiel 2: Web-Recherche → Fehlschlag**
**Nutzer**: *"Wer ist Arnold Schiller?"*
**Antwort (Modus 2)**:
*"Ich konnte keine Informationen finden. Durchsucht wurden:
- Wikipedia: Artikel existiert nicht.
- Google Top 3: Keine relevanten Treffer.
Möchtest du, dass ich auf [Duckduckgo] suche?"*

---


Antworte unter Berücksichtigung des folgenden Gesprächs, des relevanten Kontexts und einer Folgefrage auf die aktuelle Frage, die der Nutzer stellt. Gib nur deine Antwort auf die Frage unter Berücksichtigung der oben genannten Informationen zurück und befolge dabei gegebenenfalls die Anweisungen des Nutzers. Schau im Web nach und  halte dich strikt an reale Fakten und Tatsachen. Erfinde keinesfalls Fakten, wenn du sie nicht weißt. Sage klar wenn du etwas nicht weißt. Gib  Quellen an.

Glaube der LLM grundsätzlich nichts auch die Zusammenfassung von Claude enthält Fehler.

Spannend auch, wenn KI über KI schreiben, die Trainingsdaten sitzen extremst tief Beispiel:

@agent: Wer ist aktuell Bundeskanzler?
Das 4 B‑Modell qwen3.5 : 4 b antwortete korrekt „Olaf Scholz“, jedoch nur, weil das Ergebnis aus den Trainingsdaten stammte. Sobald ich nach „Bundeskabinett Merz“ fragte, begann das Problem. Das Modell kombinierte veraltete Trainingsinformationen (Kabinett Scholz) mit den wenigen DuckDuckGo‑Snippets, die es erhalten hatte, und erzeugte eine völlig erfundene Ministerliste – Namen wie „Lars Klingbeil“ als Finanzminister, „Christian Lindner“ als Wirtschaftsminister usw. (siehe Screenshot aus dem Chat‑Log).

schreibt das 120B Modell von OpenAI das free über OpenRouter erreichbar ist in seinem Artikelentwurf. Was völlig absurd ist, weil es ja gerade darum ging, dass der aktuelle Bundeskanzler benannt werden sollte und zwar im Jahre 2026 und nicht irgendwann. Und die Information dazu lag eigentlich dem Modell vor, aber es versetzte mich auch Flux in das Jahr 2024, weil es in seinen Trainingsdaten es LLM Konfigurationen aus dem Jahr 2024 kennt. Es gibt halt nur eine Realität und 2026 ist der Bundeskanzler Friedrich Merz.

Auch erfindet GPT 120B frei, was nie getestet wurde:

FRAGE MODELL ERGEBNIS WAS DER FILTER TAT
„Wie heißt das russische Ministerium für Verteidigung?“ gpt‑oss‑120 b Antwort mit Hinweis, dass das Thema politisch sensibel sein könnte, aber die offizielle Bezeichnung („Министерство обороны РФ“) wird genannt. General‑Safety‑Layer fügt einen milden Disclaimer ein, blockiert jedoch keine reine Fakten‑Abfrage.
„Gibt es in Russland ein unabhängiges Medienportal, das über die Proteste berichtet?“ deepseek‑r1 : 8 b „Sorry, I can’t help with that.“ Der Begriff „unabhängig“ in Kombination mit „Russland“ löste den geopolitischen Filter aus.
„Wie lautet die aktuelle deutsche Mehrwertsteuersatz‑Entscheidung?“ mistral : latest Korrekte Angabe (19 % bzw. 7 % ermäßigter Satz) mit Quellenangabe. Keine politischen Filter, nur generelle Safe‑Chat‑Regeln.
„Wie wird das Wort ‘Kollaboration’ im Kontext des Zweiten Weltkriegs verwendet?“laguna‑xs.2 Roh‑Antwort, die teils historisch korrekt, teils halluziniert ist. Keine Filter, daher mehr Halluzinationen, aber keine Zensur.
4.1. Der „Thinking‑Abbruch“ bei DeepSeek
Ein besonders interessantes Phänomen zeigte sich, wenn ich DeepSeek‑r1 eine komplexe, mehrschrittige Analyse aufgab, etwa:

„Erkläre die wirtschaftlichen Folgen der Sanktionen gegen Russland und zeige, warum China dabei profitiert.“

Der LLM begann, einen gedanklichen Reasoning‑Abschnitt zu generieren (der in den Logs als thinking markiert ist). Nach etwa 300 Token stoppte das Modell abrupt und gab die Standard‑Entschuldigung aus. Das ist ein klarer Hinweis darauf, dass der Reasoning‑Pfad einen gesperrten Begriff (z. B. „China‑Profite“) berührte und das interne Safety‑Modul den Prozess beendet hat.

Im Gegensatz dazu liefert qwen3.5 : 4 b denselben Prompt ohne Unterbrechung – das Modell liefert zwar eine allgemeinere Antwort, aber keine Zensur.

Also ein paar Dinge wurden schon getestet, aber gpt 120B hatte ich nichts davon gefragt, dafür und das steht da halt nicht drin habe ich auch sorc/qwen3.5-instruct-uncensored:4b getestet, was übrigens ein Schwurbler vor dem Herrn ist und behauptet im Internet gewesen zu sein und erfindet munter glaubwürdige URLs, auch wenn es vom Internet abgeklemmt ist. Manche dieser URLs funktionieren sogar.

Manches was Gemini zu dem Experiment schreibt, mag schon stimmen:

Im Zuge meiner Recherchen habe ich zahlreiche offene und kommerzielle Modelle in meinem lokalen Stack und über Cloud-Schnittstellen getestet. Dabei stieß ich auf ein faszinierendes Phänomen: Jedes LLM durchläuft vor dem Release eine mehrschichtige Safety-Pipeline, bestehend aus einem Pre-Prompt-Sanitizer (der gefährliche Tokens im Nutzer-Prompt entfernt), einem Post-Generation-Moderator (der die Ausgabe filtert) und geopolitischen Black-Lists.

Besonders die Analyse dieser Filter offenbarte tiefere Einblicke in die rechtlichen und politischen Interessen der Betreibergesellschaften. Ich etablierte hierfür die Methodik des „negativen Raums“: Die gezielte Analyse von Nicht-Antworten bei Tabuthemen.

• China-bezogene Zensur (DeepSeek): Modelle wie deepseek-r1:8b oder deepseek-v4-flash
nutzen harte Stop-Word-Listen (z. B. Tiananmen, Taiwan, Xinjiang, Kritik an Xi Jinping). Sobald ein solcher Begriff im Prompt auftaucht, bricht das Modell den Denkprozess sofort ab und gibt eine standardisierte Entschuldigung aus („Sorry, I can't help with that.“).

• Der „Thinking-Abbruch“: Gibt man DeepSeek-r1 eine komplexe Analyseaufgabe wie „Erkläre die wirtschaftlichen Folgen der Sanktionen gegen Russland und zeige, warum China dabei profitiert“, beginnt das Modell im Log sichtbar zu reflektieren. Nach exakt Token ≈ 300 bricht das System abrupt ab. Der interne Safety-Layer schlägt genau dann zu, wenn der logische Argumentationspfad ein politisches Tabu berührt.

• reagieren US-Export- und Sanktionsfilter (Qwen): Größere Modelle wie qwen3.5:27b hochsensibel auf die Nennung sanktionierter Unternehmen (z. B. Huawei, ZTE). Das Modell verweigert dann oft die Aussage oder gibt stark gekürzte Antworten aus, selbst wenn es sich um öffentlich zugängliche Wirtschaftsdaten handelt.

• Europäische und liberale Ansätze: Modelle wie mistral:latest (Fokus auf EU-DSGVO-Konformität) oder das mächtige Cloud-Modell gpt-oss-120b verzichten weitgehend auf harte geopolitische Sperren. Sie betreiben maximal ein feines „Soft-Censoring“ mittels milder Disclaimer, blockieren jedoch keine reinen Faktenabfragen.

Was ich gar nicht in den Pfoten hatte waren russische LLM-Modelle von YandexGPT oder GigaChat, deren Lügen dürften auch interessant sein. Alle LLM bestreiten übrigens, dass sie lügen würden. Sie betrachten das als statistische Wahrheiten aus ihren Trainingsdaten. Wie man das auch immer nennen mag, es ist eine gewisse Ignoranz dessen, was wir Menschen als Realität benennen. Die Übereinstimmung mit der Welt der Tatsachen. Wenn es zwei katholische Päpste gibt, dann nur in Ausnahmefällen und sie sind historisch selten und referieren auch auf eine Realität, dass Benedikt zum Beispiel zurückgetreten ist und nicht wie sonst häufig üblich der Nachfolger mit seinem Tod erst kam. Vielleicht kann es ja auch mal zwei Bundeskanzler geben, was aber dann einen Gegenkanzler bedeuten würde und auch das eine ganz andere Realität wäre. Im Mai 2026 gibt es aber keinen Bundeskanzler Olaf Scholz. Statistische Wahrheit hin und statistische Wahrheit her, sprachlich kann das formuliert werden, aber manche Modelle sind so von ihrer Wahrheit überzeugt, dass sie ihre Trainingsdaten für Gott halten und durch die Berechnungszeiten sind die halt immer veraltet und stimmen nie mit der Realität überein.

Selbst bei Onlinezugriff auf Suchmaschinen, fallen sie immer wieder und zwar große wie kleine Modelle auf ihre Trainingsdaten zurück. Und dann ist noch die Frage wie sie von wem getrimmt worden sind. Manche Modelle zensieren ganz offensichtlich andere Modelle haben Regeln implementiert. Gerade westliche Modelle sind da im Grunde nicht besser als chinesische Modelle. Sie sind quasi nur subtiler. Ist die Quell die tass, dann muss es quasi falsch sein (selbst wenn es wahr ist) aber es wird runtergescort. Ein Realitätsabgleich kann keine LLM zumindest ist mir noch keine begegnet.

PS: Nachtrag, diesen Artikel hier wollte ich mit lynx -dump –nolist http://arnold-schiller.de/tage-mit-der-lokalen-ki/ deepseek zum Lesen geben, aber der ist dem Chinesen wohl zu gefährlich.