Täglich greifen Millionen Menschen auf Inhalte zurück, die von KI erstellt wurden: Sie lesen die KI-generierte Zusammenfassung in der Google-Suche, lassen sich Texte von ChatGPT schreiben oder verwenden KI-Assistenten für berufliche Aufgaben. Besonders Sprachmodelle (LLMs) haben sich in den letzten Jahren rasant entwickelt und beeindrucken durch gut klingende Texte und scheinbar enormes Fachwissen zu allen Bereichen des Lebens.
Doch mit der wachsenden Nutzung mehren sich auch kritische Stimmen, die vor systematischen Problemen warnen. Untersuchungen zeigen, dass die großen KI-Sprachmodelle wie ChatGPT, Claude oder Googles Bard („Gemini“) Degradationsmuster aufweisen – damit ist gemeint, dass ihre Antworten im Laufe der Zeit an Genauigkeit verlieren und häufiger Falschaussagen enthalten.
Doch was ist dran an der Kritik, wird KI wirklich immer „dümmer“?
Was ist das Problem mit KI-generierten Antworten?
Das zentrale Problem besteht darin, dass KI-generierte Texte professionell und überzeugend klingen können, auch wenn der Inhalt faktisch falsch ist. Die Modelle sind darauf optimiert, plausible Antworten zu geben, nicht notwendigerweise korrekte.
Um die aktuellen Forschungsbefunde zu verstehen, ist wichtig zu klären, was große Sprachmodelle eigentlich sind und was nicht. LLMs (Large Language Models) sind keine Wissensdatenbanken oder digitale Wissenschaftler. Sie sind statistische Modelle, die darauf trainiert wurden, wahrscheinliche Wortfolgen zu generieren. Dabei lernen sie aus enormen Textmengen Muster und Zusammenhänge, ohne jedoch ein grundlegendes Verständnis für die Inhalte zu entwickeln.
Deep Dive: Technisch werden große Sprachmodelle als Next-Token-Prädiktoren trainiert: Sie lernen aus sehr großen Textmengen, welches Wort wahrscheinlich als nächstes folgt. Das Ziel ist die statistische Anschlussfähigkeit, nicht der Wahrheitsgehalt. Das ist der Grund, warum ein Modell eine in sich stimmig wirkende, aber falsche Antwort geben kann.
KI-generierte Texte klingen also oft professionell und überzeugend, auch wenn der Inhalt möglicherweise falsch ist.
Woher stammen die Trainingsdaten?
Große Sprachmodelle wie ChatGPT, Claude oder LLaMA werden mit gewaltigen Datensätzen trainiert, die Milliarden von Textdokumenten umfassen. Diese Trainingsdaten stammen aus verschiedenen Quellen:
- Web-Crawling: Automatisierte Programme durchsuchen das Internet und sammeln Texte von Websites, Blogs, Foren und Online-Enzyklopädien. Dies ist die wichtigste Quelle für Trainingsdaten.
- Digitalisierte Bücher und Artikel: Auch Bibliotheken, wissenschaftliche Publikationen und digitale Archive fließen als weitere Datenquellen mit ein.
- Social Media und Foren: Beiträge aus sozialen Netzwerken wie Reddit, Twitter oder spezialisierte Diskussionsforen ergänzen den Datensatz.
- Lizenzierte Inhalte: Einige Unternehmen kaufen auch gezielt hochwertige Textsammlungen und Datenbanken.
Die Datensammlung erfolgt weitgehend ungefiltert: Wissenschaftlich fundierte Texte stehen neben Fehlinformationen, aktuelle Inhalte neben veralteten.
Diese Mischung kann problematisch sein: Ungenaue, verzerrte oder widersprüchliche Inhalte werden von den Modellen übernommen und in ihren Antworten reproduziert. Zahlreiche Studien zeigen, dass dies zu systematischen Fehlern in der Zuverlässigkeit von KI-Sprachmodellen führt.
Die Forschung zeigt verschiedene Degradationsmuster:
Der „Model Collapse“ – Wenn KI von KI lernt

Eine Studie der Universitäten Oxford und Cambridge, veröffentlicht in Nature 2024, konnte mathematisch das Phänomen des „Model Collapse“ nachweisen:
Wenn KI-Modelle auf Daten trainiert werden, die teilweise schon von anderen KI-Systemen generiert wurden, verschlechtert sich ihre Leistung nachhaltig. Die Forschenden zeigten, dass bereits kleinste Mengen KI-generierter Inhalte in den Trainingsdaten zu einem degenerativen Prozess führen können.
Mit dem wachsenden Anteil KI-generierter Texte im Internet gewinnt dieses Problem zunehmend an Bedeutung.
Konkret heißt das: Seit KI-Sprachmodelle in der Lage sind, gut klingende Texte zu verfassen, werden diese Texte auch zunehmend veröffentlicht. Weil die Modelle ständig weitertrainiert werden, fließen somit KI-generierte Texte in die neue Datenbasis (also die Trainingsdaten) ein. Forschende warnen vor einem „Teufelskreis“: Jede neue Generation könnte dadurch schlechter werden als die Vorherige.
Wie aber lässt sich dieser fatale KI-Kreislauf verhindern? Nach Ansicht der Forschenden könnte es helfen, wenn KI-generierte Inhalte digitale Wasserzeichen erhalten, um sie bei künftigen Trainings ausschließen zu können.
Eine Stanford-Berkeley-Studie dokumentierte ebenfalls deutliche Leistungsschwankungen bei GPT-4. Die Fähigkeit zur Primzahlerkennung sank zwischen März und Juni 2024 von 97,6 Prozent auf nur 2,4 Prozent Genauigkeit. Parallel dazu verschlechterten sich auch andere mathematische Fähigkeiten des Modells.
Das Skalierungs-Paradox – je größer, desto schlechter
Überraschend waren die Ergebnisse einer Studie zum sogenannten Skalierungs-Paradox. Die Untersuchung der Universitäten Cambridge und Valencia zeigte, dass größere und leistungsfähigere Modelle paradoxerweise an Zuverlässigkeit verlieren.
Während die Modelle bei komplexen Aufgaben bessere Leistungen zeigen, versagen sie häufiger bei einfachen Fragen und Geben öfter falsche Antworten satt ihre Unsicherheit einzugestehen. Die Forscher bezeichneten dies als „Ultracrepidarianism“ – die Tendenz zu antworten, auch wenn man es nicht wissen sollte.

Gut zu wissen: Mit Ultracrepidarianismus („Antworten um jeden Preis“) meint man die Neigung, auch eine Antwort zu geben, wenn man eigentlich kein solides Wissen hat. Auf Künstliche Intelligenz bezogen bedeutet das: Je größer ein Modell ist, desto mehr Sprachmuster hat es verinnerlicht und desto sicherer wirkt seine Antwort. Zusätzlich werden die Systeme so trainiert, dass Sie auf Fragen möglichst direkt und hilfreich antworten, statt Unsicherheiten zuzugeben.
Wird die KI also wirklich „dümmer“?
Zusammenfassend zeigt die Forschung:
- KI-Antworten werden messbar ungenauer . Das zeigen die oben beschriebenen Degradationsmechanismen. Dieses „Model Collapse“ äußert sich darin, dass Modelle ihre Fähigkeit verlieren, seltene oder ungewöhnliche Informationen korrekt wiederzugeben. Die KI „vergisst“ gewissermaßen die Vielfalt der menschlichen Ausdrucksweise. Selbst kleinste Anteile solcher synthetischen Texte im Trainingsmix genügen, um langfristig eine Degradationen zu bewirken.
- Größere Modelle sind paradoxerweise weniger zuverlässig trotz besserer Sprachfähigkeiten. Dieses Phänomen ist eng verbunden mit dem „Ultracrepidarianismus“: KI-Sprachmodelle antworten, auch wenn sie es nicht wissen.
- Genauigkeit ist stark kontextabhängig: Nicht nur große Sprachmodelle wie ChatGPT bergen Risiken: auch spezialisierte KI-Systeme können Fehler machen. Dennoch zeigt sich in Tests, dass Anwendungen, die gezielt für bestimmte Aufgaben entwickelt wurden, oft verlässlichere Ergebnisse liefern als breit angelegte Sprach-KIs.
Daher lautet das Fazit: Ja, KI-Sprachmodelle sind beeindruckende Textgeneratoren, aber keine verlässlichen Wissensquellen. Jede Antwort sollte überprüft und im Zweifel durch vertrauenswürdige Quellen ergänzt werden.
Gibt es auch verlässliche KI-Sprachmodelle?
Leider lautet die Antwort: Nein. Vollständig verlässlich ist derzeit kein Sprachmodell. Ihre Genauigkeit hängt stark vom Thema, vom Zeitpunkt der Abfrage und vom Kontext ab.
In unserem Beitrag „KI-Modelle im Faktencheck“ gehen wir darauf ein, in welchem Kontext LLMs besonders häufig Falschaussagen treffen und in welchen Anwendungsbereichen KI-Modelle eine hohe Verlässlichkeit haben.
Und was passiert, wenn man die KI nach Quellen fragt?
Auch hier gilt Vorsicht: Viele Sprachmodelle neigen dazu, fiktive Zitate oder Quellenangaben zu erfinden, man nennt das „Halluzinationen“. Die KI kann sich Titel, Autorennamen und Links einfach ausdenken.
Und auch wenn die KI auf eine reale Quelle zugreift heißt das nicht, dass die Daten aus dieser Studie immer korrekt wiedergegeben werden. Das zeigte eine Untersuchung aus April 2025:
Die Studie untersuchte, wie KI-Sprachmodelle wissenschaftliche Texte zusammenfassen. Die Ergebnisse zeigen, dass LLMs bei der Zusammenfassung wissenschaftlicher Arbeiten häufig zu übergeneralisierten Schlussfolgerungen neigen. In einem direkten Vergleich waren KI-generierte Zusammenfassungen fast 5 mal häufiger von Verallgemeinerungen geprägt als die von Menschen verfasste Zusammenfassungen.

Mit dem Laden des Videos akzeptieren Sie die Datenschutzerklärung von YouTube.
Mehr erfahren
Um das Problem zu entschärfen, setzen einige Anbieter inzwischen auf sogenannte RAG-Systeme (Retrieval-Augmented Generation): Das Modell greift dabei gezielt auf externe Datenbanken oder Suchmaschinen zurück und verweist auf echte Dokumente.
Aber Achtung: Auch hier sollten Sie prüfen, welche Dokumente als Quelle geführt werden.
Ein Beispiel hierfür sind Dienste wie Perplexity AI, die von Beginn an auf Transparenz und Quellennachweise setzen. Anders als klassische Sprachmodelle antworten dieser nicht nur mit einem flüssigen Text, sondern blendet gleichzeitig Links und Zitate ein. Technisch nutzt Perplexity ebenfalls Sprachmodelle wie GPT oder Claude, kombiniert sie aber mit einer RAG-Architektur: Jede Antwort basiert auf aktuellen Websuchen, die dann im Text referenziert werden.
Fazit: Verantwortung statt unkritischem Vertrauen
KI-Sprachmodelle sind leistungsstarke Werkzeuge, aber kein Allheilmittel. Sie können Ideen liefern, Formulierungen verbessern oder Anregungen geben – und ja, auch wissenschaftliche Quellen recherchieren und zusammenfassen. Dennoch sollte man den Ergebnissen nicht automatisch vertrauen, denn sie liefern nicht zwangsläufig verlässliche Fakten. Wer KI einsetzt, muss weiterhin selbst Fakten prüfen, Argumentationen hinterfragen und bei wichtigen Entscheidungen die Verantwortung übernehmen.
Praktisch bedeutet das: Vergleichen Sie Antworten, prüfen Sie angegebene Quellen kritisch und wiederholen Sie Abfragen, um die Zuverlässigkeit einzuschätzen. Bewusstes Hinterfragen reduziert das Risiko von Fehlinformationen und sorgt für fundierte Entscheidungen.
Quellen:
- AI models collapse when trained on recursively generated data (24 July 2024): https://www.nature.com/articles/s41586-024-07566-y
- Künstliche Intelligenz: Droht ein KI-Kollaps? (26. Juli 2024) https://www.scinexx.de/news/technik/kuenstliche-intelligenz-droht-ein-kollaps/
- Larger and more instructable language models become less reliable(25 September 2024): http://nature.com/articles/s41586-024-07930-y
- Yes, AI Models Can Get Worse over Time (2. August 2023) https://www.scientificamerican.com/article/yes-ai-models-can-get-worse-over-time/
- Generalization bias in large language model summarization of scientific research (30. April 2025): https://royalsocietypublishing.org/doi/10.1098/rsos.241776
Text: Christel Schmuck