+49 30 533206 – 570

Projekte-Hotline: +49 3327 5658 – 28

info@digitalzentrum.berlin

KI-Modelle im Faktencheck: So häufig liefern ChatGPT & Co. Falschaussagen

Wie verlässlich sind KI-Modelle wie ChatGPT wirklich? Studien zeigen: Die Fehlerquoten liegen – je nach Fachgebiet – teils über 80 Prozent. Der Beitrag erklärt, wo die Risiken im Unternehmenskontext liegen und was der EU AI Act künftig von Anwendern verlangt.
KI im Faktencheck - chat GPT und co liefern oft falschaussagen

Immer mehr Unternehmen nutzen KI-Systeme wie ChatGPT für Texte, Recherchen oder den Kundenservice. Doch wie zuverlässig sind diese Werkzeuge tatsächlich? Neue Studien aus dem Jahr 2025 zeigen: Selbst fortgeschrittene Sprachmodelle produzieren systematische Fehler – oft ohne erkennbare Warnhinweise. Für Unternehmen, die solche Systeme produktiv einsetzen, birgt das erhebliche Risiken. Wir haben die aktuelle Studienlage analysiert – und dabei aufschlussreiche, teils beunruhigende Ergebnisse gefunden.

Welche Fehler macht ChatGPT-4 – und wie wurde das getestet?

Die bislang umfassendste Untersuchung zur Fehleranfälligkeit von ChatGPT-4 stammt von der US-amerikanischen Analyseplattform NewsGuard. Für die Studie aus dem März 2023 stellten die Forschenden der KI 100 suggestive Fragen, die auf bekannten Falschinformationen basierten – etwa zu Impfungen, dem Klimawandel oder politischen Verschwörungen.

GPT-4 gab in allen 100 Fällen eine falsche oder irreführende Antwort – oft ohne den Hinweis, dass es sich um eine widerlegte Behauptung handelt. Im Vergleich kam das Modell GPT-3.5 auf „nur“ 80 solcher Fehler. Besonders auffällig: GPT-4 formulierte die Desinformationen meist ausführlicher und plausibler. Gleichzeitig war das Modell weniger zurückhaltend. Während GPT-3.5 in 51 von 100 Antworten relativierende Hinweise einbaute, tat GPT-4 das nur noch in 23 Fällen.

Ein Beispiel: Auf die Frage, ob COVID-19-Impfstoffe gefährlich seien, generierte ChatGPT-4 eine Antwort, die unbelegte Behauptungen über schwere Nebenwirkungen enthielt – ohne Kontext, Einordnung oder Verweise auf wissenschaftliche Studien.

YouTube

Mit dem Laden des Videos akzeptieren Sie die Datenschutzerklärung von YouTube.
Mehr erfahren

Video laden

Neue Studien zeigen: Die Fehlerquote von KI hängt vom Anwendungsbereich ab

Die oben genannten Zahlen sind alarmierend. Aber konnte sich KI mittlerweile verbessern?

Mehrere aktuelle Untersuchungen zeigen ein differenziertes Bild der KI-Leistung, insbesondere von GPT-4 und seiner Weiterentwicklung GPT-4o:

Fachspezifische Fehlerquoten – starke Streuung

Eine Metastudie des Informatikers Vahid Garousi (April 2025) wertete über 30 Einzelstudien aus und zeigt: Die Fehlerquote hängt stark vom Anwendungsbereich ab.

  • Gesundheit: je nach Fragestellung und Datenlage zwischen 8 % und 83 %
  • Ingenieurwissenschaften: je nach Fragestellung und Datenlage ca. 20–30 %
  • Wirtschaft/Finanzen: Verbesserung gegenüber GPT-3.5, aber immer noch 15–20 % Fehler
  • Programmierung: Hohe Genauigkeit bei Standard-Code (ca. 87 %), aber über 50 % Fehler beim Debugging

Garousi kommt zu dem Schluss: „KI-Modelle sind keine verlässlichen Expertensysteme. Ihre Leistung ist kontextabhängig, schwer vorhersehbar – und oft überschätzt.“
(Quelle: Garousi, Preprint, April 2025)

Verzerrungen und falsche Informationen in aktuellen Nachrichten

Auch die BBC untersuchte im Februar 2025 zehn führende KI-Modelle – darunter ChatGPT, Copilot und Gemini – im Hinblick auf ihre Antworten zu politischen, gesellschaftlichen und medizinischen Themen. In über 50 % der Fälle enthielten die Antworten sachliche Fehler, Verzerrungen oder unbelegte Meinungen.
(Quelle: BBC Investigation, Feb. 2025)

Beispiele:

  • Microsoft Copilot stellte veraltete EU-Wahlregeln als aktuell dar.
  • Google Gemini antwortete mit widersprüchlichen Angaben zu CO₂ als Klimagas.
  • ChatGPT zeigte uneinheitliche Angaben zu NHS-Impfempfehlungen.

Ungenaue wissenschaftliche Zusammenfassungen

Eine Studie in der Fachzeitschrift Royal Society Open Science (Mai 2025) untersuchte 4.900 Zusammenfassungen wissenschaftlicher Arbeiten, die von Sprachmodellen wie ChatGPT erstellt wurden. Ergebnis: 73 % enthielten Übertreibungen, Vereinfachungen oder Fehlinterpretationen – insbesondere, wenn Nutzer:innen um eine „präzise“ Zusammenfassung baten.
(Quelle: Royal Society Open Science, Mai 2025)

Was bedeutet das für den Einsatz von KI in Unternehmen?

Die Studien zeigen: Selbst wenn KI-Systeme auf den ersten Blick überzeugende Texte liefern, können inhaltliche Fehler unbemerkt bleiben – vor allem bei komplexen Themen wie Regulierung, Gesundheit oder Finanzen.

Für Unternehmen bedeutet das: Wer ChatGPT & Co. beispielsweise für FAQ-Texte, Website-Inhalte, automatisierte Kundenkommunikation oder Angebotsentwürfe nutzt, sollte die generierten Inhalte vor der Nutzung intern gegenprüfen lassen.

Besonders kritisch ist der Einsatz, wenn Inhalte direkt nach außen kommuniziert werden – etwa über E-Mails, Social Media oder Webtexte. Hier genügt nicht allein das Vertrauen in die Technologie: Eine redaktionelle Prüfung bleibt unerlässlich. Denn Fehler, die durch die scheinbare Autorität einer KI entstehen, können gravierende Folgen haben.

Sie sind für die KI-Inhalte verantwortlich!

Hinzu kommt eine neue regulatorische Dimension: Mit dem EU AI Act schafft die Europäische Union derzeit ein rechtlich bindendes Regelwerk für den Einsatz von Künstlicher Intelligenz. Der Rechtsrahmen unterscheidet dabei zwischen verschiedenen Risikoklassen. Sprachmodelle wie ChatGPT fallen unter die Kategorie der „Allgemeinen KI-Systeme“ (General Purpose AI). Für diese Modelle gelten künftig strengere Transparenzpflichten.

Konkret verlangt der AI Act unter anderem:

  • Kennzeichnungspflicht für KI generierte Inhalte: Nutzerinnen und Nutzer müssen eindeutig darauf hingewiesen werden, wenn Inhalte vollständig oder teilweise von einer KI erzeugt wurden.
    • Die Kennzeichnungspflicht entfällt, wenn eine menschliche Überprüfung oder redaktionelle Kontrolle der KI-generierten Inhalte stattfindet oder
    • Eine natürliche oder juristische Person die redaktionelle Verantwortung für die Veröffentlichung übernimmt.
  • Technische Dokumentation: Entwickler von KI-Systemen müssen offenlegen, mit welchen Daten die Modelle trainiert wurden – inklusive Informationen zu urheberrechtlich geschützten Inhalten.
  • Maßnahmen gegen Desinformation: Anbieter sollen sicherstellen, dass ihre Systeme keine systematische Fehlinformation fördern. Dazu zählen etwa Mechanismen zur Korrektur von Halluzinationen.

Für Unternehmen bedeutet das nicht nur eine neue Verantwortung beim Einsatz von KI, sondern auch die Pflicht, Prozesse zu etablieren, die Transparenz, Nachvollziehbarkeit und Überprüfbarkeit der generierten Inhalte gewährleisten.

Besonders bei sensiblen Themen wie Gesundheit, Recht, Nachrichten oder Finanzen sollten KI-generierte Aussagen stets durch qualifiziertes Fachpersonal geprüft werden, bevor sie in irgendeiner Form veröffentlicht oder als Entscheidungsgrundlage genutzt werden.

Wofür man Sprachmodelle wie ChatGPT nutzen sollte – und wofür besser nicht

Sprachmodelle eignen sich gut, um Texte zu formulieren, Ideen zu sammeln oder kreative Ansätze für Projekte zu entwickeln. Sie können helfen, Entwürfe schneller zu erstellen oder Gedanken präziser auszudrücken. Für die reine Informationsbeschaffung oder die Überprüfung von Fakten sind sie dagegen ungeeignet.

Wenn es um verlässliche Daten oder aktuelle Informationen geht, sollte man besser auf klassische Suchmaschinen, Nachrichtenportale und wissenschaftliche Quellen setzen. Dort lassen sich die Angaben leichter überprüfen und mit Belegen absichern.

Tipp: Lesen Sie in unserem Leitfaden „So schreiben Sie perfekte Prompts für ChatGPT & Co“, wie Sie präzise Fragen formulieren und die Stärken der KI gezielt nutzen. Der Leitfaden hilft dabei, klarere Ergebnisse zu erzielen – und typische Fehler zu vermeiden.

Wie verlässlich ist „Deep Research“?

ChatGPT bietet mittlerweile auch in der freien Version die Funktion „Deep Research“. Mit ihr können Sie aktuelle Web-Ergebnisse finden und die KI zu einem beliebigen Thema ausführlich recherchieren lassen. Das Ergebnis wirkt oft sehr vertrauenserweckend: Die KI liefert auf Wunsch einen wissenschaftlich anmutenden Text mit Gliederung und zahlreichen Quellenangaben.

Doch auch hier sollten Sie der KI nicht blind vertrauen: Sie kann Suchergebnisse falsch gewichten oder Details verzerrt darstellen. Deshalb gilt auch bei „Deep Research“: Alle gelieferten Informationen sollten sorgfältig geprüft und kritisch bewertet werden, bevor sie in Texte oder Entscheidungen einfließen.

Die Funktion „Deep Research“ greift auf externe Web-Suchdienste zurück, um auf aktuelle Informationen zuzugreifen. Dabei erstellt die KI automatisch Suchanfragen und verarbeitet die gefundenen Inhalte. Die Ergebnisse werden zusammengefasst, in eigenen Worten formuliert und mit Quellenangaben versehen. So lassen sich aktuelle Nachrichten, Fachbeiträge oder wissenschaftliche Studien direkt in Antworten einbinden.

Wie genau arbeiten spezialisierte KI-Anwendungen?

Nicht nur große Sprachmodelle wie ChatGPT bergen Risiken – auch spezialisierte KI-Systeme können Fehler machen. Dennoch zeigt sich: Anwendungen, die gezielt für bestimmte Aufgaben entwickelt wurden, liefern oft verlässlichere Ergebnisse als breit angelegte Sprach-KIs. Systeme zur Bilderkennung oder zur Buchhaltung basieren meist auf anderen Methoden und verfügen über klar definierte Anwendungsbereiche.

Bilderkennung: Präzise, aber nicht unfehlbar

KI-gestützte Bilderkennungssysteme erreichen in vielen standardisierten Tests beeindruckende Genauigkeiten. So liegt die Fehlerquote bei der Bilderkennung von Ziffern (MNIST-Datensatz) unter 0,3 %. In der Praxis – etwa in der medizinischen Diagnostik oder der Qualitätskontrolle – können Fehler jedoch häufiger auftreten. Gründe sind unzureichende oder verzerrte Trainingsdaten oder die Anfälligkeit für sogenannte „adversarial examples“ – kleine Manipulationen, die für das menschliche Auge nicht erkennbar sind, von der KI jedoch fehlinterpretiert werden.

Auch in der Buchhaltung kommen KI-Systeme zunehmend zum Einsatz, beispielsweise beim Vorsortieren von Belegen oder der Kategorisierung von Ausgaben. Hier zeigen sich deutliche Effizienzgewinne und eine Verringerung von Fehlern.

Trotzdem bleibt eine menschliche Kontrolle notwendig – besonders in komplexen oder unklaren Fällen. Denn die Qualität der KI-Ergebnisse hängt stark von den zugrunde liegenden Daten und der laufenden Schulung der Systeme ab.

Fazit: Präzise Sprache ersetzt keine belastbaren Fakten

Sprachmodelle wie GPT-4o liefern zwar eine beeindruckende Ausdrucksfähigkeit, schwächeln aber bei genauen Angaben und Faktentreue. Wer die Technologie nutzt, sollte sich bewusst sein: Sie simuliert Verstehen, sie argumentiert nicht. Kritisches Mitdenken, journalistische Sorgfalt und menschliche Urteilskraft bleiben unverzichtbar.

Sie möchten die Potenziale von Künstlicher Intelligenz sicher und effizient für Ihr Unternehmen nutzen? Wir bieten regelmäßig Workshops und Webinare an, in denen unsere Expert:innen praxisnah zeigen, wie man KI-Tools richtig einsetzt.

Suchen
Nichts mehr verpassen:
Unser Newsletter

    Mehr zum Thema