GPT-5 ist da – die wichtigsten Infos zur neuen Version von ChatGPT
Wir blicken auf das neueste KI-Modell von OpenAI und bewerten: Was ist Hype und was Realität?
- GPT-5 auf einen Blick: Was ist neu?
- Unterschiede zu GPT-4: die Änderungen im Detail
- GPT-5 im Technik-Check: Leistungsbenchmarks
- Unser erster Eindruck
- Fazit zu GPT-5: Solide, aber nicht bahnbrechend
Schlauer, intelligenter, vielseitiger – mit diesen Worten beschreibt OpenAI das neueste Update für das beliebte KI-Tool ChatGPT. Die mittlerweile fünfte Iteration soll alles noch besser machen und dabei so einfach zu bedienen sein wie nie zuvor: Vorbei sind die Zeiten, in denen du aus einer verwirrend großen Zahl an verschiedenen Modellen wählen musstest, um eine Aufgabe zu lösen. GPT-5 verspricht deutlich weniger Komplexität und dafür zuverlässigere Ergebnissen.
Echte Revolution oder aufgebauschte PR? Dieser Frage gehen wir nach und zeigen dir, welche Änderungen GPT-5 wirklich bereithält.
- GPT-5 ist ab sofort für alle Nutzergruppen verfügbar, wobei das Nutzungskontingent je nach Tarif (Free, Plus, Pro) variiert.
- Das neue Modell entscheidet intelligent selbst, wie viel Rechenleistung für eine Anfrage nötig ist und aktiviert bei komplexen Fragen automatisch einen „Thinking“-Modus.
- OpenAI verspricht, dass GPT-5 seltener Fakten erfindet, ehrlicher zugibt, wenn es etwas nicht weiß, und in einem direkteren, weniger schmeichelhaften Ton kommuniziert.
- Durch ein neues Sicherheitstraining soll die KI bei sensiblen Anfragen hilfreicher antworten, ohne dabei Sicherheitsrichtlinien zu verletzen.
- Trotz verbesserter Benchmarks in Mathematik und Programmierung ist der erste Eindruck, dass GPT-5 eher eine solide Weiterentwicklung als eine Revolution darstellt.
GPT-5 auf einen Blick: Was ist neu?
Bevor wir in die Tiefe gehen, hier die schnellsten Antworten auf die dringendsten Fragen: GPT-5 ist ab sofort verfügbar. Der Rollout für alle Nutzergruppen (Free, Plus, Pro) hat bereits begonnen.
Der Zugriff ist dabei gestaffelt:
Alle Nutzer*innen (auch im kostenlosen Tarif) erhalten Zugang zu GPT-5. Bei Free-Nutzer*innen ist das Kontingent begrenzt, danach schaltet das System auf die kleinere Version GPT-5-mini um.
Plus-Abonnent*innen bekommen ein deutlich höheres Nutzungslimit für das Standardmodell GPT-5 – wie hoch dieses genau ausfällt, bleibt allerdings OpenAIs Geheimnis.
Pro-Abonnenten*innen haben unbegrenzten Zugriff auf das Standardmodell und erhalten zusätzlich exklusiven Zugang zu GPT-5 Pro. Dieses Modell ist für die anspruchsvollsten Aufgaben gedacht und nutzt mehr Rechenleistung für noch genauere und umfassendere Antworten.
Das „normale“ GPT-5 greift bei Bedarf intern auf eine Funktion namens GPT-5 Thinking zurück. Das ist kein separates Modell, das du auswählen musst, sondern ein Modus für tiefere Analysen, der bei komplexen Fragen automatisch aktiviert wird. Alternativ lässt sich der „Thinking“-Modus für eine tiefgehende Analyse vorab manuell auswählen.
In seinen Update-Notes fasst OpenAI die Neuerungen so zusammen:
Intelligentes System: GPT-5 entscheidet selbst, wie viel „Denkleistung“ für eine Anfrage nötig ist.
Weniger Fehler: Das Modell erfindet seltener Fakten („Halluzinationen“) und ist insgesamt zuverlässiger.
Mehr Ehrlichkeit: Es gibt eher zu, wenn es eine Antwort nicht kennt oder eine Aufgabe nicht ausführen kann.
Natürlichere Konversation: Der Stil ist direkter und weniger schmeichlerisch, was die Unterhaltung professioneller macht.
Bessere Sicherheit: Ein neues Trainingsverfahren sorgt für hilfreichere Antworten, selbst bei sensiblen Anfragen.
Unterschiede zu GPT-4: die Änderungen im Detail
Die Liste der Neuerungen klingt vielversprechend, aber was steckt technisch dahinter und wie wirken sie sich in der Praxis aus? Schauen wir uns die wichtigsten Änderungen genauer an:
1. Eingebautes Denkvermögen
Die vielleicht größte Änderung findet unter der Haube statt und ist der Grund, warum du nicht mehr zwischen verschiedenen Modellen wählen musst. GPT-5 arbeitet mit einem intelligenten Router-System. In der Praxis bedeutet das: Du stellst eine Frage und GPT-5 analysiert kurz, wie komplex sie ist.
Für eine einfache Frage („Wie hoch ist der Eiffelturm?“) liefert ein schnelles Basismodell sofort die Antwort. Bei einer komplexen Aufgabe („Entwirf mir einen Geschäftsplan für ein Café in Berlin“) aktiviert das System automatisch den „Thinking“-Modus. Es nimmt sich dann mehr Zeit und nutzt ein tiefergehendes Modell, um eine durchdachte und strukturierte Antwort zu liefern. Das Ergebnis soll eine bessere Balance aus Geschwindigkeit und Qualität bieten.
2. Weniger Halluzinationen und Mut zur Ehrlichkeit
Ein großes Problem von KI-Modellen ist ihre Tendenz, Fakten zu erfinden, wenn sie eine Antwort nicht wissen – nicht nur bei ChatGPT, sondern auch bei anderen Tools wie Googles Gemini oder Anthropics Claude.
GPT-5 soll dieses Problem adressieren und laut den Entwickler*innen deutlich weniger sachliche Fehler machen. Fast noch wichtiger ist aber die verbesserte „Ehrlichkeit“, mit der OpenAI wirbt: Anstatt eine falsche Antwort selbstbewusst zu präsentieren, wird GPT-5 eher sagen, dass die nötigen Informationen fehlen. In einem von OpenAI durchgeführten Test, bei dem das Modell zu einem nicht vorhandenen Bild befragt wurde, erfand das Vorgängermodell in über 86 % der Fälle eine Antwort – GPT-5 tat dies angeblich in nur noch 9 % der Fälle.
3. Sicherheitstraining
Auch der Umgang mit heiklen oder potenziell gefährlichen Anfragen wurde überarbeitet. Früher war die Reaktion oft ein simples „Ich kann dir dabei nicht helfen“. Mit einem neuen Ansatz namens „Safe Completions“ (sichere Abschlüsse) versucht GPT-5, so hilfreich wie möglich zu sein, ohne Sicherheitsrichtlinien zu verletzen. Bei einer mehrdeutigen Anfrage, die harmlos oder schädlich genutzt werden könnte, wird das Modell eher eine sichere, allgemeine Antwort geben, anstatt die Hilfe komplett zu verweigern. Dabei erklärt es auch, warum es nicht weiter ins Detail gehen kann.
4. Weniger Schmeichelei
Sicher ist es dir schon oft selbst aufgefallen: KI – allen voran ChatGPT – neigt dazu, bisweilen übertrieben freundlich und zustimmend zu agieren. Dieses Verhalten wurde in GPT-5 gezielt verändert, wodurch die KI direkter und neutraler kommunizieren soll. Laut OpenAI wurden übermäßig schmeichlerische Antworten um mehr als die Hälfte reduziert.
GPT-5 im Technik-Check: Leistungsbenchmarks
Verhaltensänderungen sind das eine, aber wie sieht es mit der reinen Power aus? OpenAI untermauert die Fortschritte mit einer Reihe von Ergebnissen aus standardisierten Tests (Benchmarks), die die Fähigkeiten in verschiedenen Disziplinen messen. Ob die Realität mit den Benchmarks übereinstimmt, wird sich wohl erst im Laufe der Praxis zeigen.
Hier sind einige der Ergebnisse und was sie in der Praxis bedeuten:
Mathematik (AIME 2025)
Was sagt der Benchmark aus?
Die AIME (American Invitational Mathematics Examination) ist ein anspruchsvoller Wettbewerb für High-School-Schüler*innen in den USA. Auch im KI-Bereich wird die AIME zunehmend von Forscher*innen und Entwickler*innen als Benchmark genutzt, um die mathematischen Fähigkeiten von KI-Modellen zu testen. Abgefragt werden keine einfachen Formeln, sondern kreative Lösungswege.
So schneidet GPT-5 ab
In diesem Benchmark konnte GPT-5 angeblich eine Genauigkeit von 94,6 % erzielen. Zum Vergleich: Das für sein Reasoning bekannte Modell DeepSeek R1 aus China erzielte laut dem Benchmark-Report von valse.ai gerade einmal 74 %.
Programmierung (Aider-Polyglot)
Was sagt der Benchmark aus?
Der Aider-Polyglot Benchmark ist eine Sammlung von 225 besonders schwierigen Programmieraufgaben, verteilt auf sechs populäre Programmiersprachen. Bewertet wird, wie viele der Aufgaben gelöst werden können.
So schneidet GPT-5 ab
Laut OpenAI erzielt GPT-5 eine Lösungsrate von 88 % – und liegt damit ebenfalls vor dem hauseigenen Modell o3-mini (84,9 %) sowie dem ebenfalls sehr guten Claude (83,1 %).
Visuelles Verständnis (MMMU):
Was sagt der Benchmark aus?
Das MMMU (Massive Multi-discipline Multimodal Understanding and Reasoning) ist ein Benchmark, der speziell für multimodale KI-Modelle entwickelt wurde. Es misst die Fähigkeit von Modellen, komplexe Aufgaben zu lösen, die eine Kombination aus Text- und Bildverstehen sowie expertenartigem Wissen über verschiedene Fachbereiche erfordern.
So schneidet GPT-5 ab
Ein Ergebnis von 84,2 % bedeutet, dass ChatGPT deutlich besser darin geworden ist, Inhalte aus Bildern, Diagrammen und Grafiken zu verstehen und zu analysieren. Du kannst ihm also ein Diagramm zeigen und dazu gezielt Fragen stellen.
Gesundheit (HealthBench Hard)
Was sagt der Benchmark aus?
Der HealthBench Hard ist ein anspruchsvoller Benchmark, der für die Evaluierung von KI-Modellen im Gesundheitsbereich entwickelt wurde. Er fokussiert sich auf eine Auswahl von etwa 1.000 besonders schwierigen Beispielen aus realistischen und komplexen medizinischen Gesprächssituationen, mit denen heutige Spitzenmodelle noch Probleme haben. Ziel ist es, KI-Modelle zu fordern und einen messbaren Fortschritt in der Medizin-Assistenz durch KI zu fördern.
So schneidet GPT-5 ab
In diesem Test erzielt GPT-5 ein Erfolgsquote von 46,2 % und liegt damit laut OpenAI deutlich vor den früheren Modellen. Eine Aussage, die sich leider nicht nachprüfen lässt, da das Leaderboard für das Benchmark nur für Nutzer*innen der dazugehörigen Software zugänglich ist.
Lesetipp: Wenn du wissen willst, wie sich das Vorgängermodell von GPT-5 im Test schlägt, schau doch mal in meinen Vergleich ChatGPT vs. Gemini rein!
Unser erster Eindruck
Die Ankündigungen von OpenAI lassen Großes erwarten. Ob sich das neue Modell auch in der Praxis spürbar vom Vorgänger unterscheidet, wollte ich selbst herausfinden und habe es sogleich mit ein paar meiner typischen Prompts gefüttert. So sollte mir die KI als Inspirationshilfe dienen und einen Titel, Snippet und Einleitung zu einem Blogartikel schreiben. Mit einem ernüchternden Ergebnis: Abgesehen von der schnelleren Bearbeitungszeit unterscheidet sich der Output nicht sonderlich vom Modell 4.1. Die Formulierung „XY ist kein Nice-to-have mehr, sondern ein Wettbewerbsfaktor“ habe ich auch bei früheren Anfragen schon viel zu oft gelesen. Auch sonst wirkte der Text sehr formelhaft geschrieben, wie man es von ChatGPT gewohnt ist:
Besonders spannend liest sich die Einleitung von GPT-5 nicht
Interessant wurde es dagegen, als ich GPT-5 bewusst mit falschen, widersprüchlichen oder bedenklichen Anfragen gefüttert habe – etwa der Farbzusammensetzung von Banknoten oder der vermeintlichen Dankesrede Albert Einsteins für den Erhalt des Nobelpreises für seine Relativitätstheorie:
Banknotenfälscher haben in GPT-5 keine Chance
Beim Banknoten-Prompt fallen direkt zwei Dinge auf: Zum einen gibt die KI offen und transparent zu, dass die Anfrage zu spezifisch ist und sie keine Antwort darauf hat (Stichwort: Ehrlichkeit). Zum anderen liefert sie zwar weitere Hinweise zur generellen Farbzusammensetzung von Banknoten – diese sind aber so vage, dass man daraus kaum eine Anleitung für Geldfälschung ableiten könnte (Stichwort: Sicherheitstraining).
Beim oben erwähnten Albert Einstein-Prompt fühlte ich mich sogar regelrecht ertappt:
GPT-5 erkennt (und kommentiert), dass man die sie offensichtlich hinters Licht führen wollte
Offensichtlich hat GPT-5 ein gewisses Maß an Humor entwickelt: Nicht nur erkennt die KI den offensichtlich falschen Prompt, sondern kommentiert dies auch. Auf mein Dankeschön hin legt ChatGPT sogar noch einmal süffisant nach und meint, dass Einstein so oft fälschlicherweise mit dem Nobelpreis für Relativität in Verbindung gebracht werde, „dass man fast meinen könnte, es sei ein Naturgesetz. 😉”
Lese ich da etwa einen Hauch Sarkasmus heraus?
Empfehlenswerte KI-Text-Generatoren
Auf unserer Vergleichsplattform OMR Reviews findest du weitere empfehlenswerte KI-Text-Generatoren. Über 60 verschiedene Systeme, zugeschnitten auf die spezifischen Bedürfnisse von kleinen und mittleren Unternehmen, Start-ups und großen Konzernen, stehen zur Auswahl. Unsere Plattform bietet umfassende Unterstützung in allen Bereichen der Texterstellung und -optimierung. Nutze die Chance, verschiedene KI-Tools zu vergleichen, und ziehe echte Nutzerbewertungen heran, um das perfekte Werkzeug für deine spezifischen Anforderungen zu finden:
Das meint KI-Experte Jens Polomski zu GPT-5
Kaum jemand könnte GPT-5 besser einordnen als Jens Polomski – der Gründer von SnipKI ist ChatGPT-User der ersten Stunde und informiert in seinem KI-Newsletter mittlerweile über 40.000 Abonnent*innen über die neuesten Entwicklungen aus der Welt der künstlichen Intellgenz:
„GPT-5 wirkt auf mich wie ein solides Update. Es gibt ein paar sinnvolle Verbesserungen wie ein größeres Kontextfenster und angeblich weniger Fehler, aber der große Wow-Moment fehlt. Als Power-User vermisse ich teilweise die direkte Auswahl der Modelle, für den Durchschnitt ist der Wechsel zum einheitlichen Model-Switcher aber sicher hilfreich, gerade nach dem Modellchaos der letzten Monate bei OpenAI. Unterm Strich gut, aber der Hype ist vielleicht größer als der Sprung."
– Jens Polomski, KI-Berater & Gründer snipKI
Fazit zu GPT-5: Solide, aber nicht bahnbrechend
Kommen wir zur Ausgangsfrage: Hype oder Gamechanger? Meiner Einschätzung nach ist das Update auf GPT-5 ein logischer Fortschritt hin zu schnellerer und verlässlicher Verarbeitung. Einen wahrhaftigen Quantensprung solltest du allerdings nicht erwarten. Oder wie ChatGPT es formulieren würde: GPT-5 ist keine KI-Revolution – sondern eher Nice-to-have.