Markus Feilner :verified: on Nostr: "Führende KI-Programme, darunter GPT-4o und Claude 3.5 Sonnet, konnten – selbst ...
"Führende KI-Programme, darunter GPT-4o und Claude 3.5 Sonnet, konnten – selbst mit Zugriff auf Programmierschnittstellen, um ihre Ergebnisse zu testen – weniger als zwei Prozent einer anspruchsvollen Mathematikaufgabensammlung lösen."
https://www.spektrum.de/news/geheime-mathematikaufgaben-blamieren-ki-modelle/2243678
https://www.spektrum.de/news/geheime-mathematikaufgaben-blamieren-ki-modelle/2243678