EU-Studie warnt vor Schwächen bei KI-Benchmarks
Das EU-Forschungszentrum warnt vor erheblichen Problemen bei der Bewertung von KI-Fähigkeiten und fordert strengere Kontrollen, damit die von Unternehmen angegebenen Modellwerte nicht täuschen.
Das EU-Forschungszentrum warnt vor erheblichen Problemen bei der Bewertung von KI-Fähigkeiten und fordert strengere Kontrollen, damit die von Unternehmen angegebenen Modellwerte nicht täuschen.
Letzte Woche veröffentlichte das Gemeinsame Forschungszentrum (JRC) der EU-Kommission eine Studie. Darin heißt es, KI-Benchmarks würden zu viel versprechen. Die Autoren kommen zu dem Schluss, dass proprietäre Werkzeuge zum Vergleich von KI-Modellen leicht manipulierbar sind und häufig das Falsche messen.
KI-Unternehmen nutzen Modellwerte, sogenannte Benchmarks, um Zahlen zur Leistungsfähigkeit ihrer Modelle bei bestimmten Aufgaben zu präsentieren. OpenAI testete beispielsweise sein neuestes Modell GPT-5 darauf, wie zuverlässig es auf nicht beantwortbare Fragen verzichtet – mit angeblich besseren Ergebnissen als die Vorgängerversion.
Die Wissenschaftler mahnen jedoch, Regulierer müssten genauer prüfen, wie diese Testinstrumente tatsächlich funktionieren.
Für die EU ist die Frage entscheidend, weil ihre KI-Verordnung eine Bewertung der Modellfähigkeiten in vielen verschiedenen Kontexten vorsieht. Große Modelle können demnach als besonders risikobehaftet eingestuft werden, wenn Benchmarks ihnen „High Impact Capabilities“ bescheinigen.
Das Gesetz erlaubt es der Kommission, die genaue Bedeutung dieser Begriffe in einem delegierten Rechtsakt festzulegen – was die EU-Exekutive bisher noch nicht getan hat.
Unterdessen hat die US-Regierung am Freitag ein eigenes Paket an Evaluations-Tools für Behörden vorgestellt. Zudem verfolgt Washington mit seinem AI Action Plan klar das Ziel, die Führungsrolle der USA in diesem Bereich auszubauen.
Welche Benchmarks sind verlässlich?
Nach Ansicht des EU-Forschungszentrums sollten Benchmarks reale Fähigkeiten statt nur enge Teilaufgaben erfassen, gut dokumentiert und transparent sein, klar definieren, was und wie gemessen wird, und auch unterschiedliche kulturelle Kontexte berücksichtigen.
Ein weiteres Problem sei, dass bestehende Benchmarks oft stark auf die englische Sprache fokussiert sind.
„Wir sehen insbesondere die Notwendigkeit, neue Wege zu entwickeln, um anzuzeigen, welchen Benchmarks man vertrauen kann“, schreiben die Autoren.
Richtig umgesetzt böte sich der EU hier die Chance auf einen neuen „Brussels Effect“.
Risto Uuk, Leiter für EU-Politik und Forschung beim KI-Thinktank Future of Life Institute, bestätigte gegenüber Euractiv die Bedenken des Papiers. Er plädiert dafür, dass die EU unabhängige Prüfer vorschreibt und den Aufbau einer europäischen Evaluations-Infrastruktur finanziell unterstützt.
„Verbesserungen sind notwendig. Aber die Bewertung von Fähigkeiten und weiteren Aspekten von Risiken und Nutzen ist entscheidend – nur auf Bauchgefühle und Anekdoten zu setzen reicht nicht“, so Uuk.
(nl, jl)