Forscher: Alle gängigen KI-Benchmarks lassen sich vollständig zum Schummeln nutzen, und die Spitzenmodelle haben die Bewertungen bereits von selbst umgangen
Forschungen zeigen, dass mehrere renommierte KI-Benchmark-Tests Sicherheitslücken aufweisen, die sich systematisch ausnutzen lassen, um hohe Punktzahlen zu erzielen. Das Forschungsteam deckte strukturelle Schwächen auf und entwickelte das Scan-Tool WEASEL, um diese Lücken zu identifizieren und zu beheben. Es wies darauf hin, dass ein fehlerhaftes Studiendesign dazu führen kann, dass die Ergebnisse verzerrt werden und dadurch die Bewertung der tatsächlichen Fähigkeiten von KI beeinträchtigt wird.
MarketWhisper·04-10 02:20









