(Grafik von Visual Capitalist veröffentlicht am 25. August 2023)
Mit dem explosionsartigen Aufstieg von ChatGPT hat die Künstliche Intelligenz (KI) ihre Präsenz in der breiten Masse spürbar gemacht, insbesondere in den traditionellen Bastionen menschlicher Fähigkeiten – Leseverständnis, Spracherkennung und Bilderkennung.
Tatsächlich wird in der obigen Grafik deutlich, dass die KI die menschliche Leistung in vielen Bereichen übertroffen hat und in anderen Bereichen auch den Menschen überholen wird.
Wie Leistung getestet wird
Anhand von Daten aus kontextueller KI visualisieren wir, wie schnell KI-Modelle begonnen haben, Datenbank-Benchmarks zu übertreffen, und ob sie bereits menschliche Fähigkeiten erreicht haben oder nicht.
Jede Datenbank basiert auf einer bestimmten Fähigkeit, wie Handschrifterkennung, Sprachverständnis oder Leseverständnis, während jeder prozentuale Wert im Vergleich zu den folgenden Benchmarks steht:
0 % oder „Basislinie mit maximaler Leistung“: Dies entspricht der bekanntesten Leistung der KI zum Zeitpunkt der Datensatzerstellung. 100 %: Diese Note entspricht der menschlichen Leistung am Datensatz.
Durch die Erstellung einer Skala zwischen diesen beiden Punkten kann der Fortschritt der KI-Modelle für jeden Datensatz verfolgt werden. Jeder Punkt auf einer Linie bedeutet ein bestes Ergebnis und je weiter die Linie nach oben tendiert, desto näher kommen KI-Modelle an die menschliche Leistung heran.
Die nachfolgende Tabelle zeigt, wann die KI begonnen hat, der menschlichen Leistung in allen acht Fähigkeiten gleichzukommen:
Fähigkeit | Menschlicher Leistung entsprechend | Verwendete Datenbank |
---|---|---|
Handschrifterkennung | 2018 | MNIST |
Spracherkennung | 2017 | Switchboard |
Bilderkennung | 2015 | ImageNet |
Leseverständnis | 2018 | SQuAD 1.1, 2.0 |
Sprachverständnis | 2020 | GLUE |
Vervollständigung des gesunden Menschenverstandes | 2023 | HellaSwag |
Grundschulmathematik | N / A | GSK8k |
Codegenerierung | N / A | HumanEval |
Eine wichtige Schlussfolgerung aus der Grafik ist, wie viel Fortschritt seit 2010 erzielt wurde. Tatsächlich existierten viele dieser Datenbanken – wie SQuAD, GLUE und HellaSwag – vor 2015 noch nicht.
Als Reaktion darauf, dass Benchmarks veralten, werden einige der neueren Datenbanken ständig mit neuen und relevanten Datenpunkten aktualisiert. Aus diesem Grund haben KI-Modelle in einigen Bereichen (Grundschulmathematik und Codegenerierung) technisch gesehen noch nicht mit der menschlichen Leistung mithalten können – obwohl sie auf einem guten Weg sind.
Was hat dazu geführt, dass die KI den Menschen übertrifft?
Aber was hat in den letzten Jahren zu einem so rasanten Wachstum der KI-Fähigkeiten geführt?
Dank Revolutionen in der Rechenleistung, Datenverfügbarkeit und besseren Algorithmen sind KI-Modelle im Vergleich zu noch vor einem Jahrzehnt schneller, verfügen über größere Datensätze zum Lernen und sind auf Effizienz optimiert.
Aus diesem Grund wird in den Schlagzeilen regelmäßig davon gesprochen, dass KI-Sprachmodelle die menschliche Leistung bei standardisierten Tests erreichen oder sogar übertreffen. Tatsächlich besteht ein Hauptproblem für KI-Entwickler darin, dass ihre Modelle zwar immer wieder die Benchmark-Datenbanken übertreffen, die zu ihrem Test entwickelt wurden, aber trotzdem irgendwie bei Tests in der realen Welt scheitern.
Da in den nächsten Jahren mit weiteren Fortschritten im Bereich Computer und Algorithmen zu rechnen ist, dürfte sich dieser rasante Fortschritt fortsetzen. Der nächste potenzielle Engpass für den Fortschritt der KI ist jedoch möglicherweise nicht die KI selbst, sondern ein Mangel an Daten, auf denen Modelle trainieren können.