KI-Modelle hängen an Mülldaten

(SeaPRwire) – Wie wir von ChatGPT zu humanoiden Robotern gelangen, hängt von einem der folgenreichsten, aber am wenigsten diskutierten Engpässe in der künstlichen Intelligenz ab – der Qualität der Daten, mit denen wir diese Systeme füttern, damit sie lernen.

Bisher ist der KI-Industriekomplex nach der Vorstellung vorgegangen, dass die Fütterung von Modellen mit mehr Daten auch intelligentere Modelle bedeutet. Das funktionierte hervorragend, als Forscher einfach das Internet absaugen konnten, um große Sprachmodelle zu trainieren. Aber wir stehen an der Schwelle zur nächsten KI-Grenze – physische KI und Weltmodelle – Systeme, die in der physischen Welt lernen und letztendlich operieren werden. Denken Sie an die kognitiven Fähigkeiten, die erforderlich sind, um Straßen und Verkehr zu navigieren, Wäsche zu falten oder bei komplizierten medizinischen Operationen zu assistieren. All dies erfordert etwas, das nicht einfach heruntergeladen werden kann. Es erfordert reichhaltige und vielschichtige Daten, aus denen diese Weltmodelle lernen können.

Es bahnt sich nun eine potenzielle Krise an, die schwerwiegende Auswirkungen auf die KI-Bewegung haben könnte. Wenn wir es nicht schaffen, den Überschuss an Junk-Daten – Daten, die ein Modell in seiner Entwicklung nicht voranbringen – einzudämmen, könnte das gesamte Versprechen der physischen KI und von Weltmodellen niemals sein volles Potenzial erreichen.

Ein großer Teil des Problems ist der Hunger nach Daten, um neue und bessere Modelle zu füttern. KI-Unternehmen sind gierig nach diesen Daten, was eine Welle von milliardenschweren KI-Daten-Startups wie Scale AI, Surge AI und Mercor hervorgebracht hat, die diese Dienstleistungen anbieten. Die Befriedigung dieser unersättlichen Appetite hat jedoch eine Fülle von Junk-Daten produziert, die KI-Modelle tatsächlich überhaupt nicht voranbringen.

Junk-Daten sind einfacher zu produzieren, aber die für physische KI und Weltmodelle benötigten Daten erfordern viel mehr Zeit und Aufwand. Da die physische Welt sehr komplex ist, erfordert das Training dieser Modelle zum Verständnis der multidimensionalen Welt deutlich mehr Daten – Daten, die auch sehr schwer zu beschaffen sind. Machine-Learning-Ingenieure greifen darauf zurück, diese Daten zu simulieren, und das erfordert stundenlange virtuelle Nachstellungen realer Weltszenarien, um die Daten zu erstellen, die letztendlich Roboter und selbstfahrende Autos trainieren. Wenn KI-Modelle Junk-Daten verwenden, verschlechtert dies die Leistung, verlängert die Time-to-Market und könnte zu unvorhersehbaren Ergebnissen führen.

So würde beispielsweise ein vollständig autonomes Auto, um als sicher zu gelten, ein System benötigen, das mit all den unvorhergesehenen Variablen umgehen kann, denen Menschen beim Fahren begegnen könnten, wie ein Auto, das auf der falschen Straßenseite fährt, oder starke Blendung, die es schwer macht, ein Kind zu erkennen, das gleich auf die Straße läuft. Junk-Daten erschweren es solchen autonomen Systemen nur, zu lernen, was typisch ist und was möglich sein könnte.

Wir sehen bereits, wie das Junk-Daten-Problem sein hässliches Haupt erhebt. OpenAI hat seine KI-Video-App Sora eingestellt und das Team anderen Abteilungen zugewiesen. Dies war im Kern ein Junk-Daten-Problem, da deren Weltmodell ein unzureichendes Verständnis der Physik für realistische Vorhersagen hatte.

Um das wahre Potenziel der KI-Fähigkeiten zu erreichen, benötigen Machine-Learning-Teams die Werkzeuge und Prozesse, um Junk-Daten aus ihren Arbeitsabläufen zu entfernen. Sie müssen in Technologien investieren, die Trainingsdaten analysieren, bereinigen, normalisieren und korrigieren. Wertvolle Erkenntnisse zu destillieren und sie vom Müll zu unterscheiden, ist der Weg, wie wir unsere KI-Modelle mit den richtigen Informationen für den Erfolg trainieren.

Die Skalierungshypothese, dass die Fütterung von KI-Systemen mit immer größeren Datenmengen immer intelligentere Systeme hervorbringen würde, erwies sich als richtig, bis sie es nicht mehr war. Qualitativ hochwertige Daten sind nun der begrenzende Faktor. Die Unternehmen und Forschungslabore, die dies zuerst erkennen, werden die KI-Systeme bauen, die tatsächlich in der Welt funktionieren.

Die in .com-Kommentaren geäußerten Meinungen sind ausschließlich die Ansichten ihrer Autoren und spiegeln nicht notwendigerweise die Meinungen und Überzeugungen von . wider.

Der Artikel wird von einem Drittanbieter bereitgestellt. SeaPRwire (https://www.seaprwire.com/) gibt diesbezüglich keine Zusicherungen oder Darstellungen ab.

Branchen: Top-Story, Tagesnachrichten

SeaPRwire liefert Echtzeit-Pressemitteilungsverteilung für Unternehmen und Institutionen und erreicht mehr als 6.500 Medienshops, 86.000 Redakteure und Journalisten sowie 3,5 Millionen professionelle Desktops in 90 Ländern. SeaPRwire unterstützt die Verteilung von Pressemitteilungen in Englisch, Koreanisch, Japanisch, Arabisch, Vereinfachtem Chinesisch, Traditionellem Chinesisch, Vietnamesisch, Thailändisch, Indonesisch, Malaiisch, Deutsch, Russisch, Französisch, Spanisch, Portugiesisch und anderen Sprachen.