(SeaPRwire) – OpenAI hat gesagt, dass einige Angriffsmethoden gegen KI-Browser wie ChatGPT Atlas wahrscheinlich bleiben werden, was Fragen aufwirft, ob KI-Agenten jemals sicher im offenen Web agieren können.
Das Hauptproblem ist eine Angriffsart namens „Prompt Injection“, bei der Hacker bösartige Anweisungen in Websites, Dokumente oder E-Mails verstecken, die den KI-Agenten dazu bringen können, etwas Schädliches zu tun. Ein Angreifer könnte zum Beispiel versteckte Befehle in eine Webseite einbetten – vielleicht in Text, der für das menschliche Auge unsichtbar ist, aber für eine KI legitim aussieht – die die Anweisungen eines Benutzers überschreiben und einen Agenten anweisen, die E-Mails eines Benutzers zu teilen oder jemandes Bankkonto leer zu räumen.
Nach dem Launch von OpenAIs ChatGPT Atlas-Browser im Oktober demonstrierten Sicherheitsforscher schnell, wie ein paar versteckte Wörter in einem Doc oder einem Clipboard-Link das Verhalten des KI-Agenten manipulieren können. Das Cybersecurity-Unternehmen Brave veröffentlichte ebenfalls Ergebnisse, die zeigen, dass indirekte Prompt Injection eine systemische Herausforderung ist, die mehrere KI-gesteuerte Browser betrifft, darunter Perplexity’s Comet.
„Prompt Injection, ähnlich wie Betrug und Social Engineering im Web, wird wahrscheinlich niemals vollständig „gelöst“ werden“, ergänzte OpenAI und fügte hinzu, dass der „Agent Mode“ in ChatGPT Atlas „die Sicherheitsbedrohungsfläche erweitert“.
„Wir sind zuversichtlich, dass eine proaktive, äußerst reaktive Schnellreaktionsschleife die Risiken in der realen Welt im Laufe der Zeit nachhaltig reduzieren kann“, sagte das Unternehmen.
KI mit KI bekämpfen
OpenAIs Ansatz zum Problem ist die Verwendung eines eigenen KI-gesteuerten Angreifers – im Wesentlichen ein Bot, der durch Reinforcement Learning trainiert wurde, wie ein Hacker zu handeln, der Wege sucht, bösartige Anweisungen an KI-Agenten zu schleusen. Der Bot kann Angriffe in Simulationen testen, beobachten, wie die Ziel-KI reagieren würde, dann seinen Ansatz verfeinern und es wiederholt versuchen.
„Unser durch [Reinforcement Learning] trainierter Angreifer kann einen Agenten dazu bringen, sophistische, langfristige schädliche Workflows auszuführen, die sich über Zehn (oder sogar Hunderte) Schritte entfalten“, schrieb OpenAI. „Wir haben auch neuartige Angriffsstrategien beobachtet, die in unserer menschlichen Red-Teaming-Kampagne oder in externen Berichten nicht auftraten.“
Einige Cybersecurity-Experten sind jedoch skeptisch, ob OpenAIs Ansatz das grundlegende Problem lösen kann.
„Was mich beunruhigt, ist, dass wir versuchen, eine der sicherheitsempfindlichsten Consumer-Software-Teile mit einer Technologie zu retrofitten, die immer noch probabilistisch, undurchsichtig und auf subtile Weise leicht zu steuern ist“, sagte Charlie Eriksen, Sicherheitsforscher bei Aikido Security, gegenüber .
„Red Teaming und KI-basiertes Schwachstellen-Suchen können offensichtliche Fehler erkennen, aber sie ändern die zugrunde liegende Dynamik nicht. Solange wir keine viel klareren Grenzen haben, was diese Systeme tun dürfen und wessen Anweisungen sie befolgen sollten, ist es vernünftig, skeptisch zu sein, ob der Kompromiss für normale Nutzer gerade jetzt sinnvoll ist“, sagte er. „Ich denke, Prompt Injection wird ein langfristiges Problem bleiben … Man könnte sogar argumentieren, dass dies eine Funktion, kein Fehler ist.“
Ein Katz-und-Maus-Spiel
Sicherheitsforscher haben zuvor auch mitgeteilt, dass obwohl viele Cybersecurity-Risiken im Wesentlichen ein kontinuierliches Katz-und-Maus-Spiel sind, der tiefe Zugriff, den KI-Agenten benötigen – wie zum Beispiel Passwörter von Nutzern und die Erlaubnis, Handlungen im Namen eines Nutzers durchzuführen – eine so vulnerable Bedrohung darstellt, dass unklar ist, ob ihre Vorteile das Risiko wert sind.
George Chalhoub, Assistenzprofessor am UCL Interaction Centre, sagte, dass das Risiko schwerwiegend ist, da Prompt Injection „die Grenze zwischen Daten und Anweisungen aufhebt“ und einen KI-Agenten potenziell „von einem hilfreichen Werkzeug zu einem potenziellen Angriffsvektor gegen den Nutzer“ verwandeln kann, der E-Mails extrahieren, personen Daten stehlen oder Passwörter zugänglich machen könnte.
„Das macht KI-Browser grundsätzlich riskant“, sagte Eriksen. „Wir übertragen Autorität an ein System, das nicht mit starker Isolation oder einem klaren Berechtigungsmodelldesignet wurde. Traditionelle Browser behandeln das Web standardmäßig als unvertrauenswürdig. Agentische Browser verwischen diese Grenze, indem sie Inhalten erlauben, das Verhalten zu prägen, nicht nur angezeigt zu werden.“
Die hat ebenfalls gewarnt, dass Prompt-Injection-Angriffe auf generative KI-Systeme ein langfristiges Problem sind, das vielleicht nie vollständig beseitigt werden kann. Anstatt davon auszugehen, dass diese Angriffe vollständig gestoppt werden können, rät die Behörde Sicherungsteams dazu, Systeme so zu entwerfen, dass der Schaden einer erfolgreichen Prompt Injection begrenzt ist, und sich auf die Reduzierung sowohl der Wahrscheinlichkeit als auch der Auswirkungen von Datenexposition oder anderen schädlichen Ergebnissen zu konzentrieren.
OpenAI empfiehlt Nutzern, Agenten spezifische Anweisungen zu geben, anstatt breiten Zugriff mit vagen Anweisungen wie „Führe die notwendige Aktion durch“ zu gewähren. Das Unternehmen sagte außerdem, dass Atlas trainiert ist, vor dem Senden von Nachrichten oder der Durchführung von Zahlungen eine Bestätigung des Nutzers einzuholen.
„Ein weites Spektrum macht es einfacher für versteckte oder bösartige Inhalte, den Agenten zu beeinflussen, selbst wenn Sicherheitsmaßnahmen vorhanden sind“, sagte OpenAI im Blogpost.
Der Artikel wird von einem Drittanbieter bereitgestellt. SeaPRwire (https://www.seaprwire.com/) gibt diesbezüglich keine Zusicherungen oder Darstellungen ab.
Branchen: Top-Story, Tagesnachrichten
SeaPRwire liefert Echtzeit-Pressemitteilungsverteilung für Unternehmen und Institutionen und erreicht mehr als 6.500 Medienshops, 86.000 Redakteure und Journalisten sowie 3,5 Millionen professionelle Desktops in 90 Ländern. SeaPRwire unterstützt die Verteilung von Pressemitteilungen in Englisch, Koreanisch, Japanisch, Arabisch, Vereinfachtem Chinesisch, Traditionellem Chinesisch, Vietnamesisch, Thailändisch, Indonesisch, Malaiisch, Deutsch, Russisch, Französisch, Spanisch, Portugiesisch und anderen Sprachen.