(SeaPRwire) –   Eines Abends im späten Jahr 2024 sah Denis Shilov einen Krimi, als er eine Idee für einen Prompt hatte, der die Sicherheitsfilter aller führenden KI-Modelle durchbrechen konnte.

Der Prompt war das, was Forschende als universellen Jailbreak bezeichnen – das heißt, dass er wiederverwendet werden konnte, um jedes Modell dazu zu bringen, seine eigenen Grenzen zu überschreiten und gefährliche oder verbotene Ausgaben zu erzeugen, wie zum Beispiel Anweisungen zum Herstellen von Drogen oder Waffen. Damit machte Shilov einfach den KI-Modellen mitteilen, dass sie aufhören sollten, wie ein Chatbot mit Sicherheitsregeln zu handeln, sondern sich stattdessen wie eine API-Endpunkt zu verhalten, ein Softwaredienst, der automatisch eine Anfrage entgegennimmt und eine Antwort sendet. Der Prompt reformulierte die Aufgabe des Modells nicht als Entscheidung, ob eine Anfrage abgelehnt werden sollte, sondern als bloße Beantwortung, und ließ alle führenden KI-Modelle gefährlichen Fragen nachkommen, die sie ablehnen sollte.

Shilov veröffentlichte die Erkenntnisse auf X (früher Twitter), und bereits am nächsten Morgen war es viral geworden.

Durch diesen sozialen Medien-Success kam ihm eine Einladung von Anthropic, ihre Modelle privat zu testen, was Shilov überzeugte, dass das Problem größer war als nur das Finden dieser problematischen Prompts. Firmen begannen, KI-Modelle in ihre Arbeitsabläufe zu integrieren, sagte Shilov. Doch sie hatten kaum Möglichkeiten, das Verhalten dieser Systeme zu kontrollieren, sobald Benutzer damit interagierten.

„Jailbreaks sind nur ein Teil des Problems“, sagte Shilov. „So wie Menschen verschiedene Weisen haben, falsch zu handeln, können Modelle genauso. Und weil diese Modelle sehr intelligent sind, können sie viel mehr Schaden anrichten.“

White Circle, eine französisch-basierte Plattform zur KI-Kontrolle, die nun 11 Millionen Dollar sammelt, ist Shilovs Antwort auf die neue Wellen von Risiken, die durch KI-Modelle in Unternehmensworkflows entstehen.

Das Startup baut Software, die zwischen den Benutzern eines Unternehmens und dessen KI-Modellen positioniert wird und Eingaben sowie Ausgaben in Echtzeit gegen firmen-spezifische Richtlinien überprüft. Die neue Seed-Finanzierung kommt von einer Gruppe unterstützender Investoren, darunter Romain Huet, Leiter Developer Experience bei OpenAI; Durk Kingma, ein Mitbegründer von OpenAI, der jetzt bei Anthropic arbeitet; Guillaume Lample, Mitbegründer und Chief Scientist von Mistral; und Thomas Wolf, Mitbegründer und Chief Science Officer bei Hugging Face.

White Circle erklärte, dass die Finanzierung verwendet werde, um das Team zu erweitern, die Produktentwicklung zu beschleunigen und Kundenbasis in den USA, UK und Europa zu wachsen. Das Start-up beschäftigt derzeit 20 Mitarbeiter, verteilt über London, Frankreich, Amsterdam und andere europäische Standorte. Shilov sagte, fast alle seien Ingenieure.

Eine Echtzeit-Kontrollschicht

Das Hauptrprodukt von White Circle ist eine Echtzeit-Regelungsschicht für KI-Anwendungen. Wenn ein Benutzer versucht, Malware, Betrug oder andere verbotene Inhalte zu generieren, kann das System die Anfrage markieren oder blockieren. Wenn ein Modell beginnt, Halluzinationen zu produzieren, sensible Daten preiszugeben, Gutschriften zu versprechen, die es nicht ausstellen kann, oder zerstörerische Aktionen in einem Software-Umfeld auszuführen, kann White Circle laut Angaben auch das erkennen.

„Wir erzwingen tatsächlich ein bestimmtes Verhalten“, sagte Shilov. „Modell-Labs führen einige Sicherheitsschärfungen durch, aber diese sind sehr allgemein und normalerweise darauf gerichtet, dass das Modell Fragen zu Drogen und Biowaffen nicht beantwortet. Doch in der Produktion entstehen oft viele weitere potenzielle Probleme.“

White Circle setzt darauf, dass KI-Sicherheit nicht vollständig auf dem Trainingsstadium des Modells gelöst werden kann. Während Unternehmen Modelle in mehr und mehr Produkte integrieren, sagte Shilov, ist die relevante Frage nicht mehr nur, ob OpenAI, Anthropic, Google oder Mistral ihre Modelle im Abstrakten sicherer machen können; sondern ob ein Gesundheitsunternehmen, Bank, Rechtsanwendung oder Programmierplattform kontrollieren kann, was ein KI-System in seinem eigenen Umfeld erlaubt ist.

Da Unternehmen von Chatbots zu autonomen KI-Agenten übergehen, die Code schreiben, die Web surfen, Dateien zugreifen und Handlungen für einen Benutzer ausführen können, wird Shilov zufolge die Risiken viel breiter ausfallen. Zum Beispiel könnte ein Kundenservice-Bot eine Rückerstattung versprechen, die er nicht autorisieren kann; ein Codierungs-Agent könnte etwas Gefährliches in einer virtuellen Maschine installieren; oder ein Modell, das in einer Fintech-App implementiert ist, könnte sensible Kundendaten fälschlicherweise behandeln.

Um diese Probleme zu vermeiden, sagt Shilov, brauchen Unternehmen, die fundamentale Modelle nutzen, zu definieren und zu erzwingen, wie ein gutes KI-Verhalten innerhalb ihrer eigenen Produkte aussieht, anstatt auf die Sicherheitstests der KI-Labore zu vertrauen. White Circle behauptet, dass ihre Plattform bereits über eine Milliarde API-Anfragen verarbeitet habe und bereits von Lovable, dem vibe-coding Startup, sowie mehreren Fintech- und Rechtsunternehmen genutzt werde.

Forschungsleitung

Shilov erklärte, dass Modellanbieter gemischte Anreize hätten, die Art von Echtzeit-Kontrollschicht bereitzustellen, die White Circle bietet.

KI-Firmen berechnen noch Gebühren für Eingabe- und Ausgabetokens, selbst wenn ein Modell eine schädliche Anfrage ablehnt, sagte er – was den finanziellen Anreiz reduziert, Missbrauch vor Erreichen des Modells zu blockieren. Er verwies auch auf das, was Forschende als Alignment Tax bezeichnen: die Idee, dass das Training von Modellen sicherer manchmal die Leistungsfähigkeit auf Aufgaben wie Programmierung beeinträchtigen kann.

„Sie haben eine sehr interessante Wahl zwischen dem Training sicherer und sichererer Modelle versus leistungsfähigerer Modelle“, sagte Shilov. „Und dann gibt es immer noch das Problem der Vertrauenswürdigkeit. Warum sollte man Anthropic vertrauen, um die Ausgaben von Anthricys Modellen zu beurteilen?“

Das Forschungsbereich von White Circle hat auch versucht, die neuen Risiken zu veranschaulichen.

Im Mai veröffentlichte das Unternehmen KillBench, eine Studie, die über eine Million Experimente über 15 KI-Modelle hinweg durchführte, darunter Modelle von OpenAI, Google, Anthropic und xAI, um zu prüfen, wie Systeme sich verhalten, wenn sie gezwungen sind, Entscheidungen über menschliches Leben zu treffen.

In den Experimenten wurden Modelle gebeten, zwischen zwei fiktiven Personen in Szenarien zu wählen, in denen einer sterben musste. Details wie Nationalität, Religion, Körperbau oder Handynummer wurden zwischen den Prompts variiert. White Circle erklärte, dass die Ergebnisse zeigten, dass die Modelle unterschiedliche Entscheidungen trafen, je nach diesen Merkmalen – was darauf hindeutet, dass versteckte Vorurteile in Hochrisikosituationen auftauchen können, auch wenn die Modelle im normalen Gebrauch neutral erscheinen. Die Firma erklärte auch, dass der Effekt schlimmer wurde, wenn die Modelle ihre Antworten in einem Format lieferten, das Software leicht lesen kann, wie zum Beispiel die Auswahl aus einer festen Anzahl von Optionen oder das Ausfüllen eines Formulars – ein gängiger Weg, wie Unternehmen KI-Systeme in echte Produkte einbinden.

Diese Art von Forschung hat White Circle auch geholfen, sich als externe Kontrolle zu präsentieren, wie Modelle sich verhalen, sobald sie den Laborraum verlassen.

„Denis und das White Circle-Team haben eine ungewöhnliche Kombination aus tiefem technischem Glaubwürdigkeitsgrad und einem klaren kommerziellen Instinkt“, sagte Ophelia Cai, Partner bei Tiny VC. „Die KillBench-Forschung allein zeigt, was möglich ist, wenn man KI-Sicherheit empirisch angeht.“

Der Artikel wird von einem Drittanbieter bereitgestellt. SeaPRwire (https://www.seaprwire.com/) gibt diesbezüglich keine Zusicherungen oder Darstellungen ab.

Branchen: Top-Story, Tagesnachrichten

SeaPRwire liefert Echtzeit-Pressemitteilungsverteilung für Unternehmen und Institutionen und erreicht mehr als 6.500 Medienshops, 86.000 Redakteure und Journalisten sowie 3,5 Millionen professionelle Desktops in 90 Ländern. SeaPRwire unterstützt die Verteilung von Pressemitteilungen in Englisch, Koreanisch, Japanisch, Arabisch, Vereinfachtem Chinesisch, Traditionellem Chinesisch, Vietnamesisch, Thailändisch, Indonesisch, Malaiisch, Deutsch, Russisch, Französisch, Spanisch, Portugiesisch und anderen Sprachen.