Könnten Daten von 100 Millionen Arten Krankheiten heilen? Ein Startup wettet darauf

(SeaPRwire) – Willkommen bei Eye on AI, mit der KI-Reporterin Sharon Goldman. In dieser Ausgabe: OpenAI übernimmt das Startup Astral und expandiert damit in den Bereich Coding…Vierzehn katholische Theologen haben vor einem Bundesgericht Stellungnahmen eingereicht, die Anthropic unterstützen…Ein abtrünniger KI-Agent bei Meta löst Sicherheitsalarm aus…Warum KI die IT-Branche in Indien noch nicht auf den Kopf gestellt hat.

Ich bin gerade von einigen hektischen Tagen auf der SXSW in Austin, Texas, zurückgekehrt, einer jährlichen Kollision aus Musik, Essen, Technologie und kulturellem Hype. Es ist die Art von Veranstaltung, bei der Live-Musik aus jedem Gebäude strömt, die Tacos und das BBQ niemals zu enden scheinen und irgendwo dazwischen die Menschen eifrig über die Zukunft der KI diskutieren.

Ich war dort, um eine Podiumsdiskussion zu moderieren, die von dem britischen Biotech-Unternehmen Basecamp Research präsentiert wurde – eine, von der ich vermutete, dass sie besonders interessant sein würde, da das Startup mit einer Expedition 2019 in die Arktis begann, um neue Arten und Gene zu entdecken. Die Mitgründer Glen Gowers und Oliver Vince stellten fest, dass zwei Drittel der Proben, die sie in ein provisorisches Labor in Island zurückbrachten, zuvor noch nie erfasst worden waren. Diese Erfahrung veranlasste sie, auf den Bau dessen zu setzen, was sie als ein „Internet der Biologie“ für das Training von KI-Modellen beschreiben. Es war ein Moonshot – ein Versuch, 4,4 Milliarden Jahre Evolution einzufangen und den gesamten Stammbaum des Lebens abzubilden, ein Ziel, das so ehrgeizig ist, wie es klingt.

The ‘Trillion Gene Atlas‘

Sechs Jahre später steckt Basecamp Research immer noch hochambitioniertes Terrain ab. In dieser Woche kündigte das Unternehmen die Einführung seines sogenannten „Trillion Gene Atlas“ an, eine Initiative, die darauf abzielt, biologische Daten im Billionen-Gen-Maßstab zu generieren und zu modellieren. Laut dem Unternehmen zielt das Projekt – das in Zusammenarbeit mit Anthropic, Ultima Genomics und PacBio entwickelt und von Nvidias KI-Infrastruktur unterstützt wird – darauf ab, unser Wissen über die genetische Vielfalt um das 100-fache zu erweitern, indem genomische Daten von mehr als 100 Millionen Arten an Tausenden von Standorten weltweit gesammelt werden. Basecamp, das bislang 85 Millionen US-Dollar an Wagniskapital eingesammelt hat, vergleicht diese neueste Initiative mit dem Human Genome Project – dem bahnbrechenden Sequenzierungsprojekt, das 13 Jahre dauerte und etwa 3 Milliarden US-Dollar kostete.

Die Bemühungen bauen auf der breiteren KI-Strategie von Basecamp auf. Anfang dieses Jahres stellte das Unternehmen seine Eden-Modelle vor, die auf seinem wachsenden biologischen Datensatz trainiert werden. Die Idee ist, diese Modelle zu nutzen, um Muster in Genen und Ökosystemen zu identifizieren, die für Menschen schwer zu erkennen wären – was Entdeckungen in Bereichen wie der Arzneimittelentwicklung potenziell beschleunigen könnte.

Die unterschiedlichen Risiken von Daten in der KI

Aber was mich wirklich an dieser Geschichte gereizt hat, ist die Rolle von Daten in der KI. In den letzten Jahren sind massive Datensätze, die aus dem Internet gesammelt wurden, um große Sprachmodelle wie ChatGPT und Claude zu trainieren, zunehmend umstritten geworden – und rechtlich angefochten. Mehrere Dutzend Klagen wurden in den Vereinigten Staaten gegen große KI-Unternehmen wegen der unbefugten Nutzung urheberrechtlich geschützter Inhalte für das Training eingereicht, darunter eine erst letzte Woche, in der die Encyclopedia Britannica und der Wörterbuchverlag Merriam-Webster OpenAI verklagten mit der Behauptung, es habe ihr urheberrechtlich geschütztes Material zum Training seiner Modelle verwendet und Antworten generiert, die ihren Werken „im Wesentlichen ähnlich“ seien.

Die Risiken sind hier anders. KI für die Wissenschaft wird oft als das deutlichste Beispiel dafür angeführt, wie „KI für das Gute“ aussehen könnte. Krebs heilen? Her mit den Daten. Neue Medikamente? Hier ist etwas DNA.

Aber natürlich ist es nie ganz so einfach.

Die Financial Times, die Basecamp Research letztes Jahr in einem langen Artikel behandelt hat, wies darauf hin, dass das Unternehmen, während es Entdecker an Orte wie Kamerun, Costa Rica, die arktischen Eiskappen und sogar Point Nemo – den abgelegensten Ort im Ozean – schickt, mit Kritik konfrontiert war, dass die Bemühungen Gefahr laufen, eine moderne Form des Kolonialismus widerzuspiegeln, indem sie Wert aus Gemeinschaften extrahieren, ohne ihn angemessen zu teilen.

Diese Spannung hat Basecamp dazu gedrängt, neu zu überdenken, wie es Länder und Gemeinschaften für ihre Daten entschädigt. Seit 2023, so das Unternehmen, habe es Lizenzgebühren an 60 Organisationen in 21 Ländern auf der Grundlage der Nutzung digitaler Sequenzinformationen – genetischer Daten, die seinen KI-Modellen zugrunde liegen – gezahlt. Dazu hat es Systeme aufgebaut, um die Herkunft jeder Datenprobe zu kennzeichnen und zu verfolgen und zu messen, wie viel sie zu nachgelagerten Ergebnissen beiträgt, so dass Zahlungen entsprechend verteilt werden können. Im Effekt versucht Basecamp nachzuverfolgen, woher die Trainingsdaten kommen, und dafür zu bezahlen, wenn sie Wert schaffen. Das ist etwas, womit die breitere KI-Branche bislang zu kämpfen hat, teilweise weil LLMs typischerweise auf riesigen, unübersichtlichen Datensätzen trainiert werden, die aus dem gesamten Internet zusammengekratzt wurden, wo Eigentum, Einwilligung und individuelle Beiträge von Millionen von Quellen nahezu unmöglich nachzuverfolgen sind.

Allerdings sind Daten letztendlich auch ein Abwägen: Was wir bereit sind zu geben, hängt davon ab, was wir zu gewinnen hoffen. Die Bemühungen von Basecamp Research deuten darauf hin, dass die Menschen weit weniger bereit sein mögen, zu akzeptieren, dass ihre Daten zur Erzeugung endloser Inhaltsströme verwendet werden, als dabei zu helfen, die Medizin oder wissenschaftliche Entdeckungen voranzutreiben. Am Ende ist die Frage einfach: Ist es das wert? Für viele, wenn das Ziel die Heilung von Krankheiten oder der Fortschritt der Wissenschaft ist, lautet die Antwort wahrscheinlich ja.

Und damit hier noch mehr KI-Nachrichten.

Sharon Goldman
sharon.goldman@.com
@sharongoldman

Der Artikel wird von einem Drittanbieter bereitgestellt. SeaPRwire (https://www.seaprwire.com/) gibt diesbezüglich keine Zusicherungen oder Darstellungen ab.

Branchen: Top-Story, Tagesnachrichten

SeaPRwire liefert Echtzeit-Pressemitteilungsverteilung für Unternehmen und Institutionen und erreicht mehr als 6.500 Medienshops, 86.000 Redakteure und Journalisten sowie 3,5 Millionen professionelle Desktops in 90 Ländern. SeaPRwire unterstützt die Verteilung von Pressemitteilungen in Englisch, Koreanisch, Japanisch, Arabisch, Vereinfachtem Chinesisch, Traditionellem Chinesisch, Vietnamesisch, Thailändisch, Indonesisch, Malaiisch, Deutsch, Russisch, Französisch, Spanisch, Portugiesisch und anderen Sprachen.