Der Forscher, der die KI sicherer macht

Adrian Ritter, ETH Zürich

Javier Rando doktoriert an der ETH Zürich zur Sicherheit von künstlicher Intelligenz (KI). Gleichzeitig arbeitet er in einem Technologieunternehmen am selben Ziel. Seine Überzeugung: Wenn dies gelingt, kann KI eine der besten Technologien überhaupt werden.

Schon als Jugendlicher war Javier Rando begeistert von Technik, Computern und der Idee, dass eines Tages Roboter menschliche Aufgaben übernehmen könnten. Der 1999 im spanischen Málaga Geborene war zwar kein Gamer. Aber noch bevor er selbst ein Smartphone besass, programmierte er auf dem Computer eine Smartphone-App. Später führte ihn seine Faszination für Technik nach Barcelona, um mathematisches Engineering und Datenwissenschaft zu studieren. Dabei kam er erstmals mit künstlicher Intelligenz in Berührung, besonders durch die Anwendung von Algorithmen und maschinellem Lernen.

Im Bachelorstudium bekam sein Bild von künstlicher Intelligenz erstmals Risse. «Ich war entsetzt», blickt er zurück. Er hatte in den Medien gelesen, dass Gerichte in den USA KI benutzten, um die Rückfallgefahr von Straftätern zu beurteilen. Doch diese KI stuft Menschen allein wegen ihrer schwarzen Hautfarbe systematisch als gefährlicher ein. «Das veränderte meinen Fokus. Ich beschloss, meine Bachelorarbeit dem Thema ‹Fairness in der künstlichen Intelligenz› zu widmen», sagt Rando.

Potenzial – positiv wie negativ

Danach wuchs sein Interesse am Thema «KI-Sicherheit» immer weiter. Dem Bachelor schloss er einen Master in Informatik an der ETH Zürich an. «Für die ETH entschied ich mich, weil ich an der besten Hochschule für Computerwissenschaften in Europa studieren wollte», sagt er. Die Forschung von Professor Florian Tramèr zur Sicherheit von KI faszinierte ihn, weshalb er sich um ein Doktorat bewarb. Er wurde aufgenommen und erhielt zusätzlich eine Fellowship-Stelle des ETH AI Center.

Die AI Center Fellows arbeiten typischerweise interdisziplinär und verbinden verschiedene Fachbereiche von KI miteinander. Rando legte seinen Schwerpunkt auf die Sicherheit von Sprachmodellen. «Heute sind Sprachmodelle die am weitesten verbreitete Form der künstlichen Intelligenz. Millionen von Menschen benutzen sie. Damit bergen sie zugleich das grösste Risiko, um Schaden anzurichten», sagt er. Zugleich betont er, sein Bild von KI sei nicht grundsätzlich negativ: «Künstliche Intelligenz hat das Potenzial, eine der besten Technologien in der Geschichte der Menschheit zu werden.» Sie könne unser Leben vereinfachen, etwa um Therapien für Krankheiten zu entwickeln, und vieles mehr. Aber auf dem Weg dorthin lägen viele Risiken.

Doktorieren in San Francisco

Noch sei KI nicht so gut, als dass ihre Gefahren sehr gross wären. «Aber das wird sich ändern. Wir befinden uns auf einem gefährlichen Weg, denn der Fortschritt ist rasant, und wir entwickeln eine sehr mächtige Technologie», sagt Rando. Den meisten Menschen sei dies nicht bewusst, weil sie KI für harmlose Zwecke nutzten. Wer vor zwei Jahren und heute nach ­einem Kochrezept gefragt habe, erlebe keinen riesigen Unterschied. Aber das täusche über das Potenzial von KI hinweg. So würden die Gefahren etwa massiv steigen, sobald Menschen KI vermehrt als sogenannte Agenten nutzen. Etwa, indem man KI beauftrage, E-Mails automatisiert zu beantworten. Das werde für Kriminelle interessant sein, die dann versuchten könnten, der KI per E-Mail den Befehl zu geben, die vom Computerbenutzer gestellte Aufgabe zu vernachlässigen und stattdessen dessen Kreditkartendaten zu schicken.

Rando sieht zwei grundsätzliche Gefahren: Einerseits sei KI anfällig für Angriffe und Manipulationen. «Diese Lücken sind noch längst nicht geschlossen», sagt er. Zweitens könne KI von Menschen mit schlechten Absichten auch ohne Manipulation missbraucht werden, bis hin etwa zu Bauanleitungen für Waffen.

«Aber die Chancen und Vorteile sind grösser als die Risiken. Darum forsche ich daran, künstliche Intelligenz sicherer zu machen», sagt Rando. Daran arbeitet er in seinem Doktorat sowie in verschiedenen beruflichen Erfahrungen, die ihn zu hochkarätigen KI-Firmen wie OpenAI, Meta oder nun Anthropic führten. Nachdem er die erste Zeit seines Doktorats in Zürich verbracht hat, lebt er seit Anfang 2025 als externer Doktorand in San Francisco und arbeitet bei der amerikanischen KI-Firma Anthropic, dem Hersteller der KI «Claude», die strengen ethischen Richtlinien unterworfen ist.

Schwachstellen suchen

Sowohl im Doktorat als auch bei Anthropic arbeitet Javier Rando unter anderem daran, Manipulationen und Angriffe auf künstliche Intelligenz zu simulieren, Schwachstellen zu suchen und diese Lücken mit entsprechender Programmierung zu schliessen. Gleichzeitig gehe es darum, Personen mit schlechten Ab­sichten daran zu hindern, KI überhaupt missbrauchen zu können. «Wir müssen Schutzschirme um die KI herum bauen», sagt er.

Ziel sei es, dass die künstliche Intelligenz verstehe, wann Menschen schädliches Verhalten von ihr verlangten, und sich weigern könne, solche Aufgabe zu erledigen. Dazu brauche es eine entsprechende Programmierung, was aber nicht allen KI-Herstellern gleich wichtig sei: «In der KI-Herstellung muss gelten: Sicherheit zuerst, nicht Geld zuerst.» Deshalb brauche es politische Rahmenbedingungen. So hat sich Javier Rando kürzlich in einer Arbeitsgruppe der Europäischen Kommission als Berater mit eingebracht, als es um – vorläufig freiwillige – Richt­linien für KI-Hersteller ging.

Seine Arbeit bei Anthropic und die Forschung an der ETH Zürich fliessen bei Javier Rando ineinander. Seine Dissertation wird aus mehreren Publikationen bestehen. Dabei kann er die Forschung bei Anthropic auch für die Publikationen nutzen. Auf den Unterschied der Forschung an Hochschulen und Techunternehmen angesprochen, sagt er: «Es braucht beide Wege, um die KI der Zukunft sicher genug zu machen und ihre Vorteile nutzen zu können.» Als Forscher in einem Unternehmen habe man den Vorteil, Zugriff auf ­beliebig viel Rechenpower zu haben und die eigene KI bis ins Detail zu kennen. An einer Hochschule sei man demgegenüber im Vorteil, seine Forschungsfragen freier suchen und gestalten zu können und auch ökonomisch risikoreichere Lösungen zu erproben.

Die nächsten Jahre will Javier Rando bei Anthropic weiter an der Sicherheit von KI-Anwendungen forschen und daneben sein Doktorat abschliessen. Und danach? Was die weitere Zukunft bringt, ist noch offen. «Die Entwicklung im KI-Bereich geht so schnell, dass wir nicht voraussehen können, wie die Welt in zwei Jahren aussehen wird. Vielleicht werde ich bei meiner Arbeit in einigen Jahren selbst von einer KI abgelöst», reflektiert Rando.

Mehr News von der ETH Zürich: www.ethz.ch/news