Go, japansiches Brettspiel
Ausschnitt aus einem Go Spielfeld. Bildrechte: IMAGO / Panthermedia

Bugs und Exploits Nicht übermenschlich: Forscher decken bislang unlösbare Schwächen von KI auf

13. Juli 2024, 15:59 Uhr

Eine KI, die bislang alle menschlichen Spieler im japanischen Strategiespiel Go besiegt hat, kann von deutlich simpleren Algorithmen geschlagen werden. Und die KI kann kaum gegen diese Attacken geschützt werden.

Autorenfoto von Clemens Haug
Bildrechte: Tobias Thiergen/MDR

Kann eine Künstliche Intelligenz dank enormer Rechenpower verbundener Computer eines Tages übermenschliche Fähigkeiten entwickeln – und werden solchen Systeme dann vielleicht ihre Erschaffer unterwerfen oder sogar auslöschen? Vor diesem düsteren Szenario warnten im vergangenen Sommer IT-Unternehmer wie Sam Altmann, Vorstand von Open AI, dem Hersteller von ChatGPT.

Schon damals nannten Kritiker diese Warnung eine Werbeaktion, die verschleiere, wie limitiert die Fähigkeiten von KI-Algorithmen letztlich seien. Diese Zweifel verstärkt nun die aktuelle Debatte um ein Programm, das bislang scheinbar besser war als alle menschlichen Spieler im Strategiespiel Go. Denn offenbar kann KataGo, so der Name der KI, mit relativ einfachen Algorithmen zu Fall gebracht werden. Die KI vor solchen Angreifern zu schützen, stellt sich wiederum als ziemlich schwer heraus, wie das Magazin Nature in dieser Woche auf seiner Webseite berichtet.

Ein Hobbyspieler schlug die zuvor überlegenen Go-Programme zuverlässig

Go ist ein japanisches Strategiespiel, bei dem zwei Spieler abwechselnd schwarze und weiße Steine auf ein kariertes Spielbrett setzen. Ähnlich wie bei Schach gibt es bei Go kein Zufallselement. Nur die Fähigkeit, möglichst viele Zugmöglichkeiten vorauszudenken, entscheidet letztlich über den Spielerfolg. Doch im Gegensatz zu Schach gibt es bei Go eine um mehrere Potenzen höhere Menge an korrekten Spielzügen – pures Durchrechnen des Spiels ist also nicht möglich. Nur selbstlernende Algorithmen hatten hier eine Chance gegen menschliche Spieler.

Und tatsächlich schienen bis vergangenes Jahr KataGo und andere auf Go spezialisierte KI-Programme übermenschliche Fähigkeiten entwickelt zu haben. Nach und nach besiegten sie alle menschlichen Großmeister. Doch 2023 bekam der Glanz der KI-Spieler deutliche Flecken, als es dem US-amerikanischen Hobbyspieler Kellin Pelrine gelang, mehrere Go-KIs in einer ganzen Reihe von Partien regelmäßig zu schlagen. Denn Pelrine hatte Hilfe bekommen. 

Illustration einer Hand, die eine Maske präsentiert, die zu einem Mikrofon spricht, das auch in einer Hand gehalten wird. Dazwischen verschidene verwobene Verbindungslinien. 4 min
Bildrechte: imago/Westend61
4 min

KI kann jetzt auch Video, dank Sora täuschend echt. Die Technik beunruhigt, im Hinblick auf Fakenews und die in diesem Jahr anstehenden Wahlen in Deutschland und Europa. Aber mit Recht? Hintergründe von Florian Zinner

MDR AKTUELL Mo 11.03.2024 20:17Uhr 04:13 min

https://www.mdr.de/wissen/audios/audio-ki-video-deepfakes-gefahr-politik-wahlkampf-100.html

Rechte: MITTELDEUTSCHER RUNDFUNK

Audio

Künstliche Intelligenz kann nicht ausreichend trainiert werden

Ein Team verschiedener Universitäten hatte eine Art Gegen-KI programmiert, deren einziges Ziel es war, Schwächen von KataGo und Co. aufzudecken. Dazu trainierte es gegen die KI-Algorithmen und versuchte, sie dabei zu Fehlern zu verleiten – mit Erfolg. Wie die Forscher um Tony Wang im Juli 2023 berichten, gelang es den Gegenprogrammen schließlich rund 97 Prozent aller Partien gegen KataGo zu gewinnen – obwohl die Gegen-KIs selbst relativ leicht von menschlichen Spielern geschlagen werden konnten, denn diese durchschauten die Ablenkungsmanöver. Die Tricks der Gegenprogramme übernahm Pelrine – und gewann damit schließlich auch.

In einer bisher nicht unabhängig begutachteten, vorab veröffentlichten Studie zeigt nun das gleiche Forscherteam, dass die Go-KIs umgekehrt kaum immunisiert werden können gegen die Angreifer. Wurden KataGo und Co speziell mit den erfolgreichen Strategien der Angriffsprogramme trainiert, fanden diese anschließend wieder neue Lücken und konnten immer noch 91 Prozent aller Partien Computer gegen Computer für sich entscheiden.

Sicherheitslücken bei KIs lassen sich nicht so leicht schließen

Wurden dann die KI und ihre Gegner in einem gestuften Prozess immer wieder gegeneinander trainiert, konnte die Rate gegnerischer Siege zwar gesenkt werden. Doch weiterhin verloren KataGo und Co. in 81 Prozent der Partien und damit immer noch die überwältigende Mehrheit der Spiele. Eine vollständig neue KI aufzusetzen, die das Go-Spiel mit einer globaleren, weniger auf Details fokussierten Strategie anging, senkte die Gewinnrate der Gegnerprogramme erneut, aber auch nur auf 78 Prozent.

Für die Forscher ergibt sich aus diesen Resultaten primär eine wichtige Konsequenz für die generelle Entwicklung im KI Bereich: Es könnte viel schwieriger sein als bislang angenommen, Strategien zu kontern, die explizit darauf gerichtet sind, eine KI scheitern zu lassen. Das hat auch Konsequenzen für ChatGPT, wo es das Problem der sogenannten Jailbreaks gibt. Dabei geben Nutzer der KI Anweisungen, die das Sprachmodell dazu bringen, eigentlich durch Regeln ausgeschlossene Antworten eben doch zu geben. Wie die Forschung jetzt zeigt, könnten diese Regeln durch Schadprogramme relativ zuverlässig ausgehebelt werden.

Links/Studien

Dieses Thema im Programm: MDR AKTUELL | Nachrichten | 11. Juli 2024 | 13:30 Uhr

Mehr zum Thema