Sie hassen Bügeln schon immer, finden Aufräumen nervig und haben eine unerklärliche Schwäche beim Einräumen der Spülmaschine? Dann könnte Ihnen vielleicht schon bald geholfen werden. Humanoide Roboter sind längst nicht mehr nur Teil von Science-Fiction-Serien, sondern erobern mehr und mehr auch alltägliche Lebensbereiche – ein Text über den Sachstand der Forschung von Prof. Dr. René Peinl, Leiter des Instituts für Informationssysteme der Hochschule Hof (iisys).
Die Bilder aus Fabriken und Produktionshallen kennen wir längst: Bisher wurden Roboter hauptsächlich in der Industrie für immer exakt gleiche Aufgaben eingesetzt. Dabei geht es meist um sehr exaktes Timing oder Präzision im Millimeter oder Sub-Millimeter Bereich. Häufig werden sie dabei durch Absperrungen von der restlichen Fabrik getrennt, damit Menschen nicht verletzt werden – schließlich nimmt diese Art von Robotern keine Rücksicht darauf, ob ihnen gerade jemand im Weg steht oder nicht.
Bisherige Haushaltshilfen noch ohne KI
Im Haushalt haben sich bislang Staubsaug- bzw. Wischroboter einerseits und Rasenmähroboter andererseits etabliert, die trotz etwas unterschiedlicher Sensorik dennoch auf ähnlichen und überwiegend recht primitiven Grundmechanismen aufbauen. Grob gesagt fahren sie geradeaus, bis sie auf ein Hindernis treffen, wenden dann mit zufällig ausgewähltem Winkel und fahren weiter. Das tun sie so oft, bis statistisch gesehen jeder Fleck im Raum, oder jeder Quadratmeter Rasen abgefahren wurde. Wenn sie fertig sind, oder der Akkustand niedrig wird, dann fahren sie zur Ladestation zurück. Von Künstlicher Intelligenz (KI) ist dabei (noch) keine Spur.
Deep Learning Mechanismen werden integriert
In letzter Zeit wurden jedoch Haushaltsroboter in der Praxis und Industrieroboter zumindest in den Forschungslaboren zunehmend mit mehr „Intelligenz“ ausgestattet. Diese ermöglicht es ihnen, flexibler mit unterschiedlichen Situationen umzugehen, zielgerichteter zu agieren und damit schneller zum Ziel zu kommen. Dies wird durch Integration von Deep Learning Mechanismen erreicht – also genau jener Technologie, die hinter dem aktuellen KI-Hype steckt. Dies reicht von einer störungs-unempfindlichen Erkennung der Umgebung über Spracherkennung bis hin zur Interaktion mit Menschen oder gar bis zu Planungseinheiten auf Basis von Large Language Models (LLMs), also der Art von KI, welche das allseits bekannte „ChatGPT“ antreibt. So können nun beispielsweise Staubsaugroboter über ein an die Decke projiziertes Muster ihre Position im Raum erkennen und so zielgerichteter den Boden reinigen. Rasenmäher wiederum lernen über Kameras den Rasen von Wegen und Blumen zu unterscheiden und kommen dadurch bald ohne Begrenzungsdraht aus.
Humanoide Roboter als direkter menschlicher Ersatz
Im Zuge dieser Entwicklungen werden auch humanoide, also dem Menschen nachempfundene Roboter plötzlich wieder interessant. Lange Zeit galten sie als viel zu ineffizient und unnötig komplex, da die Fortbewegung mit Rädern oder auf vier statt zwei Beinen deutlich leichter zu meistern und im Falle von Rädern sogar auch energieeffizienter ist. Humanoide haben jedoch einen entscheidenden Vorteil: Sie können direkt als Ersatz für menschliche Arbeiter eingesetzt werden, ohne dass die Arbeitsumgebung speziell auf sie abgestimmt sein muss. Der „Boston Dynamics Atlas“-Roboter war lange Zeit der Vorzeige-Humanoide – zumindest nachdem das Unternehmen Honda seinen „Asimo“ nach 2014 nicht mehr weiterentwickelt hatte – und zeigte in Demonstrationen beeindruckende Leistungen, was Geschwindigkeit des Laufens, Störunempfindlichkeit und später auch die Präzision selbst bei sportlich wirkenden Bewegungen angeht. Parcours laufen, Salto rückwärts, Flanke über Hindernisse – all das war kein Problem für „Atlas“. Und das, obwohl er – vorsichtig formuliert – eher etwas klobig gebaut wurde.
Bisher kaum autonome Handlungen
Letztlich aber blieb es bei den Demo-Videos und es gab nie Berichte über produktive Einsätze in der Industrie, so dass zu vermuten ist, dass die Videos penibel vorbereitet und bis ins kleinste Detail geskriptet waren. Die in den Videos suggerierte Autonomie und Spontanität der Handlung waren vermutlich sogar nur ein großer Bluff – etwas, das aber in der ganzen Branche scheinbar nicht unüblich ist. Auch Tesla bekam viel Schelte für ein Video des Tesla Roboters „Optimus“, der vermeintlich selbständig Wäsche faltet. Dass die Aktion komplett ferngesteuert ablief, gestand Elon Musk erst, nachdem schon andere Nutzer auf Social Media lautstark darauf hingewiesen hatten.
Trotzdem aber sind die Humanoiden in den letzten 2-3 Jahren stark auf dem Vormarsch. Unternehmen mit weit entwickelten Prototypen, oder sogar schon einsatzfähigen Modellen schießen derzeit wie Pilze aus dem Boden. „Figure 01“, „Agility Robotics Digit“, „Tesla Optimus“ und nicht zuletzt der komplett überarbeitete elektrische „Atlas“ von Boston Dynamics sind Beispiele dafür. Während früher häufig noch das Laufen und Balance halten an sich eine Herausforderung darstellte, sind mittlerweile Geschwindigkeiten von 5-8 km/h Standard und die Aufmerksamkeit verschiebt sich auf die Interaktion mit einer dynamischen Umwelt.
Menschenähnliche Hände primärer Forschungsgegenstand
Dafür sind insbesondere die Hände entscheidend. Auch hier geht der Trend in Richtung Imitation des Menschen mit fünf-fingrigen Händen. Diese sind zwar aufgrund vieler Motoren sehr teuer und dadurch sicher auch fehleranfälliger und fragiler als zweifingrige Gripper oder Unterdruck-basierte Ansaugapparate – aber sie erlauben eine deutlich bessere Feinmotorik. Dies ist vor allem für jene Anwendungsfälle hilfreich, bei denen es weniger auf Kraft denn auf Gefühl ankommt, z.B. im Haushalt. So lassen einige Hersteller ihre Produkte Gurken schälen oder rohe Eier aufschlagen. Eine echte Feuerprobe für die Alltagstauglichkeit ist allerdings das diffizile Zusammenlegen von T-Shirts oder Hemden. Dies erfordert nämlich einerseits eine gewisse Dynamik in der Bewegung, aber andererseits auch ein präzises Timing und eine gute optische Erkennung. Hier gilt ähnlich wie bei KI allgemein, dass man unglaublich viel über die Fähigkeiten von Menschen lernen kann, wenn man versucht ihre Tätigkeiten mit Robotern nachzuahmen.
Geschwindigkeit trotz Fortschritten noch unzureichend
Weniger Kraft ist auch positiv, wenn es um die direkte Interaktion mit Menschen geht. Wenn der Roboter gar nicht erst die nötigen Kräfte aufbringen kann, die nötig sind, um einen Arm oder Finger zu brechen, dann muss man auch weniger Angst davor haben. Cobot ist das Stichwort unter der diese Kategorie von Robotern läuft. Dazu zählt häufig auch eine Polsterung der Extremitäten, um die Verletzungsgefahr weiter zu senken. Idealerweise verhindert aber die Sensorik, dass es überhaupt zu ungewolltem Körperkontakt kommt. Auch wenn viel am Miteinander von Mensch und Cobot geforscht wird, stellt sich allerdings die Frage, ob die Roboter derzeit nicht noch lieber alleine arbeiten sollten, um die Geduld der Menschen nicht zu sehr zu strapazieren. Bei aller Beschleunigung in den letzten Jahren ist die Geschwindigkeit der Ausführung nämlich meist noch deutlich unter der „normaler“ Menschen, von geschultem Personal mit viel Übung und Routine ganz zu schweigen. Viele Videos sind daher auch in Zeitraffer aufgenommen, was seriöse Unternehmen auch dazu schreiben. Man sollte aktuell aber grundsätzlich immer skeptisch sein, wenn gar keine Zeitangabe (2x, 1x, …) in den Videos eingeblendet wird.
Das autonome Erledigen von Aufgaben ist außer im Haushalt auch in der Logistik relevant. Amazon beschäftigt schon heute 750.000 Roboter weltweit, wovon freilich die meisten noch zur „alten Schule“ gehören. Das Automatisierungspotenzial in dieser Branche ist gewaltig. Vom „Ware aus dem Regal nehmen“, über das „Päckchen packen“ bis hin zum „Karton in den LKW schlichten“ wird bald alles von Robotern leistbar sein. Nicht umsonst pumpen Investoren jedes Jahr mehrere hundert Millionen USD in vielversprechende Unternehmen. Elon Musk sieht etwas optimistisch einen Markt von 1 Milliarde humanoider Roboter jährlich und will damit 1 Billion Dollar verdienen. Aber auch realistisch ist das Potenzial humanoider Roboter sehr groß, wie sich z.B. am regen Interesse vieler Automobilhersteller ablesen lässt.
Forschung schreitet voran
Die kommerziellen Hersteller halten sich natürlich bedeckt bzgl. der Nutzung spezieller KI-Modelle und sogar der eingesetzten Sensorik. Schaut man sich aber die Forschungsergebnisse an, so wird klar, welche Zutaten es braucht, um fortschrittliche autonom agierende Roboter zu bauen: Eine zentrale Rolle kommt dem „Sehen“ zu. Das früher übliche Object Detection Verfahren (siehe Abbildung 1, Fall b), bei dem nur grob der Bereich mit einem Rechteck markiert wird, in dem ein bestimmter Gegenstand erkannt wurde, ist mittlerweile durch genauere Verfahren ersetzt worden. Semantic segmentation kann die Umrisse der Objekte nachzeichnen (Abbildung, Fall c), instance segmentation zwischen verschiedenen Instanzen, also z.B. Person 1, Person 2 und Person 3 unterscheiden (Fall d).
Panoptic Segmentation ist die fortschrittlichste Variante, die alle Möglichkeiten zusammenbringt (siehe Abbildung 2). Unterschieden wird dabei zwischen „objects“, beweglichen Dingen und Menschen und „stuff“, unbeweglichen Dingen wie Straße, Himmel, Häuser und Bäume. Aktuell können die fortschrittlichsten Modelle nicht nur die vordefinierten Objektklassen wie Fahrrad, Hund, Mensch und Auto unterscheiden, mit denen sie mal trainiert wurden, sondern durch Verbindung mit Textmodellen, die inhaltliche Ähnlichkeiten von Objekten ermitteln, auch auf noch nie zuvor trainierte Objekte schließen. Das nennt sich „open vocabulary object detection“. Wenn z.B. Pferd und Zebrastreifen in den Bildern vorkamen, die trainiert wurden, nicht aber das Zebra selbst, so kann das Modell über das textuell erworbene „Wissen“ trotzdem das Zebra auf dem Bild erkennen bzw. „vermuten“, dass es sich wohl um ein Zebra handeln müsste, ähnlich wie der Mensch.
Object Tracking kann auch über mehrere aufeinanderfolgende Bilder hinweg die Identität einzelner Objekte erkennen und damit „verstehen“, dass sich das Objekt bewegt hat und nicht verschwunden ist und ein anderes an neuer Stelle aufgetaucht ist. Herausfordernd an 2D RGB Videos ist v.a. die Abschätzung von Abständen. Daher verbauen einige Roboter-Hersteller noch zusätzliche LIDAR-Sensoren mit Laserabstandsmessung, oder verwenden RGB-D Kameras, die zusätzlich zu den Farb- noch eine Abstandsinformation liefert, indem berechnet wird, wie lange ein Signal braucht, um zur Quelle reflektiert zu werden (time of flight).
Fazit
Insgesamt gibt es für die wichtigsten Herausforderungen in der Robotik aktuell schon gute Lösungsansätze. Sie müssen „nur noch“ in einem Gerät vereint werden, wobei natürlich auch die Rechenleistung der onboard Hardware ein limitierender Faktor ist. Das Auslagern der KI auf einen Server ist auch mit 5G Datenübertragung aufgrund der Datenmengen schwierig. Die fehlende Standardisierung ist ein weiterer Hemmschuh, weil sich KI-Modelle nicht ohne weiteres von einer Hardware auf die nächste übertragen lassen. Trotzdem werden auch für die Robotik Foundation Modelle diskutiert und Jim Fan, ein führender KI-Forscher von Nvidia, sieht den ChatGPT-Moment der Robotik in den nächsten 2-3 Jahren gekommen.
Gerade wurde vermeldet, dass der erste autonome humanoide Roboter eine Festanstellung in einer Logistikfirma bekommen hat. Dies ist sicher erst der Anfang einer großen Veränderung der Gesellschaft, in der es zunehmend normal werden wird, dass Roboter viele Aufgaben übernehmen, die bisher Menschen erledigt haben. Zunächst einmal wird das den Fachkräftemangel lindern, aber es ist absehbar, dass es in nicht allzu ferner Zukunft auch eine Verdrängung menschlicher Arbeitnehmer geben wird, vor allem wenn sich die Politik nicht zu einer Besteuerung maschineller Arbeit durchringen kann.
Wissensdurst noch nicht gestillt? Dann lesen sie gerne weiter zum Thema in der “c’t” Ausgabe 23/2024 – sie ist ab dem 18.10. im Handel, ist aber bereits hier digital verfügbar.