Ein Training nur durch positive Bestärkung, wie bei Hunden üblich, ist auch für Roboter gut geeignet. Das zeigen Forscher der Johns Hopkins University (JHU). Mit einem Algorithmus, der den Roboter "Spot" ausschließlich für richtiges Verhalten belohnte, hat dieser laut dem in "IEEE Robotics and Automation Letters" erschienen Paper "Good Robot" wesentlich schneller gelernt, Bauklötze zu stapeln als mit bisherigen Methoden. Das macht den Ansatz für praktische Anwendungen von Robotern interessant, bei denen diese möglichst zügig lernen sollen, komplexe Aufgaben korrekt auszuführen.
Versuch und Irrtum
"Die Frage war, wie wir Roboter dazu bekommen, sich eine Fertigkeit anzueignen", sagt Robotik-Doktorand Andrew Hundt. Maschinen lernen durch Versuch und Irrtum, doch sie sollten das möglichst effizient tun. Für den neuen Algorithmus hat sich Hundt von seiner Erfahrung mit dem Hundetraining inspirieren lassen: Ein guter Hund bekommt Leckerli für richtiges Verhalten. Zudem konnte der Robotiker seiner Hündin Leah beibringen, Eichhörnchen zu ignorieren, indem sie nur dann eine wirklich tolle Belohnung in Form von Käse bekam, wenn sie ein normales Leckerli ignorierte.
Analog dazu bekommt bei dem Algorithmus ein guter Roboter eine tolle Belohnung in Form vieler Punkte, wenn er Bauklötze richtig stapelt, aber nichts, wenn er Fehler macht, wie Stapel umwerfen oder ins Leere greifen. "Der Roboter will höher punkten. Er lernt schnell das richtige Verhalten, um die beste Belohnung zu bekommen", so Hundt. Den Ansatz haben die Forscher zunächst an einem simulierten Roboter getestet, dann mit dem echten Spot. Der hat es so schnell geschafft, Klötze immer erfolgreich zu stapeln. "Es hat bisher einen Monat gedauert, bis der Roboter 100 Prozent Genauigkeit erreicht. Wir haben es in zwei Tagen geschafft."
Lernen für echte Welt
Mit dem Lernen durch positive Bestätigung konnte Spot auch einige andere Fähigkeiten schnell lernen, darunter auch, ein simuliertes Navigationsspiel zu spielen. Das zeigt, dass der Ansatz breiter funktioniert. Es scheint also vorstellbar, Roboter damit schnell und effizient für komplexe Aufgaben in der realen Welt zu trainieren. Den Forschern schwebt beispielsweise vor, dass Haushaltsroboter auf diese Art lernen können, Wäsche zu waschen oder Geschirr zu spülen – also Aufgaben zu übernehmen, die auf dem Massenmarkt gefragt sein dürften, um beispielsweise Senioren ein selbständiges Leben zu erleichtern. (pte)
www.jhu.edu
Kommentar schreiben