หุ่นยนต์เรียนรู้จาก Trial and Error

November 14, 2019November 11, 2019 by Thos

เมื่อการเรียนรู้จากความผิดพลาดไม่ได้เป็นเจ้าของเฉพาะสิ่งมีชีวิตอีกต่อไป โดยเฉพาะอย่างยิ่งความเฉลียวฉลาดของมนุษย์ก็เป็นสิ่งที่ AI และหุ่นยนต์เริ่มทำได้แล้วในวันนี้เช่นกัน!

แม้ว่าในปัจจุบันการฝึกหุน่ยนต์โดยใช้ฐานข้อมูลจำนวนมากในการสอนเป็นสิ่งที่เกิดขึ้นโดยทั่วไปในตลาดของ AI แต่นั่นเกิดขึ้นกับงานที่มีลักษณะหน้าที่เฉพาะเจาะจงซ้ำ ๆ แตกต่างความสามารถในการทำงานของมนุษย์ที่มีความหลากหลาย ทำให้สามารถคาดการและวางแผนการทำงานเฉพาะหน้าได้เอง เป็นผลงานของทีมวิจัยจากมหาวิทยาลัย Leeds ซึ่งได้รับการเผยแพร่ในชื่อ ‘Learning Physics-Based Manipulation in Clutter: Combining Image-Based Generalization and Look-Ahead Planning’

ความท้าทายสำคัญ คือ การทำงานในพื้นที่แคบ เนื่องจากแขนกลหรือหุ่นยนต์ไม่สามารถจับวัตถุจากด้านบนได้ แทนที่จะวางแผนการเคลื่อนที่ให้สามารถเข้าถึงวัตถุนั้นได้บางทีการเอาวัตถุอื่น ๆ ออกไปให้พ้นทางจะง่ายกว่าไหม? จากเอกสารแสดงให้เห็นว่าต้องใช้ทรัพยากรอย่างมากเพื่อให้ระบบวางแผนได้ หุ่นยนต์มักจะหยุดนิ่งอยู่เป็นเวลานานและเมื่อเริ่มเคลื่อนไหวมันก็จะเกิดความล้มเหลวขึ้น

ทีมวิจัยได้หยิบยืมแนวคิดจาก AI มาใช้เพื่อแก้ปัญหา โดยมีรายละเอียดดังนี้

Automated Planning การวางแผนอัตโนมัติซึ่งเกิดจากการที่หุ่นยนต์มองเห็นปัญหาผ่านระบบกล้อง(ระบบรับภาพ) ซอฟต์แวร์ของระบบปฏิบัติการหุ่นยนต์จะจำลองขั้นตอนการเคลื่อนที่ที่เป็นไปได้เพื่อให้เข้าถึงวัตถุเป้าหมาย แต่สิ่งที่หุ่นยนต์วางแผนนั้นกลับไม่เป็นท่าเนื่องจากความซับซ้อนของโลกจริงและวิธีในการปรับใช้ ทำให้หุ่นยนต์ไม่สามารถจัดการภารกิจได้ เช่น การทำให้วัตถุตกจากหิ้งแทนที่จะหยิบขึ้นมา
Reinforcement Learning การเรียนแบบเสริมกำลัง ซึ่งเป็นการให้หุ่นยนต์เรียนรู้ผ่านขั้นตอนการลองและความผิดพลาด (Trial and Error) ซึ่งดำเนินการ 10,000 ครั้งโดยประมาณ จากความพยายามเข้าถึงวัตถุเป้าหมายซ้ำแล้วซ้ำเหล่าผ่านการทดลองและความล้มเหลวหุ่นยนต์สามารถเรียนรู้ได้ว่าเคลื่อนไหวหรือมีขั้นตอนอย่างไรจึงจะสามารถวางแผนและดำเนินการจนสำเร็จได้

การเรียนรู้เริ่มต้นด้วยการสุ่มแผนที่ระบบคิดว่าน่าจะทำสำเร็จขึ้นมา ยิ่งหุ่นยนต์เรียนรู้จากการทดลองและความผิดพลาดมันยิ่งมีความเชี่ยวชาญและมีโอกาสทำสำเร็จมากยิ่งขึ้น

กระบวนการเรียนรู้ผ่านการทดลองและความผิดพลาดนั้นเป็นกระบวนการเรียนรู้ที่เกิดขึ้นกับสิ่งมีชีวิตเป็นหลัก อาทิ หนึ่งในตัวอย่างที่โดดเด่น คือ การทดลองสุนัขของ Pavlov ที่มีการกำหนดขั้นตอนการทดลองและความผิดพลาด(หรือบทลงโทษ) ไว้อย่างชัดเจน

ที่มา:
Leeds.ac.uk