ซึ่งจะมีการให้ข้อมูลตัวอย่าง และผลลัพธ์ของข้อมูลตัวอย่างเพื่อให้โมเดลสามารถเรียนรู้จากข้อมูลตัวอย่างได้
ซึ่งไม่มีการให้ผลลัพธ์ของข้อมูลตัวอย่าง และโมเดลต้องเรียนรู้จากข้อมูลเอง
ซึ่งจะมีการให้ระบบเรียนรู้จากการรับรู้ผลลัพธ์จากการกระทำของตัวเองในสภาวะต่างๆ โดยมีการให้รางวัลหรือลดคะแนนเป็นตัวกำหนดในการแนะนำการกระทำต่อไปของระบบ