Код: 343540Назва:
Навчання з підкріпленням
Анотація: "This course provides both foundational and advanced knowledge in reinforcement learning (RL), focusing on applications in robotics and control. It covers key RL algorithms, model-based and model-free approaches, and sample efficiency techniques. Special emphasis is placed on optimizing RL policies for robotic manipulation tasks. The course integrates theoretical concepts with hands-on implementation, allowing students to train and evaluate RL policies in simulated robotic environments."Тип дисципліни: вибірковийРік навчання: 1Семестр: 2 (весняний)Кількість кредитів: 4Форма контролю: залікВикладач(і): доц., к. ф-м. н. Швай Н.О.Результати навчання: У результаті вивчення навчальної дисципліни студент повинен знати:основні методи та теорію побудови алгоритмів навчання з підкріпленням; загальні принципи розробки ефективних моделей агентів та агентів глибинного навчання; сучасні методи аналізу архітектури агентів; способи та механізми ефективного застосування сучасних алгоритмів та архітектур агентів навчання з підкріпленням.У результаті вивчення навчальної дисципліни студент повинен уміти:проектувати алгоритми агентів навчання з підкріпленням. розробляти нові методи агентів навчання з підкріпленням; аналізувати продуктивність побудованих моделей; вибирати ефективні методи для вирішення конкретних задач; застосовувати сучасні прийоми під час проектування архітектури агентів.Спосіб навчання: дистанційнийНеобхідні обовязкові попередні й супутні модулі: базові знання з математичного аналізу, програмування, основних алгоритмів штучного інтелекту; бажаним є прослуховування курсу "Машинне навчання".Зміст дисципліни: Модуль 1. КЛАСИЧНІ МЕТОДИ НАВЧАННЯ З ПІДКРІПЛЕННЯМ.
Вступ до методів навчання з підкріпленням. Планування табличних Марківських процесів. Оцінка стратегії агента в табличному представленні. Q-навчання.
Модуль 2. НЕЙРОМЕРЕЖЕВІ МЕТОДИ НАВЧАННЯ З ПІДКРІПЛЕННЯМ.
Навчання з підкріпленням з апроксимацією: лінійна. Навчання з підкріпленням з апроксимацією функцій: збіжність. Навчання з підкріпленням з апроксимацією функцій. Нейронний підхід до пошуку стратегій. Proximal Policy Optimization. Узагальнювальна лекція.Рекомендована література: 1. Sutton та Barton: Reinforcement Learning: An Introduction 2. Stanford CS234 course: https://www.youtube.com/playlist?list=PLoROMvodv4rOSOPzutgyCTapiGlY2Nd8u3. UCL course on RL, David Silver: https://www.davidsilver.uk/teaching/4. John Shulman lectures: https://youtu.be/9dXiAecyJrY?t=4995. Pieter Abbeel lectures: https://www.youtube.com/watch?v=AKbX1Zvo7r86. OpenAI Evolution strategies as a scalable alternative to reinforcement learning https://openai.com/research/evolution-strategies Форми та методи навчання: лекції (лекції проблемного характеру), практичні заняття, індивідуальна робота, робота в малих групах, семінари-дискусії, мозкові атаки, презентації, комп'ютерні симуляції, метод сценаріїв, банки візуального супроводу. Методи й критерії оцінювання: рейтингова система оцінювання за 100-бальною шкалою:
- робота в семестрі (індивідуальні роботи, активність на пратичних заняттях, тестові роботи) - 70%;
- залік - 30%.Мова навчання: українська