Опис дисципліни

Код: 343540

Назва:

Навчання з підкріпленням

Анотація: "This course provides both foundational and advanced knowledge in reinforcement learning (RL), focusing on applications in robotics and control. It covers key RL algorithms, model-based and model-free approaches, and sample efficiency techniques. Special emphasis is placed on optimizing RL policies for robotic manipulation tasks. The course integrates theoretical concepts with hands-on implementation, allowing students to train and evaluate RL policies in simulated robotic environments."

Тип дисципліни: вибірковий

Рік навчання: 1

Семестр: 2 (весняний)

Кількість кредитів: 4

Форма контролю: залік

Викладач(і): доц., к. ф-м. н. Швай Н.О.

Результати навчання: У результаті вивчення навчальної дисципліни студент повинен знати:
основні методи та теорію побудови алгоритмів навчання з підкріпленням; загальні принципи розробки ефективних моделей агентів та агентів глибинного навчання; сучасні методи аналізу архітектури агентів; способи та механізми ефективного застосування сучасних алгоритмів та архітектур агентів навчання з підкріпленням.
У результаті вивчення навчальної дисципліни студент повинен уміти:
проектувати алгоритми агентів навчання з підкріпленням. розробляти нові методи агентів навчання з підкріпленням; аналізувати продуктивність побудованих моделей; вибирати ефективні методи для вирішення конкретних задач; застосовувати сучасні прийоми під час проектування архітектури агентів.

Спосіб навчання: дистанційний

Необхідні обовязкові попередні й супутні модулі: базові знання з математичного аналізу, програмування, основних алгоритмів штучного інтелекту; бажаним є прослуховування курсу "Машинне навчання".

Зміст дисципліни: Модуль 1. КЛАСИЧНІ МЕТОДИ НАВЧАННЯ З ПІДКРІПЛЕННЯМ. Вступ до методів навчання з підкріпленням. Планування табличних Марківських процесів. Оцінка стратегії агента в табличному представленні. Q-навчання. Модуль 2. НЕЙРОМЕРЕЖЕВІ МЕТОДИ НАВЧАННЯ З ПІДКРІПЛЕННЯМ. Навчання з підкріпленням з апроксимацією: лінійна. Навчання з підкріпленням з апроксимацією функцій: збіжність. Навчання з підкріпленням з апроксимацією функцій. Нейронний підхід до пошуку стратегій. Proximal Policy Optimization. Узагальнювальна лекція.

Рекомендована література: 1. Sutton та Barton: Reinforcement Learning: An Introduction
2. Stanford CS234 course: https://www.youtube.com/playlist?list=PLoROMvodv4rOSOPzutgyCTapiGlY2Nd8u
3. UCL course on RL, David Silver: https://www.davidsilver.uk/teaching/
4. John Shulman lectures: https://youtu.be/9dXiAecyJrY?t=499
5. Pieter Abbeel lectures: https://www.youtube.com/watch?v=AKbX1Zvo7r8
6. OpenAI Evolution strategies as a scalable alternative to reinforcement learning https://openai.com/research/evolution-strategies

Форми та методи навчання: лекції (лекції проблемного характеру), практичні заняття, індивідуальна робота, робота в малих групах, семінари-дискусії, мозкові атаки, презентації, комп'ютерні симуляції, метод сценаріїв, банки візуального супроводу.

Методи й критерії оцінювання: рейтингова система оцінювання за 100-бальною шкалою: - робота в семестрі (індивідуальні роботи, активність на пратичних заняттях, тестові роботи) - 70%; - залік - 30%.

Мова навчання: українська