یادگیری تقویتی (Reinforcement Learning) چیست؟

1612 ۰

اگر در جریان پژوهش های روز هوش مصنوعی و یادگیری ماشین قرار گرفته باشید قطعاً متوجه میزان گسترش محبوبیت و افزایش علاقمندی به یادگیری تقویتی (Reinforcement Learning) خواهید شد. یادگیری تقویتی (Reinforcement Learning) گونه‌ای از روش‌های یادگیری ماشین است که یک عامل یا Agent را قادر به یادگیری در محیطی تعاملی با استفاده از آزمون و خطاها و استفاده از بازخوردهای اعمال و تجربیات خود می‌سازد. در یادگیری تقویتی، وقتی عامل در یک حالت خاص عملی را انجام می دهد، در مقابل پاداش یا (Reward) دریافت می نماید. در این نوع یادگیری ماشین، تمامی تلاش و هدف عامل این خواهد بود که تا پاداش دریافتی را در دراز مدت به حداکثر برساند. اگرچه هم یادگیری نظارت شده (Supervised Learning) و هم یادگیری تقویتی از نگاشت بین ورودی و خروجی استفاده می‌کنند، اما در یادگیری بر خلاف یادگیری نظارت شده از پاداش‌ها و تنبیه‌ها به عنوان سیگنال‌هایی برای بهبود عملکرد نهایی سیستم استفاده می شود.
تفاوت اصلی میان یادگیری تقویتی (Reinforcement Learning) با روش های دیگر یادگیری ماشین، در این است که در یادگیری تقویتی، هیچ گاه به عامل (Agent) گفته نمی‌شود که کار درست در هر وضعیت کدام است و فقط به وسیله‌ی معیاری، به عامل فهمانده می شود که یک عمل (Action) به چه میزان خوب و یا به چه میزان بد می باشد. این وظیفه‌ عامل یادگیرنده (Learner) می باشد که با در دست داشتن این اطلاعات، یاد بگیرد که بهترین عمل در هر وضعیت کدام است. این موضوع، بخشی از نقاط قوت خاص یادگیری تقویتی است.
از این طریق، مسائل پیچیده‌ی تصمیم‌گیری در اغلب اوقات می‌توانند با فراهم کردن کمترین میزان اطلاعات مورد نیاز برای حل مسأله، حل شوند. در بسیاری از حیوانات، یادگیری تقویتی، تنها شیوه‌ی یادگیری مورد استفاده است. همچنین یادگیری تقویتی، بخشی اساسی از رفتار انسان‌ها را تشکیل می‌دهد. هنگامی که دست ما در مواجهه با حرارت می‌سوزد، ما به سرعت یاد می‌گیریم که این کار را بار دیگر تکرار نکنیم. لذت و درد مثالهای خوبی از پاداش‌ها هستند که الگوهای رفتاری ما و بسیاری از حیوانات را تشکیل می‌دهند. در یادگیری تقویتی، هدف اصلی از یادگیری، انجام دادن کاری و یا رسیدن به هدفی است، بدون آنکه عامل یادگیرنده، با اطلاعات مستقیم بیرونی تغذیه شود.

اجزای یادگیری تقویتی (Reinforcement Learning)

۱- سیاست (Policy)
Policy نحوه برخورد با هر عمل و نحوه تصمیم گیری در هر یک از شرایط مختلف را تعیین می نماید. در واقع Policy تعیین کننده شیوه رفتار Agent را در زمان داده بوده و عامل هوشمند را به حالت های بهتر رهنمون می سازد.
۲- تابع پاداش (Reward)
هدف را در تابع یادگیرنده تعیین می کند. این تابع هدفش این است که به ازای هر عمل عامل یک پاداش بدهد پس به هدف که نزدیک می شود پاداش بیشتر می شود. تابع پاداش مهم است اگر بد تعریف شود عامل دیر یاد می گیرد. Reward کوتاه مدت و value بلند مدت است یعنی ممکن است یک خانه پاداش نداشته باشد ولی ما را به هدف نزدیک تر کند پس value بالاتری دارد.
۳- تابع ارزش گذاری (Value Function)
نگاه بلند مدت دارد. برای هر حالت یک مقدار تعیین می کند که هر چه بیشتر باشد یعنی به هدف نزدیک تر شده ایم. مانند اینکه در یک بازی اجازه دهید حریف مهره شما را بزند در این حالت پاداش نمی گیرید ولی به حالت دیگری می روید که بهتر است این یعنی نگاه بلند مدت.
۴- مدل (Model)
مسئله یادگیری تقویتی، احتمالاتی و stochastic است و State ها یا حالات آن non-deterministic می باشد. یعنی به ازای یک عمل می تواند به همه حالات برود ولی با یک احتمال. هر عمل یا action یک احتمال است و رفتن از یک حالت به حالت دیگر هم احتمال است. هدف یادگیرنده ماکزیمم کردن پاداش بلند مدت می باشد. در یک مسئله یادگیری تقویتی با عاملی روبرو هستیم که از طریق سعی و خطا با محیط تعامل کرده و یاد میگیرد تا عملی بهینه را برای رسیدن به هدف انتخاب نماید. یادگیری تقویتی از این رو مورد توجه است که راهی برای آموزش عامل ها برای انجام یک عمل از طریق پاداش و تنبیه است بدون اینکه لازم باشد نحوه انجام عمل را برای عامل مشخص نماید.

یادگیری تقویتی از دو جنبه با یادگیری با ناظر تفاوت دارد.

مثال های یادگیری بصورت زوج (ورودی/ خروجی) مطرح نمی شوند. بلکه بعد از اینکه عامل عملی را انجام داد پاداشی را دریافت می کند و به مرحله بعدی می رود. عامل هیچ گونه اطلاعی در مورد اینکه در هر حالت بهترین عمل چیست ندارد. بلکه این وظیفه عامل است که در طول زمان تجربه کافی در مورد حالت ها، عمل های ممکن، انتقال و پاداش جمع آوری نموده و عملکرد بهینه را یاد بگیرد. در یادگیری با نظارت، یادگیری از نمونه هایی انجام می شود که توسط یک ناظر خارجی آگاه فراهم شده است. در مسائل تعاملی معمولاً بدست آوردن مثال هایی از رفتار مورد انتظار عامل که هم صحیح باشد و هم نشان دهنده همه موقعیت هایی باشد که عامل یا همان ایجنت باید در آن عمل کند، عملی نیست.

در این بخش از آموزش های سایت یادگیری ماشین ایران، آقای دکتر سهیل تهرانی پور، دانشجوی دکتری هوش مصنوعی و یادگیری ماشین، به ارائه آموزش های مقدماتی یادگیری تقویتی (Reinforcement Learning) ، تعاریف اولیه ، زنجیره تصمیم مارکوف (Markov Decision Process) و معادله بلمن (Bellman Equation) می پردازد.

نوشته مرتبط

دیدگاه خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *