سلام. من می خوام با استفاده از یادگیری تقویتی، برنامه مسئله bandit رو در متلب بنویسم. در مورد مسئله مطالعه کردم ولی هیچ ایده ای برای نوشتن کد ندارم. می خواستم خواهش کنم راهنمایی بفرمایید.
متشکرم