"ରିଏନ୍ଫୋର୍ସମେଣ୍ଟ ଲର୍ଣ୍ଣିଙ୍ଗ୍" ପୃଷ୍ଠାର ସଂସ୍କରଣଗୁଡ଼ିକ ମଧ୍ୟରେ ତଫାତ
Content deleted Content added
Soumendrak (ଆଲୋଚନା | ଅବଦାନ) ଘଟଣାବଳୀ ବିଷୟରେ ଲେଖାହେଲା |
Soumendrak (ଆଲୋଚନା | ଅବଦାନ) ଟିକେ ଅଧିକ ତଥ୍ୟ ଯୋଗ ହେଲା |
||
୧ କ ଧାଡ଼ି:
{{ମେସିନ ଲର୍ଣିଂ}}
[[ସୁପରଭାଇଜଡ଼ ଲର୍ଣିଂ]] ପରି ରିଏନ୍ଫୋର୍ସମେଣ୍ଟ ଲର୍ଣିଂ ନିମିତ୍ତ ଚିନ୍ହିତ ତଥ୍ୟ ଆବଶ୍ୟକ ନୁହେଁ । ଚିନ୍ହିତ ତଥ୍ୟର ଅନୁପସ୍ଥିତିରେ ଏଜେଣ୍ଟଟି ନିଜର ଅଭିଜ୍ଞାତାରୁ ଶିକ୍ଷ୍ୟାଲାଭ କରିଥାଏ । ଶିଖିବା ସମୟରେ କେଉଁ ନିଷ୍ପତି ଭଲ ଏବଂ କେଉଁଟି ଖରାପ ଏହା ମନେରଖି ଦୂରଦୃଷ୍ଟିରେ କେଉଁ ନିଷ୍ପତିଟି ଭଲ ହେବ ସେହି ନିଷ୍ପତି ନେବାକୁ ଚେଷ୍ଟା କରିଥାଏ ।<ref>https://medium.com/machine-learning-for-humans/reinforcement-learning-6eacf258b265</ref>
== କିଛି ଗୁରୁତ୍ୱପୂର୍ଣ୍ଣ ତଥ୍ୟ ଏବଂ ଜାଣିବା କଥା ==
ଆରଏଲର ମୁଖ୍ୟ ଚରିତ୍ରଗୁଡ଼ିକ ହେଲେ '''ଏଜେଣ୍ଟ''' ଏବଂ '''ପରିବେଶ''' । ଏଜେଣ୍ଟଟି ପରିବେଶ ମଧ୍ୟରେ ରହିଥାଏ । ପରିବେଶ ସହ କଥାବାର୍ତ୍ତା କରିବା ସମୟରେ ପ୍ରତି ସ୍ତରରେ ଏଜେଣ୍ଟଟି ଏକ ଭିନ୍ନ ଦୁନିଆ ଦେଖିଥାଏ, ସେହି ହିସାବରେ ସେ ବିଚାର କରି କ୍ରିୟା କରିଥାଏ । ଏଜେଣ୍ଟଟିର ଏହି କ୍ରିୟା ଜନିତ ହସ୍ତକ୍ଷେପ ଯୋଗୁଁ ପାରିବେଶଟିରେ ପରିବର୍ତ୍ତନ ଘଟିଥାଏ । ବେଳେ ବେଳେ ଆପେ ଆପେ ମଧ୍ୟ ପରିବେଶରେ ପରିବର୍ତ୍ତନ ହୋଇପାରେ ।
ପରିବେଶ ମଧ୍ୟରୁ ଏଜେଣ୍ଟଟିକୁ ଏକ ରିବାର୍ଡ ବା '''ପୁରସ୍କାର''' ସଙ୍କେତ ମଧ୍ୟ ମିଳିଥାଏ ଯାହା ବର୍ତ୍ତମାନ ପରିସ୍ଥିତିରେ ଥିବା ପରିବେଶ ବିଷୟରେ ଦର୍ଶାଇଥାଏ । ବିଭିନ୍ନ ସ୍ତରର ପୁରସ୍କାର ମିଶିଲେ ତାହାକୁ ରିଟର୍ନ କୁହାଯାଏ । ଏଜେଣ୍ଟଟିର ଲକ୍ଷ ହେଉଛି ଏହି ରିଟର୍ନକୁ ବଢ଼ାଇବା । ଆରଏଲ ଆଲଗୋରିଦମର ବିଭିନ୍ନ ପ୍ରଣାଳୀ ଉପଯୋଗ କରି ଏଜେଣ୍ଟ ଏହି ଲକ୍ଷ୍ୟ ହାସଲ କରିଥାଏ ।
ଆରଏଲ ବିଷୟରେ ଅଧିକ ଜାଣିବାକୁ ନିମ୍ନଲିଖିତ ଅଧିକ ଶବ୍ଦ ବିଷୟରେ ଜାଣିବା ଜରୁରୀ:<ref>https://spinningup.openai.com/en/latest/spinningup/rl_intro.html#key-concepts-and-terminology</ref>
* ଷ୍ଟେଟ ଏବଂ ଅବଜର୍ଭେସନ
* ଆକ୍ସନ ସ୍ପେସ
* ପଲିସି
* ଟ୍ରାଜେକ୍ଟୋରି
* ଅଧିକ ରିଟର୍ନ ପାଇବାର ପ୍ରଣାଳୀ
* ଆରଏଲ ଅପଟିମାଇଜେସନ ସମସ୍ୟା ଏବଂ
* ଭାଲ୍ୟୁ ଫଙ୍କସନ
== ଘଟଣାବଳୀ ==
Line ୧୧ ⟶ ୨୮:
[[ଶ୍ରେଣୀ:ଆର୍ଟିଫିସିଆଲ ଇଣ୍ଟେଲିଜେନ୍ସ]]
<references />
== ବାହ୍ୟ ଆଧାର ==
* [https://blog.openai.com/spinning-up-in-deep-rl/ ଓପନ ଏଆଇ]
|