"ରିଏନ୍ଫୋର୍ସମେଣ୍ଟ ଲର୍ଣ୍ଣିଙ୍ଗ୍" ପୃଷ୍ଠାର ସଂସ୍କରଣ‌ଗୁଡ଼ିକ ମଧ୍ୟରେ ତଫାତ

Content deleted Content added
ଘଟଣାବଳୀ ବିଷୟରେ ଲେଖାହେଲା
ଟିକେ ଅଧିକ ତଥ୍ୟ ଯୋଗ ହେଲା
୧ କ ଧାଡ଼ି:
{{ମେସିନ ଲର୍ଣିଂ}}
ଏହା'''ରିଏନ୍ଫୋର୍ସମେଣ୍ଟ ଲର୍ଣିଂ''' ({{lang-en|[[:en:Reinforcement Learning|'''Reinforcement Learning''']]}}) କିମ୍ବା ସଂକ୍ଷେପରେ ଆରଏଲ ହେଉଛି [[ମେସିନ ଲର୍ଣିଂ]]<nowiki/>ର ଏକ ବିଭାଗ ଯେଉଁଥିରେ କିପରି ଏକ ସଫ୍ଟୱେର ଏଜେଣ୍ଟ ଏକ ନିର୍ଦ୍ଧିଷ୍ଟ ପରିବେଶରେ ନିଷ୍ପତ୍ତି ନେଇ ଅଧିକ ଲାଭ ଉଠେଇପାରିବ ସେ ବିଷୟରେ ଗବେଷଣା ଓ ଆଲୋଚନା ହୋଇଥାଏ ।<ref>http://reinforcementlearning.ai-depot.com/</ref><ref>https://top.quora.com/What-is-reinforcement-learning</ref> ଏହାର ସାଧାରଣତା ନିମିତ୍ତ ଏହି ବିଷୟାଟିକୁ ଆହୁରି ଅନେକ ସ୍ଥାନରେ ମଧ୍ୟ ପ୍ରୟୋଗ କରାଯାଇଥାଏ ଯେପରିକି [[ଗେମ ଥିଓରୀ]], କଣ୍ଟ୍ରୋଲ ଥିଓରୀ, ଇନଫର୍ମେଶନ ଥିଓରୀ ଇତ୍ୟାଦି ।
 
 
 
[[ସୁପରଭାଇଜଡ଼ ଲର୍ଣିଂ]] ପରି ରିଏନ୍ଫୋର୍ସମେଣ୍ଟ ଲର୍ଣିଂ ନିମିତ୍ତ ଚିନ୍ହିତ ତଥ୍ୟ ଆବଶ୍ୟକ ନୁହେଁ । ଚିନ୍ହିତ ତଥ୍ୟର ଅନୁପସ୍ଥିତିରେ ଏଜେଣ୍ଟଟି ନିଜର ଅଭିଜ୍ଞାତାରୁ ଶିକ୍ଷ୍ୟାଲାଭ କରିଥାଏ । ଶିଖିବା ସମୟରେ କେଉଁ ନିଷ୍ପତି ଭଲ ଏବଂ କେଉଁଟି ଖରାପ ଏହା ମନେରଖି ଦୂରଦୃଷ୍ଟିରେ କେଉଁ ନିଷ୍ପତିଟି ଭଲ ହେବ ସେହି ନିଷ୍ପତି ନେବାକୁ ଚେଷ୍ଟା କରିଥାଏ ।<ref>https://medium.com/machine-learning-for-humans/reinforcement-learning-6eacf258b265</ref>
 
== କିଛି ଗୁରୁତ୍ୱପୂର୍ଣ୍ଣ ତଥ୍ୟ ଏବଂ ଜାଣିବା କଥା ==
ଆରଏଲର ମୁଖ୍ୟ ଚରିତ୍ରଗୁଡ଼ିକ ହେଲେ '''ଏଜେଣ୍ଟ''' ଏବଂ '''ପରିବେଶ''' । ଏଜେଣ୍ଟଟି ପରିବେଶ ମଧ୍ୟରେ ରହିଥାଏ । ପରିବେଶ ସହ କଥାବାର୍ତ୍ତା କରିବା ସମୟରେ ପ୍ରତି ସ୍ତରରେ ଏଜେଣ୍ଟଟି ଏକ ଭିନ୍ନ ଦୁନିଆ ଦେଖିଥାଏ, ସେହି ହିସାବରେ ସେ ବିଚାର କରି କ୍ରିୟା କରିଥାଏ । ଏଜେଣ୍ଟଟିର ଏହି କ୍ରିୟା ଜନିତ ହସ୍ତକ୍ଷେପ ଯୋଗୁଁ ପାରିବେଶଟିରେ ପରିବର୍ତ୍ତନ ଘଟିଥାଏ । ବେଳେ ବେଳେ ଆପେ ଆପେ ମଧ୍ୟ ପରିବେଶରେ ପରିବର୍ତ୍ତନ ହୋଇପାରେ ।
 
ପରିବେଶ ମଧ୍ୟରୁ ଏଜେଣ୍ଟଟିକୁ ଏକ ରିବାର୍ଡ ବା '''ପୁରସ୍କାର''' ସଙ୍କେତ ମଧ୍ୟ ମିଳିଥାଏ ଯାହା ବର୍ତ୍ତମାନ ପରିସ୍ଥିତିରେ ଥିବା ପରିବେଶ ବିଷୟରେ ଦର୍ଶାଇଥାଏ । ବିଭିନ୍ନ ସ୍ତରର ପୁରସ୍କାର ମିଶିଲେ ତାହାକୁ ରିଟର୍ନ କୁହାଯାଏ । ଏଜେଣ୍ଟଟିର ଲକ୍ଷ ହେଉଛି ଏହି ରିଟର୍ନକୁ ବଢ଼ାଇବା । ଆରଏଲ ଆଲଗୋରିଦମର ବିଭିନ୍ନ ପ୍ରଣାଳୀ ଉପଯୋଗ କରି ଏଜେଣ୍ଟ ଏହି ଲକ୍ଷ୍ୟ ହାସଲ କରିଥାଏ ।
 
ଆରଏଲ ବିଷୟରେ ଅଧିକ ଜାଣିବାକୁ ନିମ୍ନଲିଖିତ ଅଧିକ ଶବ୍ଦ ବିଷୟରେ ଜାଣିବା ଜରୁରୀ:<ref>https://spinningup.openai.com/en/latest/spinningup/rl_intro.html#key-concepts-and-terminology</ref>
 
* ଷ୍ଟେଟ ଏବଂ ଅବଜର୍ଭେସନ
* ଆକ୍ସନ ସ୍ପେସ
* ପଲିସି
* ଟ୍ରାଜେକ୍ଟୋରି
* ଅଧିକ ରିଟର୍ନ ପାଇବାର ପ୍ରଣାଳୀ
* ଆରଏଲ ଅପଟିମାଇଜେସନ ସମସ୍ୟା ଏବଂ
* ଭାଲ୍ୟୁ ଫଙ୍କସନ
 
== ଘଟଣାବଳୀ ==
Line ୧୧ ⟶ ୨୮:
 
[[ଶ୍ରେଣୀ:ଆର୍ଟିଫିସିଆଲ ଇଣ୍ଟେଲିଜେନ୍ସ]]
<references />
 
== ବାହ୍ୟ ଆଧାର ==
 
* [https://blog.openai.com/spinning-up-in-deep-rl/ ଓପନ ଏଆଇ]