ନ୍ୟାଚୁରାଲ ଲାଙ୍ଗୁଏଜ ପ୍ରୋସେସିଂ

ମନୁଷ୍ୟର ଭାଷାକୁ ଯନ୍ତ୍ରର ବୁଝିବା ଏବଂ ନିଷ୍ପତ୍ତି ନେବା

ନ୍ୟାଚୁରାଲ ଲାଙ୍ଗୁଏଜ ପ୍ରୋସେସିଂ ବା ପ୍ରାକୃତିକ ଭାଷା ପ୍ରକ୍ରିୟାକରଣ କଂପ୍ୟୁଟର ବିଜ୍ଞାନ ଏବଂ ଆର୍ଟିଫିସିଆଲ ଇଣ୍ଟେଲିଜେନ୍ସର ସେହି ବିଭାଗକୁ କୁହାଯାଏ ଯାହା ମନୁଷ୍ୟର ଭାଷାଗୁଡ଼ିକ ସହ କମ୍ପ୍ୟୁଟରର କଥାବାର୍ତ୍ତାକୁ ବୁଝାଇଥାଏ।  ଏହି ବିଭାଗର କିଛି ଜଟିଳ ସମସ୍ୟାଗୁଡ଼ିକ ହେଲା:

ଆର୍ଟିଫିସିଆଲ ଇଣ୍ଟେଲିଜେନ୍ସ
ଗୁରୁତ୍ବପୂର୍ଣ ଲକ୍ଷ୍ୟଗୁଡିକ
ନଲେଜ ରିଜନିଂ
ପ୍ଲାନିଂ
ମେସିନ ଲର୍ଣିଂ
ନ୍ୟାଚୁରାଲ ଲାଙ୍ଗୁଏଜ ପ୍ରୋସେସିଂ
କମ୍ପ୍ୟୁଟର ଭିଜନ
ରୋବୋଟିକ୍ସ
ଆର୍ଟିଫିସିଆଲ ଜେନେରାଲ ଇଣ୍ଟେଲିଜେନ୍ସ
ପଦ୍ଧତିଗୁଡିକ
ସିମ୍ବଲିକ
ଡିପ ଲର୍ଣିଂ
ବାୟେସିଆନ ନେଟୱର୍କ
ଏଭୋଲ୍ଯୁସନାରୀ ଆଲଗୋରିଦମ
ଫିଲୋସଫି
ଏଥିକ୍ସ
ବଞ୍ଚିରହିବାର ଆଶଙ୍କା
ଟ୍ଯୁରିଙ୍ଗ ପରୀକ୍ଷା
ଚୀନ ଘର
ବନ୍ଧୁତ୍ବପୂର୍ଣ ଏଆଇ
ଇତିହାସ
ଘଟଣାବଳୀ
ପ୍ରଗତି
ଏଆଇ ଶୀତ
ପ୍ରଯୁକ୍ତି ବିଦ୍ୟା
ପ୍ରୟୋଗ
ପ୍ରକଳ୍ପ
ପ୍ରୋଗ୍ରାମିଂ ଭାଷା
ଗ୍ଲୋସରି
ଗ୍ଲୋସରି
An automated online assistant providing customer service on a web page, an example of an application where natural-language processing is a major component.[୧]

ମୁଖ୍ୟ ମୂଲ୍ୟାଙ୍କନ ଏବଂ କାର୍ଯ୍ୟସମ୍ପାଦନ କରନ୍ତୁ

ପ୍ରାୟତଃ ନିମ୍ନଲିଖିତ କାର୍ଯ୍ୟଗୁଡ଼ିକ ଏହି ବିଭାଗରେ ଅଧିକ ଗବେଷଣା କରାହୋଇଥାଏ। ଲକ୍ଷ କରନ୍ତୁ କିଛି କାର୍ଯ୍ୟଗୁଡ଼ିକର ନିତିଦିନିଆ ଜୀବନରେ ପ୍ରୟୋଗ ଅଛି, ଅନ୍ୟ ପକ୍ଷରେ ବାକି କାର୍ଯ୍ୟଗୁଡ଼ିକ ବଡ଼ ବଡ଼ କାମ କରିବାରେ ସହାୟତା କରିଥାନ୍ତି।[୨]

ବାକ୍ୟ-ରଚନାସମ୍ପାଦନ କରନ୍ତୁ

ଟୋକେନାଇଜେସନସମ୍ପାଦନ କରନ୍ତୁ

କିଛି ଲେଖାକୁ ବାକ୍ୟ ବା ଶବ୍ଦରେ ଖଣ୍ଡ ଖଣ୍ଡ କରିବାକୁ ଏହା ଦର୍ଶାଇଥାଏ । ଗୋଟିଏ ବାକ୍ୟରେ ଥିବା ସମସ୍ତ ଶବ୍ଦଗୁଡ଼ିକୁ ଅଲଗା ଅଲଗା କରି ରଖିବାକୁ ଟୋକେନାଇଜେସନ ବା ଶବ୍ଦ ଖଣ୍ଡ କରିବା କୁହାଯାଇଥାଏ । [୩]


ଷ୍ଟେମିଂସମ୍ପାଦନ କରନ୍ତୁ

ମୂଳ ପୃଷ୍ଠା: ଷ୍ଟେମିଂ

ଏକ ଶବ୍ଦକୁ ତାହାର ଗଠନ ଅନୁସାରେ ମୂଳ ଅକ୍ଷରରେ ରୂପାନ୍ତରଣ କରିବାକୁ ଷ୍ଟେମିଂ କୁହାଯାଇଥାଏ ।[୪] [୫]

ଲେମାଟାଇଜେସନସମ୍ପାଦନ କରନ୍ତୁ

ଲେମାଟାଇଜେସନ ସାଧାରଣତଃ ଷ୍ଟେମିଂଠାରୁ ଉନ୍ନତଧରଣର ଅଟେ । ଏହା କେବଳ ଗୋଟିଏ ଶବ୍ଦକୁ ଲକ୍ଷ୍ୟରେ ନରଖି ଏହାର ପାଖାପାଖି ଶବ୍ଦଗୁଡ଼ିକୁ ମଧ୍ୟ ନଜରରେ ରଖି ସେମାନଙ୍କର ମୂଳ ଅକ୍ଷରରେ ରୂପାନ୍ତରଣ କରିଥାଏ ।[୬][୭] ଯଦିଓ ଓଡ଼ିଆ ଭାଷାରେ ଏପର୍ଯ୍ୟନ୍ତ ଶତ ପ୍ରତିଶତ ତ୍ରୁଟି ବିହୀନ ଲେମାଟାଇଜେସନ ହେଇପାରି ନାହିଁ ।

ମନେରଖନ୍ତୁ ଷ୍ଟେମିଂରେ କେବଳ ଶବ୍ଦର ଅକ୍ଷ୍ୟରମାନଙ୍କର ଗଠନ ଦେଖି ମୂଳ ରୁପକୁ ଅଣାଯାଇଥାଏ, କିନ୍ତୁ ଏଠାରେ ଶବ୍ଦଟି କେଉଁ ଉଦ୍ଦେଶ୍ୟର କୁହାଯାଇଛି ତାହା ଦେଖି ମୂଳ ରୁପକୁ ଅଣା ଯାଇଥାଏ। ଏହାଦ୍ୱାରା ସମାନ ଅର୍ଥ ଥିବା ଶବ୍ଦଗୁଡ଼ିକୁ ମିଳାଇବାରେ ସୁବିଧା ହୋଇଥାଏ ।[୮]

ଷ୍ଟପୱାର୍ଡ ବାହାର କରିବାସମ୍ପାଦନ କରନ୍ତୁ

ବାକ୍ୟ ମଧ୍ୟରେ ଏଭଳି କିଛି ଶବ୍ଦ ଥାଏ ଯାହା ବାକ୍ୟଟିକୁ ସୁନ୍ଦର ଏବଂ ବାକ୍ୟରଣ ଠିକ କରିବାରେ ଉପଯୋଗ ହୁଏ କିନ୍ତୁ ବାକ୍ୟର ଅର୍ଥ ବୁଝିବାରେ ସେହି ଶବ୍ଦଗୁଡ଼ିକ କିଛି କାମରେ ଆସନ୍ତି ନାହିଁ, ଏହି ପ୍ରକାର ଶବ୍ଦକୁ ଷ୍ଟପୱାର୍ଡ କୁହାଯାଏ ।

ବିରାମ ଚିହ୍ନ ବାହାର କରିବାସମ୍ପାଦନ କରନ୍ତୁ

ବାକ୍ୟଗୁଡ଼ିକୁ ସଫା କରିବା ନିମିତ୍ତ ସେଥିରେ ଥିବା ବିଭିନ୍ନ ବିରାମ ଚିହ୍ନ ବା ପଂଚୁଏସନ ମାର୍କକୁ ବାହାର କରାଯାଇଥାଏ । କିଛି ପଂଚୁଏସନ ମାର୍କ ହେଲା ପ୍ରଶ୍ନ ବାଚକ ଚିହ୍ନ, କମା, ପୂର୍ଣ୍ଣଚ୍ଛେଦ ଇତ୍ୟାଦି ।

ଶବ୍ଦଭେଦ (ପାର୍ଟ ଅଫ ସ୍ପିଚ ଟ୍ୟାଗ)ସମ୍ପାଦନ କରନ୍ତୁ

ଗୋଟିଏ ଲେଖାରେ ଶବ୍ଦଟିଏ ଭିନ୍ନ ଭିନ୍ନ ରୂପରେ ରହିଥାଏ, ଯେପରିକି ବିଶେଷ୍ୟ, ନାମବାଚକ ବିଶେଷ୍ୟ, ବିଶେଷଣ, କ୍ରିୟା, କ୍ରିୟା ବିଶେଷଣ, ଚିହ୍ନ ଇତ୍ୟାଦି ।[୯] ଏହି ସବୁ ମଧ୍ୟ ଭିନ୍ନ ଭିନ୍ନ ଉପାୟରେ ଗୋଟିଏ ବାକ୍ୟରୁ କଢ଼ାଯାଇପାରେ ।[୧୦]

ସିମାନଟିକ୍ସସମ୍ପାଦନ କରନ୍ତୁ

ନେମଡ ଏଣ୍ଟିଟି ରେକଗନିସନ (ଏନ.ଇ.ଆର.)ସମ୍ପାଦନ କରନ୍ତୁ

ନେମଡ ଏଣ୍ଟିଟି ରେକଗନିସନ ବା ଏନ.ଇ.ଆର. ହେଉଛି ଏକ ପ୍ରକ୍ରିୟା ଯେଉଁଥିରେ ଆମେ ଏକ ଲେଖାକୁ ବିଶ୍ଳେଷଣ କରି ସେଥିରୁ ଦରକାରୀ ବିଶେଷ୍ୟ ଯଥା ଲୋକଙ୍କ ନାମ, ସ୍ଥାନର ନାମ କିମ୍ବା କୌଣସି ସଂସ୍ଥାର ନାମକୁ ବାହାର କରାଯାଇଥାଏ ।[୧୧]

ସେଣ୍ଟିମେଣ୍ଟ ଆନାଲିସିସସମ୍ପାଦନ କରନ୍ତୁ

ସେଣ୍ଟିମେଣ୍ଟ ଆନାଲିସିସ ବା ଭାବ ବିଶ୍ଳେଷଣ ହେଉଛି ଏକ ପ୍ରକ୍ରିୟା ଯାହାଦ୍ୱାରା ଲେଖା ବା କଥାବାର୍ତ୍ତାରେ ଥିବା ଭାବପ୍ରବଣତାକୁ ବାହାର କରାଯାଇଥାଏ । ମୁଖ୍ୟତଃ ଏହି ପ୍ରକ୍ରିୟାଦ୍ୱାରା ଗ୍ରାହକମାନେ ଦେଇଥିବା ମାତାମତରୁ ତାଙ୍କର ଭାବପ୍ରବଣତା ଉଦ୍ଧାର କରାଯାଇଥାଏ, ଯେପରିକି ଗ୍ରାହକଜଣକ ସେବା ଉପଲବ୍ଧକରି ଖୁଶି ଅଛନ୍ତି ବା ଦୁଃଖିତ ବା ରାଗି ଇତ୍ୟାଦି ।[୧୨][୧୩]

ଡିସ୍କୋର୍ସସମ୍ପାଦନ କରନ୍ତୁ

ଅଟୋମେଟିକ ସମରାଇଜେସନସମ୍ପାଦନ କରନ୍ତୁ

ସ୍ୱତଃପ୍ରବୃତ ଭାବେ ଏକ ଲେଖା ବା କଥାର ସାରକଥା ବା ସାରାଂଶ ଉଦ୍ଧାର କରିବାର ପ୍ରକ୍ରିୟାକୁ ଅଟୋମେଟିକ ସମରାଇଜେସନ ବା ଅଟୋ ସମରାଇଜେସନ କୁହାଯାଇଥାଏ ।[୧୪][୧୫][୧୬] ଏହି ମୁଖ୍ୟତଃ ଦୁଇ ଭାଗରେ ବିଭକ୍ତ ।

ଏକ୍ସଟ୍ରାକ୍ଟିଭ ସମରାଇଜେସନସମ୍ପାଦନ କରନ୍ତୁ

ଏଥିରେ ଲେଖାଟିରେ ଥିବା ଅଦରକାରୀ ଶବ୍ଦଗୁଡ଼ିକୁ ହଟେଇଦିଆଯାଇଥାଏ । କୌଣସି ନୂଆ ଶବ୍ଦ ଯୋଗ କରାଯାଇନଥାଏ । ଲେଖାଟିରେ ଥିବା ଶବ୍ଦଗୁଡ଼ିକୁ ଉପଯୋଗକରି ସାରାଂଶ ପ୍ରସ୍ତୁତ କରାଯାଇଥାଏ ।

ଆବଷ୍ଟ୍ରାକ୍ଟିଭ ସମରାଇଜେସନସମ୍ପାଦନ କରନ୍ତୁ

ଏଥିରେ ମେସିନ ଲର୍ଣିଂ ବା ଡିପ୍ ଲର୍ଣିଂ ଉପଯୋଗକରି ଲେଖାଟିରେ ଥିବା ଶବ୍ଦ ସହିତ ନୂଆ ଶବ୍ଦ ମଧ୍ୟ ଯୋଗ କରାଯାଇ ସାରାଂଶ ପ୍ରସ୍ତୁତ କରାଯାଏ । ଏହି ପ୍ରକ୍ରିୟାରେ ସାରକଥା ନିରୂପଣ କରିବା କଷ୍ଟକର ଏବଂ ସମୟସାପେକ୍ଷ ଅଟେ ।[୧୭]

କୋରିଫରେନ୍ସ ରିଜୋଲ୍ୟୁସନସମ୍ପାଦନ କରନ୍ତୁ

ଯଦି ଗୋଟିଏ ଲେଖାରେ ଦୁଇ ବା ଅଧିକ ଶବ୍ଦ ଗୋଟିଏହିଁ ବସ୍ତୁ, ସ୍ଥାନ ବା ବ୍ୟକ୍ତିଙ୍କୁ ସମ୍ବୋଧିତ କରୁଥାନ୍ତି ତେବେ ସେମାନଙ୍କର ସନ୍ଦର୍ଭ ଏକ ବୋଲି କୁହାଯାଇପାରେ । ଯନ୍ତ୍ରଟି କଥାବାର୍ତ୍ତା ସମୟରେ ଏହି ସନ୍ଦର୍ଭକୁ ନଜରରେ ରଖି ବାକ୍ୟର ଅର୍ଥ ବାହାର କରିବା ଗୁରୁତ୍ୱପୂର୍ଣ୍ଣ ଅଟେ । ଏହି ସନ୍ଦର୍ଭ ସମାଧାନକୁ କୋରିଫରେନ୍ସ ରିଜୋଲ୍ୟୁସନ କୁହାଯାଇଥାଏ ।

ସ୍ପିଚ ରେକଗନିସନସମ୍ପାଦନ କରନ୍ତୁ

କଥାବାର୍ତ୍ତାର ଶବ୍ଦକୁ ଚିନ୍ହିବା ଏବଂ ତାହାକୁ ଲେଖାରେ ରୂପାନ୍ତରଣ କରିବା ଏହି ବିଭାଗ ଅନ୍ତର୍ଗତ ଅଟେ ।[୧୮]

ଆହୁରି ଦେଖନ୍ତୁସମ୍ପାଦନ କରନ୍ତୁ

ବାହାର ତଥ୍ୟସମ୍ପାଦନ କରନ୍ତୁ

ଆଧାରସମ୍ପାଦନ କରନ୍ତୁ

  1. Implementing an online help desk system based on conversational agent Authors: Alisa Kongthon, Chatchawal Sangkeettrakarn, Sarawoot Kongyoung and Choochart Haruechaiyasak. Published by ACM 2009 Article, Bibliometrics Data Bibliometrics. Published in: Proceeding, MEDES '09 Proceedings of the International Conference on Management of Emergent Digital EcoSystems, ACM New York, NY, USA. ISBN 978-1-60558-829-2, doi:10.1145/1643823.1643908
  2. http://docs.cltk.org/en/latest/odia.html#alphabet
  3. https://www.ibm.com/developerworks/community/blogs/nlp/entry/tokenization?lang=en
  4. http://ijarcet.org/wp-content/uploads/IJARCET-VOL-3-ISSUE-1-9-11.pdf
  5. https://www.academia.edu/9773132/Paninian_Framework_for_Odia_Language_Processing
  6. http://eprints.iisc.ernet.in/4856/1/oriya.pdf
  7. https://www.academia.edu/3692319/Development_of_a_Hindi_Lemmatizer
  8. https://www.quora.com/What-is-difference-between-stemming-and-lemmatization
  9. https://www.academia.edu/31143556/An_Experiment_with_the_CRF_Parts_of_Speech_POS_Tagger_for_Odia
  10. https://www.sciencedirect.com/science/article/pii/S1877050915006365
  11. https://towardsdatascience.com/named-entity-recognition-applications-and-use-cases-acdbf57d595e
  12. https://www.lexalytics.com/technology/sentiment
  13. https://www.brandwatch.com/blog/understanding-sentiment-analysis/
  14. https://machinelearningmastery.com/gentle-introduction-text-summarization/
  15. http://pages.cs.wisc.edu/~jerryzhu/cs838/summarization.pdf
  16. https://www.quora.com/Natural-Language-Processing-What-are-algorithms-for-auto-summarize-text
  17. https://rare-technologies.com/text-summarization-in-python-extractive-vs-abstractive-techniques-revisited/
  18. https://en.wikipedia.org/wiki/Speech_recognition