ନ୍ୟାଚୁରାଲ ଲାଙ୍ଗୁଏଜ ପ୍ରୋସେସିଂ

ମନୁଷ୍ୟର ଭାଷାକୁ ଯନ୍ତ୍ରର ବୁଝିବା ଏବଂ ନିଷ୍ପତ୍ତି ନେବା
(Natural Language Processingରୁ ଲେଉଟି ଆସିଛି)

ନ୍ୟାଚୁରାଲ ଲାଙ୍ଗୁଏଜ ପ୍ରୋସେସିଂ ବା ପ୍ରାକୃତିକ ଭାଷା ପ୍ରକ୍ରିୟାକରଣ କଂପ୍ୟୁଟର ବିଜ୍ଞାନ ଏବଂ ଆର୍ଟିଫିସିଆଲ ଇଣ୍ଟେଲିଜେନ୍ସର ସେହି ବିଭାଗକୁ କୁହାଯାଏ ଯାହା ମନୁଷ୍ୟର ଭାଷାଗୁଡ଼ିକ ସହ କମ୍ପ୍ୟୁଟରର କଥାବାର୍ତ୍ତାକୁ ବୁଝାଇଥାଏ।  ଏହି ବିଭାଗର କିଛି ଜଟିଳ ସମସ୍ୟାଗୁଡ଼ିକ ହେଲା:

ଆର୍ଟିଫିସିଆଲ ଇଣ୍ଟେଲିଜେନ୍ସ
ଗୁରୁତ୍ବପୂର୍ଣ ଲକ୍ଷ୍ୟଗୁଡିକ
ନଲେଜ ରିଜନିଂ
ପ୍ଲାନିଂ
ମେସିନ ଲର୍ଣିଂ
ନ୍ୟାଚୁରାଲ ଲାଙ୍ଗୁଏଜ ପ୍ରୋସେସିଂ
କମ୍ପ୍ୟୁଟର ଭିଜନ
ରୋବୋଟିକ୍ସ
ଆର୍ଟିଫିସିଆଲ ଜେନେରାଲ ଇଣ୍ଟେଲିଜେନ୍ସ
ପଦ୍ଧତିଗୁଡିକ
ସିମ୍ବଲିକ
ଡିପ ଲର୍ଣିଂ
ବାୟେସିଆନ ନେଟୱର୍କ
ଏଭୋଲ୍ଯୁସନାରୀ ଆଲଗୋରିଦମ
ଫିଲୋସଫି
ଏଥିକ୍ସ
ବଞ୍ଚିରହିବାର ଆଶଙ୍କା
ଟ୍ଯୁରିଙ୍ଗ ପରୀକ୍ଷା
ଚୀନ ଘର
ବନ୍ଧୁତ୍ବପୂର୍ଣ ଏଆଇ
ଇତିହାସ
ଘଟଣାବଳୀ
ପ୍ରଗତି
ଏଆଇ ଶୀତ
ପ୍ରଯୁକ୍ତି ବିଦ୍ୟା
ପ୍ରୟୋଗ
ପ୍ରକଳ୍ପ
ପ୍ରୋଗ୍ରାମିଂ ଭାଷା
ଗ୍ଲୋସରି
ଗ୍ଲୋସରି
An automated online assistant providing customer service on a web page, an example of an application where natural-language processing is a major component.[]

ମୁଖ୍ୟ ମୂଲ୍ୟାଙ୍କନ ଏବଂ କାର୍ଯ୍ୟ

ସମ୍ପାଦନା

ପ୍ରାୟତଃ ନିମ୍ନଲିଖିତ କାର୍ଯ୍ୟଗୁଡ଼ିକ ଏହି ବିଭାଗରେ ଅଧିକ ଗବେଷଣା କରାହୋଇଥାଏ। ଲକ୍ଷ କରନ୍ତୁ କିଛି କାର୍ଯ୍ୟଗୁଡ଼ିକର ନିତିଦିନିଆ ଜୀବନରେ ପ୍ରୟୋଗ ଅଛି, ଅନ୍ୟ ପକ୍ଷରେ ବାକି କାର୍ଯ୍ୟଗୁଡ଼ିକ ବଡ଼ ବଡ଼ କାମ କରିବାରେ ସହାୟତା କରିଥାନ୍ତି।[]

ବାକ୍ୟ-ରଚନା

ସମ୍ପାଦନା

ଟୋକେନାଇଜେସନ

ସମ୍ପାଦନା

କିଛି ଲେଖାକୁ ବାକ୍ୟ ବା ଶବ୍ଦରେ ଖଣ୍ଡ ଖଣ୍ଡ କରିବାକୁ ଏହା ଦର୍ଶାଇଥାଏ । ଗୋଟିଏ ବାକ୍ୟରେ ଥିବା ସମସ୍ତ ଶବ୍ଦଗୁଡ଼ିକୁ ଅଲଗା ଅଲଗା କରି ରଖିବାକୁ ଟୋକେନାଇଜେସନ ବା ଶବ୍ଦ ଖଣ୍ଡ କରିବା କୁହାଯାଇଥାଏ । []


ଷ୍ଟେମିଂ

ସମ୍ପାଦନା

ମୂଳ ପୃଷ୍ଠା: ଷ୍ଟେମିଂ

ଏକ ଶବ୍ଦକୁ ତାହାର ଗଠନ ଅନୁସାରେ ମୂଳ ଅକ୍ଷରରେ ରୂପାନ୍ତରଣ କରିବାକୁ ଷ୍ଟେମିଂ କୁହାଯାଇଥାଏ ।[] []

ଲେମାଟାଇଜେସନ

ସମ୍ପାଦନା

ଲେମାଟାଇଜେସନ ସାଧାରଣତଃ ଷ୍ଟେମିଂଠାରୁ ଉନ୍ନତଧରଣର ଅଟେ । ଏହା କେବଳ ଗୋଟିଏ ଶବ୍ଦକୁ ଲକ୍ଷ୍ୟରେ ନରଖି ଏହାର ପାଖାପାଖି ଶବ୍ଦଗୁଡ଼ିକୁ ମଧ୍ୟ ନଜରରେ ରଖି ସେମାନଙ୍କର ମୂଳ ଅକ୍ଷରରେ ରୂପାନ୍ତରଣ କରିଥାଏ ।[][] ଯଦିଓ ଓଡ଼ିଆ ଭାଷାରେ ଏପର୍ଯ୍ୟନ୍ତ ଶତ ପ୍ରତିଶତ ତ୍ରୁଟି ବିହୀନ ଲେମାଟାଇଜେସନ ହେଇପାରି ନାହିଁ ।

ମନେରଖନ୍ତୁ ଷ୍ଟେମିଂରେ କେବଳ ଶବ୍ଦର ଅକ୍ଷ୍ୟରମାନଙ୍କର ଗଠନ ଦେଖି ମୂଳ ରୁପକୁ ଅଣାଯାଇଥାଏ, କିନ୍ତୁ ଏଠାରେ ଶବ୍ଦଟି କେଉଁ ଉଦ୍ଦେଶ୍ୟର କୁହାଯାଇଛି ତାହା ଦେଖି ମୂଳ ରୁପକୁ ଅଣା ଯାଇଥାଏ। ଏହାଦ୍ୱାରା ସମାନ ଅର୍ଥ ଥିବା ଶବ୍ଦଗୁଡ଼ିକୁ ମିଳାଇବାରେ ସୁବିଧା ହୋଇଥାଏ ।[]

ଷ୍ଟପୱାର୍ଡ ବାହାର କରିବା

ସମ୍ପାଦନା

ବାକ୍ୟ ମଧ୍ୟରେ ଏଭଳି କିଛି ଶବ୍ଦ ଥାଏ ଯାହା ବାକ୍ୟଟିକୁ ସୁନ୍ଦର ଏବଂ ବାକ୍ୟରଣ ଠିକ କରିବାରେ ଉପଯୋଗ ହୁଏ କିନ୍ତୁ ବାକ୍ୟର ଅର୍ଥ ବୁଝିବାରେ ସେହି ଶବ୍ଦଗୁଡ଼ିକ କିଛି କାମରେ ଆସନ୍ତି ନାହିଁ, ଏହି ପ୍ରକାର ଶବ୍ଦକୁ ଷ୍ଟପୱାର୍ଡ କୁହାଯାଏ ।

ବିରାମ ଚିହ୍ନ ବାହାର କରିବା

ସମ୍ପାଦନା

ବାକ୍ୟଗୁଡ଼ିକୁ ସଫା କରିବା ନିମିତ୍ତ ସେଥିରେ ଥିବା ବିଭିନ୍ନ ବିରାମ ଚିହ୍ନ ବା ପଂଚୁଏସନ ମାର୍କକୁ ବାହାର କରାଯାଇଥାଏ । କିଛି ପଂଚୁଏସନ ମାର୍କ ହେଲା ପ୍ରଶ୍ନ ବାଚକ ଚିହ୍ନ, କମା, ପୂର୍ଣ୍ଣଚ୍ଛେଦ ଇତ୍ୟାଦି ।

ଶବ୍ଦଭେଦ (ପାର୍ଟ ଅଫ ସ୍ପିଚ ଟ୍ୟାଗ)

ସମ୍ପାଦନା

ଗୋଟିଏ ଲେଖାରେ ଶବ୍ଦଟିଏ ଭିନ୍ନ ଭିନ୍ନ ରୂପରେ ରହିଥାଏ, ଯେପରିକି ବିଶେଷ୍ୟ, ନାମବାଚକ ବିଶେଷ୍ୟ, ବିଶେଷଣ, କ୍ରିୟା, କ୍ରିୟା ବିଶେଷଣ, ଚିହ୍ନ ଇତ୍ୟାଦି ।[] ଏହି ସବୁ ମଧ୍ୟ ଭିନ୍ନ ଭିନ୍ନ ଉପାୟରେ ଗୋଟିଏ ବାକ୍ୟରୁ କଢ଼ାଯାଇପାରେ ।[୧୦]

ସିମାନଟିକ୍ସ

ସମ୍ପାଦନା

ନେମଡ ଏଣ୍ଟିଟି ରେକଗନିସନ (ଏନ.ଇ.ଆର.)

ସମ୍ପାଦନା

ନେମଡ ଏଣ୍ଟିଟି ରେକଗନିସନ ବା ଏନ.ଇ.ଆର. ହେଉଛି ଏକ ପ୍ରକ୍ରିୟା ଯେଉଁଥିରେ ଆମେ ଏକ ଲେଖାକୁ ବିଶ୍ଳେଷଣ କରି ସେଥିରୁ ଦରକାରୀ ବିଶେଷ୍ୟ ଯଥା ଲୋକଙ୍କ ନାମ, ସ୍ଥାନର ନାମ କିମ୍ବା କୌଣସି ସଂସ୍ଥାର ନାମକୁ ବାହାର କରାଯାଇଥାଏ ।[୧୧]

ସେଣ୍ଟିମେଣ୍ଟ ଆନାଲିସିସ

ସମ୍ପାଦନା

ସେଣ୍ଟିମେଣ୍ଟ ଆନାଲିସିସ ବା ଭାବ ବିଶ୍ଳେଷଣ ହେଉଛି ଏକ ପ୍ରକ୍ରିୟା ଯାହାଦ୍ୱାରା ଲେଖା ବା କଥାବାର୍ତ୍ତାରେ ଥିବା ଭାବପ୍ରବଣତାକୁ ବାହାର କରାଯାଇଥାଏ । ମୁଖ୍ୟତଃ ଏହି ପ୍ରକ୍ରିୟାଦ୍ୱାରା ଗ୍ରାହକମାନେ ଦେଇଥିବା ମାତାମତରୁ ତାଙ୍କର ଭାବପ୍ରବଣତା ଉଦ୍ଧାର କରାଯାଇଥାଏ, ଯେପରିକି ଗ୍ରାହକଜଣକ ସେବା ଉପଲବ୍ଧକରି ଖୁଶି ଅଛନ୍ତି ବା ଦୁଃଖିତ ବା ରାଗି ଇତ୍ୟାଦି ।[୧୨][୧୩]

ଡିସ୍କୋର୍ସ

ସମ୍ପାଦନା

ଅଟୋମେଟିକ ସମରାଇଜେସନ

ସମ୍ପାଦନା

ସ୍ୱତଃପ୍ରବୃତ ଭାବେ ଏକ ଲେଖା ବା କଥାର ସାରକଥା ବା ସାରାଂଶ ଉଦ୍ଧାର କରିବାର ପ୍ରକ୍ରିୟାକୁ ଅଟୋମେଟିକ ସମରାଇଜେସନ ବା ଅଟୋ ସମରାଇଜେସନ କୁହାଯାଇଥାଏ ।[୧୪][୧୫][୧୬] ଏହି ମୁଖ୍ୟତଃ ଦୁଇ ଭାଗରେ ବିଭକ୍ତ ।

ଏକ୍ସଟ୍ରାକ୍ଟିଭ ସମରାଇଜେସନ
ସମ୍ପାଦନା

ଏଥିରେ ଲେଖାଟିରେ ଥିବା ଅଦରକାରୀ ଶବ୍ଦଗୁଡ଼ିକୁ ହଟେଇଦିଆଯାଇଥାଏ । କୌଣସି ନୂଆ ଶବ୍ଦ ଯୋଗ କରାଯାଇନଥାଏ । ଲେଖାଟିରେ ଥିବା ଶବ୍ଦଗୁଡ଼ିକୁ ଉପଯୋଗକରି ସାରାଂଶ ପ୍ରସ୍ତୁତ କରାଯାଇଥାଏ ।

ଆବଷ୍ଟ୍ରାକ୍ଟିଭ ସମରାଇଜେସନ
ସମ୍ପାଦନା

ଏଥିରେ ମେସିନ ଲର୍ଣିଂ ବା ଡିପ୍ ଲର୍ଣିଂ ଉପଯୋଗକରି ଲେଖାଟିରେ ଥିବା ଶବ୍ଦ ସହିତ ନୂଆ ଶବ୍ଦ ମଧ୍ୟ ଯୋଗ କରାଯାଇ ସାରାଂଶ ପ୍ରସ୍ତୁତ କରାଯାଏ । ଏହି ପ୍ରକ୍ରିୟାରେ ସାରକଥା ନିରୂପଣ କରିବା କଷ୍ଟକର ଏବଂ ସମୟସାପେକ୍ଷ ଅଟେ ।[୧୭]

କୋରିଫରେନ୍ସ ରିଜୋଲ୍ୟୁସନ

ସମ୍ପାଦନା

ଯଦି ଗୋଟିଏ ଲେଖାରେ ଦୁଇ ବା ଅଧିକ ଶବ୍ଦ ଗୋଟିଏହିଁ ବସ୍ତୁ, ସ୍ଥାନ ବା ବ୍ୟକ୍ତିଙ୍କୁ ସମ୍ବୋଧିତ କରୁଥାନ୍ତି ତେବେ ସେମାନଙ୍କର ସନ୍ଦର୍ଭ ଏକ ବୋଲି କୁହାଯାଇପାରେ । ଯନ୍ତ୍ରଟି କଥାବାର୍ତ୍ତା ସମୟରେ ଏହି ସନ୍ଦର୍ଭକୁ ନଜରରେ ରଖି ବାକ୍ୟର ଅର୍ଥ ବାହାର କରିବା ଗୁରୁତ୍ୱପୂର୍ଣ୍ଣ ଅଟେ । ଏହି ସନ୍ଦର୍ଭ ସମାଧାନକୁ କୋରିଫରେନ୍ସ ରିଜୋଲ୍ୟୁସନ କୁହାଯାଇଥାଏ ।

ସ୍ପିଚ ରେକଗନିସନ

ସମ୍ପାଦନା

କଥାବାର୍ତ୍ତାର ଶବ୍ଦକୁ ଚିନ୍ହିବା ଏବଂ ତାହାକୁ ଲେଖାରେ ରୂପାନ୍ତରଣ କରିବା ଏହି ବିଭାଗ ଅନ୍ତର୍ଗତ ଅଟେ ।[୧୮]

ଆହୁରି ଦେଖନ୍ତୁ

ସମ୍ପାଦନା

ବାହାର ତଥ୍ୟ

ସମ୍ପାଦନା
  1. Implementing an online help desk system based on conversational agent Authors: Alisa Kongthon, Chatchawal Sangkeettrakarn, Sarawoot Kongyoung and Choochart Haruechaiyasak. Published by ACM 2009 Article, Bibliometrics Data Bibliometrics. Published in: Proceeding, MEDES '09 Proceedings of the International Conference on Management of Emergent Digital EcoSystems, ACM New York, NY, USA. ISBN 978-1-60558-829-2, doi:10.1145/1643823.1643908
  2. "ଆର୍କାଇଭ୍ କପି". Archived from the original on 2018-08-18. Retrieved 2018-07-28. {{cite web}}: Cite has empty unknown parameter: |1= (help)
  3. https://www.ibm.com/developerworks/community/blogs/nlp/entry/tokenization?lang=en
  4. "ଆର୍କାଇଭ୍ କପି" (PDF). Archived from the original (PDF) on 2016-09-03. Retrieved 2018-07-27. {{cite web}}: Cite has empty unknown parameter: |1= (help)
  5. https://www.academia.edu/9773132/Paninian_Framework_for_Odia_Language_Processing
  6. http://eprints.iisc.ernet.in/4856/1/oriya.pdf
  7. https://www.academia.edu/3692319/Development_of_a_Hindi_Lemmatizer[permanent dead link]
  8. https://www.quora.com/What-is-difference-between-stemming-and-lemmatization
  9. https://www.academia.edu/31143556/An_Experiment_with_the_CRF_Parts_of_Speech_POS_Tagger_for_Odia
  10. https://www.sciencedirect.com/science/article/pii/S1877050915006365
  11. https://towardsdatascience.com/named-entity-recognition-applications-and-use-cases-acdbf57d595e
  12. https://www.lexalytics.com/technology/sentiment
  13. https://www.brandwatch.com/blog/understanding-sentiment-analysis/
  14. https://machinelearningmastery.com/gentle-introduction-text-summarization/
  15. http://pages.cs.wisc.edu/~jerryzhu/cs838/summarization.pdf
  16. https://www.quora.com/Natural-Language-Processing-What-are-algorithms-for-auto-summarize-text
  17. https://rare-technologies.com/text-summarization-in-python-extractive-vs-abstractive-techniques-revisited/
  18. https://en.wikipedia.org/wiki/Speech_recognition