ବ୍ୟବହାରକାରୀ:Soumendrak/ନ୍ୟାଚୁରାଲ ଲାଙ୍ଗୁଏଜ ପ୍ରୋସେସିଂ

ଆର୍ଟିଫିସିଆଲ ଇଣ୍ଟେଲିଜେନ୍ସ
ଗୁରୁତ୍ବପୂର୍ଣ ଲକ୍ଷ୍ୟଗୁଡିକ
ନଲେଜ ରିଜନିଂ
ପ୍ଲାନିଂ
ମେସିନ ଲର୍ଣିଂ
ନ୍ୟାଚୁରାଲ ଲାଙ୍ଗୁଏଜ ପ୍ରୋସେସିଂ
କମ୍ପ୍ୟୁଟର ଭିଜନ
ରୋବୋଟିକ୍ସ
ଆର୍ଟିଫିସିଆଲ ଜେନେରାଲ ଇଣ୍ଟେଲିଜେନ୍ସ
ପଦ୍ଧତିଗୁଡିକ
ସିମ୍ବଲିକ
ଡିପ ଲର୍ଣିଂ
ବାୟେସିଆନ ନେଟୱର୍କ
ଏଭୋଲ୍ଯୁସନାରୀ ଆଲଗୋରିଦମ
ଫିଲୋସଫି
ଏଥିକ୍ସ
ବଞ୍ଚିରହିବାର ଆଶଙ୍କା
ଟ୍ଯୁରିଙ୍ଗ ପରୀକ୍ଷା
ଚୀନ ଘର
ବନ୍ଧୁତ୍ବପୂର୍ଣ ଏଆଇ
ଇତିହାସ
ଘଟଣାବଳୀ
ପ୍ରଗତି
ଏଆଇ ଶୀତ
ପ୍ରଯୁକ୍ତି ବିଦ୍ୟା
ପ୍ରୟୋଗ
ପ୍ରକଳ୍ପ
ପ୍ରୋଗ୍ରାମିଂ ଭାଷା
ଗ୍ଲୋସରି
ଗ୍ଲୋସରି
An automated online assistant providing customer service on a web page, an example of an application where natural-language processing is a major component.[]

ନ୍ୟାଚୁରାଲ ଲାଙ୍ଗୁଏଜ ପ୍ରୋସେସିଂ ବା ପ୍ରାକୃତିକ ଭାଷା ପ୍ରକ୍ରିୟାକରଣ କଂପ୍ୟୁଟର ବିଜ୍ଞାନ ଏବଂ ଆର୍ଟିଫିସିଆଲ ଇଣ୍ଟେଲିଜେନ୍ସର ସେହି ବିଭାଗକୁ କୁହାଯାଏ ଯାହା ମନୁଷ୍ୟର ଭାଷାଗୁଡ଼ିକ ସହ କମ୍ପ୍ୟୁଟରର କଥାବାର୍ତ୍ତାକୁ ବୁଝାଇଥାଏ।  ଏହି ବିଭାଗର କିଛି ଜଟିଳ ସମସ୍ୟାଗୁଡ଼ିକ ହେଲା

ମୁଖ୍ୟ ମୂଲ୍ୟାଙ୍କନ ଏବଂ କାର୍ଯ୍ୟ

ସମ୍ପାଦନା

ପ୍ରାୟତଃ ନିମ୍ନଲିଖିତ କାର୍ଯ୍ୟଗୁଡ଼ିକ ଏହି ବିଭାଗରେ ଅଧିକ ଗବେଷଣା କରାହୋଇଥାଏ। ଲକ୍ଷ କରନ୍ତୁ କିଛି କାର୍ଯ୍ୟଗୁଡ଼ିକର ନିତିଦିନିଆ ଜୀବନରେ ପ୍ରୟୋଗ ଅଛି, ଅନ୍ୟ ପକ୍ଷରେ ବାକି କାର୍ଯ୍ୟଗୁଡ଼ିକ ବଡ଼ ବଡ଼ କାମ କରିବାରେ ସହାୟତା କରିଥାନ୍ତି।[]

ବାକ୍ୟ-ରଚନା

ସମ୍ପାଦନା

ଟୋକେନାଇଜେସନ

ସମ୍ପାଦନା

କିଛି ଲେଖାକୁ ବାକ୍ୟ ବା ଶବ୍ଦରେ ଖଣ୍ଡ ଖଣ୍ଡ କରିବାକୁ ଏହା ଦର୍ଶାଇଥାଏ । ଗୋଟିଏ ବାକ୍ୟରେ ଥିବା ସମସ୍ତ ଶବ୍ଦଗୁଡ଼ିକୁ ଅଲଗା ଅଲଗା କରି ରଖିବାକୁ ଟୋକେନାଇଜେସନ ବା ଶବ୍ଦ ଖଣ୍ଡ କରିବା କୁହାଯାଇଥାଏ । []

ଉଦାହରଣ ସ୍ୱରୂପ, ନିମ୍ନଲିଖିତ ଲେଖାଗୁଡିକୁ ନଜରକୁ ନିଆଯାଉ ।

ଲେଖା ଟୋକେନାଇଜେସନ ପରେ
ଓଡ଼ିଶାର ରାଜଧାନୀ ଭୁବନେଶ୍ୱର ଅଟେ । "ଓଡ଼ିଶାର", "ରାଜଧାନୀ", "ଭୁବନେଶ୍ୱର", "ଅଟେ", "।"
କିଛି ଲେଖାକୁ ବାକ୍ୟ ବା ଶବ୍ଦରେ ଖଣ୍ଡ ଖଣ୍ଡ କରିବାକୁ ଏହା ଦର୍ଶାଇଥାଏ । ଗୋଟିଏ ବାକ୍ୟରେ ଥିବା ସମସ୍ତ ଶବ୍ଦଗୁଡ଼ିକୁ ଅଲଗା ଅଲଗା କରି ରଖିବାକୁ ଟୋକେନାଇଜେସନ ବା ଶବ୍ଦ ଖଣ୍ଡ କରିବା କୁହାଯାଇଥାଏ । "କିଛି", "ଲେଖାକୁ", "ବାକ୍ୟ", "ବା", "ଶବ୍ଦରେ", "ଖଣ୍ଡ", "ଖଣ୍ଡ", "କରିବାକୁ", "ଏହା", "ଦର୍ଶାଇଥାଏ", "।", "ଗୋଟିଏ", "ବାକ୍ୟରେ", "ଥିବା", "ସମସ୍ତ", "ଶବ୍ଦଗୁଡ଼ିକୁ", "ଅଲଗା", "ଅଲଗା", "କରି", "ରଖିବାକୁ", "ଟୋକେନାଇଜେସନ", "ବା", "ଶବ୍ଦ", "ଖଣ୍ଡ", "କରିବା", "କୁହାଯାଇଥାଏ", "।"
ଆର୍ଟିଫିସିଆଲ ନ୍ୟୁରାଲ ନେଟୱର୍କ ବା କୁତ୍ରିମ ମସ୍ତିଷ୍କ ଜାଲ ହେଉଛି ଏକ କୁତ୍ରିମ ମସ୍ତିଷ୍କ ଯାହା ମନୁଷ୍ୟର ମସ୍ତିଷ୍କର ଅନୁସରଣ କରି ତିଆରି କରାହୋଇଛି। "ଆର୍ଟିଫିସିଆଲ", "ନ୍ୟୁରାଲ", "ନେଟୱର୍କ", "ବା", "କୁତ୍ରିମ", "ମସ୍ତିଷ୍କ", "ଜାଲ", "ହେଉଛି", "ଏକ", "କୁତ୍ରିମ", "ମସ୍ତିଷ୍କ", "ଯାହା", "ମନୁଷ୍ୟର", "ମସ୍ତିଷ୍କର", "ଅନୁସରଣ", "କରି", "ତିଆରି", "କରାହୋଇଛି", "।"
ପ୍ରୋଗ୍ରାମ (ପାଇଥନ୍ ୩ ରେ)
ସମ୍ପାଦନା
from nltk.tokenize import word_tokenize

text = "ଓଡ଼ିଶାର ରାଜଧାନୀ ଭୁବନେଶ୍ୱର ଅଟେ |"
token_list = word_tokenize(text)
print(token_list)

# Output 
['ଓଡ଼ିଶାର', 'ରାଜଧାନୀ', 'ଭୁବନେଶ୍ୱର', 'ଅଟେ', '|']]

ଷ୍ଟେମିଂ

ସମ୍ପାଦନା

ମୂଳ ପୃଷ୍ଠା: ଷ୍ଟେମିଂ

ଏକ ଶବ୍ଦକୁ ତାହାର ଗଠନ ଅନୁସାରେ ମୂଳ ଅକ୍ଷରରେ ରୂପାନ୍ତରଣ କରିବାକୁ ଷ୍ଟେମିଂ କୁହାଯାଇଥାଏ ।[] ଉଦାହରଣ ସ୍ୱରୂପ କିଛି ଶବ୍ଦ ନିମ୍ନରେ ପ୍ରଦର୍ଶନ ହେଲା ।[]

ଶବ୍ଦ ଷ୍ଟେମିଂ ପରେ ମୂଳଶବ୍ଦ
ଚଲେଇବା ଚଲେ
ଲୋକମାନେ ଲୋକ
ଓଡ଼ିଶାର ଓଡ଼ିଶା
କୋକିଶିଆଳିଟିଏ କୋକିଶିଆଳି
ହାତୀପଲ ହାତୀ
ପ୍ରୋଗ୍ରାମ (ପାଇଥନ୍ ୩ ରେ)
ସମ୍ପାଦନା
import re
from nltk.tokenize import word_tokenize

text = "ଗାଈଆଳ ପିଲାମାନେ ଗାଈଗୁଡ଼ିକୁ ଚରାଉଛନ୍ତି"

plural_suffix = sorted(["ମାନେ", "ମାନ", "ମାନଙ୍କୁ", "ଗୁଡ଼ିକ", "ଗୁଡିକ", "ଗୁଡିକୁ", "ଗୁଡ଼ିକୁ", "ଟା", "ଟି", "ଗୋଟି", "ଟିଏ", "ଗୁଡ଼ାକ", "ଗୁଡାକ", "ଏ", "ଗଣ", "ପଲ", "ଗୁଡ଼ାଏ", "ଗୁଡାଏ", "ସବୁ", "ାଉଛନ୍ତି"])
plural_suffix_pattern = re.compile("$|".join(plural_suffix) + "$")

def stemm(token_list):
    new_token_list = []
    for token in token_list:
        new_token = re.sub(plural_suffix_pattern, '', token)
        new_token = token if len(new_token) < 2 else new_token
        new_token_list.append(new_token)
    return new_token_list

print(stemm(word_tokenize(text)))
# output
['ଗାଈଆଳ', 'ପିଲା', 'ଗାଈ', 'ଚର']

ଲେମାଟାଇଜେସନ

ସମ୍ପାଦନା

ଲେମାଟାଇଜେସନ ସାଧାରଣତଃ ଷ୍ଟେମିଂ ଠାରୁ ଉନ୍ନତଧରଣର ଅଟେ । ଏହା କେବଳ ଗୋଟିଏ ଶବ୍ଦକୁ ଲକ୍ଷ୍ୟରେ ନରଖି ଏହାର ପାଖାପାଖି ଶବ୍ଦଗୁଡ଼ିକୁ ମଧ୍ୟ ନଜରରେ ରଖି ସେମାନଙ୍କର ମୂଳ ଅକ୍ଷରରେ ରୂପାନ୍ତରଣ କରିଥାଏ ।[][] ଯଦିଓ ଓଡ଼ିଆ ଭାଷାରେ ଏପର୍ଯ୍ୟନ୍ତ ଶତ ପ୍ରତିଶତ ତ୍ରୁଟି ବିହୀନ ଲେମାଟାଇଜେସନ ହେଇପାରି ନାହିଁ, ଯଦି ଭବିଷ୍ୟତରେ ହୁଏ ତେବେ ଏହିଭଳି କେତୋଟି ଉଦାହରଣ ଦିଆଗଲା ।

ଶବ୍ଦ ଲେମାଟାଇଜେସନ ପରେ ମୂଳ ଶବ୍ଦ
ଯିବା, ଯାଉଛି, ଗଲା, ଯିବ, ଯାଏ, ଗମନ ଯାଏ
କରେ, କଲା, କରୁଛି, କରିଆସୁଅଛି, କରିଥିଲା, କରିଥାଇପାରେ କରେ
ସୁନ୍ଦର, ସୌନ୍ଦର୍ଯ୍ୟ, ସୌନ୍ଦର୍ଯ୍ୟତା, ସୁନ୍ଦରୀ, ସୁନ୍ଦରତା ସୁନ୍ଦର

ମନେରଖନ୍ତୁ ଷ୍ଟେମିଂରେ କେବଳ ଶବ୍ଦର ଅକ୍ଷ୍ୟର ମାନଙ୍କର ଗଠନ ଦେଖି ମୂଳ ରୁପକୁ ଅଣାଯାଇଥାଏ, କିନ୍ତୁ ଏଠାରେ ଶବ୍ଦଟି କେଉଁ ଉଦ୍ଦେଶ୍ୟର କୁହାଯାଇଛି ତାହା ଦେଖି ମୂଳ ରୁପକୁ ଅଣା ଯାଇଥାଏ। ଏହାଦ୍ୱାରା ସମାନ ଅର୍ଥ ଥିବା ଶବ୍ଦଗୁଡ଼ିକୁ ମିଳାଇବାରେ ସୁବିଧା ହୋଇଥାଏ ।[]

ଷ୍ଟପୱାର୍ଡ ବାହାର କରିବା

ସମ୍ପାଦନା

ବାକ୍ୟ ମଧ୍ୟରେ ଏଭଳି କିଛି ଶବ୍ଦ ଥାଏ ଯାହା ବାକ୍ୟଟିକୁ ସୁନ୍ଦର ଏବଂ ବାକ୍ୟରଣ ଠିକ କରିବାରେ ଉପଯୋଗ ହୁଏ କିନ୍ତୁ ବାକ୍ୟର ଅର୍ଥ ବୁଝିବାରେ ସେହି ଶବ୍ଦଗୁଡ଼ିକ କିଛି କାମରେ ଆସନ୍ତି ନାହିଁ, ଏହି ପ୍ରକାର ଶବ୍ଦକୁ ଷ୍ଟପୱାର୍ଡ କୁହାଯାଏ । କିଛି ଉଦାହରଣ ନିମ୍ନରେ ଦିଅ ହେଲା ।

ବାକ୍ୟ ଷ୍ଟପୱାର୍ଡ
ହଇରେ ମଦନା କଣ କରୁଛୁ କିରେ ? ହଇରେ, କିରେ
ମା'ରାଣ ଗଙ୍ଗାକୂଳକୁ ଆସି ପାପ ନଧୋଇ ଚାଲିଯିବ ଯେ ? ମା'ରାଣ, ଯେ
ଇମା, ହେଇଟି ଶୁଣୁଛ ଶୁକୁଟାକୁ କହିକି ସେ ମାହାନ୍ତି ଦୋକାନରୁ ୨ ପଇସାର ଚେନାଚୁର ଟିକେ ମଗେଇଲେ ଇମା, ହେଇଟି, ସେ, ଟିକେ

ବିରାମ ଚିହ୍ନ ବାହାର କରିବା

ସମ୍ପାଦନା

ବାକ୍ୟଗୁଡ଼ିକୁ ସଫା କରିବା ନିମିତ୍ତ ସେଥିରେ ଥିବା ବିଭିନ୍ନ ବିରାମ ଚିହ୍ନ ବା ପଂଚୁଏସନ ମାର୍କକୁ ବାହାର କରାଯାଇଥାଏ । କିଛି ପଂଚୁଏସନ ମାର୍କ ହେଲା ପ୍ରଶ୍ନ ବାଚକ ଚିହ୍ନ, କମା, ପୂର୍ଣ୍ଣଚ୍ଛେଦ ଇତ୍ୟାଦି ।

ଶବ୍ଦଭେଦ (ପାର୍ଟ ଅଫ ସ୍ପିଚ ଟ୍ୟାଗ)

ସମ୍ପାଦନା

ଗୋଟିଏ ଲେଖାରେ ଶବ୍ଦଟିଏ ଭିନ୍ନ ଭିନ୍ନ ରୂପରେ ରହିଥାଏ, ଯେପରିକି ବିଶେଷ୍ୟ, ନାମବାଚକ ବିଶେଷ୍ୟ, ବିଶେଷଣ, କ୍ରିୟା, କ୍ରିୟା ବିଶେଷଣ, ଚିହ୍ନ ଇତ୍ୟାଦି ।[] ଏହି ସବୁ ମଧ୍ୟ ଭିନ୍ନ ଭିନ୍ନ ଉପାୟରେ ଗୋଟିଏ ବାକ୍ୟରୁ କଢ଼ାଯାଇପାରେ ।[୧୦]

ଉଦାହରଣ ସ୍ୱରୂପ:

ମୁଁ ଯାଉଅଛି ।

ଏହି ବାକ୍ୟଟିରେ

ମୁଁ : ବିଶେଷ୍ୟ ଓ କର୍ତ୍ତା

ଯାଉଅଛି : କ୍ରିୟା

ସିମାନଟିକ୍ସ

ସମ୍ପାଦନା

ନେମଡ ଏଣ୍ଟିଟି ରେକଗନିସନ (ଏନ.ଇ.ଆର.)

ସମ୍ପାଦନା

ନେମଡ ଏଣ୍ଟିଟି ରେକଗନିସନ ବା ଏନ.ଇ.ଆର. ହେଉଛି ଏକ ପ୍ରକ୍ରିୟା ଯେଉଁଥିରେ ଆମେ ଏକ ଲେଖାକୁ ବିଶ୍ଳେଷଣ କରି ସେଥିରୁ ଦରକାରୀ ବିଶେଷ୍ୟ ଯଥା ଲୋକଙ୍କ ନାମ, ସ୍ଥାନର ନାମ କିମ୍ବା କୌଣସି ସଂସ୍ଥାର ନାମକୁ ବାହାର କରାଯାଇଥାଏ ।[୧୧] ସ୍ପଷ୍ଟଭାବରେ ବୁଝିବାନିମିତ୍ତ ନିମ୍ନରେ କିଛି ଉଦାହରଣ ଦେଖାଯାଇଅଛି ।

ଲେଖା ଲେଖାରେ ଥିବା ଏନ.ଇ.ଆର.
ବୈଜୟନ୍ତ ପଣ୍ଡା ଅରଟେଲ କମ୍ପାନୀର ମାଲିକ ଅଟନ୍ତି । ବୈଜୟନ୍ତ ପଣ୍ଡା[ନାମ], ଅରଟେଲ[ସଂସ୍ଥା]
ବେଙ୍ଗାଳୁରୁରୁ ଭୁବନେଶ୍ୱର ୧୪୧୫ କିଲୋମିଟର ଅଟେ । ବେଙ୍ଗାଳୁରୁ[ସ୍ଥାନ], ଭୁବନେଶ୍ୱର[ସ୍ଥାନ]

ସେଣ୍ଟିମେଣ୍ଟ ଆନାଲିସିସ

ସମ୍ପାଦନା

ସେଣ୍ଟିମେଣ୍ଟ ଆନାଲିସିସ ବା ଭାବ ବିଶ୍ଳେଷଣ ହେଉଛି ଏକ ପ୍ରକ୍ରିୟା ଯାହାଦ୍ୱାରା ଲେଖା ବା କଥାବାର୍ତ୍ତାରେ ଥିବା ଭାବପ୍ରବଣତାକୁ ବାହାର କରାଯାଇଥାଏ । ମୁଖ୍ୟତଃ ଏହି ପ୍ରକ୍ରିୟାଦ୍ୱାରା ଗ୍ରାହକମାନେ ଦେଇଥିବା ମାତାମତରୁ ତାଙ୍କର ଭାବପ୍ରବଣତା ଉଦ୍ଧାର କରାଯାଇଥାଏ, ଯେପରିକି ଗ୍ରାହକଜଣକ ସେବା ଉପଲବ୍ଧକରି ଖୁଶି ଅଛନ୍ତି ବା ଦୁଃଖିତ ବା ରାଗି ଇତ୍ୟାଦି ।[୧୨][୧୩] ଅଧିକ ଜାଣିବା ନିମିତ୍ତ ଉଦାହରଣ ଦେଖନ୍ତୁ ।

ଲିଖିତ ବା କଥିତ ମନ୍ତବ୍ୟ ଉଦ୍ଧାରିତ ଭାବ
ବୋବାଲ ହେଇଥିଲାବେ ମୁଭିଟା, ମୁଁ ଦିଥର ଦେଖିକି ଆସିଲିଣି । କାଲି ଆହୁରିଥରେ ଯିବି । ତୁ ଆସିବୁ ଯଦି କହ ? ତୋ ପାଇଁ ଗୋଟେ ଟିକଟ ବାଡ଼େଇ ଦେବା । ବହୁତ ଭଲ , ବହୁତ ଖୁସି
କି ଧଇଁୟାଁ ନଡ଼ିଆ ତେଲ ସେ ଗାଁ ମୁଣ୍ଡର ତେଜରାତି ଦୋକାନୀଟା ଦେଲାହୋ, ଲଗଉ ଲଗଉ ଚୁଟି ସବୁ ଝଡ଼ିଗଲା । ଆରଥର ଗାଁକୁ ଯାଏ, ତା'ର ଦିନେକୁ ମୋର ଦିନେ । ବହୁତ ରାଗି, ଅସନ୍ତୁଷ୍ଟ
କଟକ-ଚଣ୍ଡିଖୋଲ ରାସ୍ତା ମଝିରେ କାଳୁ ଭାଇ ଢ଼ାବା ଗୋଟେ ଖୋଲିଛି , ପଇସା ଠିକଠାକ ନଉଛି ଆଉ ତାର ମଟନ ତରକାରୀ କୁହନ୍ତୁନି ଆଜ୍ଞା, ପୁରା ଆଙ୍ଗୁଠି ଚାଟୁଥିବେ । ହେଲେ ବସିକି ଖାଇବାକୁ ଜାଗା ମିଳିବନି ବହୁତ ଗହଳି । ମଟନ ଛଡ଼ା ଆଉ କିଛିବି ଏତେ ଭଲ ମିଳେନି । ଥରେ ଯାଇକି ଘେରାଏ ମାରିଦେଇକି ଆସୁନାହାଁନ୍ତି । ମଝିଆ ମଝି, ବେଶି ଭଲ ନୁହେଁ କି ଖରାପ ନୁହେଁ

ଡିସ୍କୋର୍ସ

ସମ୍ପାଦନା

ଅଟୋମେଟିକ ସମରାଇଜେସନ

ସମ୍ପାଦନା

ସ୍ୱତଃପ୍ରବୃତ ଭାବେ ଏକ ଲେଖା ବା କଥାର ସାରକଥା ବା ସାରାଂଶ ଉଦ୍ଧାର କରିବାର ପ୍ରକ୍ରିୟାକୁ ଅଟୋମେଟିକ ସମରାଇଜେସନ ବା ଅଟୋ ସମରାଇଜେସନ କୁହାଯାଇଥାଏ ।[୧୪][୧୫][୧୬] ଏହି ମୁଖ୍ୟତଃ ଦୁଇ ଭାଗରେ ବିଭକ୍ତ ।

ଏକ୍ସଟ୍ରାକ୍ଟିଭ ସମରାଇଜେସନ
ସମ୍ପାଦନା

ଏଥିରେ ଲେଖାଟିରେ ଥିବା ଅଦରକାରୀ ଶବ୍ଦଗୁଡ଼ିକୁ ହଟେଇଦିଆଯାଇଥାଏ । କୌଣସି ନୂଆ ଶବ୍ଦ ଯୋଗ କରାଯାଇନଥାଏ । ଲେଖାଟିରେ ଥିବା ଶବ୍ଦଗୁଡ଼ିକୁ ଉପଯୋଗକରି ସାରାଂଶ ପ୍ରସ୍ତୁତ କରାଯାଇଥାଏ ।

ଆବଷ୍ଟ୍ରାକ୍ଟିଭ ସମରାଇଜେସନ
ସମ୍ପାଦନା

ଏଥିରେ ମେସିନ ଲର୍ଣିଂ ବା ଡିପ୍ ଲର୍ଣିଂ ଉପଯୋଗକରି ଲେଖାଟିରେ ଥିବା ଶବ୍ଦ ସହିତ ନୂଆ ଶବ୍ଦ ମଧ୍ୟ ଯୋଗ କରାଯାଇ ସାରାଂଶ ପ୍ରସ୍ତୁତ କରାଯାଏ । ଏହି ପ୍ରକ୍ରିୟାରେ ସାରକଥା ନିରୂପଣ କରିବା କଷ୍ଟକର ଏବଂ ସମୟସାପେକ୍ଷ ଅଟେ ।[୧୭]

କୋରିଫରେନ୍ସ ରିଜୋଲ୍ୟୁସନ

ସମ୍ପାଦନା

ଯଦି ଗୋଟିଏ ଲେଖାରେ ଦୁଇ ବା ଅଧିକ ଶବ୍ଦ ଗୋଟିଏହିଁ ବସ୍ତୁ, ସ୍ଥାନ ବା ବ୍ୟକ୍ତିଙ୍କୁ ସମ୍ବୋଧିତ କରୁଥାନ୍ତି ତେବେ ସେମାନଙ୍କର ସନ୍ଦର୍ଭ ଏକ ବୋଲି କୁହାଯାଇପାରେ । ଯନ୍ତ୍ରଟି କଥାବାର୍ତ୍ତା ସମୟରେ ଏହି ସନ୍ଦର୍ଭକୁ ନଜରରେ ରଖି ବାକ୍ୟର ଅର୍ଥ ବାହାର କରିବା ଗୁରୁତ୍ୱପୂର୍ଣ୍ଣ ଅଟେ । ଏହି ସନ୍ଦର୍ଭ ସମାଧାନକୁ କୋରିଫରେନ୍ସ ରିଜୋଲ୍ୟୁସନ କୁହାଯାଇଥାଏ । ଗୋଟିଏ ଉଦାହରଣ ନିମ୍ନରେ ଦିଆହେଲା ।

ଉପରୋକ୍ତ ବାକ୍ୟ ଦୁଇଟିରେ, ଦ୍ୱିତୀୟ ବାକ୍ୟରେ ଥିବା ଶବ୍ଦ 'ସେ' ପ୍ରଥମ ବାକ୍ୟରେ ଥିବା ନାମ "ନବୀନ ପଟ୍ଟନାୟକ"କୁ ସମ୍ବୋଧିତ କରୁଅଛି । ଯନ୍ତ୍ରକୁ ଯଦି ଏବେ ଉପରୋକ୍ତ ଦୁଇଟି ବାକ୍ୟ ଦେଇ କେହି ପରେ ପଚାରିବେ, ନବୀନ ପଟ୍ଟନାୟକ କେଉଁଠାରେ ବାସ କରନ୍ତି ?, ତେବେ ଯନ୍ତ୍ରକୁ ସମାଧାନ କରିବାର ଅଛିକି ଦ୍ୱିତୀୟ ବାକ୍ୟରେ ଥିବା 'ସେ' ହିଁ ପ୍ରଥମ ବାକ୍ୟର "ନବୀନ ପଟ୍ଟନାୟକ"କୁ ସମ୍ବୋଧିତ କରୁଅଛି । ଏହାକୁ କୁହାଯାଏ, କୋରିଫରେନ୍ସ ରିଜୋଲ୍ୟୁସନ ।

ସ୍ପିଚ ରେକଗନିସନ

ସମ୍ପାଦନା

କଥାବାର୍ତ୍ତାର ଶବ୍ଦକୁ ଚିନ୍ହିବା ଏବଂ ତାହାକୁ ଲେଖାରେ ରୂପାନ୍ତରଣ କରିବା ଏହି ବିଭାଗ ଅନ୍ତର୍ଗତ ଅଟେ ।[୧୮]

ଆହୁରି ଦେଖନ୍ତୁ

ସମ୍ପାଦନା

ବାହାର ତଥ୍ୟ

ସମ୍ପାଦନା
  1. Implementing an online help desk system based on conversational agent Authors: Alisa Kongthon, Chatchawal Sangkeettrakarn, Sarawoot Kongyoung and Choochart Haruechaiyasak. Published by ACM 2009 Article, Bibliometrics Data Bibliometrics. Published in: Proceeding, MEDES '09 Proceedings of the International Conference on Management of Emergent Digital EcoSystems, ACM New York, NY, USA. ISBN 978-1-60558-829-2, doi:10.1145/1643823.1643908
  2. http://docs.cltk.org/en/latest/odia.html#alphabet
  3. https://www.ibm.com/developerworks/community/blogs/nlp/entry/tokenization?lang=en
  4. http://ijarcet.org/wp-content/uploads/IJARCET-VOL-3-ISSUE-1-9-11.pdf
  5. https://www.academia.edu/9773132/Paninian_Framework_for_Odia_Language_Processing
  6. http://eprints.iisc.ernet.in/4856/1/oriya.pdf
  7. https://www.academia.edu/3692319/Development_of_a_Hindi_Lemmatizer
  8. https://www.quora.com/What-is-difference-between-stemming-and-lemmatization
  9. https://www.academia.edu/31143556/An_Experiment_with_the_CRF_Parts_of_Speech_POS_Tagger_for_Odia
  10. https://www.sciencedirect.com/science/article/pii/S1877050915006365
  11. https://towardsdatascience.com/named-entity-recognition-applications-and-use-cases-acdbf57d595e
  12. https://www.lexalytics.com/technology/sentiment
  13. https://www.brandwatch.com/blog/understanding-sentiment-analysis/
  14. https://machinelearningmastery.com/gentle-introduction-text-summarization/
  15. http://pages.cs.wisc.edu/~jerryzhu/cs838/summarization.pdf
  16. https://www.quora.com/Natural-Language-Processing-What-are-algorithms-for-auto-summarize-text
  17. https://rare-technologies.com/text-summarization-in-python-extractive-vs-abstractive-techniques-revisited/
  18. https://en.wikipedia.org/wiki/Speech_recognition