ବ୍ୟବହାରକାରୀ:Soumendrak/ନ୍ୟାଚୁରାଲ ଲାଙ୍ଗୁଏଜ ପ୍ରୋସେସିଂ
ନ୍ୟାଚୁରାଲ ଲାଙ୍ଗୁଏଜ ପ୍ରୋସେସିଂ ବା ପ୍ରାକୃତିକ ଭାଷା ପ୍ରକ୍ରିୟାକରଣ କଂପ୍ୟୁଟର ବିଜ୍ଞାନ ଏବଂ ଆର୍ଟିଫିସିଆଲ ଇଣ୍ଟେଲିଜେନ୍ସର ସେହି ବିଭାଗକୁ କୁହାଯାଏ ଯାହା ମନୁଷ୍ୟର ଭାଷାଗୁଡ଼ିକ ସହ କମ୍ପ୍ୟୁଟରର କଥାବାର୍ତ୍ତାକୁ ବୁଝାଇଥାଏ। ଏହି ବିଭାଗର କିଛି ଜଟିଳ ସମସ୍ୟାଗୁଡ଼ିକ ହେଲା
ମୁଖ୍ୟ ମୂଲ୍ୟାଙ୍କନ ଏବଂ କାର୍ଯ୍ୟ
ସମ୍ପାଦନାପ୍ରାୟତଃ ନିମ୍ନଲିଖିତ କାର୍ଯ୍ୟଗୁଡ଼ିକ ଏହି ବିଭାଗରେ ଅଧିକ ଗବେଷଣା କରାହୋଇଥାଏ। ଲକ୍ଷ କରନ୍ତୁ କିଛି କାର୍ଯ୍ୟଗୁଡ଼ିକର ନିତିଦିନିଆ ଜୀବନରେ ପ୍ରୟୋଗ ଅଛି, ଅନ୍ୟ ପକ୍ଷରେ ବାକି କାର୍ଯ୍ୟଗୁଡ଼ିକ ବଡ଼ ବଡ଼ କାମ କରିବାରେ ସହାୟତା କରିଥାନ୍ତି।[୨]
ବାକ୍ୟ-ରଚନା
ସମ୍ପାଦନାଟୋକେନାଇଜେସନ
ସମ୍ପାଦନାକିଛି ଲେଖାକୁ ବାକ୍ୟ ବା ଶବ୍ଦରେ ଖଣ୍ଡ ଖଣ୍ଡ କରିବାକୁ ଏହା ଦର୍ଶାଇଥାଏ । ଗୋଟିଏ ବାକ୍ୟରେ ଥିବା ସମସ୍ତ ଶବ୍ଦଗୁଡ଼ିକୁ ଅଲଗା ଅଲଗା କରି ରଖିବାକୁ ଟୋକେନାଇଜେସନ ବା ଶବ୍ଦ ଖଣ୍ଡ କରିବା କୁହାଯାଇଥାଏ । [୩]
ଉଦାହରଣ ସ୍ୱରୂପ, ନିମ୍ନଲିଖିତ ଲେଖାଗୁଡିକୁ ନଜରକୁ ନିଆଯାଉ ।
ଲେଖା | ଟୋକେନାଇଜେସନ ପରେ |
---|---|
ଓଡ଼ିଶାର ରାଜଧାନୀ ଭୁବନେଶ୍ୱର ଅଟେ । | "ଓଡ଼ିଶାର", "ରାଜଧାନୀ", "ଭୁବନେଶ୍ୱର", "ଅଟେ", "।" |
କିଛି ଲେଖାକୁ ବାକ୍ୟ ବା ଶବ୍ଦରେ ଖଣ୍ଡ ଖଣ୍ଡ କରିବାକୁ ଏହା ଦର୍ଶାଇଥାଏ । ଗୋଟିଏ ବାକ୍ୟରେ ଥିବା ସମସ୍ତ ଶବ୍ଦଗୁଡ଼ିକୁ ଅଲଗା ଅଲଗା କରି ରଖିବାକୁ ଟୋକେନାଇଜେସନ ବା ଶବ୍ଦ ଖଣ୍ଡ କରିବା କୁହାଯାଇଥାଏ । | "କିଛି", "ଲେଖାକୁ", "ବାକ୍ୟ", "ବା", "ଶବ୍ଦରେ", "ଖଣ୍ଡ", "ଖଣ୍ଡ", "କରିବାକୁ", "ଏହା", "ଦର୍ଶାଇଥାଏ", "।", "ଗୋଟିଏ", "ବାକ୍ୟରେ", "ଥିବା", "ସମସ୍ତ", "ଶବ୍ଦଗୁଡ଼ିକୁ", "ଅଲଗା", "ଅଲଗା", "କରି", "ରଖିବାକୁ", "ଟୋକେନାଇଜେସନ", "ବା", "ଶବ୍ଦ", "ଖଣ୍ଡ", "କରିବା", "କୁହାଯାଇଥାଏ", "।" |
ଆର୍ଟିଫିସିଆଲ ନ୍ୟୁରାଲ ନେଟୱର୍କ ବା କୁତ୍ରିମ ମସ୍ତିଷ୍କ ଜାଲ ହେଉଛି ଏକ କୁତ୍ରିମ ମସ୍ତିଷ୍କ ଯାହା ମନୁଷ୍ୟର ମସ୍ତିଷ୍କର ଅନୁସରଣ କରି ତିଆରି କରାହୋଇଛି। | "ଆର୍ଟିଫିସିଆଲ", "ନ୍ୟୁରାଲ", "ନେଟୱର୍କ", "ବା", "କୁତ୍ରିମ", "ମସ୍ତିଷ୍କ", "ଜାଲ", "ହେଉଛି", "ଏକ", "କୁତ୍ରିମ", "ମସ୍ତିଷ୍କ", "ଯାହା", "ମନୁଷ୍ୟର", "ମସ୍ତିଷ୍କର", "ଅନୁସରଣ", "କରି", "ତିଆରି", "କରାହୋଇଛି", "।" |
from nltk.tokenize import word_tokenize
text = "ଓଡ଼ିଶାର ରାଜଧାନୀ ଭୁବନେଶ୍ୱର ଅଟେ |"
token_list = word_tokenize(text)
print(token_list)
# Output
['ଓଡ଼ିଶାର', 'ରାଜଧାନୀ', 'ଭୁବନେଶ୍ୱର', 'ଅଟେ', '|']]
ଷ୍ଟେମିଂ
ସମ୍ପାଦନାମୂଳ ପୃଷ୍ଠା: ଷ୍ଟେମିଂ
ଏକ ଶବ୍ଦକୁ ତାହାର ଗଠନ ଅନୁସାରେ ମୂଳ ଅକ୍ଷରରେ ରୂପାନ୍ତରଣ କରିବାକୁ ଷ୍ଟେମିଂ କୁହାଯାଇଥାଏ ।[୪] ଉଦାହରଣ ସ୍ୱରୂପ କିଛି ଶବ୍ଦ ନିମ୍ନରେ ପ୍ରଦର୍ଶନ ହେଲା ।[୫]
ଶବ୍ଦ | ଷ୍ଟେମିଂ ପରେ ମୂଳଶବ୍ଦ |
---|---|
ଚଲେଇବା | ଚଲେ |
ଲୋକମାନେ | ଲୋକ |
ଓଡ଼ିଶାର | ଓଡ଼ିଶା |
କୋକିଶିଆଳିଟିଏ | କୋକିଶିଆଳି |
ହାତୀପଲ | ହାତୀ |
import re
from nltk.tokenize import word_tokenize
text = "ଗାଈଆଳ ପିଲାମାନେ ଗାଈଗୁଡ଼ିକୁ ଚରାଉଛନ୍ତି"
plural_suffix = sorted(["ମାନେ", "ମାନ", "ମାନଙ୍କୁ", "ଗୁଡ଼ିକ", "ଗୁଡିକ", "ଗୁଡିକୁ", "ଗୁଡ଼ିକୁ", "ଟା", "ଟି", "ଗୋଟି", "ଟିଏ", "ଗୁଡ଼ାକ", "ଗୁଡାକ", "ଏ", "ଗଣ", "ପଲ", "ଗୁଡ଼ାଏ", "ଗୁଡାଏ", "ସବୁ", "ାଉଛନ୍ତି"])
plural_suffix_pattern = re.compile("$|".join(plural_suffix) + "$")
def stemm(token_list):
new_token_list = []
for token in token_list:
new_token = re.sub(plural_suffix_pattern, '', token)
new_token = token if len(new_token) < 2 else new_token
new_token_list.append(new_token)
return new_token_list
print(stemm(word_tokenize(text)))
# output
['ଗାଈଆଳ', 'ପିଲା', 'ଗାଈ', 'ଚର']
ଲେମାଟାଇଜେସନ
ସମ୍ପାଦନାଲେମାଟାଇଜେସନ ସାଧାରଣତଃ ଷ୍ଟେମିଂ ଠାରୁ ଉନ୍ନତଧରଣର ଅଟେ । ଏହା କେବଳ ଗୋଟିଏ ଶବ୍ଦକୁ ଲକ୍ଷ୍ୟରେ ନରଖି ଏହାର ପାଖାପାଖି ଶବ୍ଦଗୁଡ଼ିକୁ ମଧ୍ୟ ନଜରରେ ରଖି ସେମାନଙ୍କର ମୂଳ ଅକ୍ଷରରେ ରୂପାନ୍ତରଣ କରିଥାଏ ।[୬][୭] ଯଦିଓ ଓଡ଼ିଆ ଭାଷାରେ ଏପର୍ଯ୍ୟନ୍ତ ଶତ ପ୍ରତିଶତ ତ୍ରୁଟି ବିହୀନ ଲେମାଟାଇଜେସନ ହେଇପାରି ନାହିଁ, ଯଦି ଭବିଷ୍ୟତରେ ହୁଏ ତେବେ ଏହିଭଳି କେତୋଟି ଉଦାହରଣ ଦିଆଗଲା ।
ଶବ୍ଦ | ଲେମାଟାଇଜେସନ ପରେ ମୂଳ ଶବ୍ଦ |
---|---|
ଯିବା, ଯାଉଛି, ଗଲା, ଯିବ, ଯାଏ, ଗମନ | ଯାଏ |
କରେ, କଲା, କରୁଛି, କରିଆସୁଅଛି, କରିଥିଲା, କରିଥାଇପାରେ | କରେ |
ସୁନ୍ଦର, ସୌନ୍ଦର୍ଯ୍ୟ, ସୌନ୍ଦର୍ଯ୍ୟତା, ସୁନ୍ଦରୀ, ସୁନ୍ଦରତା | ସୁନ୍ଦର |
ମନେରଖନ୍ତୁ ଷ୍ଟେମିଂରେ କେବଳ ଶବ୍ଦର ଅକ୍ଷ୍ୟର ମାନଙ୍କର ଗଠନ ଦେଖି ମୂଳ ରୁପକୁ ଅଣାଯାଇଥାଏ, କିନ୍ତୁ ଏଠାରେ ଶବ୍ଦଟି କେଉଁ ଉଦ୍ଦେଶ୍ୟର କୁହାଯାଇଛି ତାହା ଦେଖି ମୂଳ ରୁପକୁ ଅଣା ଯାଇଥାଏ। ଏହାଦ୍ୱାରା ସମାନ ଅର୍ଥ ଥିବା ଶବ୍ଦଗୁଡ଼ିକୁ ମିଳାଇବାରେ ସୁବିଧା ହୋଇଥାଏ ।[୮]
ଷ୍ଟପୱାର୍ଡ ବାହାର କରିବା
ସମ୍ପାଦନାବାକ୍ୟ ମଧ୍ୟରେ ଏଭଳି କିଛି ଶବ୍ଦ ଥାଏ ଯାହା ବାକ୍ୟଟିକୁ ସୁନ୍ଦର ଏବଂ ବାକ୍ୟରଣ ଠିକ କରିବାରେ ଉପଯୋଗ ହୁଏ କିନ୍ତୁ ବାକ୍ୟର ଅର୍ଥ ବୁଝିବାରେ ସେହି ଶବ୍ଦଗୁଡ଼ିକ କିଛି କାମରେ ଆସନ୍ତି ନାହିଁ, ଏହି ପ୍ରକାର ଶବ୍ଦକୁ ଷ୍ଟପୱାର୍ଡ କୁହାଯାଏ । କିଛି ଉଦାହରଣ ନିମ୍ନରେ ଦିଅ ହେଲା ।
ବାକ୍ୟ | ଷ୍ଟପୱାର୍ଡ |
---|---|
ହଇରେ ମଦନା କଣ କରୁଛୁ କିରେ ? | ହଇରେ, କିରେ |
ମା'ରାଣ ଗଙ୍ଗାକୂଳକୁ ଆସି ପାପ ନଧୋଇ ଚାଲିଯିବ ଯେ ? | ମା'ରାଣ, ଯେ |
ଇମା, ହେଇଟି ଶୁଣୁଛ ଶୁକୁଟାକୁ କହିକି ସେ ମାହାନ୍ତି ଦୋକାନରୁ ୨ ପଇସାର ଚେନାଚୁର ଟିକେ ମଗେଇଲେ | ଇମା, ହେଇଟି, ସେ, ଟିକେ |
ବିରାମ ଚିହ୍ନ ବାହାର କରିବା
ସମ୍ପାଦନାବାକ୍ୟଗୁଡ଼ିକୁ ସଫା କରିବା ନିମିତ୍ତ ସେଥିରେ ଥିବା ବିଭିନ୍ନ ବିରାମ ଚିହ୍ନ ବା ପଂଚୁଏସନ ମାର୍କକୁ ବାହାର କରାଯାଇଥାଏ । କିଛି ପଂଚୁଏସନ ମାର୍କ ହେଲା ପ୍ରଶ୍ନ ବାଚକ ଚିହ୍ନ, କମା, ପୂର୍ଣ୍ଣଚ୍ଛେଦ ଇତ୍ୟାଦି ।
ଶବ୍ଦଭେଦ (ପାର୍ଟ ଅଫ ସ୍ପିଚ ଟ୍ୟାଗ)
ସମ୍ପାଦନାଗୋଟିଏ ଲେଖାରେ ଶବ୍ଦଟିଏ ଭିନ୍ନ ଭିନ୍ନ ରୂପରେ ରହିଥାଏ, ଯେପରିକି ବିଶେଷ୍ୟ, ନାମବାଚକ ବିଶେଷ୍ୟ, ବିଶେଷଣ, କ୍ରିୟା, କ୍ରିୟା ବିଶେଷଣ, ଚିହ୍ନ ଇତ୍ୟାଦି ।[୯] ଏହି ସବୁ ମଧ୍ୟ ଭିନ୍ନ ଭିନ୍ନ ଉପାୟରେ ଗୋଟିଏ ବାକ୍ୟରୁ କଢ଼ାଯାଇପାରେ ।[୧୦]
ଉଦାହରଣ ସ୍ୱରୂପ:
ମୁଁ ଯାଉଅଛି ।
ଏହି ବାକ୍ୟଟିରେ
ମୁଁ : ବିଶେଷ୍ୟ ଓ କର୍ତ୍ତା
ଯାଉଅଛି : କ୍ରିୟା
ସିମାନଟିକ୍ସ
ସମ୍ପାଦନାନେମଡ ଏଣ୍ଟିଟି ରେକଗନିସନ (ଏନ.ଇ.ଆର.)
ସମ୍ପାଦନାନେମଡ ଏଣ୍ଟିଟି ରେକଗନିସନ ବା ଏନ.ଇ.ଆର. ହେଉଛି ଏକ ପ୍ରକ୍ରିୟା ଯେଉଁଥିରେ ଆମେ ଏକ ଲେଖାକୁ ବିଶ୍ଳେଷଣ କରି ସେଥିରୁ ଦରକାରୀ ବିଶେଷ୍ୟ ଯଥା ଲୋକଙ୍କ ନାମ, ସ୍ଥାନର ନାମ କିମ୍ବା କୌଣସି ସଂସ୍ଥାର ନାମକୁ ବାହାର କରାଯାଇଥାଏ ।[୧୧] ସ୍ପଷ୍ଟଭାବରେ ବୁଝିବାନିମିତ୍ତ ନିମ୍ନରେ କିଛି ଉଦାହରଣ ଦେଖାଯାଇଅଛି ।
ଲେଖା | ଲେଖାରେ ଥିବା ଏନ.ଇ.ଆର. |
---|---|
ବୈଜୟନ୍ତ ପଣ୍ଡା ଅରଟେଲ କମ୍ପାନୀର ମାଲିକ ଅଟନ୍ତି । | ବୈଜୟନ୍ତ ପଣ୍ଡା[ନାମ], ଅରଟେଲ[ସଂସ୍ଥା] |
ବେଙ୍ଗାଳୁରୁରୁ ଭୁବନେଶ୍ୱର ୧୪୧୫ କିଲୋମିଟର ଅଟେ । | ବେଙ୍ଗାଳୁରୁ[ସ୍ଥାନ], ଭୁବନେଶ୍ୱର[ସ୍ଥାନ] |
ସେଣ୍ଟିମେଣ୍ଟ ଆନାଲିସିସ
ସମ୍ପାଦନାସେଣ୍ଟିମେଣ୍ଟ ଆନାଲିସିସ ବା ଭାବ ବିଶ୍ଳେଷଣ ହେଉଛି ଏକ ପ୍ରକ୍ରିୟା ଯାହାଦ୍ୱାରା ଲେଖା ବା କଥାବାର୍ତ୍ତାରେ ଥିବା ଭାବପ୍ରବଣତାକୁ ବାହାର କରାଯାଇଥାଏ । ମୁଖ୍ୟତଃ ଏହି ପ୍ରକ୍ରିୟାଦ୍ୱାରା ଗ୍ରାହକମାନେ ଦେଇଥିବା ମାତାମତରୁ ତାଙ୍କର ଭାବପ୍ରବଣତା ଉଦ୍ଧାର କରାଯାଇଥାଏ, ଯେପରିକି ଗ୍ରାହକଜଣକ ସେବା ଉପଲବ୍ଧକରି ଖୁଶି ଅଛନ୍ତି ବା ଦୁଃଖିତ ବା ରାଗି ଇତ୍ୟାଦି ।[୧୨][୧୩] ଅଧିକ ଜାଣିବା ନିମିତ୍ତ ଉଦାହରଣ ଦେଖନ୍ତୁ ।
ଲିଖିତ ବା କଥିତ ମନ୍ତବ୍ୟ | ଉଦ୍ଧାରିତ ଭାବ |
---|---|
ବୋବାଲ ହେଇଥିଲାବେ ମୁଭିଟା, ମୁଁ ଦିଥର ଦେଖିକି ଆସିଲିଣି । କାଲି ଆହୁରିଥରେ ଯିବି । ତୁ ଆସିବୁ ଯଦି କହ ? ତୋ ପାଇଁ ଗୋଟେ ଟିକଟ ବାଡ଼େଇ ଦେବା । | ବହୁତ ଭଲ , ବହୁତ ଖୁସି |
କି ଧଇଁୟାଁ ନଡ଼ିଆ ତେଲ ସେ ଗାଁ ମୁଣ୍ଡର ତେଜରାତି ଦୋକାନୀଟା ଦେଲାହୋ, ଲଗଉ ଲଗଉ ଚୁଟି ସବୁ ଝଡ଼ିଗଲା । ଆରଥର ଗାଁକୁ ଯାଏ, ତା'ର ଦିନେକୁ ମୋର ଦିନେ । | ବହୁତ ରାଗି, ଅସନ୍ତୁଷ୍ଟ |
କଟକ-ଚଣ୍ଡିଖୋଲ ରାସ୍ତା ମଝିରେ କାଳୁ ଭାଇ ଢ଼ାବା ଗୋଟେ ଖୋଲିଛି , ପଇସା ଠିକଠାକ ନଉଛି ଆଉ ତାର ମଟନ ତରକାରୀ କୁହନ୍ତୁନି ଆଜ୍ଞା, ପୁରା ଆଙ୍ଗୁଠି ଚାଟୁଥିବେ । ହେଲେ ବସିକି ଖାଇବାକୁ ଜାଗା ମିଳିବନି ବହୁତ ଗହଳି । ମଟନ ଛଡ଼ା ଆଉ କିଛିବି ଏତେ ଭଲ ମିଳେନି । ଥରେ ଯାଇକି ଘେରାଏ ମାରିଦେଇକି ଆସୁନାହାଁନ୍ତି । | ମଝିଆ ମଝି, ବେଶି ଭଲ ନୁହେଁ କି ଖରାପ ନୁହେଁ |
ଡିସ୍କୋର୍ସ
ସମ୍ପାଦନାଅଟୋମେଟିକ ସମରାଇଜେସନ
ସମ୍ପାଦନାସ୍ୱତଃପ୍ରବୃତ ଭାବେ ଏକ ଲେଖା ବା କଥାର ସାରକଥା ବା ସାରାଂଶ ଉଦ୍ଧାର କରିବାର ପ୍ରକ୍ରିୟାକୁ ଅଟୋମେଟିକ ସମରାଇଜେସନ ବା ଅଟୋ ସମରାଇଜେସନ କୁହାଯାଇଥାଏ ।[୧୪][୧୫][୧୬] ଏହି ମୁଖ୍ୟତଃ ଦୁଇ ଭାଗରେ ବିଭକ୍ତ ।
ଏକ୍ସଟ୍ରାକ୍ଟିଭ ସମରାଇଜେସନ
ସମ୍ପାଦନାଏଥିରେ ଲେଖାଟିରେ ଥିବା ଅଦରକାରୀ ଶବ୍ଦଗୁଡ଼ିକୁ ହଟେଇଦିଆଯାଇଥାଏ । କୌଣସି ନୂଆ ଶବ୍ଦ ଯୋଗ କରାଯାଇନଥାଏ । ଲେଖାଟିରେ ଥିବା ଶବ୍ଦଗୁଡ଼ିକୁ ଉପଯୋଗକରି ସାରାଂଶ ପ୍ରସ୍ତୁତ କରାଯାଇଥାଏ ।
ଆବଷ୍ଟ୍ରାକ୍ଟିଭ ସମରାଇଜେସନ
ସମ୍ପାଦନାଏଥିରେ ମେସିନ ଲର୍ଣିଂ ବା ଡିପ୍ ଲର୍ଣିଂ ଉପଯୋଗକରି ଲେଖାଟିରେ ଥିବା ଶବ୍ଦ ସହିତ ନୂଆ ଶବ୍ଦ ମଧ୍ୟ ଯୋଗ କରାଯାଇ ସାରାଂଶ ପ୍ରସ୍ତୁତ କରାଯାଏ । ଏହି ପ୍ରକ୍ରିୟାରେ ସାରକଥା ନିରୂପଣ କରିବା କଷ୍ଟକର ଏବଂ ସମୟସାପେକ୍ଷ ଅଟେ ।[୧୭]
କୋରିଫରେନ୍ସ ରିଜୋଲ୍ୟୁସନ
ସମ୍ପାଦନାଯଦି ଗୋଟିଏ ଲେଖାରେ ଦୁଇ ବା ଅଧିକ ଶବ୍ଦ ଗୋଟିଏହିଁ ବସ୍ତୁ, ସ୍ଥାନ ବା ବ୍ୟକ୍ତିଙ୍କୁ ସମ୍ବୋଧିତ କରୁଥାନ୍ତି ତେବେ ସେମାନଙ୍କର ସନ୍ଦର୍ଭ ଏକ ବୋଲି କୁହାଯାଇପାରେ । ଯନ୍ତ୍ରଟି କଥାବାର୍ତ୍ତା ସମୟରେ ଏହି ସନ୍ଦର୍ଭକୁ ନଜରରେ ରଖି ବାକ୍ୟର ଅର୍ଥ ବାହାର କରିବା ଗୁରୁତ୍ୱପୂର୍ଣ୍ଣ ଅଟେ । ଏହି ସନ୍ଦର୍ଭ ସମାଧାନକୁ କୋରିଫରେନ୍ସ ରିଜୋଲ୍ୟୁସନ କୁହାଯାଇଥାଏ । ଗୋଟିଏ ଉଦାହରଣ ନିମ୍ନରେ ଦିଆହେଲା ।
- ନବୀନ ପଟ୍ଟନାୟକ ଓଡ଼ିଶାର ମୁଖ୍ୟମନ୍ତ୍ରୀ ଅଟନ୍ତି । ସେ ଭୁବନେଶ୍ୱରରେ ଅବସ୍ଥିତ ତାଙ୍କର ଗୃହ, ନବୀନ ନିବାସରେ ବାସ କରନ୍ତି ।
ଉପରୋକ୍ତ ବାକ୍ୟ ଦୁଇଟିରେ, ଦ୍ୱିତୀୟ ବାକ୍ୟରେ ଥିବା ଶବ୍ଦ 'ସେ' ପ୍ରଥମ ବାକ୍ୟରେ ଥିବା ନାମ "ନବୀନ ପଟ୍ଟନାୟକ"କୁ ସମ୍ବୋଧିତ କରୁଅଛି । ଯନ୍ତ୍ରକୁ ଯଦି ଏବେ ଉପରୋକ୍ତ ଦୁଇଟି ବାକ୍ୟ ଦେଇ କେହି ପରେ ପଚାରିବେ, ନବୀନ ପଟ୍ଟନାୟକ କେଉଁଠାରେ ବାସ କରନ୍ତି ?, ତେବେ ଯନ୍ତ୍ରକୁ ସମାଧାନ କରିବାର ଅଛିକି ଦ୍ୱିତୀୟ ବାକ୍ୟରେ ଥିବା 'ସେ' ହିଁ ପ୍ରଥମ ବାକ୍ୟର "ନବୀନ ପଟ୍ଟନାୟକ"କୁ ସମ୍ବୋଧିତ କରୁଅଛି । ଏହାକୁ କୁହାଯାଏ, କୋରିଫରେନ୍ସ ରିଜୋଲ୍ୟୁସନ ।
କଥା
ସମ୍ପାଦନାସ୍ପିଚ ରେକଗନିସନ
ସମ୍ପାଦନାକଥାବାର୍ତ୍ତାର ଶବ୍ଦକୁ ଚିନ୍ହିବା ଏବଂ ତାହାକୁ ଲେଖାରେ ରୂପାନ୍ତରଣ କରିବା ଏହି ବିଭାଗ ଅନ୍ତର୍ଗତ ଅଟେ ।[୧୮]
ଆହୁରି ଦେଖନ୍ତୁ
ସମ୍ପାଦନାବାହାର ତଥ୍ୟ
ସମ୍ପାଦନାଆଧାର
ସମ୍ପାଦନା- ↑ Implementing an online help desk system based on conversational agent Authors: Alisa Kongthon, Chatchawal Sangkeettrakarn, Sarawoot Kongyoung and Choochart Haruechaiyasak. Published by ACM 2009 Article, Bibliometrics Data Bibliometrics. Published in: Proceeding, MEDES '09 Proceedings of the International Conference on Management of Emergent Digital EcoSystems, ACM New York, NY, USA. ISBN 978-1-60558-829-2, doi:10.1145/1643823.1643908
- ↑ http://docs.cltk.org/en/latest/odia.html#alphabet
- ↑ https://www.ibm.com/developerworks/community/blogs/nlp/entry/tokenization?lang=en
- ↑ http://ijarcet.org/wp-content/uploads/IJARCET-VOL-3-ISSUE-1-9-11.pdf
- ↑ https://www.academia.edu/9773132/Paninian_Framework_for_Odia_Language_Processing
- ↑ http://eprints.iisc.ernet.in/4856/1/oriya.pdf
- ↑ https://www.academia.edu/3692319/Development_of_a_Hindi_Lemmatizer
- ↑ https://www.quora.com/What-is-difference-between-stemming-and-lemmatization
- ↑ https://www.academia.edu/31143556/An_Experiment_with_the_CRF_Parts_of_Speech_POS_Tagger_for_Odia
- ↑ https://www.sciencedirect.com/science/article/pii/S1877050915006365
- ↑ https://towardsdatascience.com/named-entity-recognition-applications-and-use-cases-acdbf57d595e
- ↑ https://www.lexalytics.com/technology/sentiment
- ↑ https://www.brandwatch.com/blog/understanding-sentiment-analysis/
- ↑ https://machinelearningmastery.com/gentle-introduction-text-summarization/
- ↑ http://pages.cs.wisc.edu/~jerryzhu/cs838/summarization.pdf
- ↑ https://www.quora.com/Natural-Language-Processing-What-are-algorithms-for-auto-summarize-text
- ↑ https://rare-technologies.com/text-summarization-in-python-extractive-vs-abstractive-techniques-revisited/
- ↑ https://en.wikipedia.org/wiki/Speech_recognition