ମେସିନ ଟ୍ରାନ୍ସଲେସନ

(Machine Translationରୁ ଲେଉଟି ଆସିଛି)

ମେସିନ ଟ୍ରାନ୍ସଲେସନ ବା ଯାନ୍ତ୍ରିକ ଅନୁବାଦ ହେଉଛି କମ୍ପ୍ୟୁଟେସନାଲ ଲିଙ୍ଗୁଇସ୍ଟିକସର ଏକ ବିଭାଗ ଯେଉଁଠାରେ ସଫ୍ଟୱେରଦ୍ୱାରା ଗୋଟିଏ ଭାଷାରୁ ଆଉ ଅନ୍ଯ ଏକ ଭାଷାକୁ ଅନୁବାଦ କରାଯାଇଥାଏ ।

ସାଧାରଣ କ୍ଷେତ୍ରରେ ମେସିନ ଟ୍ରାନ୍ସଲେସନ କେବଳ ଶବ୍ଦଗୁଡ଼ିକୁ ଗୋଟିଏ ଭାଷାରୁ ଅନ୍ୟ ଏକ ଭାଷାରେ ପ୍ରତିସ୍ଥାପନା କରିଥାଏ । କିନ୍ତୁ କେବଳ ଏତିକିରେ ଅନୁବାଦ ଠିକ ଭାବରେ ହୁଏ ନାହିଁ , କାରଣ ଗନ୍ତବ୍ୟ ଭାଷାର ଶବ୍ଦର ପାଖାପାଖି ଶବ୍ଦଗୁଡ଼ିକୁନେଇ ହେଉଥିବା ସମୂହର ଅର୍ଥକୁ ମଧ୍ୟ ଦେଖିବାକୁ ପଡ଼ିଥାଏ । ଅନୁବାଦ ସମୟରେ ମୂଳ ଏବଂ ଗନ୍ତବ୍ୟ ଭାଷା ମଧ୍ୟରେ ଥିବା ପାର୍ଥକ୍ୟଗୁଡ଼ିକୁ ଷ୍ଟାଟିଷ୍ଟିକାଲ/ପରିସଂଖ୍ୟାନ ତଥା ନ୍ୟୂରାଲ ମେସିନ ଟ୍ରାନ୍ସଲେସନଦ୍ୱାରା ଅନେକ ମାତ୍ରାରେ କମ କରାଯାଇପାରୁଛି ।[]

ଇତିହାସ

ସମ୍ପାଦନା

ଯାନ୍ତ୍ରିକ ଅନୁବାଦର ଉତ୍ପନ୍ନ ପାଖାପାଖି ୧୭ତମ ଶତକରେ ହୋଇଥିଲା । ୧୬୨୯ ମସିହାରେ ରେନେ ଦେଶକର୍ଟେସ (René Descartes) ଗୋଟିଏ ସାଧାରଣ ଭାଷା ପ୍ରସ୍ତାବ ଦେଇଥିଲେ ଯାହାଦ୍ୱାରା ବିଭିନ୍ନ ଭାଷାଭାଷୀ ଲୋକେ ଗୋଟିଏ ଚିହ୍ନ ଉପଯୋଗ କରିପାରିବେ । ୨୦୧୬ରେ ଗୁଗଲ ନ୍ୟୂରାଲ ମେସିନ ଟ୍ରାନ୍ସଲେସନ ଉପଯୋଗ କରିବା ଆରମ୍ଭ କରିଥିଲା ।

ଅନୁବାଦ ପ୍ରକ୍ରିୟା 

ସମ୍ପାଦନା

ମନୁଷ୍ୟକୃତ ଅନୁବାଦକୁ ଦୁଇଟି ଉପ-ପ୍ରକ୍ରିୟାରେ କୁହାଯାଇପାରେ:

  1. ମୂଳ ଭାଷାର ଅର୍ଥ ବ୍ୟାଖ୍ୟା (decoding) କରିବା
  2. ଗନ୍ତବ୍ୟ ଭାଷାରେ ସେହି ଅର୍ଥକୁ ସଙ୍କେତିକରଣ (encoding) କରିବା

ଦ୍ରୁଷ୍ଟିକୋଣ 

ସମ୍ପାଦନା
 
ଇଣ୍ଟରଲିଙ୍ଗୁଆଲ ମେସିନ ଟ୍ରାନ୍ସଲେସନର ଏକ ଚିତ୍ର

ମେସିନ ଟ୍ରାନ୍ସଲେସନ ହେଉଛି ଏକ କଠିନ ପ୍ରକ୍ରିୟା। ବିଭିନ୍ନ ପ୍ରକାରର ଉପାୟ ସମୟାନୁକ୍ରମେ ଆବିଷ୍କାର ହୋଇଛି। ସେଗୁଡ଼ିକ ହେଲା:[][][]

  • ରୁଲ ବେସ୍ଡ ମେସିନ ଟ୍ରାନ୍ସଲେସନ
    • ଟ୍ରାନ୍ସଫର ବେସ୍ଡ
    • ଇଣ୍ଟରଲିଙ୍ଗୁଆଲ
    • ଡିକ୍ସନାରୀ ବେସ୍ଡ
  • ଷ୍ଟାଟିଷ୍ଟିକାଲ ମେସିନ ଟ୍ରାନ୍ସଲେସନ
  • ଏକଜାମ୍ପଲ ବେସ୍ଡ ମେସିନ ଟ୍ରାନ୍ସଲେସନ
  • ହାଇବ୍ରିଡ଼ ମେସିନ ଟ୍ରାନ୍ସଲେସନ
  • ନ୍ୟୂରାଲ ମେସିନ ଟ୍ରାନ୍ସଲେସନ

ନ୍ୟୂରାଲ ମେସିନ ଟ୍ରାନ୍ସଲେସନ

ସମ୍ପାଦନା

ନିଉରାଲ ମେସିନ ଟ୍ରାନ୍ସଲେସନକୁ "ଡିପ୍ ଲର୍ଣିଂ" ର ଏକ ଉପାୟ ହିସାବରେ ଧରାଯାଇପାରେ। ନିଉରାଲ ମେସିନ ଟ୍ରାନ୍ସଲେସନ ଏ କିଛି ବର୍ଷ ଭିତରେ ଅନେକ ଉନ୍ନତି କରିଛି ୲ Google ଷ୍ଟାଟିଷ୍ଟିକାଲ ମେସିନ ଟ୍ରାନ୍ସଲେସନ ଅପେକ୍ଷା ଏବେ ନିଉରାଲ ମେସିନ ଟ୍ରାନ୍ସଲେସନ ବ୍ୟବହାର କରୁଥିବାର ଘୋଷଣା କରିଛି []। ୨୦୧୮ରେ Microsoft  ଟିମ WMT-2017ରେ ମଣିଷମାନଙ୍କ ସ୍ତରରେ ଅନୁବାଦ କରି ଏକ ମାଇଲ ଖୁଣ୍ଟି ତିଆରି କରିଛି []

ପ୍ରୟୋଗ 

ସମ୍ପାଦନା

ସମୁର୍ଣ୍ଣ ସ୍ୱୟଂଚାଳିତ ଭାବରେ 'ଗଠନ ଅନିୟନ୍ତ୍ରିତ ଲେଖା' (Unstructured text) ର ଉଚ୍ଚମାନର ମେସିନ ଅନୁବାଦ କଲାଭଳି ଯଦିଓ କୌଣସି ବ୍ୟବସ୍ଥା ନାହିଁ, ଅନେକ ବ୍ୟବସ୍ଥା ଅଛି ଯାହା ଅପାତତଃ ଭଲ ଫଳ ଦେଉଛି। ଯଦି ଅନୁବାଦକୁ କୌଣସି ନିର୍ଦ୍ଦିଷ୍ଟ ବିଷୟବସ୍ତୁ ଉପରେ ନିର୍ଦ୍ଧାରିତ କରାଯାଏ ଓ ନିୟନ୍ତ୍ରଣ କରାଯାଏ ତାହେଲେ ମେସିନ ଅନୁବାଦର ମାନର ଉତ୍ତରୋତ୍ତର ଉନ୍ନତି କରାଯାଇପାରେ।[]

ସେମାନଙ୍କର ଲିମିଟେସନ ଥିଲେ ମଧ୍ଯ MT ପ୍ରୋଗ୍ରାମ ସବୁ ପୃଥିବୀ ସାରା ବ୍ୟବହୃତ ହେଉଛି। ସମ୍ଭବତଃ ଇଉରୋପିଆନ କମିସନ ହେଉଛି ଏହାର ବୃହତ୍ତମ ସାଙ୍ଗଠନିକ ବ୍ୟବହାରକ। ଯେମିତିକି ଗୋଠେନ୍ବେର୍ଗ ବିଶ୍ୱବିଦ୍ୟାଳୟଦ୍ୱାରା ସଂଯୋଜିତ MOLTO ପ୍ରକଳ୍ପ, EUର ଅନେକତମ ଭାଷାମାନଙ୍କୁ ନେଇ ଏକ ବିଶ୍ୱାସଯୋଗ୍ୟ ଅନୁବାଦ ଯନ୍ତ୍ର ପ୍ରକଳ୍ପ ପାଇଁ ୨.୩୫୫ ନିୟୁତ ୟୁରୋରୁ ଅଧିକ ଅନୁଦାନ ପାଇଥିଲା।[] MT ବ୍ୟବସ୍ଥାମାନଙ୍କର ତତ୍ପର ଉନ୍ନତି, ମନୁଷ୍ୟକୃତ ଅନୁବାଦ ପାଇଁ ଅନୁଦାନ କମ କରିବାରୁ ଆସିଲା, ଯାହାଦ୍ୱାରା EU ଯନ୍ତ୍ର ଚାଳିତ ଅନୁବାଦ ଉପରେ ଅଧିକ ନିର୍ଭର କରିବା ଆରମ୍ଭ କଲା। [] ଇଉରୋପିଆନ କମିସନ ISA ଯୋଜନା ଦ୍ୱାରା MT@EC ତିଆରି କରିବା ପାଇଁ ୩.୦୭୨ ନିୟୁତ ୟୁରୋ ଦାନ କରିଥିଲା; MT@EC ଏକ ଗଣତିଭିତ୍ତିକ ଯନ୍ତ୍ର ଅନୁବାଦ ପ୍ରକଳ୍ପ ଯାହା EUର ପ୍ରଶାସନିକ ଆବଶ୍ୟକତା ପାଇଁ ତିଆରି ହୋଇଥିଲା ଓ ଏକ ନିୟମଭିତ୍ତିକ ଅନୁବାଦକ ବ୍ୟବସ୍ଥାକୁ ସ୍ଥାନାନ୍ତର କରିଥିଲା।[୧୦]

2005ରେ ଗୁଗୁଲ ଏକ ନିଜସ୍ୱ ଗଣତିଭିତ୍ତିକ ଯନ୍ତ୍ର ଅନୁବାଦ ବ୍ୟବସ୍ଥା ବ୍ୟବହାର କରି ପ୍ରତିଶୃତିଜନକ ଫଳାଫଳର ଦାବି କଲା।[୧୧] National Institute for Standards and Technology.[48]ଦ୍ୱାରା ହୋଇଥିବା ପରୀକ୍ଷାରେ ଗୁଗୁଲର ଏ "ଗଣତିଭିତ୍ତିକ ଯନ୍ତ୍ର ଅନୁବାଦ (Statistical Machine Translation)" ଇଂଜିନ, "ଗୁଗୁଲ ଲାଙ୍ଗୁଏଜ ଟୁଲ"ରେ ବ୍ୟବହାର ହୋଇଥିବା,  ଆରବୀ <-> ଇଂରାଜି ଓ ଚାଇନିଜ <-> ଇଂରାଜି ଅନୁବାଦରେ ପାଖାପାଖି ୦.୪୨୮୧ ସ୍କୋର କରି ପ୍ରଥମ ହେଲା, ଗ୍ରୀଷ୍ମ ୨୦୦୬ ରେ IBM ୦.୩୯୫୪ ସ୍କୋର (BLEU ସ୍କୋର) କରି ଦ୍ୱିତୀୟ ହୋଇଥିଲା। [୧୨][୧୩][୧୪]

ଏବେକାର ଆତଙ୍କବାଦ ଉପରେ ହେଉଥିବା ଫୋକସ ପାଇଁ , ଆମେରିକାର ସେନା ଓ ସୁରକ୍ଷା ବଳ, ପ୍ରାକୃତିକ ଭାଷା ପ୍ରଯୁକ୍ତିବିଜ୍ଞାନରେ ଅନେକ ସମ୍ବଳ ଖର୍ଚ କରୁଛି।[୧୫] DARPAର ଇନ୍ଫରମେସନ ପ୍ରୋସେସିଂ ଟେକ୍ନୋଲୋଜି ଅଫିସ TIDES ଓ Babylon ଅନୁବାଦକ ଭଳି ଯୋଜନା ଚାଳନା କରୁଛି।

ଏ କିଛିଦିନରେ ଇଣ୍ଟରନେଟରେ ସୋସିଆଲ ନେଟୱର୍କିଙ୍ଗର ଅଭୂତପୂର୍ବ ଆବିର୍ଭାବ ଯାନ୍ତ୍ରିକ ଅନୁବାଦ ସଫ୍ଟୱେର ପ୍ରୟୋଗର ଅନ୍ଯ ଏକ ନୂଆ ସ୍ତର ତିଆରି କରିଛି, ଫେସବୁକରେ ବା ସ୍କାଇପ, ଗୁଗୁଲ ଟକ, MSN ମେସେଞ୍ଜର ଭଳି କ୍ଷଣିକ ଖବର (ଇନ୍ସଟାଣ୍ଟ ମେସେଜିଙ୍ଗକ୍ଲାଏଣ୍ଟ ସବୁ, ବ୍ୟବହାରକ ମାନଙ୍କପାଇଁ ଯାନ୍ତ୍ରିକ ଅନୁବାଦ ପରସ୍ପର ସହ ଅଲଗା ଭାଷାରେ କଥାବାର୍ତ୍ତା କରିବାର ସୁବିଧା ତିଆରି କରିଛି। ଅନେକ ମୋବାଇଲ ପାଇଁ ବ୍ୟବହାରିକ ଯାନ୍ତ୍ରିକ ଅନୁବାଦ ବାହାରି ସାରିଛି, ସୁବିଧା ପାଇଁ ମୋବାଇଲ ସବୁକୁ ମୋବାଇଲ ଅନୁବାଦ ଉପକରଣ ଭାବରେ ବ୍ୟବହାର କରାଯାଉଛି ଯାହା ଅଲଗା ଭାଷା କହୁଥିବା ଏବଂ ସାଥିରେ ବ୍ୟବସାୟ କରୁଥିବା  ବ୍ୟବସାୟୀ ମାନଙ୍କ ସୁବିଧାରେ ଆସୁଛି, ନୂଆ ବିଦେଶୀ ଭାଷା ଶିଖୁଥିବା ଛାତ୍ରଛାତ୍ରୀ ମାନଙ୍କ କାମରେବି ଆସୁଛି, ଆଉ ନୂଆ ବିଦେଶ ଯାତ୍ରୀଙ୍କୁ ମଣିଷ ଅନୁବାଦକଙ୍କ ବିନା ଭ୍ରମଣ କରିବାରେ ସାହାଯ୍ୟ କରିପାରିଛି।

୧୯୬୬ରେ ଯୁକ୍ତରାଷ୍ଟ୍ର ଆମେରିକାରେ ତିଆରି ହୋଇଥିବା ଅଟୋମେଟେଡ଼ ଲାଙ୍ଗୁଏଜ ପ୍ରୋସେସିଂ ଆଡ଼ଭାଇଜରି କମିଟୀ  ଦ୍ୱାରା ମନୁଷ୍ୟ ଅନୁବାଦର ଅଯୋଗ୍ୟ ପ୍ରତିଦ୍ୱନ୍ଦୀ, ଭାବରେ ବର୍ଣ୍ଣିତ ହୋଇ ମଧ୍ୟ,[୧୬] ଯାନ୍ତ୍ରିକ ଅନୁବାଦର ମାନକ ମୂଲ୍ୟରେ ଏବେ ଏତେ ଉନ୍ନତି ହୋଇଛି ଯେ, ଅନଲାଇନ ସହଯୋଗ ଓ ଭେଷଜବିଦ୍ୟା ଆଦି କ୍ଷେତ୍ରରେ ଏହାର ବ୍ୟବହାର ଖୋଜା ଚାଲିଛି। ମଣିଷ ଅନୁବାଦକମାନଙ୍କ ଅନୁପସ୍ଥିତିରେ, ମେଡିକାଲ ସେଟିଙ୍ଗରେ, ଏ ଟେକ୍ନୋଲୋଜିର ଉପଯୋଗିତା ଅନ୍ୟ ଏକ ଅନୁସନ୍ଧାନର କ୍ଷେତ୍ର, କିନ୍ତୁ ମେଡିକାଲ ଡାଇଗ୍ନୋସିଶରେ ସମ୍ପୁର୍ଣ୍ଣ ସଠିକ ଅନୁବାଦର ଆବଶ୍ୟକତା ପାଇଁ ଅସୁବିଧା ସୃଷ୍ଟି ହେଉଛି।[୧୭]

ମୂଲ୍ୟାଙ୍କନ

ସମ୍ପାଦନା

ମେସିନ ଟ୍ରାନ୍ସଲେସନରେ ବ୍ୟବସ୍ଥା ମାନଙ୍କର ମୂଲ୍ୟାଙ୍କନ, ବିଭିନ୍ନ ଗୁଣାବଳୀ ଉପରେ ନିର୍ଭର କରେ। ଅନୁବାଦର ବ୍ୟବହାର ସ୍ଥାନ, ମେସିନ ଟ୍ରାନ୍ସଲେସନ ସଫ୍ଟୱେରର ମୂଳ ପ୍ରକୃତି ଓ ଅନୁବାଦ ପ୍ରକ୍ରିୟାର ପ୍ରକୃତି ସେ ଗୁଣାବଳୀରେ ଅନ୍ତର୍ଭୁକ୍ତ।

ବିଭିନ୍ନ ଯୋଜନା ସବୁ ବିଭିନ୍ନ ଉଦ୍ଦେଶ୍ୟରେ ଭଲ କାମ କରିପାରେ, ଯେମିତିକି, ଗଣତିଭିତ୍ତିକ ଯନ୍ତ୍ରାନୁବାଦ(SMT) (ଷ୍ଟାଟିଷ୍ଟିକାଲ ମେସିନ ଟ୍ରାନ୍ସଲେସନ), ଉଦାହରଣ ଭିତ୍ତିକ ଯନ୍ତ୍ରାନୁବାଦ (EBMT) ଅପେକ୍ଷା ସାଧାରଣତଃ ଭଲ କାମ କରେ, କିନ୍ତୁ ଅନୁସନ୍ଧାନୀମାନେ ଦେଖିଛନ୍ତି ଯେ ଇଂରାଜୀରୁ ଫ୍ରେଞ୍ଚକୁ ଅନୁବାଦ କଲାବେଳେ  EBMT ଭଲ କାମ କରୁଛି [୧୮]। ସମାନ କଥା ଟେକ୍ନିକାଲ ଡକୁମେଣ୍ଟରେ ମଧ୍ୟ ସତ୍ୟ, ସେମାନଙ୍କ ବିଧିବଦ୍ଧ ପ୍ରକୃତି ପାଇଁ, SMT ବ୍ୟବହାର କରି ଅଧିକ ସହଜରେ ଅନୁବାଦ କରିହେବ।

କିନ୍ତୁ କିଛି ବ୍ୟବହାରରେ, ଯେମିତିକି ନିୟନ୍ତ୍ରିତ ଭାଷାରେ ଲିଖିତ, ବସ୍ତୁ (ପ୍ରଡକ୍ଟ) ବର୍ଣ୍ଣନାକୁ, ଅଭିଧାନ ଭିତ୍ତିକ ଯନ୍ତ୍ରାନୁବାଦ (dictionary-based machine-translation), କେବଳ ମାନ ନିରୀକ୍ଷଣ ବିଭାଗକୁ ଛାଡ଼ିଦେଲେ, ମଣିଷର କୌଣସି ନିର୍ଦ୍ଦେଶ ନଥାଇ ସଠିକ ଅନୁବାଦ କରିପାରିଛି।[୧୯]

ଯନ୍ତ୍ରାନୁବାଦର ମାନ ମୂଲ୍ୟାଙ୍କନ ପାଇଁ ବିଭିନ୍ନ ଉପାୟ ଅଛି। ସବୁଠୁଁ ପୁରୁଣା ହେଉଛି ମଣିଷ ବିଚାରକ ମାନଙ୍କଦ୍ୱାରା ଅନୁବାଦର ମାନ ନିରୂପଣ କରିବା।[୨୦] ଯଦିଓ ମନୁଷ୍ୟ ବିଚାର ଭିତ୍ତିକ ମୂଲ୍ୟାଙ୍କନ ସମୟସାପେକ୍ଷ, ତଥାପି ଏପର୍ଯ୍ୟନ୍ତ ତାହାହିଁ ବିଭିନ୍ନ ଅନୁବାଦ ବ୍ୟବସ୍ଥା ମାନଙ୍କର (ଯେମିତିକି RBMT ଓ SMT) ତୁଳନା ପାଇଁ ସବୁଠୁ ବିଶ୍ୱାସଜନକ ଉପାୟ୲[୨୧] ସ୍ୱୟଂଚାଳିତ ମୂଲ୍ୟାଙ୍କନ କରିବାର ଉପାୟ ସବୁ ହେଉଛି BLEU , NIST, METEOR ଓ LEPOR [୨୨]

ଆହୁରି ଦେଖନ୍ତୁ

ସମ୍ପାଦନା
  • Cohen, J. M. (1986), "Translation", Encyclopedia Americana, vol. 27, pp. 12–15
  • Hutchins, W. John; Somers, Harold L. (1992). An Introduction to Machine Translation. London: Academic Press. ISBN 0-12-362830-X.
  • Lewis-Kraus, Gideon, "Tower of Babble", New York Times Magazine, June 7, 2015, pp. 48–52.

ବାହ୍ୟ ଆଧାର

ସମ୍ପାଦନା
  1. Albat, Thomas Fritz. "Systems and Methods for Automatically Estimating a Translation Time." US Patent 0185235, 19 July 2012.
  2. https://www.lingo-star.com/different-types-machine-translation/
  3. chrome-extension://oemmndcbldboiebfnladdacbdfmadadm/https://kantanmt.com/documents/Machine_Translation.pdf
  4. https://localizeblog.com/types-of-machine-translation/[permanent dead link]
  5. https://www.theregister.co.uk/2016/11/17/googles_neural_net_translates_languages_not_trained_on/
  6. https://blogs.microsoft.com/ai/chinese-to-english-translator-milestone/
  7. https://en.wikipedia.org/wiki/Machine_translation#Applications
  8. http://www.molto-project.eu/
  9. https://www.spiegel.de/international/europe/google-translate-has-ambitious-goals-for-machine-translation-a-921646.html
  10. https://ec.europa.eu/isa2/home_en
  11. http://googleblog.blogspot.com/2005/08/machines-do-translating.html
  12. https://ieeexplore.ieee.org/document/1516048
  13. https://www.wired.com/wired/archive/14.12/translate.html
  14. http://www.itl.nist.gov/iad/mig//tests/mt/2006/doc/mt06eval_official_results.html_official_results.html
  15. "ଆର୍କାଇଭ୍ କପି". Archived from the original on 2011-06-16. Retrieved 2020-01-25. {{cite web}}: Cite has empty unknown parameter: |1= (help)
  16. http://www.nap.edu/html/alpac_lm/ARC000005.pdf
  17. http://www.cfp.ca/content/59/4/382.full
  18. https://doi.org/10.1017%2FS1351324905003888
  19. "ଆର୍କାଇଭ୍ କପି" (PDF). Archived from the original (PDF) on 2011-10-17. Retrieved 2020-01-26. {{cite web}}: Cite has empty unknown parameter: |1= (help)
  20. https://web.archive.org/web/20120419072313/http://www.morphologic.hu/public/mt/2008/compare12.htm
  21. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.961.5377&rep=rep1&type=pdf
  22. "ଆର୍କାଇଭ୍ କପି" (PDF). Archived from the original (PDF) on 2018-01-04. Retrieved 2020-01-27. {{cite web}}: Cite has empty unknown parameter: |1= (help)