গুগল স্পিচ রিগনিশন কি, কিভাবে কাজ করে?

গুগল স্পিচ রিকগনিশন এমন এক ধরণের টুলস যা মানুষের মুখের ভাষাকে লেখায় কনভার্ট করে দিতে পারে। আবার মুখের আদেশ অনুযায়ী ডিভাইসে অনেক কাজ ও সম্পন্ন করতে পারে।

Google speech recognition in bangla

একই সাথে অনেক কাজ করতে বা আরো সহজে করতে গুগল স্পিচ রেকগনিশনের (Google speech recognition) মতো এপিআই (API) এর ব্যবহার দিন দিন জনপ্রিয় হচ্ছে। মুখের কথাকে টেক্সট এ রূপান্তরিত করা থেকে নানা রকম কমান্ড কে সফলভাবে সম্পন্ন ও করছে এই টুলসগুলো। প্রযুক্তির এই সময়ে হরেক রকমের স্পিচ রেকগনিশন এপিআই এর মধ্য থেকে আজ আমরা জানবো গুগলের নিজস্ব স্পিচ রেকগনিশন সম্পর্কে কিভাবে তা কাজ করে, আর কি কি ফিচার আছে, ভবিষ্যই ই বা কি?

গুগল স্পিচ রিকগনিশন (Google speech recognition)

আসলে এক ধরনের এপিআই। তাই স্পিচ রিকগনিশন বুঝতে হলে আগে এপিআই(API) কি তা বুঝতে হবে। এপিআই(API) এর পূর্নরূপ হলো অ্যাপ্লিকেশন প্রোগ্রামিং ইন্টারফেস (Application Programming Interface) । দুটো ভিন্ন ভিন্ন অ্যাপ্লিকেশন এর মধ্যে যোগাযোগ রক্ষা করার মতো করে কাজ করে এপিআই।

চলুন একটু অন্যভাবে বুঝি, আপনি একটা রেস্টুরেন্ট এ গেলেন, সেখানে ওয়েটারকে ডেকে এককাপ ক্রিম ল্যাটি কফি অর্ডার করলেন, ওয়েটার অর্ডার নিয়ে কিচেনে গেলো সেখানে শেফ কফি বানিয়ে আবার ওয়েটার কে দিয়ে আপনার কাছে পাঠিয়ে দিলো। এখানে আপনার এবং কিচেনের মধ্যে সম্পর্ক রাখার কাজ করেছে ওয়েটার। আপনার হয়ে অর্ডার করার কাজটা করেছে ওয়েটার। আপনার অর্ডার নিয়ে কিচেনে গিয়েছে এবং তারপর কিচেন থেকে আবার রেসপন্স হিসেবে কফি নিয়ে এসেছে। এপিআই ও ঠিক এই ওয়েটার এর মতোই কাজ করে। দুটো প্রোগ্রামের মধ্যবর্তী ডেটা আদানপ্রদানের কাজ করে। একটা প্রোগ্রাম থেকে রিকোয়েস্ট নিয়ে যায় অন্য প্রোগ্রাম তা প্রসেস করে রেস্পন্স হিসেবে আবার এপিআই এর মাধ্যমে প্রথম প্রোগ্রামের কাছে পাঠায়।

আর স্পিচ রিকগনিশন বলতে বোঝায় মানুষের মুখের ভাষাকে বুঝে ডিভাইসের ভাষার রূপান্তরিত করা। ধরুণ আপনার মোবাইল লকড,গান শুনতে চাচ্ছেন কিন্তু হাত ময়লা, আপনি আগেই ভয়েস আনলক ফিচার অন করা অ্যান্ড্রয়েড ফোনে বললেন “Ok Google” আর সাথে সাথে গুগলের স্পিচ রেকগনিশন ফিচার আপনার কন্ঠ চিনে লক খুলে দিলো। তারপর, আপনি মোবাইলকে কমান্ড দিলেন “Open YouTube” আর সাথে সাথে ইউটিউব অ্যাপ ওপেন হয়ে গেলো। এরপর নির্দিষ্ট গান প্লে করার কথাও বলতে পারেন।

একইভাবে আপনার লিখতে ইচ্ছা করছেনা বা কোনো কারণে আপনার হাত ব্যস্ত, আপনি মুখেই কমান্ড দিয়ে একটা মেইল লিখে সহজেই পাঠিয়ে দিতে পারেন। ব্যস কাজ সহজ…

গুগল স্পিচ রিকগনিশন এর ফিচার গুলো-

  • ভয়েস সার্চ
  • অডিও বা স্পিচ থেকে টেক্সট এ রূপান্তর
  • স্পীচ বা অডিও কমান্ড এক্সিকিউট করা
  • নিজে নিজেই ব্যবহারকারীর ভাষা ডিটেক্ট করতে পারা।
  • ১২০ এর ও বেশি ভাষা সাপোর্ট করে।

এছাড়াও কল সেন্টারে গ্রাহকের ভয়েস কে টেক্সট এ রূপান্তর করার মতো আরো অনেক ফিচার রয়েছে। স্পিচ রিকগনিশন এপিআই গুলো ডেভলপারদের কাছে উন্মুক্ত করে দেওয়া হয়েছে তাই প্রতিদিনই নতুন নতুন ফিচার আর সম্ভাবনাও যোগ হচ্ছে।

গুগল স্পিচ রিকগনিশনের খরচ-

স্পিচ রেকগনিশনের এই টেকনোলজির দাম আসলে ডিভাইস এবং কাজের ভিত্তিতে নির্ভর করে, অ্যান্ড্রয়েড মোবাইলে গুগল নাউ (Google Now) এর মাধ্যমে ফ্রিতেই কিছু সেবা পাওয়া যায়, আবার গুগলের ক্লাউড এপিআই ব্যবহার করলে প্রতি মাসে প্রথম ৬০ মিনিট আপনি ফ্রি সেবা পাবেন, কিন্তু ৬০মিনিটের পরে আপনাকে প্রতি ১৫ সেকেন্ডে ০.০০৬ডলার গুণতে হবে।

নিয়শ্চই মাথায় এখন প্রশ্ন এসেছে যে কিভাবে গুগল স্পিচ রেকগনিশন এপিআই কাজ করে?

আমাদের কন্ঠনালী বাতাসকে ব্যবহার করে বিভিন্ন তরঙ্গের ধ্বনি তৈরী করে যা অর্থবহ হলেই আমরা শব্দ বলি। স্পিচ রেকগনিশন এপিআই গুলো এই তরঙ্গের বিভিন উপাদান পরীক্ষা করে প্রতিটি শব্দ আলাদা করে বোঝে, তারপর শব্দগুলো পরপর বসিয়ে বাক্য বানিয়ে অর্থবহ করে তোলে। যখন তরঙ্গ গুগল স্পিচ রেকগনিশন এর মতো এপিআই এ পৌছায় তখন সেটা এপিআই নিজের সংরক্ষণ করা শব্দভান্ডারের সাথে মেলায় এবং প্রয়োজনীয় কাজ সম্পন্ন করে। অনেক সময় বিভিন্ন ব্যাকরণজনিত সমস্যা ও এপিআই নিজেই ঠিক করে দেয়।

গুগল স্পিচ রিকগনিশন কি কি কাজে ব্যবহার করা হয়?

স্পিচ রিকগনিশনের মতোন এপিআই গুলোকে বর্তমানে ডেভলপারদের জন্য উন্মুক্ত করে দেওয়া হয়, যাতে দ্রুত এদের ক্ষমতা বাড়ানো যায়। ডেভলপাররা নিজেদের নতুন নতুন আইডিয়া দিয়ে ভিন্ন ভিন্ন প্রজেক্ট তৈরী করেন যেমন ভয়েস কন্ট্রোলড রোবট,  স্মার্ট হোম সিস্টেম ইত্যাদি।

তবে স্পিচ রেকগনিশন সবচেয়ে বেশি ব্যবহার হয় অডিও থেকে টেক্সট ফাইল এ রূপান্তরিত করার জন্যে আর ভয়েস সার্চের জন্যে। লেখকরা নিজেদের লেখার জন্যে প্রায়শই ড্রাফট হিসেবে স্পিচ রেকগনিশন এপিআই ব্যবহার করে থাকেন। যা মনেহয় মুখে বলেন, আর তা অটোমেটিক টাইপ হয়ে যায়। পরে নিজেদের ইচ্ছা মতো ইডিট করে ফেলেন। আর ভয়েস সার্চের ব্যাপারে তো আমরা কমবেশি সবাই ই জানি, মোবাইলে গুগল নাউ ওপেন করে বললেই হয় গুগল সেটা সার্চ করে এনে দেয়। এছাড়া বিভিন্ন কমান্ড এক্সিকিউটের জন্যে ও ব্যবহার হয় গুগলের পাওয়ারফুল স্পিচ রিকগনিশন।

যাদের হাত অচল বা আঘাতপ্রাপ্ত তাদের ক্ষেত্রে এই স্পিচ রেকগনিশন এপিআই অনেক উপযোগী। হাতে টাইপের ঝামেলা ছাড়াই তারা প্রয়োজনীয় কাজ শেষ করতে পারেন।

সেরা স্পিচ রেকগনিশন টুল কোনটি?

এটা বলা একটূ মুশকিল কারণ একেক ক্ষেত্রে একেকটা টুল পারদর্শী। যেমন ধরুন গুগলের স্পিচ রেকগনিশন প্রায় ১২০টা ভাষা সাপোর্ট করে যা আর কোনো স্পিচ রেকগনিশন এপিআই করতে পারেনা। আবার ধরুণ টেক্সট কে মানুষের মুখের মতো স্পিচ বানাতে কাজে লাগে টেক্সট টু স্পিচ এপিআই(Text to speech) বা রিডস্পিকার এপিআই(Read speaker API) যেটা গুগলের স্পিচ রেকগনিশন এপিআই করতে পারেনা। আবার ব্যাকগ্রাউন্ড নয়েজ রিমুভের ক্ষেত্রে সবচেয়ে সেরা হলো স্পিচ এপিআই (Speech API), যেটা ব্যাকগ্রাউন্ড থেকে প্রায় সবধরণের কোলাহল বা নয়েজ রিমুভ করে শুধুমাত্র মানুষের মুখের ভাষা বের করে আনতে সক্ষম। তবে যদি সবচেয়ে বেশি ব্যবহারকারীর এবং উন্নয়নের গতি হিসেব করা হয় তাহলে গুগল ই বাকিদের আগে থাকবে।

 স্পিচ রিকগনিশনে গুগল স্পিচ রেকগনিশনের বেশ কিছু প্রতিদ্বন্দী হলো-

আইবিএম ওয়াটসন (IBM Watson), স্পিচ এপিআই (Speech API), স্পিচ টু টেক্সট এপিআই, রেভ. এআই এপিআই, রিডস্পিকার এপিআই, স্পিচ টু টপিক এপিআই, সিরি এপিআই ইত্যাদি। এদের প্রত্যেকের ই নিজস্ব আলাদা আলাদা বৈশিষ্ট্য আছে। চলুন আরো কয়েকটা স্পিচ রিকগনিশন এপিআই সম্পর্কে জানি-

আইবিএম ওয়াটসন এপিআই (IBM Watson API) – মুখ দিয়ে বলার সাথে সাথে অডিও কে টেক্সট এ রূপান্তরিত করতে পারে এই এপিআই। এর মাধ্যমে অনেক ভয়েস কন্ট্রোল অ্যাপ্লিকেশন বানানো হয়েছে। কল সেন্টার এর অডিও কলকে টেক্সট আকারে কনভার্ট করে সংরক্ষণ করার মতোন নানাবিধ কাজে এই এপিআই ব্যবহার করা হয়। কিন্তু বর্তমানে এই এপিআই মাত্র ৭টা ভাষা সাপোর্ট করে।

প্রতি মাসে প্রায় ১০০ মিনিট ব্যবহারকারীরা ফ্রি তেই ব্যবহার করতে পারে। এর পরে ০.০২ ডলার প্রতি মিনিট করে চার্জ করা হয়।

স্পিচ এপিআই Speech API – ব্যাকগ্রাউন্ড নয়েজ রিমুভের ক্ষেত্রে এই এপিআই এর জুড়ী পাওয়া ভার। মানুষের মুখের শব্দের কোনো ক্ষতি ছাড়াই ব্যাকগ্রাউন্ড থেকে প্রায় সব ধরণের আওয়াজ বাদ দিতে পারে এই এপিআই। মানুষের মুখের শব্দকে এই এপিআই বয়স, লিঙ্গ, আবেগ, ভাষার উপর ভিত্তি করে ভাগ করতে পারে। এই এপিআই ফ্রি, কিন্তু খুব কম ভাষা সাপোর্ট করে।

স্পিচ টু টেক্সট এপিআই (Speech to Text API)- শুধুমাত্র ইংরেজি ভাষা সমর্থন করা এই এপিআই মুখের ভাষা কে টেক্সট এ রূপান্তর করতে বেশ দ্রুত আর নির্ভুল। তবে গুগলের ক্লাউড এপিআই এর মতোই প্রতি মাসে ৬০মিনিট ফ্রি ব্যবহারের জন্যে দেওয়া হয়, এর বেশি ব্যবহার করতে হলে পেইড প্ল্যান ব্যবহার করতে হবে।

টেক্সট টু স্পিচ এপিআই (Text to Speech API) – ২৬টি ভাষা সমর্থন করা এই এপিআই টেক্সট কে অবিকল মানুষের মুখের ভাষায় রূপান্তরিত করতে পারে। খুব সহজেই এই এপিআই কে অন্যান্য এপ্লিকেশনের সাথে জোড়া দেওয়া যায়।

রিডস্পিকার এপিআই (Readspeaker API)- আপনার পছন্দমতো পুরুষ বা নারীর কন্ঠে এই এপিআই টেক্সট কে মুখের ভাষায় রূপান্তরিত করে দিবে। আপনি চাইলে ইচ্ছে মতো কথা বলার স্পিড, আর অডিও ফরম্যাট সহ অন্যান্য প্রয়োজনীইয় জিনিস চেঞ্জ ও করতে পারেন।  

সিরি এপিআই (Siri API)- অ্যাপেলের সিরি নামের ভয়েস এসিস্টেন্ট এর কথা নিয়শ্চই শুনেছেন। এই এপিআই ঠিক সেভাবেই একটা ভয়েস এসিস্টেন্ট এর মতো করে ভয়েস কমান্ডে প্রোগ্রাম এক্সিকিউট করে। সিরি এপিআই ব্যবহার করে বিভিন্ন এপ্লিকেশন বানানো সম্ভব যা দ্বারা প্রতিদিনের বিভিন্ন কাজ যেমন অনলাইনে ছবি খুজে বের করা, ডায়াল করে কাউকে কল করা বা কোনো এপ্লিকেশন অন করা ইত্যাদি কাজ খুব সহজেই করা যায়।  

গুগল স্পিচ রিকগনিশনের অসুবিধা-

কোনো স্পিচ রেকগনিশন ই ১০০% সঠিক ভাবে মুখের ভাষাকে মেশিনের ভাষায় কনভার্ট করতে পারেনা। এর কারণ হিসেবে প্রথমেই ধরা যায় আঞ্চলিক টান কে। যেমন আমরা বাংলাদেশের সবাই বাংলাতে কথা বললেও আঞ্চলিকতার কারণে আমাদের একেক অঞ্চলের মুখের ভাষা একেক রকম শোনায়। যন্ত্রের পক্ষে শব্দকে বোঝার ক্ষেত্রে এই আঞ্চলিকতা একটা বড় বাধা হয়ে দাঁড়ায়। কারণ যন্ত্র নিজে থেকে কিছু ভাবতে পারেনা যা তাকে প্রোগ্রাম করা হয় সেই হিসেবেই সে আউটপুট দেয়। এছাড়া কথা বলার সময় ব্যকগ্রাউন্ড নয়েজ থাকলে তা থেকে শুধুমাত্র মানুষের ভয়েস বের করে রেকগনাইজ করাও  ও একটা চ্যালেঞ্জ হয়ে পড়ে এপিআই এর জন্যে। এছাড়াও বেশ কিছু সমস্যা দেখা যায়। যদিও ডেভলপাররা প্রতিদিন ই চেষ্টা করছে এসব সমস্যা কমিয়ে আনার এবং তার ফলে প্রথমের তুলনায় এখন স্পিচ রেকগনিশন ব্যবস্থার অনেকটা উন্নতি ঘটেছে।