লেখক পরিচিতি
লেখা সম্পর্কিত
অডিও ও ভিডিও প্রযুক্তি কতদূর
কয়েক দিন আগে একটি আইটি প্রতিযোগিতায় একটি প্রকল্পে শনাক্তকরণ প্রযুক্তি হিসেবে ভয়েস রিকগনিশন বায়োমেট্রিক্স সফটওয়্যার ব্যবহারের কথা বলা হলো। দুঃখজনক হচ্ছে, ওই প্রকল্প উপস্থাপকেরা জানতেন না, এখন পর্যন্ত সূক্ষ্মমাত্রার ভয়েস রিকগনিশন সফটওয়্যার বাণিজ্যিক ব্যবহারের জন্য তৈরি হয়নি। এ তথ্যটি অনেককেই অবাক করে। কারণ, এরা মনে করেন আইসিটি, রোবটিক্স অথবা আর্টিফিসিয়াল ইন্টেলিজেন্স প্রযুক্তির এত উন্নতির কালে নিশ্চয়ই ভয়েস রিকগনিশন বায়োমেট্রিক্স টেকনোলজি মানুষের আয়ত্তে এসে গেছে। আসলে এখনও আসেনি। সে কারণেই ওই প্রতিযোগীদের এমন প্রশ্নেরও মুখোমুখি হতে হয়েছিল, যদি পান মুখে নিয়ে কোনো লোক তার পরিচয় দিতে চায়, তাহলে কী হবে? অথবা ঠান্ডা লেগে গলা বসে গেলে সে কি সমস্যায় পড়বে না?
এসব নিয়ে হাসাহাসি হতে পারে, তবে বাংলাদেশে এ প্রযুক্তি ব্যবহার করতে চাওয়া প্রকল্প উদ্যোক্তারা যেমন আটকে যাচ্ছেন, তেমনি আটকে রয়েছে আইসিটি জায়ান্ট মাইক্রোসফটও। গত সেপ্টেম্বরে মাইক্রোসফট জানিয়েছে তাদের একটা অত্যাধুনিক ট্যাবলেট পিসি ও ইরিডার আটকে আছে এই ভয়েস রিকগনিশন সফটওয়্যারের কারণে। মাইক্রোসফটের ল্যাবরেটরিতে এ বিষয়ক গবেষণা যে পর্যায়ে রয়েছে তাতে করে ওটা পেতে আরও দেড় বছর থেকে দুই বছর লাগতে পারে।
এতে বোঝা যাচ্ছে, শোনার যান্ত্রিক প্রযুক্তিটা বেশ জটিল। মনে রাখতে হবে, আমাদের মানে মানুষের শোনা নয়, শোনার ব্যাপারটা এক্ষেত্রে যন্ত্রের এবং মানুষের শ্রবণযন্ত্রের মতো কিছু একটা ইমিটেট করে বা কৃত্রিমভাবে তৈরি করে কমপিউটারের প্রযুক্তির সাথে মিলিয়ে দিতে হবে। যত সহজে দু’লাইনে লিখে দিলাম, বিষয়টা কিন্তু মোটেই তেমন সহজ নয়। এমনটি বায়োমেট্রিক্সের আইরিশ রিকগনিশন (চোখের মণি চেনা) বা ফিঙ্গার প্রিন্ট (আঙ্গুলের ছাপ) রিকগনিশন সফটওয়্যারের মতোও নয়। পাঠক সম্ভবত ইতোমধ্যেই জেনে গেছেন, ফিঙ্গার প্রিন্ট রিকগনিশন সফটওয়্যার প্রযুক্ত হয়েছে স্মার্ট ফোনেও- যা দিয়ে আপাতত কিপ্যাডের লক খোলার ব্যবস্থা করা হয়েছে। আইরিশ বা ফিঙ্গার প্রিন্টের ক্ষেত্রে সূক্ষ্ম রেখার প্যাটার্ন চেনার জন্য যে হিসাব, তা কমপিউটার বাইনারির মাধ্যমে করতে পারে। কিন্তু শব্দের ক্ষেত্রে লাগবে সোনার (Sonar) ফ্রিকোয়েন্সির বিশ্লেষণ করা এবং ডিজিটাল সিনথেসাইজারের মাধ্যমে বাইনারি সঙ্কেতে পরিণত করা। শেষটায় ফলাফল দু’ধরনেরই হতে পারে- শোনা আওয়াজ শুনিয়েও দিতে পারে, আবার তা বর্ণে রূপান্তরও ঘটাতে পারে। এই শেষটুকুর আগের অংশটাই সবচেয়ে জটিল অর্থাৎ শব্দগ্রহণ করে, তা বিশ্লেষণ করে ডিজিটাইজড করা।
এই নিয়ে গবেষণা চলছে বহু দেশে এবং বিস্ময়কর হলেও সত্যি-বাংলাদেশেও। গত মাসের মাঝামাঝি রাজশাহী প্রকৌশল ও প্রযুক্তি বিশ্ববিদ্যালয়ের দুই শিক্ষার্থী সাদ্দাম ও মোনজের শব্দ শনাক্তকারী রোবটিক প্রযুক্তি উদ্ভাবনের দাবি জানিয়েছেন। এরা পত্রিকান্তরে জানিয়েছেন, সব উৎস থেকে শুধু শব্দ উৎপন্ন হয়, কিন্তু দৃশ্যমান হয় না যেসব উৎসকে শনাক্ত করে, তা অনুসরণ করতে পারবে তাদের উদ্ভাবিত রোবট। বাদুড়ের শব্দ শনাক্তকরণ প্রক্রিয়ার সাথে এরা তুলনা করেছেন এ প্রযুক্তিটিকে। সূক্ষ্ম শব্দের উৎস ও গতিবিধি অনুসরণে সক্ষম এই রোবটিক প্রযুক্তি নিঃসন্দেহে অনন্য সাধারণ।
নর্থ সাউথ ইউনিভার্সিটির শিক্ষার্থীদের তৈরি চন্দ্রবোটের পর এটিও একটি গুরুত্বপূর্ণ সাফল্য হিসেবে বিবেচিত হতে পারে। রুয়েটের রোবটিক সোসাইটির দুই সদস্য সাদ্দাম এবং মোনজের যে কাজটি করেছেন তাকে রুয়েট উপাচার্য সিরাজুল করিম চৌধুরী গুরুত্বপূর্ণ বলে উল্লেখ করেছেন।
কিন্তু আমরা যে সমস্যা বা বিষয় নিয়ে আলোচনা করছি, সেটি এরচেয়ে বেশ কিছুটা অগ্রগামী। কারণ, এক্ষেত্রে যেকোনো শব্দ নয়, মানুষের মুখের ভাষা শোনা এবং তা বোঝানো। এরপরও এ প্রযুক্তি যদি শব্দের সূক্ষ্ম পরিবর্তনগুলো ধরতে পারে, তাহলে ভয়েস রিকগনাইজেশনের ক্ষেত্রে এ প্রযুক্তি কাজে লাগতে পারে।
ইতোমধ্যে আরেকটি প্রযুক্তি গবেষণার সংবাদ পাওয়া গেছে। এটি হচ্ছে- চিন্তাশক্তিকে কমপিউটারের মাধ্যমে লেখায় পরিণত করার প্রযুক্তি। মার্কিন যুক্তরাষ্ট্রের ইউনিভার্সিটি অব ক্যালিফোর্নিয়ার একটি গবেষক দল এ প্রযুক্তি নিয়ে গবেষণা করছে মূলত বাকপ্রতিবন্ধীদের কথা শেখানোর জন্য। এটা আসলে ব্রিটিশ পদার্থ বিজ্ঞানী স্টিফেন হকিংয়ের জন্য তৈরি প্রযুক্তির মতো। অথবা বলা যায় এর উন্নত সংস্করণ। কারণ মোটর নিউরন রোগে আক্রান্ত স্টিফেন হকিং দুটোমাত্র আঙ্গুল নাড়াতে পারেন এবং তাই দিয়েই একটি স্পর্শকাতর প্যাডের মাধ্যমে তার কথাগুলো লিখিত আকারে জানান দেন। সম্প্রতিক তিনি ফুজিৎসুর তৈরি একটি টাচস্ক্রিন ব্যবহার করছেন। আর ইউনিভার্সিটি অব ক্যালিফোর্নিয়ার গবেষক দলটি মানুষের মস্তিষ্কের কাজ (কথা বলার) কিভাবে হয়, তা পর্যবেক্ষণ করে তাকে শব্দ এবং লেখায় রূপান্তর করার কাজ করছেন। এ গবেষক দলের প্রধান আইজ্যাক ফ্রায়েড জানিয়েছেন শব্দ উচ্চারণের সময় মস্তিষ্কের দুটি অংশে পরিবর্তন হয়- এর একটি হচ্ছে মিডিয়াল ফ্রর্জাস লোব এবং সুপিরিয়র টেম্পোরাল জাইরাস। এ দুটি অংশের কম্পন ও আলোড়নকে ডিজিটাইজড করে শব্দে ও লেখায় রূপান্তরিত করার চেষ্টা করছেন।
বলাবাহুল্য, এ প্রযুক্তি গবেষণা সফল হলে শুধু প্রতিবন্ধীদের মুখে ভাষাই ফুটবে না আরও অনেক সমস্যারও সমাধান হবে। প্রথম যে প্রকল্পটিতে ভয়েস রিকগনিশন সফটওয়্যারের কথা বলেছিলাম সেটাতেও কোনো সমস্যা থাকবে না। মস্তিষ্ক থেকে সঙ্কেত নিতে পারলে কেউ পান খাক বা কারোর সর্দি লাগুক, যন্ত্রের পক্ষে ভাষা বুঝতে আর অসুবিধা থাকবে না।
এবার অডিওর কথা এ পর্যন্ত রেখে ভিডিওর কথায় আসা যাক। কেউ কেউ মনে করেন, বিষয়টা খুব সহজ। ক্যামেরাকে উন্নত করে তুলে কিছু সুইচ আর সেন্সর ফিট করে দিলেই কমপিউটারকে দেখানো যাবে। কিন্তু সমস্যা হচ্ছে আগামীতে এত মোটা দাগের দেখাদেখিতে মানুষের চলবে না। এখনই তো কমপিউটার খানিকটা দেখছে এবং দেখাচ্ছে- বলছি ওয়েবক্যাম এবং অন্যান্য চলতি প্রযুক্তির কথা। এগুলোর বাইরে এখন কমপিউটার এবং রোবটের জন্য যা দরকার তা হলো অভিব্যক্তি বোঝা, চোখের ভাষা, মুখের ভাষা, শারীরিক ভাষা (বডি ল্যাঙ্গুয়েজ) বোঝা। ইতোমধ্যে আর্টিফিসিয়াল ইন্টেলিজেন্স গবেষকেরা কিছু কিছু ব্যাপার বোঝাতে পেরেছেন ডিজিটাল যন্ত্রকে। এর ফলে যন্ত্র যা দেখছে তাতে কিছু প্রতিক্রিয়া দেখাচ্ছে। জাপানের বিখ্যাত রোবট কগ ইতোমধ্যে হাসি আর কান্না বুঝতে পারে, খানিকটা দুঃখ বা বিষণ্ণতাও তার বোধের সাথে যুক্ত হয়েছে।
এছাড়া মার্কিন যুক্তরাষ্ট্রের নিউইয়র্কের বাফেলো ইউনিভার্সিটিতে একদল গবেষক অভিব্যক্তির সত্যাসত্য যাচাই করার মতো একটি সফটওয়্যার তৈরি করেছেন। সূক্ষ্মতম সময়ে অসম ‘অনসেট’ ও ‘অফসেট’ অভিব্যক্তি প্রকাশ করতে পারছে সফটওয়্যারটি। আর বহুজাতিক কোম্পানি ইউনিলিভার এ সফটওয়্যারটিকে কাজে লাগিয়েছে খাদ্যপণ্য পরীক্ষার কাজে। এদের প্রতিযোগী প্রক্টর এবং গ্যাম্বলও এর কাছাকাছি একটি সফটওয়্যার ব্যবহার করছে। আসলে খাদ্য পরীক্ষার সময় পরীক্ষকদের অভিব্যক্তিকে বিশ্লেষণ করে এ সফটওয়্যার। অর্থাৎ খাদ্যপণ্য রাখার সময় পরীক্ষকের অভিব্যক্তি কেমন হয়, তা বিশ্লেষণ করতে পারে সফটওয়্যারটি। এই বিশ্লেষণ পরে বিজ্ঞাপন তৈরির ক্ষেত্রে কাজে লাগনো হয়। পণ্যমাণ পরিবর্তনেও ব্যবহার করা হয়। আবার বিজ্ঞাপন দেখে ভোক্তা মানুষের অভিব্যক্তি কেমন হয় তাও বিশ্লেষণ করে সফটওয়্যারগুলো। যেমন চকলেট দেখে শিশুদের অভিব্যক্তি কিংবা রেজর দেখে টেকো লোকের অভিব্যক্তি সবই বিশ্লেষণ করা যায়।
বিক্রি বাড়ানোর জন্য যেমন দেখার সফটওয়্যার (ভিডিও সফটওয়্যার) ব্যবহার হয়, তেমনি আবার বিক্রি নিয়ন্ত্রণ করার জন্য দেখার সফটওয়্যার ব্যবহার হয়। জাপানে অল্পবয়সীরা যাতে সিগারেট কিনতে না পারে সেজন্য ব্যবহার হচ্ছে এক ধরনের সফটওয়্যার। ফুজিটাকা নামের একটি আইসিটি প্রতিষ্ঠান তৈরি করছে এটি। ক্রেতার হাবভাবই শুধু নয়, ক্যামেরায় দেখার পর তার ত্বকের কোমলত্বও ‘অনুভব’ করতে পারে সফটওয়্যারটি। এবং জানিয়ে দেয় কার কাছে সিগারেট বিক্রি করা অবৈধ হবে। অতি সম্প্রতি নাইট ক্লাবেও এ ধরনের সফটওয়্যার ব্যবহার হচ্ছে জাপানে।
কানাডায় নার্সিংহোমে অসুস্থ ও প্রবীণদের সহায়তার জন্য সস্তা ক্যামেরা ও কমপিউটার ব্যবহার করা হচ্ছে। একাকী এ ধরনের ব্যক্তিদের চলাফেরা মনিটর করছে ক্যামেরাগুলো এবং সেন্সরের মাধ্যমে বিশ্লেষণ করছে তাদের করণীয়, আর তা জানিয়েও দিচ্ছে তাদের। মার্কিন যুক্তরাষ্ট্রের পেনসিলভানিয়ায় বিভিন্ন রেস্তোরাঁয় দেখা মিলছে ‘হাইপার অ্যাক্টিভ বব’ নামের এক ধরনের সফটওয়্যার। এগুলো আসলে ফাঁকিবাজ কর্মচারী ধরার ফাঁদবিশেষ। ব্যস্ত সময়ে কাজে ফাঁকি দেয়া কর্মচারীদের ধরতে ব্যবহার হচ্ছে এ সফটওয়্যার। কোণায় দাঁড়িয়ে থাকা কিংবা ওয়াশরুমে বেশি সময় কাটানোর মতো কাজও ধরতে পারে এই ‘হাইপার অ্যাক্টিভ বব’ আর এর জন্য রেস্তোরাঁগুলোকে দিতে হয় মাসে মাত্র ২০০ ডলার করে।
কমপিউটারের দেখার প্রযুক্তি নিয়ে কাজ করছে অ্যাকসেটিউর নামে একটি মার্কিন গবেষণা প্রতিষ্ঠান। মোবাইল অবজেক্ট রিকগনিশন প্লাটফর্ম নামের একটি সফটওয়্যার তৈরি করেছে এরা, যা দিয়ে বিশ্লেষণ করা হচ্ছে মোবাইল ফোন থেকে নেটে পাঠানো ছবি। এটাও ব্যবহার হচ্ছে বেশিরভাগ খাবার-দাবার নিয়ে।
এক্ষেত্রে মাইক্রোসফটের ‘লিংকন’ সফটওয়্যারটির কথা না বললেই নয়। এটি ফটোগ্রাফ এবং ভিডিও ক্লিপিং বিশ্লেষণে অত্যন্ত দক্ষ। অনেক ক্ষেত্রে এই লিংকন টেক্সটের চেয়ে ইমেজ বিশ্লেষণ করে অধিকতর দক্ষতায়। যেমন আইফেল টাওয়ারের ছবি দেখলেন আর প্যারিস ভ্রমণের সব তথ্য হাজির করে লিংকন। নিজে থেকেই বের করে দেয় ভিডিও ক্লিপিংস।
ইন্টারনেট থেকে অযুত-নিযুত ছবি বেছে কাজে লাগানোর জন্য দক্ষ রোবট তৈরি করেছেন কানাডার ব্রিটিশ কলম্বিয়া ইউনিভার্সিটির গবেষক জিম লিটল। বিনা তারে কয়েকটি রোবটকে ইন্টারটের সাথে যুক্ত করে এই ছবি বাছাইয়ের কাজে লাগিয়েছেন তিনি। এরা বইপত্র, খাবার-দাবার, কাপড়-চোপড় সবই বাছাই করতে পারে।
অপরাধী ধরার কাজে দেখার প্রযুক্তি সংবলিত কমপিউটারের জুড়ি এখনই মেলা ভার। ইভ্যালুশন রোবটিক্স নামের মার্কিন একটি কোম্পানি লেন হক ইনকার্ট নামের এমন একটি সফটওয়্যার তৈরি করেছে, যা দিয়ে সুপার মার্কেটে শপ লিফটারদের ধরা সহজ হয়ে গেছে। এছাড়া ধূর্ত চোরদের নানারকম কৌশল ধরার কাজও করতে পারে সফটওয়্যারটি। বার কোড নিয়ে ঝামেলা করলেও ধরা যায় এটি দিয়ে।
সড়ক-মহাসড়কের অপরাধী ধরা নিয়ে সমস্যা সব দেশেই আছে। আর এর জন্য কমপিউটারের দেখার প্রযুক্তি সম্ভবত সবচেয়ে উপযোগী। ইউনিভার্সিটি অব টেক্সাসের একদল বিজ্ঞানী মার্কিন প্রতিরক্ষা বিভাগের জন্য এমন এক সফটওয়্যার বানিয়েছেন, যা সন্দেহজনক গাড়ি শনাক্ত করতে পারে। এগুলো এখন ইরাক ও আফগানিস্তানে ব্যবহার হচ্ছে। আসলে কমপিউটারের দেখার প্রযুক্তি দ্রুত বিকশিত হচ্ছে আর মানুষের বিভিন্ন কাজে লেগে যাচ্ছে সাথে সাথেই। শোনার প্রযুক্তিটা একটু পিছিয়ে আছে কিন্তু চলছে গবেষণা...।
ফিডব্যাক : abir59@gmail.com