প্রযুক্তিবিশ্বের মিথ : বিগ ডাটা
কভিড-১৯-এ বিশ্বজুড়ে ৪ কোটি মানুষ আক্রান্ত এবং প্রতিদিন অনেক মানুষ আক্রান্তের পাশাপাশি অনেকে সুস্থও হচ্ছেন। এই বিপুলসংখ্যক মানুষের ডাটা বা তথ্য চিকিৎসক ও বিজ্ঞানীদের গতিপ্রকৃতি জানতে ও যখন টিকা প্রদানের বিষয় আসবে তার জন্য দরকার হবে বিগ ডাটা। অর্থাৎ, স্বাস্থ্য খাতে বিশ্বজুড়ে অনেক দেশে মানুষের বিগ ডাটা প্রস্তুত করতে হচ্ছে। মানুষের জীবন রক্ষার বিষয়ে চিকিৎসাক্ষেত্রে এটাই পৃথিবীর সর্বোচ্চ পরিমাণে বিগ ডাটার ব্যবহার হতে যাচ্ছে।
বিগ ডাটা কী
বিগ ডাটা কাঠামো, অকাঠামোগত এবং আংশিক কাঠামোগত অবস্থার বিপুল পরিমাণ তথ্য বা ডাটার সমন্বয়, যা চিরায়ত প্রথাগত উপায়ে প্রক্রিয়া করে ব্যবহার করা বেশ কষ্টসাধ্য। এতে বিভিন্ন গতি-প্রকৃতি, রকম ও পরিমাণের তথ্য থাকে এবং এগুলো প্রক্রিয়াকরণ, সাজিয়ে ভেতরগত তথ্য বা ডাটার সম্ভাবনার ওপর নির্ভর করে সিদ্ধান্ত নেয়া সহজ এবং সাশ্রয়ী মূল্যে করা। প্রতিষ্ঠানগুলো ডাটাগুলো সংরক্ষণ করে এবং মেশিন লার্নিং প্রজেক্টে ডাটানির্ভর কৌশলগত পূর্বাভাসে ব্যবহার করে। বিগ ডাটার কল্যাণে পরিপূর্ণ সমাধানে অনেক উত্তর জানতে পারবেন, কারণ আপনার কাছে পর্যাপ্ত তথ্য আছে। আর অনেক বেশি উত্তর ডাটা থেকে পাওয়া হচ্ছে সেই ডাটা বা তথ্যের ওপর বেশি নির্ভর করা সম্ভব এবং সমস্যাগুলো আপনার সমাধান করা সহজ। বিগ ডাটাতে তথ্য বা ডাটা পর্যবেক্ষণ, সংরক্ষণ, তথ্য হাজির এবং উপকারী ডাটা প্রস্তুত করা জরুরি আর Hadoop এবং Spark এর মতো সফটওয়্যারগুলো বিগ ডাটা নিয়ে কাজ করা সহজ করেছে।
বিগ ডাটা নিয়ে কাজ শুরুর গল্প
জার্মান-অস্ট্রিয়ান প্রকৌশলী ফ্রিটজ পিফ্লিমের ১৯২৮ সালে চুম্বকীয় উপায়ে তথ্য বা ডাটা সংরক্ষণের উপায় আবিষ্কার করেন, যার ভিত্তির ওপর নির্ভর করে আধুনিককালে কমপিউটার হার্ডডিস্কে তথ্য রাখে। ১৯৪৬ সালে ইউএসতে মূলত আমেরিকার আর্মিও ডাটা বা তথ্য সংরক্ষণের জন্য ENIAC (ইলেকট্রনিক নিউমেরিক্যাল ইন্টিগ্রেটর অ্যান্ড কমপিউটার) নামে বিশ্বের প্রথম ডাটা সেন্টার স্থাপিত হয়। তার আগে ১৯৪৩ সালে দ্বিতীয় বিশ্বযুদ্ধে জার্মান সৈন্যদের মেসেজ কোড পড়ার জন্য ইউকে প্রথম ডাটা প্রসেসর ‘কোলোসাস’ আবিষ্কার করে, যা প্রতি সেকেন্ডে ৫ হাজার অক্ষর পড়তে পারত, কয়েক সপ্তাহের কাজ ঘণ্টায় করতে পারে। আর প্রযুক্তিগতভাবে এভাবে বিগ ডাটার ব্যাপক ব্যবহার শুরু হয় এবং ১৯৬৫ সালে আমেরিকান সরকার ৭৪২ মিলিয়ন ট্যাক্স রিটার্ন তথ্য সংরক্ষণের জন্য বৃহৎ আকারে ডাটা সেন্টারের পরিকল্পনা করে।
বিগ ডাটা কেনো
ইন্টারন্যাশানাল ডাটা কর্পোরেশন (আইডিসি) ডাটা ব্যবহার ২০২৫ সালে কেমন হবে তার ওপর ভিত্তি করে ‘আইডিসি ডাটা এইজ ২০২৫’ নামে একটি রিপোর্ট প্রকাশ করে। আর এতে উল্লেখ করে, বিশ্বের প্রায় ৬ বিলিয়ন মানুষ ২০২৫ সালে ইন্টারনেটে প্রতিদিন যুক্ত থাকবে, যা মোট জনগণের ৭৫ শতাংশ হবে এবং প্রতিদিন গড়ে ৪,৯০০ বারের বেশি সময় নিজের ডিভাইস থেকে একজন ব্যক্তি ইন্টারনেটে যুক্ত থাকবে, অর্থাৎ একজন ব্যক্তির কাছ থেকে প্রতি ১৮ সেকেন্ডে গড়ে একবার ডাটা বা তথ্য আসবে। বিশ্বে ২০২৫ সালে ১৭৫ জিটাবাইটস ডিজিটাল তথ্য বা ডাটা তৈরি হবে, যার ৬০ শতাংশ ডাটা বিভিন্ন প্রতিষ্ঠান তৈরি করবে। অর্থাৎ বগ ডাটা একটি গুরুত্বপূর্ণ বিষয় হিসেবে ব্যবসায়িক এবং মানুষের জীবনে আরও বিস্তৃত পরিসরে আবির্ভূত হবে। ২০২০ সালে ৯০ শতাংশ বড় প্রতিষ্ঠানগুলোর আয় হবে ডাটা বা তথ্য ব্যবহার করে। আইওটিনির্ভর ডিভাইসগুলো ৯০ জিটাবাইটসের বেশি ডাটা ২০২৫ সালে তৈরি করবে, এতে প্রযুক্তির যন্ত্রপাতির বিক্রি বাড়বে।
বাণিজ্যিক প্রতিষ্ঠানগুলো তাদের ব্যবসায়িক কার্যক্রমের উন্নতি, ভালো গ্রাহকসেবা প্রদান, লাভ এবং সুনির্ধারিত প্রচারণা করতে বিগ ডাটা ব্যবহার করে। বিগ ডাটার সুবিধা নিয়ে প্রতিষ্ঠানগুলো দ্রুত ভালো ব্যবসায়িক সিদ্ধান্তগুলো নিতে পারে। কারণ, ডাটা পর্যবেক্ষণ করে কাস্টমারের চাহিদা এবং প্রোডাক্ট ব্যবহার সম্পর্কে ভালো ধারণা পেয়ে মার্কেটিং করতে সুবিধা। এতে বিদ্যমান কাস্টমার থেকে বিক্রি কয়েকগুণ বেড়ে যায়। প্রতিষ্ঠানের অর্থ সাশ্রয়ের জন্য বিগ ডাটার সঠিক ব্যবহার অনেক কার্যকর। এ ছাড়া সোশ্যাল মিডিয়ার ওয়েবসাইটগুলোতে সম্ভাব্য ক্রেতার মাঝে সার্ভে করে তাদের পছন্দের বিষয় সম্পর্কিত তথ্যগুলো ব্যবহার করে নতুন ক্রেতা তৈরি ও প্রচারণা করা। গার্টনারের ২০১৯ সালের প্রকাশিত ডাটা অ্যানালিটিক্স পূর্বাভাস অনুযায়ী, ২০২২ সালে ২০ শতাংশ ডাটা পর্যবেক্ষণ ব্যবসায়িক সুযোগের সম্ভাব্যতার তথ্য ফলাফল প্রদান করবে এবং ৫০ শতাংশের বেশি নতুন ব্যবসায়িক প্রতিষ্ঠান রিয়েল টাইম ডাটা বা তথ্য গ্রহণ করে সিদ্ধান্তের উন্নয়নে ব্যবহার করবে। স্ট্যাটিস্টার রিপোর্ট হিসেবে ২০২২ সালে বিগ ডাটা ও বিজনেস অ্যানালাইসিস মার্কেট আয় ২৭৪.৩ বিলিয়ন ডলার হওয়ার সম্ভাবনা আছে।
বিগ ডাটা কীভাবে কাজ করে
বিগ ডাটা হচ্ছে ডাটা বা তথ্যের অবস্থান, সম্ভাব্যতা এবং ভেতরগত বিষয়ের উপাত্ত বুঝতে পারা এবং সিদ্ধান্ত নেয়ার ক্ষেত্রে তার ওপর নির্ভর করে কাজ সফল করা। বেশিরভাগ ক্ষেত্রে ডাটা বা তথ্যের ব্যবহারের প্রক্রিয়া স্বয়ংক্রিয়ভাবে সফটওয়্যার, অ্যানালিটিক টুল, মেশিন লার্নিং এবং আর্টিফিশিয়াল ইন্টিলিজেন্সের মাধ্যমে করা হয়। বিগ ডাটার শুরু থেকে পুরো প্রক্রিয়া আপনাকে জানতে হবে যদি তা নিয়ে কিছু করতে চান। সিস্টেমের ধারণক্ষমতা কেমন, ডাটা ভলিউম কেমন, কী কাজে ব্যবহার করবেন, কীভাবে সংরক্ষণ করবেন, তার সব কিছু ধারণা রাখতে হবে। কাজের কিছু মাধ্যমে উল্লেখ করা হলো
ডাটা একীভূত
অনেক উৎস থেকে বিশাল পরিমাণ ডাটা আপনি পেতে পারেন, সেই ডাটা বা তথ্য আপনাকে এক জায়গায় আনতে হবে। ডাটা প্রথমে সুবিন্যস্ত অবস্থায় থাকে না, তাই বিভিন্ন অবস্থার ডাটার কাঠামোগতভাবে একটি সাজানো প্রয়োজন পড়ে। কী জন্য ব্যবহার করবেন সে হিসেব করে ডাটা সুন্দরভাবে প্রস্তুত করে একীভূত করতে হবে।
ডাটা ম্যানেজমেন্ট
ডাটাবেজে কীভাবে ডাটা বা তথ্য সংরক্ষণ করবেন এবং প্রয়োজনে যেন তা পুনরুদ্ধার করা সম্ভব হয় তাও খেয়াল করতে হবে। ক্লাউডনির্ভর ডাটা ম্যানেজমেন্ট নিয়ে কাজ করতে হবে; এতে ডাটা সঠিক বিন্যাস, নিরাপত্তা এবং একই সময়ে যেন আরও মানুষ প্রতিষ্ঠানের কাজ করা নির্দিষ্ট মানুষের যাবতীয় তথ্য নির্দিষ্ট কিওয়ার্ড দিয়ে কয়েক সেকেন্ডের মাঝে পাওয়া যেতে পারে। এ ধরনের ডাটা মেশিন এবং মানুষের কাছ থেকে নেয়া, যেমন ফিন্যান্সশিয়াল সিস্টেম, ওয়েব ব্লগ, সেন্সর, সার্ভার এসব উপায় ব্যবহার করে নেয়া তথ্য মেশিন কর্তৃক এবং মানুষ নিজে কমপিউটারে যে তথ্য বা ডাটা লিপিবদ্ধ করে, যেমন ব্যক্তিগত তথ্য সেগুলো মানষের তৈরি বলা যায়। ফোর্বস’র মতে, অকাঠামোগত ডাটা বা তথ্য ঠিক করতে ৯৫ শতাংশ ব্যবসায়িক প্রতিষ্ঠানের বেশ সমস্যায় পড়তে হয়, আর এজন্য কাঠামোভিত্তিক ডাটা জরুরি।
অকাঠামোগত ডাটা
সুনির্দিষ্টভাবে ডাটা বা তথ্যগুলো এ পর্যায়ে থাকে না, যা অনেক বেশি সময়, কষ্টসাধ্য এবং ব্যয়বহুল একটি অবস্থা; যখন কেউ ডাটাগুলো নিয়ে কাজ করতে চাইবেন। কারণ, এগুলো থিমে সংরক্ষণ করার আগে সুবিন্যস্ত উপায়ে রাখতে হবে এবং খেয়াল করা আসলে তথ্যগুলো কাজের কি-না। সোশ্যাল মিডিয়া প্ল্যাটফর্ম, টেক্সট, ভিডিও এবং ইন্টারনেটের যাবতীয় তথ্যগুলো কাঠামো অবস্থায় থাকে না। সিআইও’র তথ্যানুযায়ী, প্রতিদিন যে পরিমাণ ডাটা উৎপন্ন হয় তার ৮০-৯০ শতাংশ অকাঠামোগত অবস্থায় থাকে।
আংশিক কাঠামোগত ডাটা
এ ধরনের ডাটাগুলো কিছু বিন্যস্ত আবার কিছু ছড়ানো অবস্থায় থাকে। ডাটাবেজের অধীনে সব তথ্য এখানে সংরক্ষণ থাকে না। এ জন্য গুরুত্বপূর্ণ তথ্য পেতে কষ্ট হতে পারে।
বিগ ডাটার বৈশিষ্ট্য
ডউগ ল্যানি সর্বপ্রথম ২০০১ সালে ডাটার ধরন, গতি-প্রকৃতি এবং সংরক্ষণ প্রক্রিয়ার কথা তুলে ধরেন। আর সাম্প্রতিককালে ডাটার আরও নতুন কিছু বৈশিষ্ট্যও উল্লেখ করা হলো
ভলিউম
বিশ্বে প্রতিদিন ২.৫ কুইন্টিলিয়ন বাইটস ডাটা উৎপন্ন হয়। ডাটা বা তথ্য পর্যবেক্ষণে ব্যাপক পরিমাণ ডাটার দরকার। আইবিএমের মতে, ২০২০ সালে ৪০ জেটাবাইটস ডাটা উৎপন্ন হবে, যা ২০০৫ সালের তুলনায় ৩০০ গুণ বেশি। ইন্টারনেটের মাধ্যমে আমরা অনেক ডাটা বা তথ্য প্রতিদিন তৈরি করি। আমাদের কাজের জন্য কী পরিমাণ ডাটা জরুরি ও কাজে আসবে তা আমাদের বাছাই করে ব্যবহার করতে হবে। অপরদিকে, বেশিরভাগ ইউএস কোম্পানির ১০০ টেরাবাইটস ডাটা সংরক্ষিত আছে।
ভেরাইটি
ডাটা বিভিন্নভাবে থাকতে পারে, কাঠামোগতভাবে বিন্যস্ত, অকাঠামোগত কিংবা কিছুটা গুছানো এবং এসব ডাটা বা তথ্য বিভিন্ন উৎস থেকে আসতে পারে। ডাটা ইমেইল, পিডিএফ, ছবি কিংবা পোস্ট যেকোনো জায়গা থেকে পাওয়া যেতে পারে এবং একেক রকম হতে পারে ডাটা। যেমন ফেসবুকে প্রতিদিন ১ বিলিয়ন কনটেন্ট শেয়ার করা হয়, আর টুইটারে প্রতিদিন ১৩৪ মিলিয়ন ব্যবহারকারী প্রবেশ করেন। এখানে একেকটি ডাটা বা তথ্যে বেশ পার্থক্য রয়েছে। বিগ ডাটার অন্যতম গুরুত্বপূর্ণ ব্যাপার হচ্ছে তথ্য বা ডাটার ভিন্নতা থাকা।
ভেলোসিটি
এটি যে ডাটা তৈরি, সংরক্ষণ এবং প্রক্রিয়া সে বিষয়কে উপস্থাপন করে। নিউ ইয়র্ক স্টক এক্সচেঞ্জ প্রতিটা ট্রেডিং সেশনে ১ টেরাবাইটস ব্যবসায়িক ডাটা বা তথ্য তৈরি করে। ডাটার প্রবাহ, ডাটা সংরক্ষণ কেমন তা ব্যাপক গুরুত্ব রাখে, অর্থাৎ এটা কি রিয়েল টাইম ডাটা নাকি কয়েক সেকেন্ড পরের তা সিদ্ধান্ত নেয়ায় ভালো ভূমিকা রাখে। প্রতি মুহূর্তে ডাটা পরিবর্তন হয়, এ জন্য প্রকৃত সময়ের তথ্য বা ডাটা গবেষকদের পূর্ণাজ্ঞ একটি সিদ্ধান্তে উপনীত হতে ভূমিকা থাকে।
ভেরাসিটি
কী ধরনের মানসম্পন্ন ডাটা বা তথ্য পর্যবেক্ষণ করা হবে তা বুঝায়। উচ্চমানসম্পন্ন নিখুঁত ডাটার অনেক বিষয় থাকে, যা সম্পূর্ণ কাজকে একটি অর্থপূর্ণ গতি প্রদান করে; কারণ সেটি বিশ্লেষণ করে সুনির্ধারিত প্রয়োজন, সম্ভাবনা এবং ফলাফল পাওয়া সম্ভব। ভালো মানের ডাটা না হলে সেই ডাটা বা তথ্য কাজের অগ্রগতিতে তেমন ভূমিকা রাখে না, বরং সময় খরচ হয়। আইবিএমের তথ্য অনুযায়ী, মানহীন ডাটা বা তথ্যের জন্য প্রতি বছর ইউএস অর্থনীতিকে প্রায় ৩.১ ট্রিলিয়ন ডলার লোকসান গুনতে হয়।
ভ্যালু
সব ডাটা বা তথ্যের মূল্য বা ভ্যালু নেই, কিছু ডাটা আপনার কাজের জন্য অর্থবহ হয়ে থাকে। নেটফ্লিক্স বিগ ডাটা ব্যবহার করে প্রতি বছর কাস্টমার ধরে রেখে তাদের ১ বিলিয়ন ডলার সঞ্চয় করে।
ভেরিয়েবিলিটি
কোন ডাটাগুলো ব্যবহার ও সুবিন্যস্ত হবে।
বিগ ডাটায় ব্যবহৃত কিছু টুল
বিগ ডাটা নিয়ে কাজ করতে আপনাকে ডাটা বিন্যাস, অ্যানালাইসিস এবং প্রোগ্রামিং ভাষায় ভালো দক্ষতা থাকতে হবে। জাভা, পাইথন, এসকিউএল, আর, স্কেলার মতো ভাষায় দক্ষ হতে হবে। এ ছাড়া কিছু সফটওয়্যার টুল ব্যবহারের কাজ অবশ্যই জানতে হবে। সে রকম কিছু টুল উল্লেখ করা হলো
- Data Robot
- TensorFlwo
- Oracle Data Mining
- Hadoop
- MatLab
- OpenRefi ne
- Rapid Miner
বিশেষ করে ক্যালিফোর্নিয়ার সানডিয়েগোতে ২৪ ঘণ্টা সেবা নিশ্চিত করার জন্য রিসোর্স বা তথ্য হাবের সাথে ফোন কিংবা অনলাইনে নাগরিকেরা যুক্ত থাকেন। শহরটিতে বিগ ডাটা ব্যবহার করে ১২০০ ধরনের সেবাদাতা প্রতিষ্ঠানের সাথে নাগরিক যোগাযোগ একটি সেন্টারের মাধ্যমে সম্পন্ন হয়। এতে করে জরুরি প্রয়োজনে নাগরিকের কী সেবা দরকার তার সাজেশন অনুযায়ী সেবা পাবেন।
নিরাপত্তাবিষয়ক সেবা
শহরে অন্যায় অপরাধ নিয়ন্ত্রণে বিশ্বের সব দেশ ডাটা ব্যবহার করছে। কোনো এলাকায় মানুষের পরিবেশ কেমন এবং সমস্যা ও বিভিন্ন ধরনের ডাটা বা তথ্য-উপাত্ত থাকলে সে হিসেবে ব্যবস্থা নেয়া যেমন সহজ এবং সম্ভাব্য নিরাপত্তার বিষয়ে আগাম সতর্ক হওয়াও সহজ।
খেলাধুলা
আজকাল খেলাধুলাতেও ডাটা পর্যবেক্ষণ করা হয়, নিজেদের কোন খেলোয়াড় কেমন করছে এবং প্রতিপক্ষের কোন খেলোয়াড় কীভাবে খেলে তা খেয়াল করে নিজেদের খেলার পরিকল্পনা দলগুলো করে থাকে। করেছে। কী ধরনের ওষুধ দরকার তার সম্ভাব্যতা যাচাই করা সহজ।
ব্যবসা এবং মার্কেটিং
আর্থিক প্রতিষ্ঠানে লেনদেন ও নিরাপত্তার কার্যক্রম নিয়ন্ত্রণে ডাটা বেশ উপকারী, এতে করে পর্যবেক্ষণ করা যায় কোনো ধরনের অনিয়ম হচ্ছে কি-না। এ ছাড়া সঠিক মার্কেটিংয়ের জন্য প্রোডাক্টের চাহিদা কেমন তার ডাটা নির্ভর করে মার্কেটিং করা উচিত।
তথ্যপ্রযুক্তি
ইন্টারনেট লাইভ স্ট্যাটের তথ্যানুযায়ী, গুগলে প্রতিদিন ৩.৫ বিলিয়নের ওপর সার্চ হয়। অর্থাৎ, অনেক প্রযুক্তি প্রতিষ্ঠানের সম্ভাবনা তৈরি হচ্ছে, যারা তথ্য বিশ্লেষণ করে নতুন সেবা দিতে পারে। এ ছাড়া ডাটা পর্যবেক্ষণ করে তথ্যপ্রযুক্তির মাধ্যমে আবহাওয়া বিশ্লেষণ সহজ করা।
আমরা প্রতিদিন বিভিন্ন ক্ষেত্রে ডাটা তৈরি করছি এবং ডাটার সঠিক প্রয়োগ সামগ্রিকভাবে একটি দেশের অনেক বেশি গতিশীল অবস্থা আনতে পারে
০ টি মন্তব্য