தரவுத் தொழில்நுட்பத் துறை என்பது கடந்த பத்தாண்டுகளில் மிகப் பெரிய வளர்ச்சியை அடைந்திருக்கும் துறையாகும். Data analyst (தரவு ஆய்வாளர்), Data analysis (தரவு ஆய்வு), Data analytics (தரவுப் பகுப்பாய்வு), Big data analytics (பெருந்தரவுப் பகுப்பாய்வு), Data mining (தரவு அகழ்வு) போன்ற சொற்களெல்லாம் சமீப காலத்தில் நாம் அதிகமாகக் கேள்விப்படுபவையாகும். இளைய தலைமுறையினர் இதைப் பற்றி அறிந்துகொள்ளவும் இது தொடர்பான துறையில் பணியாற்றவும் விரும்புகின்றனர்.
தரவு (Data) என்பதற்குத் தகவல்களைச் சேகரிப்பது, தகவல்களைப் பகிர்ந்துகொள்வது என்பது பொருள். அதாவது, ‘என் பெயர் குமரன், என் ஊர் சென்னை, நான் பட்டிமன்றத்தில் பேசிவருகிறேன்’ என்று ஒருவர் உங்களிடம் கூறினால், நீங்கள் உடனடியாக இந்தத் தகவலை உங்கள் மூளையில் சேமித்து வைத்துக்கொள்வீர்கள் அல்லது அவரைப் பற்றிய இந்தத் தகவல்களைப் பிறருடன் பகிர்ந்துகொள்வீர்கள். இதைத்தான் நமது தொழில்நுட்பம், சாதனங்கள், இயந்திரங்கள் செய்கின்றன.
தரவுகளைச் சேமித்து வைப்பதைத் தவிர, அந்தத் தரவுகளைச் சில செயல்கள் மூலமாக முறைப்படுத்தும்போது (உதாரணமாக பகுப்பாய்வு செய்தல், இடப்பெயர்வு செய்தல், ஒருங்கிணைத்தல்) அதைச் செயலாக்கம் (Processing) என்று கூறுவோம். தரவுப் பகுப்பாய்வு என்பது தரவுத் தொகுப்புகளை ஆய்வு செய்யும் செயல்முறையாகும். அதாவது, தரவுத் தொகுப்புகளில் அடங்கியுள்ள தகவல்களை வைத்தும் அதன் சிறப்பு அமைப்புகளை வைத்தும், மென்பொருள் உதவியுடன் ஆய்வுசெய்து, எதிர்வரப்போகும் தகவல்களைக் கணிப்பதாகும்.
உதாரணமாக, 2010-லிருந்து 2021 வரை சென்னையில் மழை பெய்த அளவுக்கான தரவு உள்ளது என வைத்துக்கொள்வோம். இந்தத் தரவுகளில் உள்ள தகவல்களை ஆய்வுசெய்து, 2022-ல் சென்னையில் குறிப்பிட்ட அளவுக்கு மழை பெய்ய வாய்ப்பிருக்கிறது என்று கணிப்பதுதான் தரவுப் பகுப்பாய்வாகும். தரவு ஆய்வு என்பது தரவுத் தொகுப்புகளில் உள்ள தகவல்களை ஆய்வு செய்வதாகும். தரவுப் பகுப்பாய்வு என்பது தரவுத் தொகுப்புகளில் உள்ள தகவல்களை ஆய்வுசெய்து, அடுத்து என்ன நடக்கலாம் (அ) என்ன நடக்கப்போகிறது என்பதைக் கணித்துக் கூறுவதாகும். இன்னும் எளிமையாகக் கூற வேண்டுமானால், ஏற்கெனவே உள்ள தரவை ஆய்வுசெய்வது தரவு ஆய்வு ஆகும். இந்தத் தரவை வைத்துக்கொண்டு எதிர்வரும் தரவின் தகவலைக் கூறுவது தரவுப் பகுப்பாய்வு ஆகும்.
எதிர்வரும் தகவல்களைக் கூறுவது, விற்பனையை வைத்துத் திட்டமிடுவது, பகுப்பாய்வை வைத்து முன்பே கணிப்பது என்றெல்லாம் நிகழ்வுகளை முன்பே கணிப்பதற்கு தரவுப் பகுப்பாய்வு பெரிதும் உதவுகிறது. தரவுப் பகுப்பாய்வானது, வணிக நிறுவனங்களின் வருவாயை அதிகரிக்கவும், செயல்பாட்டுத் திறனை மேம்படுத்தவும் உதவுகின்றன. தரவுப் பகுப்பாய்வை இன்னும் எளிதாக விளக்க வேண்டுமென்றால், நீங்கள் ஒரே இனிப்பகத்துக்கு அடிக்கடி சென்று கேக், மிக்சர், சிப்ஸ், ரொட்டி போன்றவற்றை மட்டும் வாங்குகிறீர்கள் என்று வைத்துக்கொள்வோம். இதுபோல் ஒரு மாதம் செய்கிறீர்கள் என்றால், இரண்டாவது மாதத் தொடக்கத்தில் நீங்கள் அந்தக் கடைக்குச் சென்ற உடனே அந்தக் கடைக்காரர், அவராகவே நீங்கள் வழக்கமாக வாங்க நினைப்பதை எடுக்கத் தொடங்கிவிடுவார்.
அவர் எப்படி அவ்வாறு செய்கிறார்? முன்னால் நடந்த செயல்களின், தரவுகளின் அடிப்படையில் அதைக் கணிக்கிறார். மேலும், நமது ஊரில் உள்ள பழக்கப்பட்ட மளிகைக் கடைக்குச் சென்று பொருட்கள் வாங்கும்போது, அந்தக் கடைக்காரர் நாம் இதற்கு முன்னால், எந்தப் பொருட்களை அதிகம் வாங்குவோம், எது பிடிக்கும், எது பிடிக்காது என்பதை நம்முடைய முந்தைய தரவுகளின் அடிப்படையில் கணித்து வைத்திருப்பார். இதுபோலத் தரவுத் தொகுப்புகளை ஆய்வுசெய்து, எதிர்வரும் நிகழ்வுகள் தொடர்பான தகவல்களைக் கணிப்பதே தரவுப் பகுப்பாய்வு ஆகும். இது போன்று அதிக அளவிலான தரவுகளைக் கொண்ட தொகுப்பே பெருந்தரவு என்பதாகும். இதைத் தரப்படுத்தி ஆய்வுசெய்து, பகுப்பாய்வு செய்வதே பெருந்தரவுப் பகுப்பாய்வு ஆகும். இந்தத் தரவுகளை ஆய்வுக்கு உட்படுத்தி, தரவுகளைப் பகுப்பாய்வு செய்பவரே தரவு ஆய்வாளர்.
பெருந்தரவைத் தரவளவு (Volume), தரவுத் திசைவேகம் (Velocity), தரவுப் பன்மை (Variety) என்பதன் அடிப்படையில் நாம் வரையறை செய்ய முடியும். எடுத்துக்காட்டாக, ஃபேஸ்புக் பக்கத்தில் ஒவ்வொரு பயனாளியும் ஒரு கணக்கைத் திறந்து வைத்திருப்பார்கள். இதன் மூலம் நாம் படங்கள், காணொளி ஆகியவற்றைப் பகிர்ந்துகொள்ள முடியும், பார்க்க முடியும். இந்த அனைத்துத் தரவுகளும் ஃபேஸ்புக் வழங்ககத்தில் (Server) சேமித்து வைக்கப்பட்டிருக்கும். இந்த வழங்ககத்தில் உள்ள தரவுகளை நாம் பெருந்தரவு என்று கூறுகிறோம்.
அதேபோல் தரவுகளிலிருந்து சில புரிதல்களைப் பெறுவதுதான் தரவு அகழ்வு. தங்கத்தை மட்டும் சுரங்கங்களில் எவ்வாறு தனியாகப் பிரித்தெடுக்கிறார்களோ, அதுபோலத் தரவுகளைத் தரம்பிரித்து, அந்தத் தரவுகளிலிருந்து தேவையான அல்லது மிக முக்கிய தகவல்களை மட்டும் பிரித்தெடுப்பதுதான் தரவு அகழ்வு. இணைய வணிகம் சார்ந்த வலைதளங்களில் நாம் ஒரு கைபேசியோ, கைக்கடிகாரமோ வாங்குவதற்காகப் பார்க்கிறோம் என்றால், அடுத்த முறை நாம் எந்த வலைதளத்துக்குச் செல்லும்போதும், அழகான, புதிய கைக்கடிகாரங்கள், கைபேசி விளம்பரங்களெல்லாம் வந்துபோகும். நாம் எந்தப் பொருளின் மீது அதிக விருப்பம் காட்டுகிறோமோ, அந்தப் பொருளும் நம் கண்ணில் அடிக்கடி படுமாறு வந்துபோகும்.
இதுவும் தரவுச் செயலாக்கம்தான். நாம் வாங்க நினைக்கிற, பார்த்த தரவுகளின் அடிப்படையில், அதிலிருந்து அறிவைப் பெற்றுக்கொண்டு, நம் ரசனையைத் தெரிந்துகொண்டு, நமக்குத் தேவையான, விரும்பும் தகவல்களை நம் கண்முன், இயந்திரக் கற்றல், புள்ளியியல் தரவுகள் ஆகியவற்றின் அடிப்படையில் இந்தத் தரவுச் செயலாக்கம் செயல்படுத்துகிறது. இதன் விளைவாக, நாம் அனைவரும் தரவுச் சுரங்கங்கள் ஆகிறோம். நம் விருப்பங்கள், இயல்புகள், செயல்பாடுகள் என அனைத்தும் தரவுச் சுரங்கங்களிலிருந்து அகழ்ந்தெடுக்கப்படும் தங்கத் துகள்கள் ஆகின்றன.
- பா.சிதம்பரராஜன், முதல்வர், எஸ்.ஆர்.எம். வள்ளியம்மை பொறியியல் கல்லூரி; க.சண்முகம்,
உதவிப் பேராசிரியர், கணினி அறிவியல் துறை.
தொடர்புக்கு: shanmugamk.cse@valliammai.co.in
முக்கிய செய்திகள்
கருத்துப் பேழை
4 hours ago
கருத்துப் பேழை
23 hours ago
கருத்துப் பேழை
23 hours ago
கருத்துப் பேழை
23 hours ago
கருத்துப் பேழை
2 days ago
கருத்துப் பேழை
2 days ago
கருத்துப் பேழை
2 days ago
கருத்துப் பேழை
3 days ago
கருத்துப் பேழை
3 days ago
கருத்துப் பேழை
3 days ago
கருத்துப் பேழை
3 days ago
கருத்துப் பேழை
4 days ago
கருத்துப் பேழை
4 days ago
கருத்துப் பேழை
4 days ago
கருத்துப் பேழை
4 days ago