Dec 13, 2018

கருத்துக்கணிப்புகள் - அரசியல் இல்லை.

தேர்தல் முடிந்தவுடன் நடந்த கருத்துக் கணிப்புகள் எதுவுமே துல்லியமாக இல்லை. மேம்போக்காக அடித்து விட்டிருந்தார்கள். பிக் டேட்டா படித்துக் கொண்டிருப்பதால் இந்த சூட்சமங்களை எல்லாம் தெரிந்து கொள்வது சுவாரசியமாக இருக்கிறது. பெருந்தகவல் (Bigdata) என்பதில் பல துறைகள் இருக்கின்றன. ஒன்றுமில்லாத மாதிரிதான் தெரியும்- இருக்கும் தகவலை ஒரு வடிவத்துக்குக் கொண்டு வருவதற்குள் நாக்குத் தள்ளிவிடுகிறது. உதாரணத்துக்கு ஒன்று- மாவட்டம், அதில் இருக்கும் பஞ்சாயத்துகள், ஒவ்வொரு பஞ்சாயத்திலும் உள்ள மக்கள் தொகை- இதுதான் தகவல் என்று வைத்துக் கொள்வோம். இது எந்த வடிவத்திலும் இருக்கலாம். பிடிஎஃப்பாக இருக்கலாம், வேர்ட் வடிவத்தில் இருக்கலாம். இதையெல்லாம் எக்ஸெல்லில் போட்டு ஒரு வகைப்பாட்டுக்குள் கொண்டு வர வேண்டியிருந்தது. ‘நமக்குத் தெரியாத எக்ஸெல்லா’ என்று நினைத்துக் கொண்டிருந்தேன். மூச்சுத் திணறிப் போனது. கைவசம் இருக்கும் தகவலை ஒரு வடிவத்துக்குக் கொண்டு வருவது கூட பிக்டேட்டாவின் ஆட்கள் தேவைப்படும் களம்தான். (unstructured data to structured data). இப்படி நிறைய களங்கள் இருக்கின்றன.

பிக்டேட்டா பற்றி இன்னொரு நாள் பேசுவோம். 

தேர்தல் கருத்துக் கணிப்பைப் பொறுத்த வரையிலும் இரண்டு படிகள் உண்டு. வாக்காளர்களிடம் கேட்டு பதிலை வாங்குவது முதல்படி. இதுவே சிக்கலானதுதான். ஒவ்வொரு தொகுதியிலும் கணிப்பு நடத்த முடியாதல்லவா? குறிப்பிட்ட தொகுதிகளைத் தேர்ந்தெடுத்து அதில் எந்தெந்த தொகுதிகளில் எந்த வகையான ஆட்களிடம் கணிப்பு நடத்துகிறோம் என்று துல்லியமாகச் செய்ய வேண்டும். உதாரணமாக சேலத்தில் ‘நீங்க யாருக்கு ஓட்டுப் போட்டீங்க?’ என்று கேட்டு பதிலை வாங்கிவிடலாம். முப்பத்தைந்து கிலோமீட்டர் தள்ளி கொங்கணாபுரத்தில் பதிலை வாங்க முடியாது. சிரித்துச் சமாளித்துவிடுவார்கள் அல்லது மாற்றிச் சொல்லிவிடுவார்கள். இரண்டு ஊர்களும் ஒரே தொகுதியில் வரக் கூடும். இடம் மாறும் போது மக்களின் பழக்கவழக்கங்கள் மாறுகிற வாய்ப்புகள் மிக அதிகம். நாம் வாங்கிய பதில்கள் சரியானவை என்ற கணக்கில் அடுத்த கட்டத்துக்கு நகர்ந்தால் தவறான முடிவுக்குத்தான் வந்து சேர்வோம். அதனால்தான் கள அனுபவமில்லாத ஆட்கள் தகவல் சேகரித்தால் சொதப்புவதற்கு வாய்ப்பு அதிகம். 

இரண்டாம்படி புள்ளியியல் வல்லுநர்களுக்கானது. 1200 பேரிடம் கணிப்பு நடத்தியிருந்தால் அதில் ஆண்கள் எவ்வளவு பேர், பெண்கள் எவ்வளவு பேர், வயதானவர்கள், இளைஞர்கள் என விகிதாச்சார அடிப்படையில் பிரித்து அதை மாநிலம் முழுக்கவும் இருக்கும் ஆறு கோடி வாக்காளர்களின் மனநிலையோடு பொருத்துவது மிக முக்கியமான கட்டம். நிறைய Quantitative methods இருக்கின்றன. புள்ளியியல் அறிவில்லாதவர்கள் எந்த மென்பொருளைப் பயன்படுத்தினாலும் தவறான முடிவுதான் வந்து சேரும். இரண்டு படிகளிலும் தொண்ணூற்றைந்து சதவீதம் சரியாகச் செய்தால் மட்டுமே கிட்டத்தட்ட சரியான முடிவுக்கு வர முடியும். 

தொழில்நுட்ப ரீதியாகப் பார்க்கும் போது எளிதான காரியமாகத் தெரியும். ஆனால் மேலே குறிப்பிட்ட சேலம்-கொங்கணாபுரம் உதாரணம் போல நிறையச் சிக்கல்கள் உண்டு. அமெரிக்காவில் பல ஆண்டுகளுக்கு முன்பாக ஒரு கருத்துக் கணிப்பு நடத்தி முடிவையும் வெளியிட்டார்கள். வழக்கத்தைவிடவும் கூட அதிகமானவர்களைத் தொடர்பு கொண்டு தகவல் சேகரித்தார்களாம். ஆனால் முழுமையாகத் தவறாகிவிட்டது. காரணம் என்னவென்றால் அவர்கள் தொலைபேசியில் அழைத்து ‘நீங்க யாருக்கு ஓட்டுப் போடுவீங்க’ என்று கேட்டிருக்கிறார்கள். வதொலைபேசி அரிதாக இருந்த கால கட்டம் அது. மேல்தட்டு மக்கள் மட்டுமே பயன்படுத்திக் கொண்டிருந்தார்கள். கணிப்பு நடத்தியவர்கள் இந்த ஒரு அம்சத்தை கவனத்தில் எடுத்துக் கொள்ளவேயில்லை. மேல்தட்டு மக்களின் வாக்குகள் மட்டுமே முடிவைக் காட்டுவதில்லை அல்லவா?

கருத்துக் கணிப்பைப் பொறுத்தவரையிலும் இந்த இரண்டு படிகள் மேம்போக்காகத் தெரிபவை. ஆனால் அதனுள் மடிப்பு மடிப்பாக ஏகப்பட்ட விஷயங்கள் இருக்கின்றன.

ஆன்லைனில் நடக்கும் கருத்துக்கணிப்புகள் இப்படித்தான். முரசொலியோ அல்லது நமது எம்.ஜி.ஆரோ ஆன்லைனில் கருத்துக் கணிப்பு நடத்தினால் என்னவாகும்? அதை வாசிக்கிறவர்கள் வாக்களிப்பார்கள். முரசொலியின் முடிவு திமுகவுக்கு வெற்றி என்று காட்டும். நமது எம்.ஜி.ஆரின் முடிவு டிடிவியை வெற்றி என்று காட்டும். நானும் நீங்களும் கருத்துக் கணிப்பு நடத்தினாலும் கூட அப்படித்தான் இருக்கும். என்னுடைய கருத்துக்கள் பிடிக்காதவர்கள் எட்டியே பார்க்கமாட்டார்கள். என்னைப் பின் தொடர்கிறவர்களில் பெரும்பாலானவர்கள் என்னுடைய விருப்பு வெறுப்பு சார்ந்தவர்களாக இருப்பார்கள். ஒரு தலைப்பட்சமான முடிவாகத்தான் கிடைக்கும்.

சார்பற்ற, நடுநிலையான தகவல் சேகரிப்பில்தான் கணிப்பின் முழு வெற்றியும் அடங்கியிருக்கிறது. தேர்தலுக்கு மட்டும் என்றில்லை. எந்தவிதமான கணிப்புக்கும் இதே சூட்சமம்தான். வணிக நிறுவனங்கள் நடத்துகிற கருத்துக் கணிப்பைக் கூட எடுத்துக் கொள்ளலாம். கடைக்கே வராத ஆளொருவர் அதிசயமாக வந்திருப்பார். அவரின் கருத்துக்களை எடுத்துக் கொண்டு முடிவுக்கு வந்தால் கதை கந்தலாகிவிடும்.

பெரும்பாலும் இந்தியாவில் கருத்துக்கணிப்புகள் துல்லியமாக இருப்பதேயில்லை. ஆனால் கருத்துக்கணிப்பை நடத்துகிற ஏஜென்ஸிகள் கணிசமான தொகையைப் பெற்றுக் கொள்கின்றன. பிக் டேட்டாவைக் கொஞ்சம் படித்துக் கொண்டிருப்பதால் இதையெல்லாம் கவனிக்கத் தோன்றுகிறது. புதிதாகத் தெரிந்து கொள்வது எதுவுமே- அதுவும் நம்முடைய ஆர்வத்துக்குத் தீனி போடுவதாக இருந்தால் இன்னமும் சுவாரஸியம்தான்.

எதிர்காலத்தில் பிக்டேட்டாவில் அனுபவம் வாய்ந்த வல்லுநர்கள் உருவாகும் போது கணிப்புகள் சரியாக அமையக் கூடும்.

3 எதிர் சப்தங்கள்:

சேக்காளி said...

//‘நமக்குத் தெரியாத எக்ஸெல்லா’ என்று நினைத்துக் கொண்டிருந்தேன்.//
அக்சஸ் எப்படி?

சேக்காளி said...

//எதிர்காலத்தில் பிக்டேட்டாவில் அனுபவம் வாய்ந்த வல்லுநர்கள் உருவாகும் போது கணிப்புகள் சரியாக அமையக் கூடும்//
திரட்டப்படும் தகவல்கள் உண்மையாக இருக்கும் பட்சத்தில் நீங்கள் சொல்வது நடக்கலாம்.

Parthasarathi J said...

Mani- Data will mislead you while you making inferential decisions.Sample has to be versatile and should include all the type of people affected with current,Local,Statewide and Nation wise. Confidence interval of 95% is also a mere jusjement because results vary between 1 to 5% too.