Εξόρυξη και ανάλυση ανοικτών δεδομένων Twitter

Μελέτη του τμήματος Εφαρμοσμένης Πληροφορικής του Πανεπιστημίου Μακεδονίας

Καθηγητής: Ταμπούρης Ευθύμιος
Φοιτήτριες: Τσαχειρίδου Μαρία, Τσελίγκη Δήμητρα

Η παρούσα μελέτη πραγματοποιήθηκε ως μέρος του μαθήματος Τεχνολογίες Ιστού και Ανάλυση Δεδομένων του προγράμματος μεταπτυχιακών σπουδών του τμήματος Εφαρμοσμένης Πληροφορικής του Πανεπιστημίου Μακεδονίας και ως σκοπό έχει να φέρει τους αναγνώστες πιο κοντά στην κατανόηση αλλά και στη χρήση ανοιχτών διασυνδεδεμένων δεδομένων (linkedopendata), τα οποία αναμφισβήτητα τα τελευταία χρόνια έχει ενταθεί σε ολοένα και περισσότερους κλάδους.

Τι είναι τα ανοιχτά δεδομένα; Πότε ξεκίνησε η αξιοποίηση των δεδομένων αυτών; Ποια είναι η σημασία τους;

Σύμφωνα με το opendefinition.org,  τα ανοιχτά δεδομένα και το περιεχόμενο μπορούν ελεύθερα να χρησιμοποιηθούν, να τροποποιηθούν και να διαμοιραστούν από τον καθένα για οποιοδήποτε σκοπό. Η παγκόσμια τράπεζα κατηγοριοποιεί αυτά τα δεδομένα σε τεχνολογικά και νομικά ανοιχτά. Τα τεχνολογικά ανοιχτά είναι διαθέσιμα σε μια μορφή που μπορεί να γίνει κατανοητή από υπολογιστές (machine-readable), γεγονός που τα καθιστά ανακτήσιμα και επεξεργάσιμα από εφαρμογές. Ενώ τα νομικά  ανοιχτά έχουν ρητή άδεια που να επιτρέπει εμπορική χρήση και επαναχρησιμοποίηση χωρίς περιορισμούς.

Εντυπωσιακό, είναι το γεγονός πως παρόλο που η έννοια των ανοιχτών δεδομένων είναι σχετικά πρόσφατη, ήδη από τις αρχές του 1940 προτάθηκε η ιδέα της κοινής χρήσης των αποτελεσμάτων ερευνών από τον Robert,King,Merton. Ωστόσο, μόνο τα τελευταία χρόνια γίνονται σημαντικές μαζικές προσπάθειες να παρέχονται ανοιχτά δεδομένα σε όλους τους χρήστες. Συνηθέστερα, τα ανοιχτά δεδομένα δημοσιεύονται ως συνδεδεμένα ανοιχτά δεδομένα (linkedopen data), ώστε να μπορούν να διασυνδεθούν με άλλα δεδομένα και να χρησιμοποιείται ο ιστός σαν μια ανοιχτή βάση δεδομένων.

Η Ευρωπαϊκή Ένωση κάνει συντονισμένες ενέργειες ώστε ολοένα και περισσότεροι κρατικοί οργανισμοί να «απελευθερώνουν» τα δεδομένα στο ευρύ κοινό. Έτσι πολλές χώρες πλέον, διαθέτουν πύλες ανοιχτών κυβερνητικών δεδομένων. Χαρακτηριστικά παραδείγματα για την Ελλάδα είναι ο επίσημος κεντρικός κατάλογος Ελληνικών δημόσιων δεδομένων http://data.gov.gr/ και το portalτης Ελληνικής στατιστικής αρχής http://www.statistics.gr/portal/page/portal/ESYE. Ήδη, με την πρωτοβουλία των κυβερνήσεων και άλλων οργανισμών να διαθέσουν τα δεδομένα τους, εκτιμήθηκε πως το 2010 το μέγεθος της σχετικής αγοράς στην ΕΕ στα 32 δισ. Ευρώ με 7% ετήσια αύξηση, ενώ το 2013 το McKinseyGlobalInstitute εκτίμησε την ετήσια παγκόσμια δυνητική αξία των ΑΔ σε $3 trillion. Γεγονός που είναι βάσιμο, αν λάβει κανείς υπ’ όψιν του τις πολλαπλές χρήσεις των δεδομένων αυτών σε ποικίλους τομείς όπως την ιατρική, την δημοσιογραφία, την οικονομία, τον τουρισμό κλπ.

Διαβάστε επίσης  Η νέα σειρά Surface της Microsoft (Μέρος Ά)
Η υπηρεσία Influence Tracker και τα δεδομένα του Twitter

Πρόκειται για μια υπηρεσία η οποία ξεκίνησε ως μέρος μιας PhD έρευνας του Ραζή Γεράσιμου (https://gr.linkedin.com/in/gerasimosrazis) και του Αναγνωστόπουλου Ιωάννη (http://www.anagnostopoulos.name/) για τον υπολογισμό της σημασίας και της επιρροής ενός λογαριασμού στο Twitter.

Προτείνεται λοιπόν μια οντολογία για τη σημασιοποίηση των λογαριασμών Twitter και των πληροφοριών που διαδίδονται καθώς και των αντίστοιχων οντοτήτων ως LinkedData, όπου οι χρήστες μπορούν να αναζητήσουν οποιοδήποτε λογαριασμό Twitter επιθυμούν, ανακαλύπτοντας μετρήσεις απευθείας από τις πληροφορίες που παρέχονται από το Twitter.

Για παράδειγμα η αναζήτηση του λογαριασμού του ChrisCornell μέσω της υπηρεσίας InfluenceTracker, μας επέστρεψε τα παρακάτω δεδομένα:

 

Παράλληλα όμως, η υπηρεσία μας παρέχει την δυνατότητα να θέσουμε στοχευμένα ερωτήματα στο SparqlEndpoint ώστε να αντλήσουμε συγκεκριμένα δεδομένα τα οποία στη συνέχεια μπορούμε να τα χρησιμοποιήσουμε σε γραφικές απεικονίσεις στατιστικές αναλύσεις κλπ.

Ανάλυση των λογαριασμών Twitter της παγκόσμιας και ελληνικής πολιτικής σκηνής

Όπως είναι γνωστό, παγκοσμίως η χρήση του twitter είναι ιδιαίτερα διαδεδομένη και προσφιλής στα πολιτικά πρόσωπα. Έτσι, οι λογαριασμοί τους οποίους μελετήσαμε μέσω της υπηρεσίας InfluenceTracker και για τους οποίους χρησιμοποιήσαμε δεδομένα σχετίζονται με πολιτικούς τόσο της Ελλάδας, όσο και του εξωτερικού χωρίς να σημαίνει όμως ότι το παρόν άρθρο υπηρετεί πολιτικές σκοπιμότητες, εφόσον η παρουσίαση αυτή γίνεται καθαρά για εκπαιδευτικούς σκοπούς.

Αρχικά, θέσαμε ερωτήματα για να λάβουμε τα παρακάτω δεδομένα για τους Έλληνες πολιτικούς βάση κάποιων ερωτημάτων. Τα δεδομένα που αποκομίσαμε, οπτικοποιήθηκανκαι προέκυψαν τα εξής γραφήματα:

 

 

 

 

 

 

 

 

 

 

Σε αυτό το γράφημα απεικονίζονται κάποια από τα accounts που έχουν χρησιμοποιήσει το hashtag #Greece στα tweets τους. Τα άτομα αυτά ανήκουν στο πολιτικό χώρο. Παράλληλα βλέπουμε τον αριθμό των followers που έχουν προκειμένου να κατανοήσουμε και σχηματικά την «δύναμη» των προσώπων – οργανισμών στα κοινωνικά δίκτυα με βάση τον αριθμό αυτό. Τα ονόματα των προσώπων-οργανισμών δίνονται σε μορφή ονόματος account ώστε να μπορούν εύκολα να αναζητηθούν στο Twitter για περαιτέρω πληροφορίες.

Σε αυτό το δεύτερο γράφημα απεικονίζεται η χρήση τεσσάρων hashtags σχετικών με την πολιτική κατάσταση της χώρας(#crisis #eurogroup #grexit #mnimonio) από λογαριασμούς που συνδέονται μεταξύ τους με αμοιβαία σχέση follower-following. Το μέγεθος του κύκλου αφορά την επιρροή (influence) των accounts του άξονα Χ στο twitter. Από εδώ βγαίνουν συμπεράσματα όπως η συχνότητα χρήσης των hashtags καθώς και οι σχέσεις μεταξύ γνωστών accounts. Πολλά από τα accounts αυτά αφορούν γνωστά blog και πρόσωπα της πολιτικής.

Διαβάστε επίσης  Η προσέγγιση ασφάλειας αποθήκευσης δεδομένων στο Cloud αγγίζει την κβαντική φυσική

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Στο τρίτο κατά σειρά γράφημα, απεικονίζονται τα Top accounts με τη μεγαλύτερη επιρροή στο Twitter, που αναφέρουν το account <atsipras> σε tweet τους. Οι λογαριασμοί είναι ομαδοποιημένοι σε clusters ανάλογα με τα tweets per day. Με αυτό τον τρόπο έχουμε μια εικόνα αφενός των σημαντικών λογαριασμών που έχουν ασχοληθεί με ένα ισχυρό πρόσωπο της χώρας και αφετέρου συγκρίνουμε με τον αριθμό των tweets που κάνουν κατά μέσο όρο την ημέρα.

Τα κέντρα του κάθε cluster, φαίνονται στο παρακάτω πίνακα, όπου είναι φανερές και οι μεγάλες διαφορές της πρώτης με την τελευταία ομάδα.

 

 

 

 

 

 

 

 

 

 

 

 

 

Στη συνέχεια, προσπαθώντας να συγκρίνουμε την παρουσία δύο αξιοσημείωτων πολιτικών παγκόσμιας κλίμακας, στο twitter, θέσαμε κάποια ερωτήματα προσπαθώντας να συλλέξουμε δεδομένα για τα παρακάτω:Στη συνέχεια, προσπαθώντας να συγκρίνουμε την παρουσία δύο αξιοσημείωτων πολιτικών παγκόσμιας κλίμακας, στο twitter, θέσαμε κάποια ερωτήματα προσπαθώντας να συλλέξουμε δεδομένα για τα παρακάτω:

Επιλέξαμε ένα σύνολο 1000 hashtags που περιέχουν υποσύνολα hasttags, το καθένα από τα οποία έχει χρησιμοποιηθεί από  τον Donald Trump τουλάχιστον μία φορά και τα έχουν χρησιμοποιήσει και άλλοι χρήστες. Αντίστοιχα επιλέχθηκαν ένα σύνολο 1000 hashtags που έχει χρησιμοποιήσει ο Barack Obama και άλλοι χρήστες.

Λαμβάνοντας τα δεδομένα τα οπτικοποιήσαμε στο παρακάτω γράφημα, όπου φιλτράραμε τα hashtags ώστε να εμφανίζονται όσα έχουν χρησιμοποιήσει τουλάχιστον 10 χρήστες, πέραν του Donald Trump. Όπως φαίνεται, το hashtag με τις περισσότερες εμφανίσεις είναι το #facebook.

 

Αντίστοιχα, τα δεδομένα που αποκομίσαμε όταν τρέξαμε το ερώτημα για Barack Obama τα χρησιμοποιήσαμε στο παρακάτω γράφημα. Σε αυτή τη περίπτωση το hashtag με τις περισσότερες χρήσεις είναι το #cop21.

 

 

 

 

 

 

 

 

 

 

 

Εν συνεχεία αναζητήσαμε τους 100 λογαριασμούς twitter οι οποίοι ακολουθούν τον DonaldTrump. Αντίστοιχη αναζήτηση έγινε και  για τον BarackObama.

 

Διαβάστε επίσης  Predator Android Spyware: Νέες δυνατότητες κλοπής δεδομένων

 

 

 

 

 

 

 

 

 

Οι followers του BarackObama ομαδοποιήθηκαν σε 3 σύνολα βάσει του ποσοστού επιρροής τους, όπως φαίνεται και στο προηγούμενο γράφημα. Από τα στατιστικά που προκύπτουν, οι περισσότεροι followers είναι συγκεντρωμένοι στο σύνολο 3 το οποίο έχει τα χαμηλότερα ποσοστά επιρροής των followers και το κέντρο του ισούται με 3475,5.

 

 

 

 

 

 

 

 

 

Οι followers του DonaldTrump, ομοίως ομαδοποιήθηκαν σε 3 σύνολα βάσει του ποσοστού επιρροής τους, όπως φαίνεται και στο προηγούμενο γράφημα. Από τα στατιστικά που προκύπτουν, οι περισσότεροι είναι συγκεντρωμένοι στο σύνολο 2 το οποίο έχει τα μεσαία ποσοστά επιρροής των followers και το κέντρο του ισούται με 3853,4.

Φαινομενικά, οι followers του DonaldTrump φαίνεται να έχουν μεγαλύτερη επιρροή, αλλά  παρατηρώντας λεπτομερέστερα, τα κέντρα των 3 συνόλων των followers του BarackObama φαίνεται ότι σε κάθε περίπτωση η τιμή του κάθε συνόλου είναι υψηλότερη. Άλλωστε, αυτό αποδεικνύετε και αν συγκρίνει κανείς τις διαμέτρους των κύκλων ανάμεσα στα δύο γραφήματα.

Χρησιμοποιώντας δεδομένα  από κοινούς χρήστες του twitter και το ποσοστό retweets τους  πήραμε ένα γράφημα τύπου barchart.

Στη συνέχεια αφού ομαδοποιήσαμε τους χρήστες βάσει του  ποσοστού retweet κρατήσαμε την ομάδα στην οποία ανήκουν και τα ποσοστά retweet των Obama και Trump αντίστοιχα.

Στο ραβδόγραμμα αυτό φαίνεται η μέση τιμή  (92,00) του ποσοστού retweet η οποία συμπίπτει σχεδόν με το ποσοστό  retweet του DonaldTrump (92,03), ενώ ο BarackObama υπολείπεται με ποσοστό  (83,00).

Τέλος, αυτές είναι οι εικόνες τα URL των οποίων ανακτήθηκαν από τους λογαριασμούς των DonaldTrump και BarackObama αντίστοιχα, μέσω του προγράμματος InfluenceTracker.

Κλείνοντας, αυτές δεν είναι παρά ελάχιστες από τις δυνατότητες που μπορούν να μας προσφέρουν τα ανοιχτά δεδομένα. Τα οποία φαίνεται ότι στα επόμενα χρόνια θα αποκτούν όλο και περισσότερο κοινό, μεγαλύτερες εφαρμογές και καλύτερη αξιοποίηση τους. Το κυριότερο σημείο όμως αυτής της εξέλιξης είναι  η αποδοχή της πρόκλησης για ελεύθερη διανομή των δεδομένων από περισσότερους οργανισμούς, κρατικούς και μη.

Το άρθρο αυτό είναι αποτέλεσμα μελέτης της Τσαχειρίδου Μαρίας και της Τσελιγκάκη Δήμητρας στα πλαίσια του μαθήματος Τεχνολογίες Ιστού και Ανάλυση Δεδομένων του προγράμματος μεταπτυχιακών σπουδών του τμήματος Εφαρμοσμένης Πληροφορικής του Πανεπιστημίου Μακεδονίας υπό την επίβλεψη του καθηγητή Ταμπούρη Ευθύμιου.

 

 

Αρθρα απο την ιδια κατηγορια

Klute

Klute: Ωδή στην ανθρώπινη ψυχή

Μετά από την τραγική είδηση του θανάτου του αγαπημένου ηθοποιού

Οι ψάθινες τσάντες είναι το απόλυτο καλοκαιρινό αξεσουάρ.

Οι ψάθινες τσάντες, ιδιαίτερα δημοφιλείς τους καλοκαιρινούς μήνες, αποτελούν