Ο όρος “Big Data” είναι σχετικά πρόσφατος και ορίζει δεδομένα με συγκεκριμένα χαρακτηριστικά και μέγεθος. Τα δεδομένα μπορεί να είναι οτιδήποτε από απλό κείμενο (εγγραφές σε Βάση Δεδομένων – ΒΔ), εικόνες, βίντεο, μουσική έως και τα likes και share σε social networks (πχ Facebook, Twitter, Instagram κλπ).
Η ιδέα των Big Data παρουσιάστηκε στις αρχές του 2000 από τον αναλυτή Doug Laney, ο οποίος όρισε, ότι προκειμένου να θεωρηθούν τα δεδομένα σε μία ΒΔ, ως Big Data, θα πρέπει να έχουν κάποια χαρακτηριστικά γνωρίσματα. Στην κοινότητα των μηχανικών βάσεων δεδομένων, αυτά τα γνωρίσματα, ήταν γνωστά ως 3 Vs:
Οι οργανισμοί συλλέγουν δεδομένα από αμέτρητες πηγές, συμπεριλαμβανομένου επιχειρησιακές συναλλαγές, παρουσία στα social media, δεδομένα από αισθητήρες και δεδομένα που ανταλλάσσονται μεταξύ μηχανών (servers, robots κλπ). Παλαιότερα η αποθήκευση όλων αυτών των δεδομένων, ήταν μεγάλο πρόβλημα, ωστόσο πλέον με την χρήση σύγχρονων προγραμμάτων και εφαρμογών, πολλά προβλήματα έχουν επιλυθεί.
Οι ροές δεδομένων τροποποιούνται σε αρκετά υψηλό ρυθμό και προκειμένου να μπορέσουν να επεξεργαστούν και να αποθηκευτούν, απαιτείται αρκετός χρόνος. Τα RFID tags, οι αισθητήρες και η έξυπνη πρόβλεψη (πχ καιρού), μας οδηγούν σε εξωπραγματικό όγκο δεδομένων προς επεξεργασία (Petabytes of data).
Τα δεδομένα, μπορεί να αποτελούνται από πολλούς και διαφορετικούς τύπους στην δομή και στο περιεχόμενό τους, συγκριτικά με τις παραδοσιακές – σχεσιακές βάσεις δεδομένων. Παράδειγμα διαφορετικών δεδομένων μπορεί να είναι εικόνες, βίντεο, τραγούδια, μετοχές, επιχειρηματικές συναλλαγές κ.α.
Καθώς η τεχνολογία αναπτύσσεται, οι ανάγκες της έρευνας και της ζήτησης, μας οδήγησαν στην προσθήκη δύο επιπλέον ιδιοτήτων, ώστε να θεωρήσουμε τα δεδομένα ως Big Data.
Επιπρόσθετα στο velocitiy και variety των δεδομένων, υπάρχουν αρκετά συχνά, ροές δεδομένων που δημιουργούν peaks (δηλαδή αυξομειώνονται ανομοιόμορφα). Η αντιμετώπιση των προαναφερόμενων δεδομένων, είναι δύσκολη από τα συστήματα, ακόμα και σήμερα, καθώς καθημερινά, πρέπει να διαχειριστούν πολύ μεγάλο όγκο δεδομένων, ταχύτατα. Η δυσκολία αυξάνεται κατακόρυφα, όταν τα δεδομένα προς επεξεργασία, είναι ανομοιόμορφα (σε αντίθεση με τις σχεσιακές βάσεις, που τα δεδομένα αποτελούνται κυρίως από κείμενο).
α δεδομένα πλέον, προέρχονται από ποικίλες πηγές, το οποίο δυσχεραίνει την επεξεργασία τους, την σύγκριση και μετάδοσή τους, μεταξύ των συστημάτων. Ωστόσο, είναι απαραίτητη η σύνδεση, η συσχέτιση και η ιεραρχία των δεδομένων, καθώς πολύ εύκολα, η επεξεργασία μπορεί να βγει εκτός ελέγχου (λόγω όγκου, περιορισμό στην ταχύτητα μετάδοσης των δεδομένων κ.α.).
Τα ανωτέρω κριτήρια, πλέον θεωρούνται ως απαραίτητα προκειμένου να χαρακτηρίσουμε μια βάση δεδομένων ως Big Data. Αναφέρουμε ότι Big Data Databases δεν υπάρχουν στην Ελλάδα ακόμη, αλλά όλα δείχνουν ότι δεν είναι πολύ μακριά, καθώς υπάρχουν πλέον οι απαραίτητες υποδομές για την υποστήριξή τους. Ενδεικτικά Big Data Databases μπορούμε να θεωρήσουμε τις βάσεις δεδομένων του Google, Facebook, Instagram, Amazon, Microsoft και πολλές μεγάλες εταιρίες του εξωτερικού.