big data tutorial beginners what is big data
So erstellen Sie eine Firewall von Grund auf neu
Dieses Tutorial erklärt alles über Big Data-Grundlagen. Das Tutorial enthält Vorteile, Herausforderungen, Technologien und Tools sowie Anwendungen von Big Data:
In dieser digitalen Welt mit technologischen Fortschritten tauschen wir täglich große Datenmengen aus wie in Terabyte oder Petabyte .
Wenn wir diese Datenmenge täglich austauschen, müssen wir sie ebenfalls pflegen und irgendwo speichern. Die Lösung, um die großen Datenmengen mit hoher Geschwindigkeit und unterschiedlicher Vielfalt zu verarbeiten, ist Große Daten.
Es kann komplexe Daten verarbeiten, die aus mehreren Quellen stammen, z. B. aus verschiedenen Datenbanken, Websites, Widgets usw. Außerdem können Daten aus verschiedenen Quellen verknüpft und abgeglichen werden. Es gibt in der Tat einen schnelleren Zugriff auf die Daten ( Zum Beispiel, sozialen Medien).
Liste der Tutorials in dieser Big Data-Reihe
Tutorial Nr. 1: Was ist Big Data? (Dieses Tutorial)
Tutorial # 2: Was ist Hadoop? Apache Hadoop Tutorial für Anfänger
Tutorial # 3: Hadoop HDFS - Hadoop Distributed File System
Tutorial # 4: Handbuch zu Hadoop-Architektur- und HDFS-Befehlen
Tutorial Nr. 5: Hadoop MapReduce Tutorial mit Beispielen | Was ist MapReduce?
Tutorial # 6: Apache Hadoop YARN Tutorial für Anfänger | Was ist Garn?
Tutorial Nr. 7: Umfassendes Hadoop-Test-Tutorial | Leitfaden zum Testen von Big Data
Was du lernen wirst:
Was ist Big Data?
Das Wort Riesig reicht nicht aus, um BigData zu erklären. Bestimmte Merkmale klassifizieren die Daten in BigData.
Wir haben drei Hauptmerkmale von BigData. Wenn Daten diese Merkmale erfüllen, werden sie als BigData behandelt. ich t ist die Kombination der drei unten genannten Vs:
- Volumen
- Geschwindigkeit
- Vielfalt
Volumen : Die Daten sollten ein riesiges Volumen haben. Big Data bietet die Lösung, um eine große Datenmenge in Terabyte oder Petabyte zu verwalten. Wir können CRUD-Vorgänge (Erstellen, Lesen, Aktualisieren und Löschen) für BigData einfach und effektiv ausführen.
Geschwindigkeit : Es ist verantwortlich für einen schnelleren Zugriff auf Daten. Zum Beispiel, Heutzutage benötigen soziale Medien einen schnellen Datenaustausch innerhalb eines Bruchteils der Zeit und BigData ist die beste Lösung dafür. Daher ist die Geschwindigkeit ein weiteres Merkmal und die Verarbeitungsgeschwindigkeit von Daten.
Vielfalt : In sozialen Medien haben wir es mit unstrukturierten Daten wie Audio- oder Videoaufzeichnungen, Bildern usw. zu tun. Außerdem benötigen verschiedene Sektoren wie der Bankenbereich strukturierte und halbstrukturierte Daten. BigData ist die Lösung, um beide Datentypen an einem Ort zu verwalten.
Vielfalt bedeutet verschiedene Arten von Daten wie strukturierte / unstrukturierte Daten aus mehreren Quellen.
Strukturierte Daten : Die Daten, die eine ordnungsgemäße Struktur haben oder die leicht in tabellarischer Form in relationalen Datenbanken wie Oracle, SQL Server oder MySQL gespeichert werden können, werden als strukturierte Daten bezeichnet. Wir können es einfach und effizient verarbeiten oder analysieren.
Ein Beispiel für strukturierte Daten sind die in einer relationalen Datenbank gespeicherten Daten, die mit SQL (Structured Query Language) verwaltet werden können. Zum Beispiel, Mitarbeiterdaten (Name, ID, Bezeichnung und Gehalt) können in Tabellenform gespeichert werden.
In einer herkömmlichen Datenbank können wir Operationen ausführen oder unstrukturierte oder halbstrukturierte Daten erst verarbeiten, nachdem sie formatiert oder in die relationale Datenbank eingepasst wurden. Beispiele strukturierte Daten sind ERP, CRM usw.
Halbstrukturierte Daten: Halbstrukturierte Daten sind Daten, die nicht vollständig formatiert sind. Es wird nicht in Datentabellen oder einer Datenbank gespeichert. Trotzdem können wir es leicht vorbereiten und verarbeiten, da diese Daten Tags oder durch Kommas getrennte Werte usw. enthalten. Beispiel von halbstrukturierten Daten sind XML-Dateien, CSV-Dateien usw.
Unstrukturierte Daten: Unstrukturierte Daten sind Daten, die keine Struktur haben. Es kann in beliebiger Form vorliegen, es gibt kein vordefiniertes Datenmodell. Wir können es nicht in herkömmlichen Datenbanken speichern. Es ist komplex, es zu suchen und zu verarbeiten.
Auch das Volumen unstrukturierter Daten ist sehr hoch. Beispiel Bei unstrukturierten Daten handelt es sich um E-Mail-Text, Audio, Video, Bilder, erreichte Dokumente usw.
Herausforderungen traditioneller Datenbanken
- Die traditionelle Datenbank unterstützt keine Vielzahl von Daten, d. H. Sie kann keine unstrukturierten und halbstrukturierten Daten verarbeiten.
- Eine herkömmliche Datenbank ist langsam, wenn sie mit einer großen Datenmenge arbeitet.
- In herkömmlichen Datenbanken ist die Verarbeitung oder Analyse einer großen Datenmenge sehr schwierig.
- Eine herkömmliche Datenbank kann Daten in Terabyte oder Petabyte speichern.
- Eine herkömmliche Datenbank kann keine historischen Daten und Berichte verarbeiten.
- Nach einer gewissen Zeit ist eine Datenbereinigung der Datenbank erforderlich.
- Die Kosten für die Verwaltung einer großen Datenmenge sind bei einer herkömmlichen Datenbank sehr hoch.
- Die Datengenauigkeit ist in der herkömmlichen Datenbank geringer, da darin keine vollständigen historischen Daten gespeichert sind.
Große DatenVorteile gegenüber herkömmlicher Datenbank
- Big Data ist für die Verarbeitung, Verwaltung und Verarbeitung verschiedener Datentypen wie 'Strukturiert', 'Halbstrukturiert' und 'Unstrukturiert' verantwortlich.
- Es ist kostengünstig in Bezug auf die Verwaltung einer großen Datenmenge. Es funktioniert auf einem verteilten Datenbanksystem.
- Mit BigData-Techniken können wir große Datenmengen für lange Zeit speichern. So ist es einfach, historische Daten zu verarbeiten und genaue Berichte zu erstellen.
- Die Datenverarbeitungsgeschwindigkeit ist sehr hoch und daher verwenden soziale Medien Big-Data-Techniken.
- Datengenauigkeit ist ein großer Vorteil von Big Data.
- Benutzer können auf der Grundlage aktueller und historischer Daten effiziente Entscheidungen für ihr Unternehmen treffen.
- Fehlerbehandlung, Versionskontrolle und Kundenerfahrung sind in BigData sehr effektiv.
Empfohlene Lektüre => Big Data gegen Big Data Analytics gegen Data Science
Herausforderungen und Risiken in BigData
Herausforderungen:
- Eine der größten Herausforderungen bei Big Data ist die Verwaltung großer Datenmengen. Heutzutage kommen Daten aus verschiedenen Quellen mit Vielfalt in ein System. Daher ist es für die Unternehmen eine große Herausforderung, sie ordnungsgemäß zu verwalten. Zum Beispiel, Um einen Bericht zu erstellen, der die Daten der letzten 20 Jahre enthält, müssen die Daten der letzten 20 Jahre eines Systems gespeichert und verwaltet werden. Um einen genauen Bericht zu erstellen, müssen nur die relevanten Daten in das System eingegeben werden. Es sollte keine irrelevanten oder unnötigen Daten enthalten, da sonst die Aufrechterhaltung dieser Datenmenge eine große Herausforderung für die Unternehmen darstellt.
- Eine weitere Herausforderung bei dieser Technologie ist die Synchronisation verschiedener Datentypen. Wie wir alle wissen, unterstützt Big Data strukturierte, unstrukturierte und halbstrukturierte Daten aus verschiedenen Quellen. Es ist sehr schwierig, diese zu synchronisieren und die Konsistenz der Daten zu gewährleisten.
- Die nächste Herausforderung für Unternehmen ist die Lücke von Experten, die helfen und die Probleme, mit denen sie im System konfrontiert sind, umsetzen können. In diesem Bereich gibt es eine große Talentlücke.
- Der Umgang mit Compliance-Aspekten ist teuer.
- Die Erfassung, Aggregation, Speicherung, Analyse und Berichterstellung von BigData ist mit enormen Kosten verbunden. Die Organisation sollte in der Lage sein, alle diese Kosten zu verwalten.
Risiken:
- Es kann mit einer Vielzahl von Daten umgehen, aber wenn Unternehmen die Anforderungen nicht richtig verstehen und die Datenquelle nicht kontrollieren können, liefert es fehlerhafte Ergebnisse. Infolgedessen wird viel Zeit und Geld benötigt, um die Ergebnisse zu untersuchen und zu korrigieren.
- Datensicherheit ist ein weiteres Risiko bei BigData. Bei einem hohen Datenvolumen besteht eine höhere Wahrscheinlichkeit, dass jemand es stiehlt. Datenhacker können wichtige Informationen (einschließlich historischer Daten) des Unternehmens stehlen und verkaufen.
- Datenschutz ist auch ein weiteres Risiko für BigData. Wenn wir die persönlichen und sensiblen Daten vor Hackern schützen möchten, sollten sie geschützt sein und alle Datenschutzrichtlinien erfüllen.
Big Data-Technologien
Im Folgenden sind die Technologien aufgeführt, mit denen Big Data verwaltet werden kann:
- Apache Hadoop
- Microsoft HDInsight
- Kein SQL
- Bienenstock
- Sqoop
- BigData in Excel
Eine detaillierte Beschreibung dieser Technologien finden Sie in unseren kommenden Tutorials.
Tools zur Verwendung von Big Data-Konzepten
Nachfolgend sind die Open-Source-Tools aufgeführt, die bei der Verwendung von Big-Data-Konzepten hilfreich sein können:
# 1) Apache Hadoop
# 2) Lumify
# 3) Apache Storm
# 4) Apache Samoa
# 5) Elasticsearch
# 6) MongoDB
# 7) HPCC System BigData
Anwendungen von Big Data
Im Folgenden sind die Domänen aufgeführt, in denen es verwendet wird:
- Bankwesen
- Medien und Unterhaltung
- Gesundheitsdienstleister
- Versicherung
- Bildung
- Einzelhandel
- Herstellung
- Regierung
BigData und Data Warehouse
Data Warehouse ist ein grundlegendes Konzept, das wir verstehen müssen, bevor wir über Hadoop- oder BigData-Tests sprechen.
Lassen Sie uns Data Warehouse anhand eines Echtzeitbeispiels verstehen. Zum Beispiel gibt es ein Unternehmen, das Niederlassungen in drei verschiedenen Ländern gegründet hat. Nehmen wir eine Niederlassung in Indien, Australien und Japan an.
In jeder Filiale werden die gesamten Kundendaten in der lokalen Datenbank gespeichert. Diese lokalen Datenbanken können normale klassische RDBMS wie Oracle oder MySQL oder SQL Server usw. sein, und alle Kundendaten werden täglich in ihnen gespeichert.
Jetzt möchte die Organisation diese Daten vierteljährlich, halbjährlich oder jährlich für die Geschäftsentwicklung analysieren. Um dasselbe zu tun, sammelt die Organisation alle diese Daten aus mehreren Quellen und fasst sie dann an einem Ort zusammen. Dieser Ort wird aufgerufen 'Data Warehouse'.
Data Warehouse ist eine Art Datenbank, die alle Daten enthält, die aus mehreren Quellen oder mehreren Datenbanktypen über das Internet abgerufen wurden 'ETL' (welches ist das IS xtract, T. transformieren und L. oad) verarbeiten. Sobald die Daten im Data Warehouse verfügbar sind, können wir sie für Analysezwecke verwenden.
Zur Analyse können wir Berichte aus den im Data Warehouse verfügbaren Daten erstellen. Mit Business Intelligence Tools können mehrere Diagramme und Berichte erstellt werden.
Wir benötigen Data Warehouse für Analysezwecke, um das Geschäft auszubauen und geeignete Entscheidungen für die Organisationen zu treffen.
In diesem Prozess passieren drei Dinge: Erstens haben wir die Daten aus mehreren Quellen abgerufen und an einem einzigen Ort abgelegt, nämlich Data Warehouse.
Hier verwenden wir den „ETL“ -Prozess. Wenn wir also die Daten aus mehreren Quellen an einen Ort laden, wenden wir sie in Transformationswurzeln an und können hier verschiedene Arten von ETL-Tools verwenden.
Sobald die Daten in Data Warehouse bereit sind, können wir verschiedene Berichte erstellen, um die Geschäftsdaten mithilfe von Business Intelligence (BI) -Tools zu analysieren, oder wir nennen sie auch Berichterstellungstools. Die Tools wie Tableau oder Cognos können zum Generieren der Berichte und DashBoards zum Analysieren der Geschäftsdaten verwendet werden.
OLTP und OLAP
Lassen Sie uns verstehen, was OLTP und was OLAP sind.
Datenbanken, die lokal verwaltet und für Transaktionszwecke verwendet werden, werden aufgerufen OLTP, d. H. Online-Transaktionsverarbeitung. Die täglichen Transaktionen werden hier gespeichert und sofort aktualisiert. Deshalb haben wir sie OLTP-System genannt.
Hier verwenden wir traditionelle Datenbanken, wir haben mehrere Tabellen und es gibt Beziehungen, daher wird alles systematisch gemäß der Datenbank geplant. Wir verwenden diese Daten nicht für Analysezwecke. Hier können wir klassische RDMBS-Datenbanken wie Oracle, MySQL, SQL Server usw. verwenden.
Wenn wir zum Data Warehouse-Teil kommen, verwenden wir Teradata- oder Hadoop-Systeme, die ebenfalls eine Art Datenbank darstellen. Die Daten in einem DataWarehouse werden jedoch normalerweise zu Analysezwecken verwendet und aufgerufen OLAP oder Online-Analyseverarbeitung.
Hier können die Daten vierteljährlich, halbjährlich oder jährlich aktualisiert werden. Manchmal werden die Daten auch 'Angebot' aktualisiert, wobei Angebot bedeutet, dass die Daten aktualisiert und zur Analyse gemäß den Kundenanforderungen abgerufen werden.
einfacher binärer Baum c ++
Außerdem werden die zu analysierenden Daten nicht täglich aktualisiert, da wir die Daten planmäßig aus mehreren Quellen abrufen und diese ETL-Aufgabe ausführen können. So funktioniert das Online Analytical Processing System.
Auch hier können BI-Tools oder Berichterstellungstools Berichte sowie Dashboards erstellen. Auf dieser Grundlage treffen die Geschäftsleute die Entscheidungen zur Verbesserung ihres Geschäfts.
Wo kommt BigData ins Spiel?
BigData sind Daten, die über die Speicher- und Verarbeitungskapazität herkömmlicher Datenbanken hinausgehen und im strukturierten und unstrukturierten Format vorliegen, sodass sie nicht von lokalen RDBMS-Systemen verarbeitet werden können.
Diese Art von Daten wird in TeraBytes (TB) oder PetaBytes (PB) oder darüber hinaus generiert und nimmt heutzutage rapide zu. Es gibt mehrere Quellen, um diese Art von Daten abzurufen, z. B. Facebook, WhatsApp (die sich auf soziale Netzwerke beziehen). Amazon, Flipkart im Zusammenhang mit E-Commerce; Google Mail, Yahoo, Rediff im Zusammenhang mit E-Mails und Google und anderen Suchmaschinen. Wir erhalten auch BigData von Handys wie SMS-Daten, Anrufaufzeichnung, Anrufprotokollen usw.
Fazit
Big Data ist die Lösung, um große Datenmengen effizient und sicher zu verarbeiten. Es ist auch dafür verantwortlich, historische Daten zu pflegen. Diese Technologie bietet viele Vorteile, weshalb jedes Unternehmen auf Big Data umsteigen möchte
Autor: Vaishali Tarey, Technischer Leiter @ Syntel
Literatur-Empfehlungen
- Data Mart Tutorial - Typen, Beispiele und Implementierung von Data Mart
- Top 10 Datenbank-Design-Tools zum Erstellen komplexer Datenmodelle
- 20+ MongoDB Tutorial für Anfänger: Kostenloser MongoDB Kurs
- Was ist ein Datensee? Data Warehouse gegen Data Lake
- Top 10 Tools zum Testen und Validieren strukturierter Daten für SEO
- Dimensionales Datenmodell im Data Warehouse - Lernprogramm mit Beispielen
- Data Mining: Prozesse, Techniken und wichtige Probleme bei der Datenanalyse
- So führen Sie datengesteuerte Tests in SoapUI Pro durch - SoapUI Tutorial Nr. 14