complete guide big data analytics
Dies ist ein umfassender Leitfaden für Big Data Analytics mit Anwendungsfällen, Architektur, Beispielen und Vergleichen mit Big Data und Data Science:
Die Big-Data-Analyse hat an Bedeutung gewonnen, da Unternehmen wie Facebook, Google und Amazon ihre eigenen neuen Paradigmen für die verteilte Datenverarbeitung und -analyse entwickelt haben, um die Neigung ihrer Kunden zur Wertschöpfung aus Big Data zu verstehen.
In diesem Tutorial erklären wir die Big-Data-Analyse und vergleichen sie mit Big Data und Data Science. Wir werden die notwendigen Attribute behandeln, die Unternehmen für ihre Big-Data-Strategie und die funktionierende Methodik benötigen. Wir werden auch die neuesten Trends und einige Anwendungsfälle der Datenanalyse erwähnen.
Wie im folgenden Bild gezeigt, erfordert Analytics die Verwendung von IT-Kenntnissen, Geschäftskenntnissen und Datenwissenschaft. Die Big-Data-Analyse steht im Mittelpunkt der Nutzung von Werten aus Big Data und hilft dabei, verbrauchbare Erkenntnisse für ein Unternehmen abzuleiten.
(Bild Quelle ))
Was du lernen wirst:
- Was ist Big Data Analytics?
- Fazit
Was ist Big Data Analytics?
Big Data Analytics befasst sich mit der Verwendung einer Sammlung statistischer Techniken, Tools und Verfahren für die Analyse von Big Data.
Empfohlen Lesen => Einführung in Big Data
Diese Analyse hilft dabei, wertvolle Muster und aussagekräftige Erkenntnisse aus Big Data zu extrahieren, um datengesteuerte Entscheidungen zu unterstützen. Aufgrund des Aufkommens neuer Datenquellen wie Social Media und IoT-Daten sind Big Data und Analytics populär geworden.
Dieser Trend führt zu einem Bereich der Praxis und des Studiums namens „Data Science“, der die Techniken, Werkzeuge, Technologien und Prozesse für Data Mining, Reinigung, Modellierung und Visualisierung umfasst.
Big Data gegen Big Data Analytics gegen Data Science
ZU Vergleich zwischen Big Data, Data Science und Big Data Analytics kann aus der folgenden Tabelle verstanden werden.
Basis | Große Daten | Data Science | Big Data Analytics |
---|---|---|---|
Tools & Technologien | Hadoop-Ökosystem, CDH, Cassandra, MongoDB, Java, Python, Talend, SQL, Rapid Miner | R, Python, Jupyter, Data Science Workbench, IBM SPSS, Tableau | Funken, Sturm, Knime, Datenverpackung, Lumify, HPCC, Qubole, Microsoft HDInsight |
Arbeitsrollen und Fähigkeiten | Wartung der Speicherinfrastruktur, Datenverarbeitung und Kenntnisse über Hadoop und deren Integration mit anderen Tools. | Datentransformation, Data Engineering, Daten-Wrangling, Datenmodellierung und Visualisierung | BI und Advanced Analytics, Statistik, Datenmodellierung und maschinelles Lernen, mathematische Fähigkeiten, Kommunikation, Beratung. |
Bezeichnungen | Big Data Architect Big Data-Entwickler Big Data Engineer | Datenwissenschaftler Ingenieur für maschinelles Lernen | Big Data Analyst Business Analyst Business Intelligence Engineer Business Analytics-Spezialist Datenvisualisierungsentwickler Analytics Manager |
Ca. Durchschnittliches Jahresgehalt in USD | 100.000 | 90.000 | 70.000 |
Empfohlene Lektüre = >> Datenwissenschaft gegen Informatik
Was jede Big Data Analytics-Strategie haben sollte
Eine klar definierte, integrierte und umfassende Strategie trägt zu wertvollen datengesteuerten Entscheidungen in einem Unternehmen bei und unterstützt diese. In diesem Abschnitt haben wir die wichtigsten Schritte aufgelistet, die bei der Definition einer Big-Data-Analysestrategie berücksichtigt werden müssen.
Schritt 1: Bewertung
Eine Bewertung, die bereits auf die Geschäftsziele ausgerichtet ist, erfordert die Einbeziehung wichtiger Stakeholder, die Schaffung eines Teams von Mitgliedern mit den richtigen Fähigkeiten, die Bewertung von Richtlinien, Personen, Prozessen sowie Technologie- und Datenbeständen. Bei Bedarf kann man Kunden der bewerteten in diesen Prozess einbeziehen.
Schritt 2: Priorisierung
Nach der Bewertung müssen Anwendungsfälle abgeleitet und mithilfe von Big Data Predictive Analytics, Prescriptive Analytics und Cognitive Analytics priorisiert werden. Sie können auch ein Tool wie die Priorisierungsmatrix verwenden und die Anwendungsfälle mithilfe von Feedback und Eingaben der wichtigsten Stakeholder weiter filtern.
Schritt 3: RoadMap
In diesem Schritt muss eine zeitgebundene Roadmap erstellt und für alle veröffentlicht werden. Eine Roadmap muss alle Details zu Komplexität, Mitteln, inhärenten Vorteilen der Anwendungsfälle und zugeordneten Projekten enthalten.
Schritt 4: Änderungsmanagement
Die Implementierung des Änderungsmanagements erfordert die Verwaltung der Datenverfügbarkeit, -integrität, -sicherheit und -benutzbarkeit. Ein effektives Change-Management-Programm, das vorhandene Data Governance verwendet, bietet Anreize für Aktivitäten und Mitglieder, basierend auf einer kontinuierlichen Überwachung.
Schritt 5: Richtige Fähigkeiten
Die Ermittlung der richtigen Fähigkeiten ist entscheidend für den Erfolg des Unternehmens angesichts der aktuellen Trends in der Branche. Daher muss man den richtigen Führungskräften folgen und Bildungsprogramme einführen, um kritische Stakeholder zu schulen.
Schritt 6: Zuverlässigkeit, Skalierbarkeit und Sicherheit
Der richtige Ansatz und eine effektive Big-Data-Analysestrategie machen den Analyseprozess zuverlässig, wobei interpretierbare Modelle unter Einbeziehung datenwissenschaftlicher Prinzipien effektiv eingesetzt werden. Eine Big-Data-Analysestrategie muss von Anfang an auch Sicherheitsaspekte für eine robuste und eng integrierte Analyse-Pipeline berücksichtigen.
Datenpipeline und Prozess für die Datenanalyse
Bei der Planung der Datenanalyse-Pipeline müssen drei grundlegende Aspekte berücksichtigt werden. Diese sind wie folgt:
- Eingang: Datei Format und die Auswahl der zu verarbeitenden Technologie basiert auf der zugrunde liegenden Natur der Daten .i.e. ob Daten Zeitreihen und Qualität sind.
- Ausgabe: Auswahl der Anschlüsse , Berichte und Visualisierung hängen von der technischen Expertise der Endbenutzer und ihren Anforderungen an den Datenverbrauch ab.
- Volumen: Skalierungslösungen werden basierend auf dem Datenvolumen geplant, um eine Überlastung des Big-Data-Verarbeitungssystems zu vermeiden.
Lassen Sie uns nun einen typischen Prozess und die Phasen für eine Big-Data-Analyse-Pipeline diskutieren.
Stufe 1: Datenaufnahme
Die Datenaufnahme ist der erste und wichtigste Schritt in der Datenpipeline. Es werden drei Aspekte von Daten berücksichtigt.
- Datenquelle - Dies ist wichtig für die Wahl der Architektur der Big-Data-Pipeline.
- Datenstruktur - Die Serialisierung ist der Schlüssel zur Aufrechterhaltung einer homogenen Struktur in der gesamten Pipeline.
- Sauberkeit der Daten - Analytics ist so gut wie die Daten ohne Probleme wie fehlende Werte und Ausreißer usw.
Stufe 2: ETL / Lagerung
Das nächste wichtige Modul sind Datenspeicherwerkzeuge zur Durchführung von ETL (Extract Transform Load). Die Speicherung von Daten in einem geeigneten Rechenzentrum hängt ab von:
- Hardware
- Management-Expertise
- Budget
(Bild Quelle ))
Einige bewährte Tools für ETL / Warehousing in Rechenzentren sind:
- Apache Hadoop
- Apache Hive
- Apache Parkett
- Presto Query Engine
Cloud-Unternehmen wie Google, AWS und Microsoft Azure bieten diese Tools gegen Entgelt an und sparen anfängliche Investitionen.
Stufe 3: Analytik & Visualisierung
Angesichts der Einschränkung von Hadoop bei der schnellen Abfrage müssen Analyseplattformen und -tools verwendet werden, die eine schnelle und Ad-hoc-Abfrage mit der erforderlichen Visualisierung der Ergebnisse ermöglichen.
>> Empfohlene Lektüre: Big Data Tools
Stufe 4: Überwachung
Nach dem Einrichten einer Infrastruktur für Aufnahme, Speicherung und Analyse mit Visualisierungstools besteht der nächste Schritt darin, IT- und Datenüberwachungstools zu überwachen. Diese schließen ein:
- CPU- oder GPU-Auslastung
- Speicher- und Ressourcenverbrauch
- Netzwerke
Einige erwägenswerte Tools sind:
- Datadog
- Grafana
Überwachungstools sind in einer Big-Data-Analyse-Pipeline unverzichtbar und helfen bei der Überwachung der Qualität und Integrität der Pipeline.
Big Data Analytics-Architektur
Das folgende Architekturdiagramm zeigt, wie moderne Technologien sowohl unstrukturierte als auch strukturierte Datenquellen für die Hadoop- und Map-Reduce-Verarbeitung, speicherinterne Analysesysteme und Echtzeitanalysen verwenden, um kombinierte Ergebnisse für Echtzeitoperationen und Entscheidungen zu erzielen.
(Bild Quelle ))
Aktuelle Trends in der Datenanalyse
In diesem Abschnitt haben wir die wesentlichen Aspekte aufgelistet, auf die Sie bei der Implementierung oder Verfolgung von Trends der Big-Data-Analyse in der Branche achten müssen.
# 1) Big Data-Quellen
Es gibt hauptsächlich drei Quellen für Big Data. Diese sind unten aufgeführt:
- Soziale Daten: Daten, die aufgrund der Nutzung sozialer Medien generiert wurden. Diese Daten helfen beim Verständnis der Gefühle und Verhalten der Kunden und kann in der Marketinganalyse nützlich sein.
- Maschinendaten: Diese Daten werden von Industrieanlagen und Anwendungen mithilfe von IoT-Sensoren erfasst. Es hilft beim Verständnis Menschen Verhalten und bietet Einblicke in Prozesse .
- Transaktionsdaten: Es wird als Ergebnis sowohl von Offline- als auch von Online-Aktivitäten von Benutzern in Bezug auf Zahlungsaufträge, Rechnungen, Quittungen usw. generiert. Die meisten dieser Daten werden benötigt Vorverarbeitung und Reinigung bevor es für die Analyse verwendet werden kann.
# 2) SQL / NoSQL-Datenspeicherung
Im Vergleich zu herkömmlichen Datenbanken oder RDBMS erweisen sich NoSQL-Datenbanken als besser für Aufgaben, die für die Big-Data-Analyse erforderlich sind.
NoSQL-Datenbanken können von Natur aus recht gut mit unstrukturierten Daten umgehen und sind nicht auf teure Schemamodifikationen, vertikale Skalierung und Interferenz von ACID-Eigenschaften beschränkt.
# 3) Predictive Analytics
Predictive Analytics bietet maßgeschneiderte Einblicke, die Unternehmen dazu veranlassen, neue Kundenantworten oder -käufe zu generieren und Cross-Selling-Möglichkeiten zu nutzen. Unternehmen verwenden Predictive Analytics, um Vorhersagen zu einzelnen Elementen auf granularer Ebene zu treffen, um zukünftige Ergebnisse vorherzusagen und potenzielle Probleme zu vermeiden. Dies wird weiter mit historischen Daten kombiniert und in präskriptive Analysen umgewandelt.
Einige Bereiche, in denen Predictive Analytics für Big Data erfolgreich eingesetzt wurden, sind Business, Kinderschutz, Systeme zur Unterstützung klinischer Entscheidungen, Portfolio-Vorhersage, Prognosen auf Wirtschaftsebene und Underwriting.
# 4) Tiefes Lernen
Die Big Data sind für konventionelles Computing überwältigend. Es stellt sich heraus, dass traditionelle maschinelle Lerntechniken der Datenanalyse mit zunehmender Vielfalt und Datenmenge an Leistung verlieren.
Analytics steht vor Herausforderungen in Bezug auf Formatvariationen, stark verteilte Eingabequellen, unausgeglichene Eingabedaten und sich schnell bewegende Streaming-Daten, und Deep-Learning-Algorithmen bewältigen solche Herausforderungen recht effizient.
Deep Learning hat seine effektive Verwendung bei der semantischen Indizierung, der Durchführung diskriminierender Aufgaben, der semantischen Bild- und Video-Kennzeichnung, dem sozialen Targeting sowie bei hierarchischen mehrstufigen Lernansätzen in den Bereichen Objekterkennung, Datenkennzeichnung, Informationsabruf und natürliche Sprache gefunden wird bearbeitet.
# 5) Datenseen
Das Speichern verschiedener Datensätze in verschiedenen Systemen und deren Kombination für die Analyse mit herkömmlichen Datenverwaltungsansätzen erweist sich als teuer und ist nahezu unmöglich. Aus diesem Grund erstellen Unternehmen Data Lakes, in denen Daten in ihrem ursprünglichen Rohformat für umsetzbare Analysen gespeichert werden.
Das folgende Bild zeigt einen beispielhaften Datensee in der Big-Data-Architektur.
(Bild Quelle ))
Verwendung von Big Data Analytics
Wir haben nachfolgend einige häufig vorkommende Anwendungsfälle aufgeführt:
# 1) Kundenanalyse
Big Data Analytics ist für verschiedene Zwecke nützlich, z. B. für Mikromarketing, Eins-zu-Eins-Marketing, feinere Segmentierung und Massenanpassung für die Kunden eines Unternehmens. Unternehmen können Strategien entwickeln, um ihre Produkte und Dienstleistungen entsprechend der Neigung der Kunden zu personalisieren, eine ähnliche oder unterschiedliche Palette von Produkten und Dienstleistungen zu verkaufen oder zu verkaufen.
# 2) Operations Analytics
Die Betriebsanalyse hilft bei der Verbesserung der allgemeinen Entscheidungsfindung und der Geschäftsergebnisse, indem vorhandene Daten genutzt und mit Maschinen- und IoT-Daten angereichert werden.
Zum Beispiel, Big-Data-Analysen im Gesundheitswesen haben es ermöglicht, sich Herausforderungen und neuen Möglichkeiten im Zusammenhang mit der Optimierung der Gesundheitsausgaben, der Verbesserung der Überwachung klinischer Studien sowie der Vorhersage und Planung von Reaktionen auf Krankheitsepidemien wie COVID-19 zu stellen.
# 3) Betrugsprävention
Big-Data-Analysen können einen massiven Nutzen bringen, indem sie dazu beitragen, Betrugsversuche vorwegzunehmen und zu reduzieren, vor allem im Finanz- und Versicherungssektor.
Zum Beispiel, Versicherungsunternehmen erfassen Echtzeitdaten zu Demografie, Einkommen, medizinischen Ansprüchen, Anwaltskosten, Wetter, Sprachaufzeichnungen eines Kunden und Call-Center-Notizen. Spezifische Echtzeitdetails helfen bei der Ableitung von Vorhersagemodellen, indem die oben genannten Informationen mit historischen Daten kombiniert werden, um spekulierte betrügerische Behauptungen frühzeitig zu identifizieren.
# 4) Preisoptimierung
Unternehmen verwenden Big-Data-Analysen, um die Gewinnmargen zu steigern, indem sie den besten Preis auf Produktebene und nicht auf Kategorieebene finden. Große Unternehmen finden es zu überwältigend, die detaillierten Details und die Komplexität von Preisvariablen zu erhalten, die sich für Tausende von Produkten regelmäßig ändern.
Eine analyseorientierte Preisoptimierungsstrategie wie das dynamische Deal Scoring ermöglicht es Unternehmen, Preise für Produkt- und Segmentcluster basierend auf ihren Daten und Erkenntnissen zu einzelnen Deal-Ebenen festzulegen, um schnelle Gewinne von anspruchsvollen Kunden zu erzielen.
Häufig gestellte Fragen
F # 1) Ist Big Data Analytics eine gute Karriere?
Antworten: Es ist ein Mehrwert für jedes Unternehmen, der es ermöglicht, fundierte Entscheidungen zu treffen und einen Wettbewerbsvorteil zu erzielen. Ein Big Data-Karriereschritt erhöht Ihre Chance, ein wichtiger Entscheidungsträger für ein Unternehmen zu werden.
F # 2) Warum ist Big Data Analytics wichtig?
Antworten: Es hilft Unternehmen, neue Wachstumschancen und völlig neue Produktkategorien zu schaffen, mit denen Branchendaten kombiniert und analysiert werden können. Diese Unternehmen verfügen über umfassende Informationen zu Produkten und Dienstleistungen, Käufern und Lieferanten sowie zu Verbraucherpräferenzen, die erfasst und analysiert werden können.
F # 3) Was ist für die Big-Data-Analyse erforderlich?
Antworten: Das Spektrum an Technologien, mit denen ein guter Big-Data-Analyst vertraut sein muss, ist riesig. Um Big Data-Analysen zu beherrschen, müssen verschiedene Tools, Software, Hardware und Plattformen bekannt sein. Zum Beispiel, Tabellenkalkulationen, SQL-Abfragen, R / R Studio und Python sind einige grundlegende Tools.
Auf Unternehmensebene sind neben Linux, Hadoop, Java, Scala, Python, Spark, Hadoop und HIVE auch Tools wie MATLAB, SPSS, SAS und Congnos wichtig.
Objektive Fragen:
F # 4) Welche der unten angegebenen Datenbanken ist keine NoSQL-Datenbank?
- MongoDB
- PostgreSQL
- CouchDB
- HBase
Antworten: PostgreSQL
F # 5) Ist Cassandra eine NoSQL?
- Wahr
- Falsch
Antworten: Wahr
F # 6) Welche der folgenden Eigenschaften sind nicht Eigentum von Hadoop?
Löschen Sie ein Element aus einem Java-Array
- Open Source
- Basierend auf Java
- Verteilte Verarbeitung
- Echtzeit
Antworten: Echtzeit
F # 7) Wählen Sie alle Aktivitäten aus, die NICHT von einem Data Scientist ausgeführt werden.
- Erstellen Sie Modelle für maschinelles Lernen und verbessern Sie deren Leistung.
- Auswertung statistischer Modelle zur Validierung von Analysen
- Fassen Sie erweiterte Analysen mit Datenvisualisierungstools zusammen
- Präsentation der Ergebnisse der technischen Analyse vor internen Teams und Geschäftskunden
Antworten: Präsentation der Ergebnisse der technischen Analyse vor internen Teams und Geschäftskunden
Weiterführende Literatur = >> Hauptunterschiede zwischen Data Analyst und Data Scientist
F # 8) Welche Aktivitäten werden von einem Datenanalysten ausgeführt?
- Bereinigen und organisieren Sie Rohdaten
- Interessante Datentrends finden
- Erstellen Sie Dashboards und Visualisierungen für eine einfache Interpretation
- Alles das oben Genannte
Antworten: Alles das oben Genannte
F # 9) Welche der folgenden Aktionen werden von einem Dateningenieur ausgeführt?
- Integration neuer Datenquellen in die bestehende Datenanalyse-Pipeline
- Die Entwicklung von APIs für den Datenverbrauch
- Überwachung und Prüfung des Systems auf kontinuierliche Leistung
- Alles das oben Genannte
Antworten: Alles das oben Genannte
F # 10) Die richtige Reihenfolge des Datenflusses für die Analyse ist
- Datenquellen, Datenaufbereitung, Datentransformation, Algorithmusdesign, Datenanalyse
- Datenquellen, Datentransformation, Algorithmusdesign, Datenaufbereitung, Datenanalyse
- Datenquellen, Algorithmusdesign, Datenaufbereitung, Datentransformation, Datenanalyse
- Datenquellen, Datenaufbereitung, Algorithmusdesign, Datentransformation, Datenanalyse
Antworten: Datenquellen, Datenaufbereitung, Datentransformation, Algorithmusdesign, Datenanalyse
F # 11) Die Datenanalyse ist ein linearer Prozess.
- Wahr
- Falsch
Antworten: Falsch
F # 12) Explorative Analyse ist NICHT
- Antworten erste Fragen zur Datenanalyse im Detail
- Bestimmen Sie Probleme mit dem Datensatz
- Entwickeln Sie eine Skizze einer Antwort auf die Frage
- Stellen Sie fest, ob die Daten für die Beantwortung einer Frage korrekt sind
Antworten: Antwortenerste Fragen zur Datenanalyse im Detail
F # 13) Vorhersagefrage ist ein anderer Name, der einer Inferenzfrage gegeben wird.
- Wahr
- Falsch
Antworten: Falsch
Fazit
Wir haben die wichtigsten Aspekte der Big-Data-Analyse behandelt. Wir haben die häufigsten Anwendungsfälle und die Trends in der Big-Data-Analytics-Branche erläutert, um maximale Vorteile zu erzielen.
Literatur-Empfehlungen
- Top 7 der besten Data Analytics-Unternehmen im Jahr 2021 (Aktualisierte Liste 2021)
- Top 15 Big Data Tools (Big Data Analytics Tools) im Jahr 2021
- 10 besten Datenanalyse-Tools für ein perfektes Datenmanagement (2021 LIST)
- Top 10 Data Science Tools im Jahr 2021 zur Beseitigung der Programmierung
- Big Data Tutorial für Anfänger | Was ist Big Data?
- Top 13 der besten Big Data-Unternehmen des Jahres 2021
- 10 besten Datenmodellierungswerkzeuge zum Verwalten komplexer Designs
- 10+ beste Data Governance-Tools zur Erfüllung Ihrer Datenanforderungen im Jahr 2021