top 29 data engineer interview questions
Liste der am häufigsten gestellten Fragen und Antworten zum Data Engineer-Interview, um Sie auf das bevorstehende Interview vorzubereiten:
Heute ist Data Engineering nach der Softwareentwicklung das gefragteste Gebiet und hat sich zu einer der am schnellsten wachsenden Joboptionen der Welt entwickelt. Interviewer wollen die besten Dateningenieure für ihr Team und neigen daher dazu, die Kandidaten gründlich zu interviewen. Sie suchen nach bestimmten Fähigkeiten und Kenntnissen. Sie müssen also entsprechend vorbereitet sein, um ihre Erwartungen zu erfüllen.
Was du lernen wirst:
- Verantwortlichkeiten eines Dateningenieurs
- Fähigkeiten eines Dateningenieurs
- Häufig gestellte Fragen zum Data Engineer-Interview
- Fazit
Verantwortlichkeiten eines Dateningenieurs
Die Verantwortlichkeiten umfassen:
- Umgang und Überwachung der Daten innerhalb des Unternehmens.
- Verwalten und verwalten Sie das Quellsystem und die Staging-Bereiche der Daten.
- Vereinfachen Sie die Datenbereinigung zusammen mit der anschließenden Erstellung und verbessern Sie die Datenreduzierung.
- Stellen Sie die Datentransformation und den ETL-Prozess zur Verfügung und führen Sie sie aus.
- Extrahieren und Ausführen von Ad-hoc-Datenabfragen.
Fähigkeiten eines Dateningenieurs
Mit Qualifikationen benötigen Sie auch bestimmte Fähigkeiten. Beide sind entscheidend, wenn Sie sich auf die Position eines Dateningenieurs vorbereiten. Hier listen wir die Top 5 Fähigkeiten in keiner bestimmten Reihenfolge auf, die Sie benötigen, um ein erfolgreicher Dateningenieur zu werden.
- Kenntnisse in der Datenvisualisierung.
- Python und SQL.
- Datenmodellierungswissen für Big Data und Data Warehousing
- Mathematik
- Know-how in ETL
- Big Data Space-Erfahrung
Sie müssen also daran arbeiten, diese Fähigkeiten zu verbessern, bevor Sie sich auf Ihr Interview vorbereiten. Und wenn Sie Ihre Fähigkeiten verbessert haben, können Sie sich auf einige Interviewfragen vorbereiten, damit die Interviewer auf Sie aufmerksam werden und Sie ebenfalls einstellen.
Häufig gestellte Fragen zum Data Engineer-Interview
Allgemeine Interviewfragen
F # 1) Warum haben Sie Data Engineering studiert?
Antworten: Diese Frage zielt darauf ab, mehr über Ihre Ausbildung, Berufserfahrung und Ihren Hintergrund zu erfahren. Es könnte eine natürliche Wahl für die Fortsetzung Ihres Studiums der Informationssysteme oder Informatik gewesen sein. Oder Sie haben in einem ähnlichen Bereich gearbeitet oder wechseln von einem völlig anderen Arbeitsbereich.
Was auch immer Ihre Geschichte sein mag, halten Sie sich nicht zurück oder scheuen Sie sich. Und während Sie teilen, heben Sie immer wieder die Fähigkeiten hervor, die Sie auf Ihrem Weg gelernt haben, und die hervorragende Arbeit, die Sie geleistet haben.
Beginnen Sie jedoch nicht mit dem Geschichtenerzählen. Beginnen Sie ein wenig mit Ihrem Bildungshintergrund und erreichen Sie dann den Teil, in dem Sie wussten, dass Sie Dateningenieur werden möchten. Und dann fahren Sie fort, wie Sie hierher gelangen.
F # 2) Was ist Ihrer Meinung nach das Schwierigste daran, ein Dateningenieur zu sein?
Antworten: Sie müssen diese Frage ehrlich beantworten. Nicht jeder Aspekt aller Jobs ist einfach und Ihr Interviewer weiß das. Das Ziel dieser Frage ist nicht, Ihre Schwäche genau zu bestimmen, sondern zu wissen, wie Sie mit Dingen umgehen, mit denen Sie nur schwer umgehen können.
Sie können so etwas wie sagen: „Als Dateningenieur fällt es mir schwer, die Anforderungen aller Abteilungen in einem Unternehmen zu erfüllen, in denen die meisten von ihnen häufig widersprüchliche Anforderungen haben. Daher finde ich es oft schwierig, sie entsprechend auszugleichen.
Aber es hat mir einen wertvollen Einblick in die Arbeitsweise der Abteilungen und ihre Rolle in der Gesamtstruktur des Unternehmens gegeben. “ Und das ist nur ein Beispiel. Sie können und sollten Ihren Standpunkt vertreten.
F # 3) Erzählen Sie uns von einem Vorfall, bei dem Sie Daten aus verschiedenen Quellen zusammenführen sollten, aber auf unerwartete Probleme stießen, und wie haben Sie das Problem behoben?
Antworten: Diese Frage bietet Ihnen die Gelegenheit, Ihre Fähigkeiten zur Problemlösung zu demonstrieren und zu zeigen, wie Sie sich an die plötzlichen Planänderungen anpassen. Die Frage könnte allgemein oder spezifisch im Zusammenhang mit dem Data Engineering behandelt werden. Wenn Sie eine solche Erfahrung noch nicht gemacht haben, können Sie eine hypothetische Antwort geben.
Hier eine Beispielantwort: „In meinem vorherigen Franchise-Unternehmen sollten ich und mein Team Daten von verschiedenen Standorten und Systemen sammeln. Aber eines der Franchise-Unternehmen hat sein System ohne vorherige Ankündigung geändert. Dies führte zu einer Handvoll Probleme bei der Datenerfassung und -verarbeitung.
Um dies zu beheben, mussten wir zunächst eine schnelle kurzfristige Lösung finden, um die wesentlichen Daten in das System des Unternehmens zu integrieren. Danach haben wir eine langfristige Lösung entwickelt, um zu verhindern, dass solche Probleme erneut auftreten. “
F # 4) Wie unterscheidet sich die Arbeit eines Dateningenieurs von der eines Datenarchitekten?
Antworten: Mit dieser Frage soll überprüft werden, ob Sie verstehen, dass es innerhalb des Teams eines Data Warehouse Unterschiede gibt. Mit der Antwort können Sie nichts falsch machen. Die Verantwortlichkeiten beider überschneiden sich oder variieren je nach den Anforderungen der Datenbankwartungsabteilung oder des Unternehmens.
Sie können sagen: „Nach meiner Erfahrung ist der Unterschied zwischen den Rollen eines Dateningenieurs und eines Datenarchitekten von Unternehmen zu Unternehmen unterschiedlich. Obwohl sie sehr eng zusammenarbeiten, gibt es Unterschiede in ihren allgemeinen Verantwortlichkeiten.
Die Verwaltung der Server und der Aufbau der Architektur des Datensystems eines Unternehmens liegt in der Verantwortung eines Datenarchitekten. Die Arbeit eines Dateningenieurs besteht darin, diese Architektur zu testen und zu warten. Gleichzeitig stellen wir als Dateningenieure sicher, dass die Daten, die den Analysten zur Verfügung gestellt werden, von hoher Qualität und zuverlässig sind. “
Fragen zum technischen Interview
F # 5) Was sind die vier V von Big Data?
(Bild Quelle ))
Antworten:
Die vier Vs von Big Data sind:
- Das erste V ist Geschwindigkeit Dies bezieht sich auf die Rate, mit der Big Data im Laufe der Zeit generiert wird. Es kann also als Analyse der Daten betrachtet werden.
- Das zweite V ist das Vielfalt von verschiedenen Formen von Big Data, sei es in Bildern, Protokolldateien, Mediendateien und Sprachaufzeichnungen.
- Das dritte V ist das Volumen der Daten. Dies kann in der Anzahl der Benutzer, der Anzahl der Tabellen, der Datengröße oder der Anzahl der Datensätze liegen.
- Das vierte V ist Richtigkeit im Zusammenhang mit der Unsicherheit oder Sicherheit der Daten. Mit anderen Worten, es entscheidet, wie sicher Sie über die Richtigkeit der Daten sein können.
F # 6) Wie unterscheiden sich strukturierte Daten von unstrukturierten Daten?
Antwort: Die folgende Tabelle erläutert die Unterschiede:
Strukturierte Daten | Unstrukturierte Daten | |
---|---|---|
7) | Aggregierte Daten sind in einer einzigen Dimension enthalten. | Die Daten werden in verschiedene Dimensionstabellen aufgeteilt. |
1) | Es kann in MS Access, Oracle, SQL Server und anderen ähnlichen traditionellen Datenbanksystemen gespeichert werden. | Es kann nicht in einem herkömmlichen Datenbanksystem gespeichert werden. |
zwei) | Es kann in verschiedenen Spalten und Zeilen gespeichert werden. | Es kann nicht in Zeilen und Spalten gespeichert werden. |
3) | Ein Beispiel für strukturierte Daten sind Online-Bewerbungstransaktionen. | Beispiele für unstrukturierte Daten sind Tweets, Google-Suchanfragen, Facebook-Likes usw. |
4) | Es kann einfach innerhalb des Datenmodells definiert werden. | Es kann nicht gemäß dem Datenmodell definiert werden. |
5) | Es kommt mit einer festen Größe und Inhalt. | Es kommt in verschiedenen Größen und Inhalten. |
F # 7) Mit welchen ETL-Tools sind Sie vertraut?
Antworten: Nennen Sie alle ETL-Tools, mit denen Sie gearbeitet haben. Sie können sagen: „Ich habe mit SAS Data Management, IBM Infosphere und SAP Data Services gearbeitet. Aber mein bevorzugtes ist PowerCenter von Informatica. Es ist effizient, hat eine extrem hohe Leistungsrate und ist flexibel. Kurz gesagt, es hat alle wichtigen Eigenschaften eines guten ETL-Tools.
Sie führen Geschäftsdatenvorgänge reibungslos aus und garantieren den Datenzugriff, selbst wenn Änderungen im Geschäft oder in seiner Struktur stattfinden. “ Stellen Sie sicher, dass Sie nur über diejenigen sprechen, mit denen Sie gearbeitet haben und mit denen Sie gerne arbeiten. Oder es könnte Ihr Interview später tanken.
F # 8) Erzählen Sie uns von Entwurfsschemata der Datenmodellierung.
Antworten: Für die Datenmodellierung gibt es zwei Arten von Entwurfsschemata.
Sie werden wie folgt erklärt:
- Der erste ist der Stern Zeitplan , die in zwei Teile unterteilt ist - die Faktentabelle und die Dimensionstabelle. Hier sind beide Tabellen verbunden. Das Sternschema ist der einfachste Data-Mart-Schema-Stil und wird auch am häufigsten verwendet. Es heißt so, weil seine Struktur einem Stern ähnelt.
- Der zweite ist der Schneeflockenschema Das ist die Erweiterung des Sternschemas. Es fügt zusätzliche Dimensionen hinzu und wird als Schneeflocke bezeichnet, da seine Struktur der einer Schneeflocke ähnelt.
F # 9) Was ist der Unterschied zwischen dem Sternschema und dem Schneeflockenschema?
(Bild Quelle ))
Antwort: Die folgende Tabelle erläutert die Unterschiede:
Stern Zeitplan | Schneeflockenschema | |
---|---|---|
1) | Die Dimensionstabelle enthält die Hierarchien für die Dimensionen. | Es gibt separate Tabellen für Hierarchien. |
zwei) | Hier umgeben Dimensionstabellen eine Faktentabelle. | Dimensionstabellen umgeben eine Faktentabelle und werden dann weiter von Dimensionstabellen umgeben. |
3) | Eine Faktentabelle und eine beliebige Dimensionstabelle sind durch nur einen einzigen Join verbunden. | Zum Abrufen der Daten sind viele Verknüpfungen erforderlich. |
4) | Es kommt mit einem einfachen DB-Design. | Es hat ein komplexes DB-Design. |
5) | Funktioniert auch bei denormalisierten Abfragen und Datenstrukturen. | Funktioniert nur mit der normalisierten Datenstruktur. |
6) | Datenredundanz hoch. | Datenredundanz - sehr gering. |
8) | Schnellere Würfelverarbeitung. | Komplexe Verknüpfung verlangsamt die Cube-Verarbeitung. |
F # 10) Was ist der Unterschied zwischen Data Warehouse und Betriebsdatenbank?
Antwort: Die folgende Tabelle erläutert die Unterschiede:
Data Warehouse | Betriebsdatenbank | |
---|---|---|
7) | Unterstützt eine Handvoll OLTP wie gleichzeitige Clients. | Unterstützt viele gleichzeitige Clients. |
1) | Diese sollen die analytische Verarbeitung von Großvolumina unterstützen. | Diese unterstützen die Transaktionsverarbeitung mit hohem Volumen. |
zwei) | Historische Daten wirken sich auf ein Data Warehouse aus. | Aktuelle Daten wirken sich auf die Betriebsdatenbank aus. |
3) | Neue, nichtflüchtige Daten werden regelmäßig hinzugefügt, bleiben jedoch selten geändert. | Die Daten werden bei Bedarf regelmäßig aktualisiert. |
4) | Es dient zur Analyse von Geschäftskennzahlen nach Attributen, Themenbereichen und Kategorien. | Es ist für die Echtzeitverarbeitung und den Geschäftsverkehr konzipiert. |
5) | Optimiert für hohe Lasten und komplexe Abfragen, die auf viele Zeilen an jeder Tabelle zugreifen. | Optimiert für einen einfachen Satz von Transaktionen wie das Abrufen und Hinzufügen einer Zeile für jede Tabelle. |
6) | Es ist voll von gültigen und konsistenten Informationen und benötigt keine Echtzeitvalidierung. | Verbessert für die Validierung eingehender Informationen und verwendet Validierungsdatentabellen. |
8) | Seine Systeme sind hauptsächlich themenorientiert. | Die Systeme sind hauptsächlich prozessorientiert. |
9) | Daten raus. | Daten in. |
10) | Auf eine große Anzahl von Daten kann zugegriffen werden. | Auf eine begrenzte Anzahl von Daten kann zugegriffen werden. |
elf) | Erstellt für OLAP, Online Analytical Processing. | Erstellt für OLTP, Online-Transaktionsverarbeitung. |
F # 11) Weisen Sie auf den Unterschied zwischen OLTP und OLAP hin.
Antworten: Die folgende Tabelle erläutert die Unterschiede:
OLTP | OLAP | |
---|---|---|
7) | Das Datenvolumen ist nicht sehr groß. | Es hat ein großes Datenvolumen. |
1) | Wird zur Verwaltung von Betriebsdaten verwendet. | Wird zum Verwalten von Informationsdaten verwendet. |
zwei) | Kunden, Angestellte und IT-Profis nutzen es. | Manager, Analysten, Führungskräfte und andere Wissensarbeiter verwenden es. |
3) | Es ist kundenorientiert. | Es ist marktorientiert. |
4) | Es verwaltet aktuelle Daten, die äußerst detailliert sind und für die Entscheidungsfindung verwendet werden. | Es verwaltet eine große Menge historischer Daten. Es bietet auch Möglichkeiten zur Aggregation und Zusammenfassung sowie zum Verwalten und Speichern von Daten auf verschiedenen Granularitätsebenen. Daher werden die Daten für die Entscheidungsfindung komfortabler. |
5) | Es hat eine Datenbankgröße von 100 MB-GB. | Es hat eine Datenbankgröße von 100 GB-TB. |
6) | Es verwendet ein ER-Datenmodell (Entity-Relationship) zusammen mit einem anwendungsorientierten Datenbankdesign. | OLAP verwendet entweder ein Schneeflocken- oder ein Sternmodell zusammen mit einem themenorientierten Datenbankdesign. |
8) | Zugriffsmodus - Lesen / Schreiben. | Der Zugriffsmodus ist meistens Schreiben. |
9) | Vollständig normalisiert. | Teilweise normalisiert. |
10) | Die Verarbeitungsgeschwindigkeit ist sehr hoch. | Die Verarbeitungsgeschwindigkeit hängt von der Anzahl der darin enthaltenen Dateien, komplexen Abfragen und der Aktualisierung von Batchdaten ab |
F # 12) Erläutern Sie das Hauptkonzept des Frameworks von Apache Hadoop.
Antworten: Es basiert auf dem MapReduce-Algorithmus. In diesem Algorithmus werden zur Verarbeitung eines großen Datensatzes Map- und Reduce-Operationen verwendet. Ordnen Sie die Daten zu, filtern und sortieren Sie sie, während Reduzieren die Daten zusammenfasst. Skalierbarkeit und Fehlertoleranz sind die wichtigsten Punkte in diesem Konzept. Wir können diese Funktionen in Apache Hadoop erreichen, indem wir MapReduce und Multithreading effizient implementieren.
F # 13) Haben Sie jemals mit Hadoop Framework gearbeitet?
(Bild Quelle ))
Antworten: Viele Personalchefs fragen im Interview nach dem Hadoop-Tool, um zu erfahren, ob Sie mit den Tools und Sprachen des Unternehmens vertraut sind. Wenn Sie mit dem Hadoop Framework gearbeitet haben, teilen Sie ihnen die Details Ihres Projekts mit, um Ihre Kenntnisse und Fähigkeiten mit dem Tool und seinen Funktionen zu beleuchten. Und wenn Sie noch nie damit gearbeitet haben, funktionieren auch einige Untersuchungen, um die Vertrautheit mit den Attributen zu belegen.
Sie können sagen, zum Beispiel, „Während ich an einem Teamprojekt arbeitete, hatte ich die Gelegenheit, mit Hadoop zusammenzuarbeiten. Wir haben uns darauf konzentriert, die Effizienz der Datenverarbeitung zu steigern. Aufgrund der Möglichkeit, die Geschwindigkeit der Datenverarbeitung zu erhöhen, ohne die Qualität während der verteilten Verarbeitung zu beeinträchtigen, haben wir uns für Hadoop entschieden.
Und da mein vorheriges Unternehmen in den nächsten Monaten eine erhebliche Steigerung der Datenverarbeitung erwartet hatte, war auch die Skalierbarkeit von Vorteil. Hadoop ist auch ein Open-Source-Netzwerk, das auf Java basiert. Dies macht es zur besten Option für Projekte mit begrenzten Ressourcen und zu einer einfachen Option ohne zusätzliche Schulung. “
ist der Netzwerkschlüssel das WLAN-Passwort
F # 14) Erwähnen Sie einige wichtige Funktionen von Hadoop.
Antwort: Folgende Funktionen stehen zur Verfügung:
- Hadoop ist ein kostenloses Open Source Framework, in dem wir den Quellcode gemäß unseren Anforderungen ändern können.
- Es unterstützt die schneller verteilte Verarbeitung von Daten. HDFS Hadoop speichert Daten auf verteilte Weise und verwendet MapReduce, um die Daten parallel zu verarbeiten.
- Hadoop ist sehr tolerant und ermöglicht dem Benutzer standardmäßig an verschiedenen Knoten, drei Replikate jedes Blocks zu erstellen. Wenn einer der Knoten nicht erfolgreich ist, können wir die Daten von einem anderen Knoten wiederherstellen.
- Es ist auch skalierbar und mit vielen Hardware kompatibel.
- Da Hadoop Daten in Clustern gespeichert hat, unabhängig von allen anderen Operationen. Daher ist es zuverlässig. Die gespeicherten Daten bleiben von der Fehlfunktion der Maschinen unberührt. Und so ist es auch hoch verfügbar.
F # 15) Wie können Sie den Geschäftsumsatz durch die Analyse von Big Data steigern?
Antworten: Die Big-Data-Analyse ist ein wesentlicher Bestandteil des Geschäfts, da sie ihnen hilft, sich voneinander zu unterscheiden und gleichzeitig den Umsatz zu steigern. Big Data Analytics bietet Unternehmen durch prädiktive Analyse maßgeschneiderte Vorschläge und Empfehlungen.
Es hilft Unternehmen auch bei der Einführung neuer Produkte, die auf den Vorlieben und Bedürfnissen der Kunden basieren. Dies hilft den Unternehmen, deutlich mehr zu verdienen, etwa 5-20% mehr. Unternehmen wie die Bank of America, LinkedIn, Twitter, Walmart, Facebook usw. verwenden Big Data Analysis, um ihren Umsatz zu steigern.
F # 16) Welche Schritte müssen Sie bei der Bereitstellung einer Big Data-Lösung ausführen?
Antwort: Bei der Bereitstellung einer Big Data-Lösung müssen drei Schritte ausgeführt werden:
- Datenaufnahme- Dies ist der erste Schritt bei der Bereitstellung einer Big Data-Lösung. Hierbei werden die Daten aus verschiedenen Quellen wie SAP, MYSQL, Salesforce, Protokolldateien, internen Datenbanken usw. extrahiert. Die Datenaufnahme kann über Echtzeit-Streaming oder Batch-Jobs erfolgen.
- Datenspeicher- Nachdem die Daten aufgenommen wurden, sollten die extrahierten Daten irgendwo gespeichert werden. Es wird entweder in HDFS- oder NoSQL-Datenbanken gespeichert. HDFS eignet sich gut für den sequentiellen Zugriff über HBase für den zufälligen Lese- oder Schreibzugriff.
- Datenverarbeitung- Dies ist der dritte und abschließende Schritt für die Bereitstellung auf einer Big Data-Lösung. Nach der Speicherung werden die Daten über eines der wichtigsten Frameworks wie MapReduce oder Pig verarbeitet.
F # 17) Was ist ein Block und Block-Scanner in HDFS?
Antworten: Ein Block ist die Mindestdatenmenge, die in HDFS geschrieben oder gelesen werden kann. 64 MB ist die Standardgröße eines Blocks.
Der Blockscanner ist ein Programm, das die Anzahl der Blöcke auf einem DataNode regelmäßig verfolgt und sie auf mögliche Prüfsummenfehler und Datenbeschädigungen überprüft.
F # 18) Vor welchen Herausforderungen standen Sie bei der Einführung neuer Datenanalyseanwendungen, falls Sie jemals eine eingeführt haben?
Antworten: Wenn Sie noch nie eine neue Datenanalyse eingeführt haben, können Sie dies einfach sagen. Weil sie ziemlich teuer sind und daher Unternehmen dies nicht oft tun. Wenn sich ein Unternehmen jedoch dazu entschließt, in es zu investieren, kann dies ein äußerst ehrgeiziges Projekt sein. Für die Installation, Verbindung, Verwendung und Wartung dieser Tools wären hochqualifizierte Mitarbeiter erforderlich.
Wenn Sie den Prozess jemals durchlaufen haben, sagen Sie ihnen, mit welchen Hindernissen Sie konfrontiert waren und wie Sie sie überwunden haben. Wenn Sie dies nicht tun, teilen Sie ihnen ausführlich mit, was Sie über den Vorgang wissen. Diese Frage bestimmt, ob Sie über das grundlegende Know-how verfügen, um die Probleme zu lösen, die bei der Einführung neuer Datenanalyseanwendungen auftreten können.
Beispielantwort; „Ich war an der Einführung neuer Datenanalysen in meinem vorherigen Unternehmen beteiligt. Der gesamte Prozess ist aufwendig und erfordert einen gut geplanten Prozess für einen möglichst reibungslosen Übergang.
Selbst bei makelloser Planung können wir unvorhergesehene Umstände und Probleme nicht immer vermeiden. Ein solches Problem war die unglaublich hohe Nachfrage nach Benutzerlizenzen. Es ging über das hinaus, was wir erwartet hatten. Um die zusätzlichen Lizenzen zu erhalten, musste das Unternehmen die finanziellen Ressourcen neu zuweisen.
Außerdem musste das Training so geplant werden, dass der Workflow nicht beeinträchtigt wird. Außerdem mussten wir die Infrastruktur optimieren, um die hohe Anzahl von Benutzern zu unterstützen. “
F # 19) Was passiert, wenn NameNode im HDFS-Cluster abstürzt?
Antworten: Der HDFS-Cluster verfügt nur über einen NameNode und verwaltet die Metadaten von DataNode. Mit nur einem NameNode erhalten HDFS-Cluster einen einzigen Fehlerpunkt.
Wenn NameNode abstürzt, sind Systeme möglicherweise nicht mehr verfügbar. Um dies zu verhindern, können wir einen sekundären NameNode angeben, der die regelmäßigen Prüfpunkte in HDFS-Dateisystemen übernimmt, jedoch keine Sicherung des NameNode darstellt. Aber wir können es verwenden, um NameNode neu zu erstellen und neu zu starten.
F # 20) Unterschied zwischen NAS und DAS im Hadoop-Cluster.
Antworten: In NAS sind Speicher- und Rechenebene getrennt, und dann wird der Speicher auf verschiedene Server im Netzwerk verteilt. In DAS wird der Speicher normalerweise an den Berechnungsknoten angehängt. Apache Hadoop basiert auf dem Prinzip der Verarbeitung in der Nähe eines bestimmten Datenorts.
Daher sollte die Speicherplatte für die Berechnung lokal sein. DAS hilft Ihnen dabei, die Leistung in einem Hadoop-Cluster zu erzielen, und kann auf Standardhardware verwendet werden. Mit einfachen Worten, es ist kostengünstiger. NAS-Speicher wird mit einer hohen Bandbreite von etwa 10 GbE bevorzugt.
F # 21) Ist das Erstellen einer NoSQL-Datenbank besser als das Erstellen einer relationalen Datenbank?
(Bild Quelle ))
Antworten: Bei der Beantwortung dieser Frage müssen Sie Ihr Wissen über beide Datenbanken präsentieren. Außerdem müssen Sie ein Beispiel für die Situation geben, das zeigt, wie Sie das Know-how in einem realen Projekt anwenden oder angewendet haben.
Ihre Antwort könnte ungefähr so lauten: „In einigen Situationen kann es hilfreich sein, eine NoSQL-Datenbank zu erstellen. In meinem letzten Unternehmen, als das Franchise-System exponentiell an Größe zunahm, mussten wir schnell skalieren, um alle Betriebs- und Verkaufsdaten optimal nutzen zu können.
Das Skalieren ist besser als das Skalieren mit größeren Servern, wenn die erhöhte Datenverarbeitungslast bewältigt wird. Es ist kostengünstig und mit NoSQL-Datenbanken einfacher durchzuführen, da es problemlos mit großen Datenmengen umgehen kann. Dies ist praktisch, wenn Sie in Zukunft schnell auf erhebliche Datenlastverschiebungen reagieren müssen.
Relationale Datenbanken bieten zwar eine bessere Konnektivität zu allen Analysetools. Aber NoSQL-Datenbanken haben viel zu bieten. “
F # 22) Was tun Sie, wenn Sie auf ein unerwartetes Problem bei der Datenpflege stoßen? Haben Sie dafür Out-of-the-Box-Lösungen ausprobiert?
Antworten: Unweigerlich treten bei jeder Routineaufgabe gelegentlich unerwartete Probleme auf, selbst während der Datenpflege. Diese Frage zielt darauf ab zu wissen, ob und wie Sie mit Hochdrucksituationen umgehen können.
Sie können so etwas wie „Datenpflege kann eine Routineaufgabe sein, aber es ist wichtig, die spezifischen Aufgaben genau zu beobachten, einschließlich der Sicherstellung einer erfolgreichen Ausführung der Skripte.
Einmal stieß ich bei der Durchführung der Integritätsprüfung auf einen beschädigten Index, der in Zukunft schwerwiegende Probleme hätte verursachen können. Aus diesem Grund habe ich eine neue Wartungsaufgabe entwickelt, um das Hinzufügen beschädigter Indizes zur Datenbank des Unternehmens zu verhindern. '
F # 23) Haben Sie jemals jemanden auf Ihrem Gebiet geschult? Wenn ja, was war für Sie die größte Herausforderung?
Antworten: In der Regel werden Dateningenieure benötigt, um ihre Mitarbeiter in neuen Systemen oder Prozessen zu schulen, die Sie erstellt haben, oder um neue Mitarbeiter in bereits vorhandenen Systemen und Architekturen zu schulen. Mit dieser Frage möchte Ihr Interviewer wissen, ob Sie damit umgehen können. Wenn Sie noch keine Gelegenheit hatten, jemanden selbst zu trainieren, sprechen Sie über die Herausforderungen, die jemand trainiert hat oder von dem Sie wissen, dass Sie damit konfrontiert sind.
Ein Beispiel für die ideale Antwort ist ungefähr so. „Ja, ich hatte die Möglichkeit, kleine und große Gruppen von Mitarbeitern auszubilden. Die Schulung neuer Mitarbeiter mit bedeutender Erfahrung in einem anderen Unternehmen ist die schwierigste Aufgabe, die mir begegnet ist. Sie sind es oft so gewohnt, Daten aus einer anderen Perspektive zu betrachten, dass sie Schwierigkeiten haben, die Art und Weise zu akzeptieren, wie wir Dinge tun.
Oft sind sie äußerst einfühlsam und denken, dass sie alles richtig wissen. Deshalb brauchen sie viel Zeit, um zu erkennen, dass ein Problem mehr als eine Lösung haben kann. Ich versuche sie zu ermutigen, ihren Geist zu öffnen und alternative Möglichkeiten zu akzeptieren, indem ich betone, wie erfolgreich unsere Architektur und Prozesse waren. “
F # 24) Was sind die Vor- und Nachteile einer Arbeit im Cloud Computing?
(Bild Quelle ))
Antworten:
Vorteile:
- Keine Infrastrukturkosten.
- Mindestmanagement.
- Keine Probleme bei der Verwaltung und Verwaltung.
- Einfach zu erreichen.
- Zahlen Sie für das, was Sie verwenden.
- Es ist zuverlässig.
- Es bietet Datenkontrolle, Sicherung und Wiederherstellung.
- Riesige Lagerung.
Nachteile:
- Es braucht eine gute Internetverbindung mit gleich guter Bandbreite, um gut zu funktionieren.
- Es hat seine Ausfallzeit.
- Ihre Kontrolle über die Infrastruktur wird begrenzt sein.
- Es gibt wenig Flexibilität.
- Es hat bestimmte laufende Kosten.
- Möglicherweise liegen Sicherheits- und technische Probleme vor.
F # 25) Die Arbeit der Dateningenieure erfolgt normalerweise hinter den Kulissen. Fühlen Sie sich wohl, wenn Sie nicht im Rampenlicht stehen?
Antworten: Ihr Personalchef möchte wissen, ob Sie gerne im Rampenlicht stehen oder in beiden Situationen gut arbeiten können. Ihre Antwort sollte ihnen sagen, dass Sie, obwohl Sie das Rampenlicht mögen, auch gerne im Hintergrund arbeiten.
„Für mich ist es wichtig, dass ich ein Experte auf meinem Gebiet bin und zum Wachstum meines Unternehmens beitrage. Wenn ich im Rampenlicht arbeiten muss, mache ich das auch gerne. Wenn es ein Problem gibt, das Führungskräfte angehen müssen, werde ich nicht zögern, meine Stimme zu erheben und sie darauf aufmerksam zu machen. “
F # 26) Was passiert, wenn der Block-Scanner einen beschädigten Datenblock erkennt?
Antworten: Zunächst meldet DataNode an NameNode. Anschließend erstellt NameNode ein neues Replikat über das Replikat des beschädigten Blocks. Ein beschädigter Datenblock wird nicht gelöscht, wenn die Replikationsanzahl der richtigen Replikate mit dem Replikationsfaktor übereinstimmt.
F # 27) Haben Sie jemals eine neue innovative Verwendung für bereits vorhandene Daten gefunden? Hat sich das positiv auf das Unternehmen ausgewirkt?
Antworten: Mit dieser Frage sollen sie herausfinden, ob Sie selbst motiviert und eifrig genug sind, um zum Erfolg der Projekte beizutragen. Beantworten Sie die Frage nach Möglichkeit mit einem Beispiel, in dem Sie die Verantwortung für ein Projekt übernommen oder eine Idee entwickelt haben. Und wenn Sie jemals eine neuartige Lösung für ein Problem vorgestellt haben, sollten Sie diese auch nicht verpassen.
Beispielantwort: „In meinem letzten Job habe ich herausgefunden, warum wir eine hohe Fluktuationsrate haben. Ich habe die Daten aus verschiedenen Abteilungen genau beobachtet, in denen ich stark korrelierte Daten in Schlüsselbereichen wie Finanzen, Marketing, Betrieb usw. und der Fluktuationsrate der Mitarbeiter gefunden habe.
Zusammenarbeit mit den Abteilungsanalysten zum besseren Verständnis dieser Zusammenhänge. Nach unserem Verständnis haben wir einige strategische Änderungen vorgenommen, die sich positiv auf die Fluktuationsrate der Mitarbeiter ausgewirkt haben. “
F # 28) Welche nichttechnischen Fähigkeiten sind Ihrer Meinung nach als Dateningenieur am nützlichsten?
Antworten: Vermeiden Sie die offensichtlichsten Antworten wie Kommunikation oder zwischenmenschliche Fähigkeiten. Sie können sagen: „Priorisierung und Multitasking haben sich in meinem Job oft als nützlich erwiesen. Wir bekommen an einem Tag verschiedene Aufgaben, weil wir mit verschiedenen Abteilungen arbeiten. Daher ist es wichtig, dass wir ihnen Priorität einräumen. Das erleichtert uns die Arbeit und hilft uns, sie alle effizient zu erledigen. “
F # 29) Mit welchen häufigen Problemen sind Sie als Dateningenieur konfrontiert?
Antwort: Dies sind:
- Kontinuierliche Integration in Echtzeit.
- Speichern großer Datenmengen und Informationen aus diesen Daten.
- Ressourcenbeschränkungen.
- Überlegen Sie, welche Tools verwendet werden sollen und welche die besten Ergebnisse liefern können.
Fazit
Data Engineering mag sich nach einem langweiligen Routinejob anhören, hat aber viele interessante Facetten. Dies geht aus den möglichen Szenariofragen hervor, die Interviewer möglicherweise stellen. Sie sollten bereit sein, nicht nur technische Buchfragen zu beantworten, sondern auch Situationsfragen wie die oben aufgeführten. Nur dann können Sie beweisen, dass Sie Ihre Arbeit gut machen und verdienen können.
Alles Gute!!
Literatur-Empfehlungen
- Interview Fragen und Antworten
- Fragen und Antworten zum ETL-Testinterview
- Top 32 der besten Fragen und Antworten zum Datastage-Interview
- Top Fragen und Antworten zum JSON-Interview
- Top Teradata Interview Fragen und Antworten
- Top 24 Fragen zum Datenmodellierungsinterview mit detaillierten Antworten
- Top 50+ Fragen und Antworten zum Datenbankinterview
- Top 30 SAS Interview Fragen und Antworten