top 32 best datastage interview questions
Liste der am häufigsten gestellten Fragen und Antworten zum Datastage-Interview, um Sie auf das bevorstehende Interview vorzubereiten:
DataStage ist ein sehr beliebtes ETL-Tool, das auf dem aktuellen Markt verfügbar war.
In diesem Artikel teile ich eine Reihe sehr nützlicher Fragen und Antworten, die für IBM Datastage-Interviews bestimmt sind. Wenn Sie die folgenden Fragen zu Datastage-Interviews durchgehen, können Sie das Interview leicht knacken.
Wir haben detaillierte Antworten auf die Fragen zum Datastage-Interview gegeben, die für Erstsemester und erfahrene Fachleute hilfreich sind.
Empfohlene Lektüre => Fragen zum ETL-Testinterview
Die häufigsten Fragen und Antworten zu Datastage-Interviews
Lasst uns beginnen!
F # 1) Was ist Datastage?
Antworten: Datastage ist ein ETL-Tool gegeben durch IBM Hier wird eine grafische Benutzeroberfläche zum Entwerfen von Datenintegrationslösungen verwendet. Dies war das erste ETL-Tool, das ein Parallelitätskonzept lieferte.
Es ist in den folgenden 3 verschiedenen Editionen erhältlich
- Server Edition
- Enterprise Edition
- MVS Edition
F # 2) Markieren Sie die Hauptfunktionen von Datastage?
Antworten: Die Hauptfunktionen von Datastage werden nachfolgend hervorgehoben:
- Es ist die Datenintegrationskomponente des IBM Infosphere-Informationsservers.
- Es ist ein GUI-basiertes Tool. Wir müssen nur die Datastage-Objekte ziehen und ablegen und können sie in Datastage-Code konvertieren.
- Es wird verwendet, um die ETL-Operationen (Extrahieren, Transformieren, Laden) auszuführen.
- Es bietet Konnektivität zu mehreren Quellen und mehreren Zielen gleichzeitig
- Es bietet Partitionierungs- und Parallelverarbeitungstechniken, mit denen die Datastage-Jobs ein großes Datenvolumen schneller verarbeiten können.
- Es verfügt über Konnektivität auf Unternehmensebene.
F # 3) Was sind die Hauptverwendungen des Datastage-Tools?
Antworten: Datastage ist ein ETL-Tool, das hauptsächlich zum Extrahieren von Daten aus Quellsystemen, zum Transformieren dieser Daten und zum endgültigen Laden in Zielsysteme verwendet wird.
F # 4) Was sind die Hauptunterschiede, die Sie zwischen der 7.x- und 8.x-Version von DataStage festgestellt haben?
Antworten: Hier sind die Hauptunterschiede zwischen beiden Versionen
7.x. | 8.x. |
---|---|
Die 7.x-Version war plattformabhängig | Diese Version ist plattformunabhängig |
Es verfügt über eine zweistufige Architektur, bei der die Datenbereitstellung auf dem Unix-Server basiert | Es hat eine dreistufige Architektur, in der wir unten eine UNIX-Serverdatenbank haben, dann eine XMETA-Datenbank, die als Repositorty fungiert, und oben eine Datenspeicherung. |
Es gibt kein Konzept für einen Parametersatz | Wir haben Parametersätze, die überall im Projekt verwendet werden können. |
Wir hatten Designer und Manager als zwei separate Kunden | In dieser Version wurde der Manager-Client mit dem Designer-Client zusammengeführt |
Wir mussten manuell nach den Jobs in dieser Version suchen | Hier haben wir eine schnelle Suchoption im Repository, wo wir einfach nach Jobs suchen können. |
F # 5) Können Sie die Hauptfunktionen des IBM Infosphere-Informationsservers hervorheben?
Antworten: Die Hauptfunktionen der IBM Infosphere Information Server Suite sind:
So entfernen Sie einen Index aus einem Java-Array
- Es bietet eine einzige Plattform für die Datenintegration. Es kann eine Verbindung zu mehreren Quellsystemen herstellen und auf mehrere Zielsysteme schreiben.
- Es basiert auf zentralisierten Ebenen. Alle Komponenten der Suite können die Basisarchitektur der Suite gemeinsam nutzen.
- Es verfügt über Ebenen für das einheitliche Repository, für integrierte Metadatendienste und eine gemeinsame parallele Engine.
- Es bietet Tools zum Analysieren, Bereinigen, Überwachen, Transformieren und Bereitstellen von Daten.
- Es verfügt über massiv parallele Verarbeitungsfunktionen. Es stellt sich heraus, dass die Verarbeitung sehr schnell ist.
F # 6) Was sind die verschiedenen Ebenen in der Informationsserverarchitektur?
Antworten: Nachfolgend sind die verschiedenen Ebenen der Informationsserverarchitektur aufgeführt
- Einheitliche Benutzeroberfläche
- Gemeinsame Dienste
- Einheitliche Parallelverarbeitung
- Einheitliche Metadaten
- Gemeinsame Konnektivität
F # 7) Was könnte ein Datenquellensystem sein?
Antworten: Es kann sich um eine Datenbanktabelle, eine Flatfile oder sogar eine externe Anwendung wie People Soft handeln.
F # 8) Auf welcher Schnittstelle werden Sie als Entwickler arbeiten?
Antworten: Als Datastage-Entwickler arbeiten wir an der Datastage-Client-Oberfläche, die als Datastage-Designer bezeichnet wird und auf dem lokalen System installiert werden muss. Im Backend ist es mit dem Datastage-Server verbunden.
F # 9) Was sind die verschiedenen allgemeinen Dienste in Datastage?
Antworten: Unten finden Sie eine Liste der allgemeinen Dienste in Datastage:
- Metadatendienste
- Unified Service-Bereitstellung
- Sicherheitsdienste
- Schleifen- und Berichterstattungsdienste.
F # 10) Wie fangen Sie an, ein Datastage-Projekt zu entwickeln?
Antworten: Der allererste Schritt besteht darin, einen Datastage-Job auf dem Datastage-Server zu erstellen. Alle von uns erstellten Datastage-Objekte werden im Datastage-Projekt gespeichert. Ein Datastage-Projekt ist eine separate Umgebung auf dem Server für Jobs, Tabellen, Definitionen und Routinen.
Ein Datastage-Projekt ist eine separate Umgebung auf dem Server für Jobs, Tabellen, Definitionen und Routinen.
F # 11) Was ist ein DataStage-Job?
Antworten: Der Datastage-Job ist einfach ein DataStage-Code, den wir als Entwickler erstellen. Es enthält verschiedene Phasen, die miteinander verknüpft sind, um Daten und Prozessfluss zu definieren.
Stufen sind nichts anderes als die Funktionen, die implementiert werden.
Zum Beispiel: Nehmen wir an, ich möchte eine Summe des Verkaufsbetrags machen. Dies kann eine 'Gruppierung nach' -Operation sein, die von einer Stufe ausgeführt wird.
Jetzt möchte ich das Ergebnis in eine Zieldatei schreiben. Diese Operation wird also von einer anderen Stufe ausgeführt. Nachdem ich beide Phasen definiert habe, muss ich den Datenfluss von meiner Phase 'Gruppieren nach' zur Phase der Zieldatei definieren. Dieser Datenfluss wird durch DataStage-Links definiert.
Nachdem ich beide Phasen definiert habe, muss ich den Datenfluss von meiner Phase 'Gruppieren nach' zur Phase der Zieldatei definieren. Dieser Datenfluss wird durch DataStage-Links definiert.
F # 12) Was sind DataStage-Sequenzen?
Antworten: Die Datastage-Sequenz verbindet die DataStage-Jobs in einem logischen Ablauf.
F # 13) Wie können Sie dies erreichen, wenn Sie denselben Code in verschiedenen Jobs verwenden möchten?
Antworten: Dies kann mithilfe von gemeinsam genutzten Containern erfolgen. Wir haben Container für die Wiederverwendbarkeit geteilt. Ein gemeinsam genutzter Container ist ein wiederverwendbares Jobelement, das aus Phasen und Verknüpfungen besteht. Wir können einen gemeinsam genutzten Container in verschiedenen Datastage-Jobs aufrufen.
F # 14) Wo werden die Datastage-Jobs gespeichert?
Antworten: Die Datastage-Jobs werden im Repository gespeichert. Wir haben verschiedene Ordner, in denen wir die Datastage-Jobs speichern können.
F # 15) Wo sehen Sie verschiedene Phasen im Designer?
Antworten: Alle Stufen sind in einem aufgerufenen Fenster verfügbar ' Palette ' . Es gibt verschiedene Kategorien, abhängig von der Art der Funktion, die die Bühne bietet.
c und c ++ Interviewfragen
Die verschiedenen Kategorien von Stufen in der Palette sind - Allgemein, Datenqualität, Datenbank, Entwicklung, Datei, Verarbeitung usw.
F # 16) Was sind die Verarbeitungsstufen?
Antworten: Die Verarbeitungsstufen ermöglichen es uns, die eigentliche Datentransformation anzuwenden.
Zum Beispiel , Das ' Die Aggregatorphase unter der Kategorie 'Verarbeitung' ermöglicht es uns, alle Operationen 'Gruppieren nach' anzuwenden. In ähnlicher Weise haben wir andere Verarbeitungsstufen wie die Stufe 'Verbinden', in der wir die Daten aus zwei verschiedenen Eingabestreams zusammenfügen können.
F # 17) Welche Schritte sind erforderlich, um einen einfachen grundlegenden Datastage-Job zu erstellen?
Antworten: Klicken Sie auf Datei -> Klicken Sie auf Neu -> Parallelen Job auswählen und klicken Sie auf OK. Ein paralleles Jobfenster wird geöffnet. In diesem parallelen Job können wir verschiedene Phasen zusammenstellen und den Datenfluss zwischen ihnen definieren. Der einfachste DataStage-Job ist ein ETL-Job.
Dazu müssen wir zuerst die Daten aus dem Quellsystem extrahieren, für die wir entweder eine Dateistufe oder eine Datenbankstufe verwenden können, da mein Quellsystem entweder eine Datenbanktabelle oder eine Datei sein kann.
Angenommen, wir lesen Daten aus einer Textdatei. In diesem Fall ziehen wir die Phase 'Sequentielle Datei' per Drag & Drop in das parallele Jobfenster. Jetzt müssen wir zusätzlich zu diesen Daten eine Transformation durchführen. Wir werden die Stufe 'Transformator' verwenden, die unter der Kategorie 'Verarbeitung' verfügbar ist. Wir können jede Logik unter der Transformer-Stufe schreiben.
Schließlich müssen wir die verarbeiteten Daten in eine Zieltabelle laden. Angenommen, meine Zieldatenbank ist DB2. Dazu wählen wir die DB2-Connector-Stufe aus. Dann werden wir diese Datenzustände über sequentielle Links verbinden.
Danach , Wir müssen die Stufen so konfigurieren, dass sie auf das richtige Dateisystem oder die richtige Datenbank verweisen.
Beispielsweise, Für die sequentielle Dateistufe müssen die obligatorischen Parameter wie Dateiname, Dateispeicherort und Spaltenmetadaten definiert werden.
Dann müssen wir den Datastage-Job kompilieren. Beim Kompilieren des Jobs wird die Syntax des Jobs überprüft und eine ausführbare Datei für den Datastage-Job erstellt, die zur Laufzeit ausgeführt werden kann.
F # 18) Nennen Sie die verschiedenen Sortiermethoden in Datastage.
Antworten: Es stehen zwei Methoden zur Verfügung:
- Link sortieren
- Eingebaute Datensortierung
F # 19) Was werden Sie in einem Stapel tun, wenn ein Job dazwischen fehlschlägt und Sie den Stapel von diesem bestimmten Job und nicht von Grund auf neu starten möchten?
Antworten: In Datastage gibt es eine Option in der Jobsequenz - ‘Checkpoints hinzufügen, damit die Sequenz bei einem Fehler neu gestartet werden kann’ . Wenn diese Option aktiviert ist, können wir die Jobsequenz ab dem Punkt erneut ausführen, an dem sie fehlgeschlagen ist.
F # 20) Wie importieren und exportieren Sie die Datastage-Jobs?
Antworten: F. oder dies, unter Befehlszeilenfunktionen dafür
- Importieren: dsimport.exe
- Export: dsexport.exe
F # 21) Was sind Routinen in Datastage? Tragen Sie verschiedene Arten von Routinen ein.
Antworten: Routine ist eine Reihe von Funktionen, die vom DS-Manager definiert werden. Es wird über die Transformatorstufe betrieben.
Es gibt 3 Arten von Routinen:
- Parallele Routinen
- Mainframe-Routinen
- Serverroutinen
F # 22) Wie entfernen Sie doppelte Werte in DataStage?
Antworten: Es gibt zwei Möglichkeiten, mit doppelten Werten umzugehen
- Wir können die Stufe zum Entfernen von Duplikaten verwenden, um Duplikate zu entfernen.
- Wir können die Sortierstufe verwenden, um Duplikate zu entfernen. Die Sortierstufe verfügt über eine Eigenschaft namens 'Duplikate zulassen'. Wenn Sie diese Eigenschaft auf false setzen, werden in der Sortierausgabe keine doppelten Werte angezeigt.
F # 23) Welche verschiedenen Arten von Ansichten sind in einem Datastage-Director verfügbar?
Antworten: Im Datastage-Director stehen drei Arten von Ansichten zur Verfügung. Sie sind:
- Protokollansicht
- Statusansicht
- Jobansicht
F # 24) Unterscheiden Sie zwischen Informatica und Datastage. Welches würdest du wählen und warum?
beste kostenlose mp3 download app für android
Antworten: Sowohl Informatica als auch DataStage sind leistungsstarke ETL-Tools.
Eingetragene Punkte unterscheiden zwischen beiden Werkzeugen:
Computing | Datastage | |
---|---|---|
Parallelverarbeitung | Informatica unterstützt keine Parallelverarbeitung. | Im Gegensatz dazu bietet Datastage einen Mechanismus für die parallele Verarbeitung. |
SCDs implementieren | Es ist ganz einfach, SCDs (sich langsam ändernde Dimensionen) in Informatica zu implementieren. | Es ist jedoch komplex, SCDs in Datastage zu implementieren. Datastage unterstützt SCDs lediglich über benutzerdefinierte Skripte. |
Versionskontrolle | Informatica unterstützt die Versionskontrolle durch Ein- und Auschecken von Objekten. | Diese Funktion ist jedoch in Datastage nicht verfügbar. |
Verfügbare Transformationen | Kleinere Transformationen sind verfügbar. | Datastage bietet mehr Transformationen als Informatica. |
Suchkraft | Informatica bietet eine sehr leistungsstarke dynamische Cache-Suche | Wir haben nichts Ähnliches in Datastage. |
Meiner persönlichen Meinung nach würde ich mit Informatica über Datastage gehen. Der Grund dafür ist, dass ich Informatica systematischer und benutzerfreundlicher als DataStage gefunden habe.
Ein weiterer wichtiger Grund ist, dass das Debuggen und die Fehlerbehandlung in Informatica im Vergleich zu Datastage viel besser sind. So wird das Beheben von Problemen in Informatica einfacher. Datastage bietet keine vollständige Unterstützung für die Fehlerbehandlung.
=> Möchten Sie mehr über Informatica erfahren? Wir haben ein ausführliche Erklärung hier.
F # 25) Geben Sie eine Vorstellung von Systemvariablen.
Antworten: Systemvariablen sind die schreibgeschützten Variablen, die mit beginnen '@' Dies kann entweder von der Transformatorstufe oder von der Routine gelesen werden. Sie werden verwendet, um die Systeminformationen abzurufen.
F # 26) Was ist der Unterschied zwischen passiver und aktiver Stufe?
Antworten: Passive Stufen werden zum Extrahieren und Laden verwendet, während aktive Stufen zur Transformation verwendet werden.
F # 27) Welche verschiedenen Arten von Containern sind in Datastage verfügbar?
Antworten: Wir haben unter 2 Container in Datastage:
- Lokaler Container
- Geteilter Container
F # 28) Wird der Wert der Staging-Variablen vorübergehend oder dauerhaft gespeichert?
Antworten: Vorübergehend. Es ist eine temporäre Variable.
F # 29) Welche unterschiedlichen Arten von Jobs gibt es in Datastage?
Antworten: Wir haben zwei Arten von Jobs in Datastage:
- Serverjobs (Sie werden sequentiell ausgeführt)
- Parallele Jobs (Sie werden parallel ausgeführt)
F # 30) Wozu dient Datastage Director?
Antworten: Über Datastage Director können wir einen Job planen, den Job validieren, den Job ausführen und den Job überwachen.
F # 31) Was sind die verschiedenen Arten der Hash-Datei?
Antworten: Wir haben 2 Arten von Hash-Dateien:
- Statische Hash-Datei
- Dynamische Hash-Datei
F # 32) Was ist eine Qualitätsstufe?
Antworten: Die Qualitätsstufe (auch als Integritätsstufe bezeichnet) ist eine Stufe, die das Kombinieren der Daten aus verschiedenen Quellen unterstützt.
Fazit
Sie sollten über praktische Kenntnisse der Datastage-Architektur und ihrer Hauptfunktionen verfügen und in der Lage sein, zu erklären, wie sie sich von einigen anderen gängigen ETL-Tools unterscheidet.
zusätzlich , Sie sollten eine faire Vorstellung von verschiedenen Phasen und deren Verwendung haben und eine Möglichkeit haben, einen Datastage-Job zu erstellen und auszuführen.
Empfohlene Lektüre => Was ist ETL-Test?
Alles Gute!
Literatur-Empfehlungen
- Fragen und Antworten zum ETL-Testinterview
- 10 besten Tools für die Datenzuordnung, die im ETL-Prozess nützlich sind [2021 LIST]
- 15 besten ETL-Tools im Jahr 2021 (Eine vollständige aktualisierte Liste)
- Tutorial zum Testen von Data Warehouse mit Beispielen | ETL-Testhandbuch
- Tutorial zum Testen von ETL-Data Warehouse-Tests (Eine vollständige Anleitung)
- ETL vs. DB-Tests - Ein genauerer Blick auf den Bedarf, die Planung und die ETL-Tools für ETL-Tests
- Durchführen von ETL-Tests mit dem Informatica PowerCenter Tool
- Mit Beispielen erläuterte Metadaten in Data Warehouse (ETL)
- Pressemitteilung - iCEDQ Soft Neue Version der ETL Testing & Data Migration Testing Platform
- Top 10 ETL-Testwerkzeuge im Jahr 2021
- Was ist der ETL-Prozess (Extrahieren, Transformieren, Laden) im Data Warehouse?