Duplikate in Excel mit Power Query entfernen – automatisch und elegant

Duplikate in Datensätzen sind ein ernsthaftes Problem. Sie als Controller kennen das bestimmt. In diesem Blogpost zeige ich Ihnen, wie Sie Duplikate bei jeder Datenaktualisierung automatisch entfernen lassen können.

Wie können Duplikate überhaupt entstehen?

Für einen meiner Kunden durfte ich eine komplexe Berichtslösung mit den Excel Power Tools realisieren. Bei einer der benötigten Datenquellen handelte es sich um einen Datenextrakt. Speziell dabei war, dass das ERP den einzelnen Monat jeweils vom ersten des Monats bis und mit dem ersten des Folgemonats lieferte. (Zugegeben, ist schon etwas unüblich). Natürlich führte dies bei einer kumulierten Jahresbetrachtung zu Überschneidungen anfangs Monat und folglich zu Duplikaten.

Wenn Datenquellen kombiniert werden, können potentiell Duplikate entstehen. In Power Query können Sie mit dem Befehl «Abfragen anfügen» oder mit dem Standardkonnektor «Aus Ordner» mehrere Datenextrakte aufeinanderstapeln lassen. Dass dabei Duplikate vorliegen können, lässt sich nie kategorisch ausschliessen. Vor allem nicht, wenn Sie manuell nachgeführte Dateien als Datenquelle nutzen müssen.

Daher empfehle ich den Teilnehmenden meiner Schulung, vorsorglich Duplikate entfernen zu lassen. Dann müssen Sie sich diesbezüglich auch keine Gedanken machen.

Duplikate in Spalten sind nicht per se ein Problem

In ausgewählten Spalten werden Sie immer Duplikate finden. Das liegt in der Natur der Sache: so wird in der Umsatztabelle dieselbe Kundennummer, dieselbe Artikelnummer oder dasselbe Datum in der entsprechenden Spalte immer mehrmals vorkommen. Derselbe Kunde kauft ja (hoffentlich) nicht nur ein einziges Mal bei Ihnen; denselben Artikel haben Sie mehrmals verkauft und an einem Tag haben Sie vermutlich mehrere Verkäufe getätigt.

Die einzigen Spalten, welche keine Duplikate enthalten sollten, speichern den Primärschlüssel (einfach oder kombiniert). Der Primärschlüssel muss in der entsprechenden Tabelle eindeutig sein. Aber dieses Thema will ich zu einem späteren Zeitpunkt in einem separaten Beitrag behandeln. 

Achtung: Duplikate in Datensätzen sind das Problem!

Hier geht es um ganze Datensätze.

In einer Umsatztabelle stellt ein Datensatz eine Verkaufstransaktion dar, gespeichert wird die Transaktion in einer Zeile der Tabelle. Ein Verkauf ist an sich eindeutig. Gekennzeichnet wird eine solche Transaktion z. B. mit einer eindeutigen Bestellnummer (= Primärschlüssel).

Kauft derselbe Kunde am selben Tag denselben Artikel tatsächlich mehrmals, liegen keine Duplikate vor, sondern zwei Verkäufe. Dabei spielt es aus technischer Sicht keine Rolle, ob es ein Versehen war oder nicht.

Wird aber ein einmal erfolgter Verkauf mehrmals angezeigt, haben wir ein Duplikat. Dieselbe Bestellnummer würde in diesem Fall auch mehrmals vorkommen, und genau diese Duplikate müssen Sie entfernen lassen.

Wenn Sie in Power Query direkt Datenbanktabellen einlesen, sollten Sie eigentlich nie in dieses Problem geraten. Die Datenbanken selber sorgen für eine Eindeutigkeit bei der Vergabe von Primärschlüsseln. An Duplikate sollten Sie aber immer dann denken, wenn Sie Datensätze aus verschiedenen Dateien zusammenführen. 

Ein Klick und die Duplikate sind weg

Das Vorgehen in Power Query ist sehr einfach. In diesem Video zeige ich Ihnen, wo sich der Befehl für das entfernen ganzer Datensätze befindet und wie sich dies von Duplikaten in Spalten unterscheidet.

Das Entfernen von Duplikaten ist nun Bestandteil Ihrer Transformationslogik. Jedes Mal, wenn neue Daten geliefert werden und Sie Ihre Auswertung aktualisieren, werden Duplikate automatisch entfernt.

 

Kann ich mir Duplikate auch anzeigen lassen?

Ja, das können Sie. In Projekten, bei denen ich mit Duplikaten rechnen muss, baue ich eine kleine Qualitätsprüfung ein. Dadurch sehen meine Kunden auf einen Blick, ob sich nach der Datenaktualisierung Duplikate eingeschlichen haben. Wie das geht, zeige ich in einem nächsten Blogbeitrag.

DDEXP_informieren_wenn_buchbar

Ich will informiert werden, sobald die Schulung "Dynamische Datenauswertung in Excel mit Power Pivot & DAX" buchbar ist.