Eines der beliebtesten Dateiformate zum Speichern von Daten ist Excel. Es ist in vielen Bereichen weit verbreitet, von der Buchhaltung bis zur Datenanalyse. Wenn Sie mit den in einer Excel-Datei gespeicherten Daten arbeiten müssen und Sie lieber Python verwenden möchten, müssen Sie einen Dataframe aus dieser Datei erstellen.
Ein Dataframe ist die grundlegende Datenstruktur der Pandas-Bibliothek, bei der es sich um eine zweidimensionale Tabelle handelt, die verschiedene Datentypen in jeder Spalte speichern kann. Das Erstellen eines Dataframes aus einer Excel-Datei ist eine einfache und effiziente Möglichkeit, mit Daten in Python zu arbeiten.
In diesem Artikel werden wir die Schritte untersuchen, die zum Erstellen eines Dataframes aus einer Excel-Datei in Python erforderlich sind. Wir werden uns ansehen, wie Sie die benötigten Bibliotheken installieren und importieren, wie Sie Daten aus einer Excel-Datei lesen und wie Sie einen Dataframe aus diesen Daten erstellen. Darüber hinaus werden wir uns einige nützliche zusätzliche Funktionen für die Arbeit mit einem Dataframe ansehen, z. B. das Filtern, Sortieren und Gruppieren von Daten.
Vorbereiten der Umgebung für die Arbeit
Bevor Sie mit dem Erstellen eines Dataframes aus einer Excel-Datei beginnen, müssen Sie die erforderlichen Bibliotheken installieren und in Ihre Python-Umgebung importieren.
Die Schritte zur Vorbereitung der Umgebung für den Betrieb sind wie folgt:
- Installieren Sie die Pandas-Bibliothek, mit der Sie mit dem Dataframe arbeiten können.
- Installieren Sie die openpyxl-Bibliothek, mit der Sie mit Excel-Dateien arbeiten können.
- Importieren Sie die benötigten Module und Funktionen aus Bibliotheken:
- Importieren Sie das Pandas-Modul mit dem Befehl pandas als pd importieren .
- Importieren Sie die Funktion read_excel aus dem pandas-Modul mit dem Befehl from pandas import read_excel .
Nachdem Sie diese Schritte ausgeführt haben, ist Ihre Umgebung bereit, mit dem Dataframe und den Excel-Dateien in Python zu arbeiten.
Installieren und Importieren der benötigten Bibliotheken
Sie können den pip-Paketmanager verwenden, um diese Bibliotheken zu installieren. Geben Sie an der Eingabeaufforderung den folgenden Befehl ein:
pip install pandas openpyxl
Nachdem Sie die Bibliothek erfolgreich installiert haben, können Sie sie in Ihr Projekt importieren:
import pandas as pd
Jetzt können wir beginnen, einen Dataframe aus einer Excel-Datei zu erstellen.
Öffnen einer Excel-Datei und Lesen von Daten
Bevor Sie mit der Verarbeitung von Daten aus einer Excel-Datei beginnen, müssen Sie sie öffnen und lesen. Dazu können wir die Pandas-Bibliothek verwenden, die eine benutzerfreundliche Oberfläche für die Arbeit mit Datentabellen bietet.
Um eine Excel-Datei zu öffnen, müssen wir den Dateipfad angeben. Verwenden Sie die read_excel() -Methode aus der Pandas-Bibliothek:
import pandas as pd# Указываем путь к файлу Excelfile_path = "путь_к_файлу.xlsx"# Чтение данных из файла Exceldf = pd.read_excel(file_path)
Wie Sie sehen können, wird die Funktion read_excel() zum Lesen einer Excel-Datei verwendet, die den Pfad zur Datei annimmt. Die resultierenden Daten werden in der Variablen df gespeichert, die ein Objekt vom Typ DataFrame ist - die grundlegende Datenstruktur in pandas für die Arbeit mit Tabellen.
Nach der Ausführung des Codes enthält die Variable df Daten aus einer Excel-Datei, die wir zur weiteren Verarbeitung und Analyse verwenden können.
Erstellen eines Dataframes aus Daten
Führen Sie die folgenden Schritte aus, um einen Dataframe aus den Daten zu erstellen:
- Pandas-Bibliothek importieren: import pandas as pd
- Daten aus der ausgewählten Quelle laden. Zum Beispiel können Sie bei einer Excel-Datei die Funktion read_excel() verwenden und den Dateipfad an sie übergeben: df = pd.read_excel('file.xlsx')
- Die empfangenen Daten überprüfen. Sie können die ersten Zeilen eines dataframe mit der Methode head() : print(df.head())
Nachdem Sie diese Schritte ausgeführt haben, enthält die Variable df die Daten als Dataframe. Anschließend können Sie die Daten analysieren und verschiedene Methoden und Funktionen der Pandas-Bibliothek verwenden, um die Daten zu manipulieren.
Beispielcode zum Erstellen eines Dataframe aus einer Excel-Datei:
import pandas as pddf = pd.read_excel('file.xlsx')print(df.head())
| Column1 | Column2 | Column3 | Column4 |
|---|---|---|---|
| 1 | 10 | 100 | 1000 |
| 2 | 20 | 200 | 2000 |
| 3 | 30 | 300 | 3000 |
Das Erstellen eines Dataframes aus Daten in Python ist also einfach genug, um die Pandas-Bibliothek zu verwenden. Nachdem Sie einen Dataframe erstellt haben, können Sie die Daten in einem praktischen Format analysieren, verarbeiten und visualisieren.