Python pandas - Dies ist eine Python-Programmiersprache-Bibliothek, die praktische Werkzeuge zum Verarbeiten und Analysieren von Daten bietet. Eine der Hauptfunktionen dieser Bibliothek ist die Arbeit mit Excel-Dateien. In diesem Artikel erfahren Sie, wie Sie eine Excel-Datei mit Pandas erstellen und wie Sie verschiedene Operationen mit den Daten in dieser Datei ausführen.
Um mit Pandas zu beginnen, müssen Sie diese Bibliothek installieren. Dazu genügt es, den Befehl auszuführen pip install pandas in der Befehlszeile. Nach erfolgreicher Installation können wir sie mit dem Befehl in unser Skript importieren import pandas as pd.
Um eine neue Excel-Datei mit Pandas zu erstellen, verwenden wir die Funktion ExcelWriter(). Hier ist ein Beispielcode, der eine neue Datei erstellt und Daten in die Datei schreibt:
import pandas as pd
data = [['John', 25], ['Alice', 28], ['Bob', 32]]
df = pd.DataFrame(data, columns=['Name', 'Age'])
with pd.ExcelWriter('example.xlsx') as writer:
df.to_excel(writer, index=False, sheet_name='Sheet1')
In diesem Beispiel erstellen wir einen neuen DataFrame mit Daten über Personen und ihr Alter. Dann verwenden wir die Funktion to_excel(), um einen DataFrame in eine Excel-Datei zu schreiben. Die Funktion akzeptiert mehrere Parameter, darunter ein Writer-Objekt, einen Indikator für das Vorhandensein eines Datenindex und den Namen des Arbeitsblatts in der Datei.
Python pandas: Grundlagen der Arbeit mit Datentabellen
Pandas bietet praktische Datenstrukturen und Funktionen zum Lesen, Schreiben und Bearbeiten von Tabellendaten. Das Hauptobjekt in Pandas ist ein DataFrame, bei dem es sich um eine zweidimensionale Tabelle handelt, die aus Zeilen und Spalten besteht.
Sie können einen DataFrame auf verschiedene Arten erstellen. Eine der häufigsten ist das Lesen von Daten aus einer Datei. Pandas unterstützt viele Formate, darunter CSV, Excel, SQL und andere. Verwenden Sie die Funktion read_csv, um Daten aus einer Datei zu lesen :
import pandas as pddf = pd.read_csv('data.csv')
Der resultierende DataFrame kann leicht angezeigt, gefiltert und geändert werden. Verwenden Sie die head() -Methode, um die ersten Zeilen anzuzeigen :
df.head()
Zusätzlich zum Lesen von Daten aus einer Datei kann ein DataFrame auch direkt erstellt werden. Sie können dazu ein Wörterbuch oder eine Liste von Tupeln verwenden:
data = df = pd.DataFrame(data)
Der resultierende DataFrame enthält Spalten mit den Namen "Name", "Alter" und "Gehalt", und die Zeilen enthalten Werte aus dem Wörterbuch.
Eine der Hauptfunktionen von Pandas ist die Datenmanipulation. Sie können die Tabelle sortieren, die Zeilen nach bestimmten Bedingungen filtern, neue Spalten hinzufügen und vieles mehr. Sie können beispielsweise den folgenden Code verwenden, um Zeilen zu filtern, die eine bestimmte Bedingung erfüllen:
df_filtered = df[df['Возраст'] > 30]
Dieser Code erstellt einen neuen DataFrame, der nur Zeilen enthält, in denen der Wert der Spalte "Alter" größer als 30 ist.
Sie können auch verschiedene Aggregationsvorgänge ausführen, z. B. die Summe oder den Mittelwert einer Spalte:
total_salary = df['Зарплата'].sum()average_age = df['Возраст'].mean()
Die resultierenden Werte können in einer späteren Analyse verwendet oder angezeigt werden.
Dies ist nur ein kleiner Teil dessen, was mit Pandas gemacht werden kann. Die Bibliothek verfügt über viele andere Funktionen, wie das Gruppieren von Daten, das Zusammenführen von Tabellen, das Analysieren von Zeitreihen und vieles mehr. Wenn Sie Pandas lernen, können Sie effizient mit Tabellendaten arbeiten und den Prozess der Datenanalyse in Python beschleunigen.
Installieren und Importieren einer Bibliothek
Um mit der Pandas-Bibliothek in Python zu arbeiten, müssen Sie sie mithilfe des pip-Paketmanagers installieren. Die Installation von Pandas erfolgt mit folgendem Befehl:
pip install pandas
Nachdem die Bibliothek erfolgreich installiert wurde, können Sie sie mithilfe des folgenden Befehls in Ihr Python-Skript oder Ihre interaktive Entwicklungsumgebung importieren:
import pandas as pd
Beim Importieren von Pandas wird "pd" als Alias verwendet. Dies ist eine gängige Praxis, die die Menge an Code vereinfacht und beschleunigt und die Lesbarkeit verbessert.
Nachdem die Bibliothek erfolgreich importiert wurde, können Sie alle ihre Funktionen und Methoden verwenden, um mit den Daten im Excel-Format zu arbeiten.
Erstellen und Füllen einer Datentabelle in Pandas
Sie können die Methode verwenden, um einen neuen DataFrame in pandas zu erstellen DataFrame(). Indem Sie verschiedene Daten an sie übergeben, können Sie eine Datentabelle erstellen, die leicht manipuliert und analysiert werden kann. Die Daten können in Form von Listen, Wörterbüchern oder Numpy-Arrays dargestellt werden.
Beispiel zum Erstellen eines DataFrames aus Listen:
import pandas as pddata = df = pd.DataFrame(data)print(df)
Dadurch wird ein neuer DataFrame mit drei Spalten erstellt: "Name", "Alter" und "Stadt". Jede Spalte enthält die entsprechenden Werte aus den Quelllisten. Nachdem wir den erstellten DataFrame angezeigt haben, sehen wir die folgende Tabelle:
Имя Возраст Город0 Анна 25 Москва1 Иван 30 Санкт-Петербург2 Мария 35 Казань
Wenn Sie eine Datentabelle in Pandas erstellen, können Sie die Daten auf einfache Weise darstellen und verschiedene Operationen wie Filtern, Sortieren, Gruppieren und Aggregieren durchführen. Dank der Flexibilität und Leistung von Pandas wird die Arbeit mit Daten bequemer und effizienter.