Zum Hauptinhalt springen

Detaillierte Anweisungen zum Verbinden der jsoup-Bibliothek mit einem Projekt

Jsoup ist eine großartige Bibliothek zum Parsen von HTML- und XML-Dokumenten in Java. Es verfügt über eine einfache und intuitive API, mit der Sie Informationen aus Webseiten abrufen und manipulieren können. In diesem Artikel werden wir uns die Schritte zum Verbinden und Verwenden von jsoup in Ihrem Projekt ansehen.

Der erste Schritt besteht darin, die jsoup-Bibliothek herunterzuladen. Die offizielle jsoup-Website bietet zwei Download-Optionen: die neueste Version der Bibliothek oder die jsoup-Quellcodes. Sie können einen von ihnen je nach Ihren Bedürfnissen auswählen. Laden Sie die JAR-Datei mit der neuesten Version herunter und speichern Sie sie an einem für Sie geeigneten Ort.

Nachdem Sie jsoup heruntergeladen haben, müssen Sie es Ihrem Projekt hinzufügen. Wenn Sie eine Entwicklungsumgebung wie Eclipse oder IntelliJ IDEA verwenden, können Sie einfach die JAR-Datei zum Klassenpfad hinzufügen. Erstellen Sie ein neues Projekt oder öffnen Sie ein vorhandenes Projekt und suchen Sie nach dem Pfad zur jsoup-Bibliothek. Führen Sie dann die folgenden Schritte aus: klicken Sie mit der rechten Maustaste auf das Projekt, wählen Sie Eigenschaften oder Projekteinstellungen, suchen Sie dann die Registerkarte Java Build Path oder Java Build Path und fügen Sie jsoup zu Projektbibliotheken oder Libraries hinzu.

Nachdem Sie erfolgreich jsoup zu Ihrem Projekt hinzugefügt haben, können Sie damit beginnen, es zu verwenden. Erstellen Sie einfach eine neue Instanz der org-Klasse.jsoup.Jsoup und rufen Sie die Methoden auf, die Sie zum Parsen und Arbeiten mit HTML- oder XML-Dateien benötigen. Jsoup bietet viele Methoden zum Suchen, Abrufen und Modifizieren von Elementen einer Webseite. Denken Sie daran, die erforderlichen Klassen und Methoden zu importieren, bevor Sie beginnen.

Vorbereiten der Arbeit mit der jsoup-Bibliothek

Um mit der jsoup-Bibliothek zu beginnen, müssen Sie sie mit Ihrem Projekt verbinden. Hier ist eine Schritt-für-Schritt-Anleitung, die Ihnen dabei hilft:

  1. Laden Sie die jsoup-Bibliothek von der offiziellen Website des Projekts herunter (https://jsoup.org/download ).
  2. Erstellen Sie ein neues Projekt in Ihrer Integrated Development Environment (IDE), z. B. in Eclipse oder IntelliJ IDEA.
  3. Erstellen Sie einen Ordner in Ihrem Projekt, in dem die jsoup-Bibliothek gespeichert wird.
  4. Entpacken Sie das heruntergeladene Archiv mit der jsoup-Bibliothek.
  5. Kopieren Sie die jsoup-Bibliotheksdateien (dies sind normalerweise Dateien mit einer Erweiterung .jar) in den Ordner, den Sie im vorherigen Schritt erstellt haben.
  6. Öffnen Sie die Projekteinstellungen in Ihrer IDE.
  7. Suchen Sie nach dem Abschnitt, in dem Sie externe Bibliotheken hinzufügen können.
  8. Fügen Sie die jsoup-Bibliothek hinzu, indem Sie den Pfad zu dem Ordner angeben, in dem Sie sie im vorherigen Schritt platziert haben.

Nachdem Sie die jsoup-Bibliothek erfolgreich angeschlossen haben, können Sie sie in Ihrem Projekt verwenden. Weitere Informationen zu den Funktionen und Verwendungen der jsoup-Bibliothek finden Sie in der Dokumentation zur jsoup-Bibliothek.

Installieren der jsoup-Bibliothek in einem Projekt

Führen Sie die folgenden Schritte aus, um die jsoup-Bibliothek mit Ihrem Projekt zu verbinden:

Wenn Sie Maven verwenden, fügen Sie der pom-Datei die folgende Abhängigkeit hinzu.xml:

org.jsoupjsoup1.14.3

Wenn Sie Gradle verwenden, fügen Sie der Build-Datei die folgende Abhängigkeit hinzu.gradle:

dependencies

Erstellen einer Klasse für die Arbeit mit jsoup

Um mit der jsoup-Bibliothek zu arbeiten, müssen Sie eine separate Klasse erstellen, die Methoden zum Ausführen verschiedener Vorgänge mit dem HTML-Dokument enthält.

Im ersten Schritt müssen wir der jsoup-Bibliothek in der Build-Datei des Projekts eine Abhängigkeit hinzufügen. In der Datei "build.gradle" Fügen Sie die folgende Zeile hinzu:

  1. Fügen Sie eine Abhängigkeit zu jsoup hinzu

Als nächstes erstellen wir eine neue Klasse mit dem gewünschten Namen, zum Beispiel "JsoupParser". Diese Klasse enthält alle Methoden für die Arbeit mit jsoup.

Innerhalb einer Klasse erstellen wir statische Methoden, um verschiedene Operationen auszuführen:

  • Methode zum Laden eines HTML-Dokuments mit jsoup:
public static Document loadDocument(String url) throws IOException
  • Methode zum Abrufen von Elementen über einen CSS-Selektor:
public static Elements getElementsBySelector(Document document, String selector)
  • Methode zum Abrufen des Attributs eines Elements:
public static String getAttributeValue(Element element, String attributeKey)
  • Methode zum Abrufen des Inhalts eines Elements:
public static String getElementText(Element element)

Abhängig von den Anforderungen des Projekts können Sie auch andere Methoden in der Klasse hinzufügen.

Nach dem Erstellen der Klasse können wir ihre Methoden verwenden, um verschiedene Aktionen mit dem HTML-Dokument auszuführen, z. B. das Dokument an die angegebene URL zu laden, alle Elemente mit einem bestimmten CSS-Selektor zu finden, die Attributwerte und den Inhalt der Elemente abzurufen.

Verbinden von jsoup mit einem Projekt

Schritt 1: Laden Sie die jsoup-Bibliothek von der offiziellen Website herunter jsoup.org . Klicken Sie dazu auf den Link und wählen Sie die gewünschte Version aus: https://jsoup.org/download.

Schritt 2: Entpacken Sie die heruntergeladene jsoup-Bibliothek.

Schritt 3: Öffnen Sie Ihre Entwicklungsumgebung und erstellen Sie ein neues Projekt.

Schritt 4: Importieren Sie die heruntergeladenen JAR-Dateien aus jsoup in Ihr Projekt. Fügen Sie sie dazu dem Ordner "libs" in Ihrem Projekt hinzu.

Schritt 5: Öffnen Sie die Build-Datei.gradle für Ihr Projekt und fügen Sie die folgende Abhängigkeit hinzu:

Schritt 6: Synchronisieren Sie das Projekt mit Gradle.

Schritt 7: Jetzt können Sie jsoup in Ihrem Projekt verwenden. Fügen Sie Ihrer Java-Datei den folgenden Code hinzu:

import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements;

Schritt 8: Jetzt können Sie Code schreiben, indem Sie die jsoup-Funktionalität zum Parsen von HTML-Seiten verwenden. Zum Beispiel:

String url = "https://www.example.com"; Document document = Jsoup.connect(url).get(); Element element = document.select("div").first(); System.out.println(element.text());

Jetzt wissen Sie, wie Sie die jsoup-Bibliothek mit Ihrem Projekt verbinden und sie zum Parsen von HTML-Seiten verwenden. Erfolgreiche Entwicklung!

Grundlegende Methoden der jsoup-Bibliothek

Die jsoup-Bibliothek bietet viele Methoden zum Arbeiten mit HTML-Dokumenten. Hier sind einige der am häufigsten verwendeten Methoden:

  1. connect(String url) : Erstellt eine Verbindung mit der angegebenen URL.
  2. get() : Ruft den Inhalt der Seite ab, auf die die aktuelle Verbindung zeigt.
  3. post() : Sendet eine POST-Anfrage an die angegebene Seite.
  4. parse(String html) : Analysiert die HTML-Zeichenfolge und erstellt das Dokument.
  5. select(String cssQuery) : Sucht nach Elementen, die dem angegebenen CSS-Selektor entsprechen.
  6. getElementById(String id) : Gibt ein Element zurück, das mit dem Wert des angegebenen id-Attributs übereinstimmt.
  7. getElementsByTag(String tagName) : Gibt alle Elemente mit dem angegebenen Tag zurück.
  8. getElementsByClass(String className) : Gibt alle Elemente mit dem angegebenen Wert des class-Attributs zurück.
  9. text() : Ruft den Textinhalt des Elements ab.
  10. html() : Ruft den HTML-Inhalt des Elements ab.

HTML-Code einer Seite abrufen

Jsoup ermöglicht es Ihnen, den HTML-Code einer Seite mit Ihrer API zu erhalten. Führen Sie dazu die folgenden Schritte aus:

  1. Verbinden Sie die Jsoup-Bibliothek mit Ihrem Projekt. Um dies zu tun, müssen Sie die JAR-Datei von der offiziellen Website herunterladen und sie je nach Projekt hinzufügen.
  2. Importieren Sie die gewünschte Klasse aus der Bibliothek in Ihren Code:
import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import org.jsoup.nodes.Element;

3. Verwenden Sie die Jsoup-Methode.connect() , um das Connection - Objekt abzurufen. Übergeben Sie als Parameter die URL der Seite, deren HTML-Code Sie erhalten möchten:

String url = "https://www.example.com";Connection connection = Jsoup.connect(url);

4. Rufen Sie die get() -Methode für das Connection-Objekt auf, um ein Objekt der Document-Klasse abzurufen, das den HTML-Code der Seite darstellt:

Document document = connection.get();

Die document-Variable enthält jetzt den HTML-Code der Seite, mit der Sie arbeiten möchten. Sie können die getElementsBy-Methoden verwenden. zum Beispiel getElementsByTag() , um die gewünschten Elemente auf der Seite auszuwählen.

Beachten Sie, dass die Methoden connect() und get() Ausnahmen auslösen können, also fügen Sie sie in einen try-catch-Block ein oder behandeln Sie Ausnahmen mit der entsprechenden Anweisung.

Parsen von HTML-Code mit jsoup

Um mit jsoup zu beginnen, müssen Sie dem Projekt eine Bibliothek hinzufügen. Dazu müssen Sie die jsoup-JAR-Datei von der offiziellen Website des Projekts herunterladen oder Maven oder Gradle verwenden, um die Abhängigkeit zu installieren.

Nachdem Sie dem Projekt eine Bibliothek hinzugefügt haben, können Sie mit ihren Methoden beginnen, den HTML-Code zu parsen. Der einfachste Weg, um zu beginnen, besteht darin, den HTML-Code aus einer Datei oder einer URL zu laden:

String html = "Пример

Привет, мир!

";Document document = Jsoup.parse(html);

Nachdem Sie den HTML-Code in das Document-Objekt geladen haben, können Sie verschiedene Methoden verwenden, um die Informationen abzurufen. Sie können beispielsweise die getElementById() -Methode verwenden, um ein Element anhand seiner ID abzurufen:

Element element = document.getElementById("myElement");String text = element.text();

Sie können auch Methoden verwenden, um Elemente nach einem Tag, einer Klasse oder einem Selektor zu suchen:

Elements elements = document.getElementsByTag("p");Elements elements = document.getElementsByClass("myClass");Elements elements = document.select("p.myClass");

jsoup unterstützt auch die Verwendung von CSS-Selektoren zur komplexeren Suche nach Elementen. Zum Beispiel können Sie Selektoren verwenden, um Elemente eines bestimmten Typs oder mit bestimmten Attributen zu suchen:

Elements elements = document.select("div > p");Elements elements = document.select("[href]");Elements elements = document.select("a[href^=https://]");

Sie können die resultierenden Elemente zum Extrahieren von Text, Attributen oder anderen Informationen verwenden:

String text = element.text();String attribute = element.attr("href");

Mit all diesen Methoden können Sie den HTML-Code einfach und bequem mit jsoup parsen und die notwendigen Informationen erhalten, um die nachfolgenden Aktionen in Ihrem Projekt durchzuführen.