Position actuelle: Accueil> Derniers articles> Guide pratique de PHP pour analyser HTML et XML

Guide pratique de PHP pour analyser HTML et XML

M66 2025-07-01

Méthode pratique pour analyser HTML et XML dans PHP

Dans le développement Web, HTML et XML sont des formats de données courants et sont largement utilisés pour l'affichage du contenu des pages et l'interaction des données. Le PHP peut non seulement générer des pages HTML, mais également analyser et manipuler directement les structures HTML / XML, améliorant considérablement l'efficacité du développement et la flexibilité. Cet article présentera comment utiliser la classe DomDocument de PHP pour analyser, lire et traiter les fichiers HTML / XML.

Parse contenu HTML à l'aide de PHP

Les fichiers HTML contiennent généralement du contenu structuré tel que les balises, les attributs et le texte. Dans PHP, vous pouvez utiliser la classe DomDocument pour charger HTML et l'analyser. L'exemple suivant montre l'utilisation de base:

<?php
$html = '<html><body><h1>Title</h1><p>Content</p></body></html>';

$dom = new DOMDocument();
$dom-> loadHtml ($ html);

echo $ Dom-> SaveHtml ();
?>

Ce code charge la chaîne HTML dans le DOM et la sort au format HTML. La structure de balise peut être consultée et exploitée au besoin.

Méthodes pour analyser le contenu XML

XML est un langage de balisage largement utilisé dans la transmission et le stockage des données. DomDocument prend également en charge le chargement et l'analyse du XML:

<?php
$xml = '<root><element1>Value 1</element1><element2>Value 2</element2></root>';

$dom = new DOMDocument();
$dom-> loadXml ($ xml);

echo $ dom-> savexml ();
?>

Le code ci-dessus charge la structure XML dans un objet DOM et les diffuse dans un format XML standard, qui peut être utilisé dans des scénarios tels que les interfaces de données ou la conversion de données.

Extraire le contenu dans HTML / XML

Avec DomDocument, nous pouvons facilement obtenir du contenu pour des balises spécifiques, telles que le contenu de titre et de paragraphe:

<?php
$html = '<html><body><h1>Title</h1><p>Content</p></body></html>';

$dom = new DOMDocument();
$dom-> loadHtml ($ html);

$ title = $ Dom-> GetElementsByTagName (&#39;h1&#39;) -> item (0) -> nodevalue;
$ content = $ Dom-> GetElementsByTagName (&#39;p&#39;) -> item (0) -> nodevalue;

Echo "Titre:". $ Titre. "<br> "
Echo "Contenu:". $ Contenu. "<br> "
?>

Ce code accède aux éléments du DOM via le nom de balise et extrait le contenu texte qui s'y trouve, ce qui est très adapté à la collecte de contenu et à l'analyse automatique.

Modifiez le contenu dans la structure HTML

En plus de la lecture, nous pouvons également modifier dynamiquement le contenu TAG dans HTML. Par exemple, modifiez le texte du titre:

<?php
$html = '<html><body><h1>Title</h1><p>Content</p></body></html>';

$dom = new DOMDocument();
$dom-> loadHtml ($ html);

$ title = $ Dom-> GetElementsByTagName (&#39;H1&#39;) -> Item (0);
$ title-> nodevalue = &#39;nouveau titre&#39;;

echo $ Dom-> SaveHtml ();
?>

Après l'exécution, le contenu de titre d'origine de la sortie HTML sera remplacé par "Nouveau titre". Cette méthode convient pour générer ou ajuster la structure de la page dynamique.

Ajouter des éléments à la structure HTML

Si vous devez ajouter de nouveaux éléments, vous pouvez également utiliser la méthode DomDocument pour créer et insérer dynamiquement. Par exemple, ajoutez un sous-titre à la page:

<?php
$html = '<html><body><h1>Title</h1><p>Content</p></body></html>';

$dom = new DOMDocument();
$dom-> loadHtml ($ html);

$ newelement = $ dom-> createElement (&#39;h2&#39;, &#39;subtitle&#39;);
$ Dom-> GetElementsByTagName (&#39;Body&#39;) -> Article (0) -> APPENDCHILD ($ newelement);

echo $ Dom-> SaveHtml ();
?>

Ce code sera dans la structure HTML d'origine Ajoutez partiellement un nouveau

Tag Content.

Résumer

Grâce à la classe DomDocument de PHP, les développeurs peuvent analyser, lire, modifier, modifier et même étendre le contenu de fichiers HTML et XML, prenant en charge les opérations de contenu et les scénarios de traitement des données plus complexes. Qu'il s'agisse de développement de chenilles, de conversion de moteur de modèle ou de structure de données, DomDocument est un outil très pratique.