this post was submitted on 03 Feb 2024
1 points (100.0% liked)

Technologie - 🤖

554 readers
18 users here now

Ici concerne le champs de domaine large de la technologie : actualités sur l'informatique, partage de programme informatique et de code, montrer vos projets Arduino, ect.

Mégafil ici

founded 1 year ago
MODERATORS
 

Bonjour à tous,

Depuis la dernière mise à jour de FreshRss, il est possible de faire du scrapping de site web avec xpath afin de créer des flux rss pour les sites qui n'en n'ont pas.

Plus de détail ici : https://danq.me/2022/09/27/freshrss-xpath/

J'ai mis en place ce principe pour récupérer des infos sur le site de la mairie et celui de la com'com.

Je bloque sur un troisième, le site de l'office de tourisme (pour récupérer l'agenda culturel). J'aurais besoin d'aide afin de m'en dépatouiller. Je ne sais pas si je suis au bon endroit. Mais si vous savez vers quelle communauté je pourrais me tourner pour résoudre ce soucis, n'hésitez pas à me le dire.

Un peu de contexte.

Lors de son chargement, le site de l'office de tourisme charge dans un premier temps le html, mais sans les événements de l'agenda. Ces événements sont présents sur la page, mais dans une balise script sous forme d'un json stocké dans une variable item.

Une autre requête POST est ensuite effectuée avec en paramètre ce json pour le mettre en forme (html) puis l'insérer dans le corps de la page.

À partir de là, le scrapping se complexifie, auriez-vous une idée de comment récupérer ce json pour le transformer en quelque chose qui ressemblerais à un flux atom/rss/json ?

Je pensais faire un script bash, mais je suis un peu perdu avec xmlint, xisdel et jq.

C'est peu être un peu ambitieux, qu'en pensez-vous ?

you are viewing a single comment's thread
view the rest of the comments
[–] [email protected] 1 points 10 months ago