Avec le retour des beaux jours, je devrais bientôt recevoir des œufs de killi par la poste.
Le site du Killi Club de France va bientôt migrer vers une nouvelle plate-forme (j’espère que l’essentiel du site restera sous SPIP et que seul le forum sera migré vers une autre solution web1).
Aspirer le site du Killi Club de France
Bref, comme le site du KCF est la meilleure source francophone concernant les killis et leur maintenance, j’ai décidé de l’aspirer afin d’avoir ma propre archive du KCF.
Au final, j’ai obtenu une archive de 57 Mo qui contient tous les articles et les fiches techniques du KCF, hébergée sur mon contrôleur d’aquarium et consultable hors ligne.
Mes aquariums en réseau avec #RLIEH
Pour ceux qui débarquent sur hackquarium, je précise que mes aquariums sont gérés façon domotique, par un contrôleur maison2 —#RLIEH— qui pilote un réseau de satellites,3 qui gèrent les différents bacs : phases d’éclairage, température, capteurs, électrovannes etc …
L’ensemble des commandes et des capteurs sont accessibles via API et le contrôleur embarque son propre serveur web.
Le contrôleur est motorisé par un système GNU/Linux Raspbian, ce qui donne accès à tout un ensemble d’outils dont, un aspirateur de sites et un serveur web4
HTTrack, un logiciel libre
J’utilise le logiciel HTTrack sous GNU/Linux depuis plus de 20 ans, pour copier et mettre à jour des miroirs de sites à consulter hors ligne. C’est un logiciel libre et gratuit, utilisable en ligne de commande. WinHTTrack est également disponible pour Windows, avec une interface formulaire-clic-clic .
Sa puissance est sans limite : vous pouvez limiter ou étendre un mirroir. Par exemple pour uniquement aspirer les images du site, ou bien aspirer également tous les liens externes, jusqu’à x niveaux de profondeur.
HTTrack peut même s’utiliser en mode furtif, en cachant sa signature derrière celle d’un navigateur classique, utilisé par un humain.
Éthique et technique
La bonne pratique lors du mirroring d’un site volumineux est de ne pas tout aspirer pour ne pas surconsommer la bande passante du site. D’ailleurs, mal géré, c’est un risque à se faire bloquer son adresse IP.
Donc, je copie tout le site, sauf le forum. Ce qui revient à faire un miroir de https://www.killiclubdefrance.org, en excluant toutes les adresses qui commencent par https://www.killiclubdefrance.org/forum.
Un assistant interactif
Pour vous aider à paramétrer votre miroir, un assistant est également disponible en ligne de commande
$ httrack --mirror-wizard
Après quelques questions, l’assistant génère la commande correspondante et vous pouvez lancer l’opération de mirroring
---> Wizard command line: httrack https://www.killiclubdefrance.org/ -W -O "/home/user/www/kcf" -%v -https://www.killiclubdefrance.org/forum/*
Ready to launch the mirror? (Y/n) :y
Mirror launched on Wed, 17 Apr 2019 09:12:08 by HTTrack Website Copier/3.49-2 [XR&CO'2014]
mirroring https://www.killiclubdefrance.org/ -https://www.killiclubdefrance.org/forum/* with the wizard help..
Règles de filtrage pour le KCF
Lors des premiers tests, j’ai naïvement voulu aspirer tout le site, à l’exclusion des urls débutant par https://www.killiclubdefrance.org/forum/
-https://www.killiclubdefrance.org/forum/*
Je me suis rendu compte que cela ne suffisait pas, et que à cause de la structure de certains liens, je me retrouvais à faire une copie récursive 5.
J’ai donc modifié ce filtre pour exclure toutes les urls contenant /forum
-*/forum*
Au final, j’ai obtenu une archive de 57Mo seulement, contenant l’ensemble des rubriques avec leurs articles, y compris les fameuses fiches techniques du KCF.
Le tout est hébergé directement sur mon contrôleur #RLIEH et disponible sur mon réseau.
Vers l’infini et au-delà (pour les nerds)
Git –everything-is-local
On peut combiner httrack avec git et son système de branches pour gérer plusieurs versions d’archive. Attention à la taille des dépôts.
- Killi Club et SPIP : le développeur SPIP est au web ce que le killiphile est au hobby aquariophile : un expert éclairé. D’ailleurs, le site de l’Association Killiphile Francophone de Belgique (A.K.F.B) est lui aussi motorisé par le logiciel libre SPIP
- Le contôleur #RLIEH est motorisé avec un Raspberry Pi et le système d’exploitation Raspbian customisé
- Les satellites #RLIEH sont fondés sur des ESP et utilisent des firmwares maison
- Le serveur web est déjà utilisé sur le contrôleur #RLIEH pour suivre les variations d’environnement comne la température
- en gros, je risquais d’obtenir une copie de taille démesurée avec pleins de doublons à cause d’emboîtements symétriques des adresses de page.
Bonjour ! C’est possible de faire le miroir du site avec les reportage réservé aux adhérents en entier ?
https://www.killiclubdefrance.org/categories/5-1-bricolage-et-astuces.html
Salut, tu peux utiliser httrack avec le mode –catchurl qui te crée un proxy pour enregistrer tes identifiants et aspirer le site (dans ce cas, n’oublie pas de virer la page de déconnexion)