Mes classements automatisés des chaînes YouTube aquariophiles semblent avoir intrigué et même inquiété certains internautes. Plusieurs personnes m’ont demandé comment je faisais, et quelques un·e·s m’ont gentiment mis en garde sur l’illégalité du piratage de données et ses dangers !
Merci pour vos réactions et vos partage de ces articles, notamment le TOP10 fr
Mr Hackquarium, hacker, pirate ou data scientist ?
Je commence par vous rassurer sur l’aspect légal du truc et vous explique juste après comment ça marche.
Merci tout-le-monde !
Ces 1ers retours sur les articles TOP 50 fishtube international et TOP10 fishtube français1 m’ont fait hyper plaisir : ça a créé une complicité avec d’autres internautes qui suivent les mêmes chaînes, j’ai aussi reçu quelques félicitations de connaisseurs et surtout beaucoup de curiosité du genre, « mais comment tu fais ça ? ».
Ça m’a aussi fait chaud au cœur de voir que certain·e·s s’inquiétaient pour moi et étaient prêt à perdre un peu de leur temps pour sauver un inconnu, pirate inconscient. Même si ça m’a fait un peu drôle de devoir justifier Mr Hackquarium via des mp sur des réseaux sociaux comme Instagram, Facebook ou Twitter.
Mais tu es sûr que tu as le droit de le faire ?
Pour un #hacker, c'est un peu comme si, alors que tu es cuisinier, ton voisin de table —dans un fast-food— te met discrètement en garde et te prévient que manger chez toi ou préparer un repas est illégal ! Share on XLicéité 2 des TOP YouTube par Mr Hackquarium
Je vous rassure tout de suite, ces classements automatisés, tout comme l’ensemble du blog et des activités de Mr Hackquarium sont 100% conformes à la loi et aux conditions d’utilisation de leurs services imposés par des éditeurs commerciaux comme Google.
Données publiques
J’utilise simplement des données rendues publiques avec le consentement de leurs auteurs/autrices et accessibles à tout le monde.
Vous pouvez vous-même récupérer ces informations.
- Par exemple en cliquant sur l’onglet À propos d’une chaîne, vous obtenez quelques données importantes à son sujet ;
- En regardant juste le titre d’une chaîne ou d’une vidéo vous déterminez sa langue.
Dans mon cas, j’ai juste créé un robot qui fait tout ça pour moi.
Respect des conditions d’utilisation Google YouTube pour les développeurs
Il existe plusieurs façons de récupérer des données sur internet : l’une des plus simple, et la plus discrète, est le développement d’un crawler : il s’agit d’un bot qui visite un site web et en extrait des données, en mimant un comportement humain. On dispose aujourd’hui de nombreux outils qui rendent cette tâche assez simple.
Les conditions d’utilisation de YouTube interdisent ce genre pratiques : Google fourni des API3 pour l’ensemble de ses services, dont YouTube. J’utilise ces APIs et en respecte l’ensemble du cadre. D’ailleurs, l’une des gageure technique a justement été de réussir à récupérer en une seule fois toutes les données nécessaires4 à l’application des algorithmes de classement tout en respectant les quotas de consommation de données imposés par le service.
Sauf mention contraire, tous les articles diffusés sur le blog Mr @hackquarium sont disponibles sous licence #CreativeCommons CC BY-SA 4.0 pour vous permettre de les partager ou les modifier Share on XLicence du blog de Mr Hackquarium
Sauf mention contraire, tous les articles diffusés sur le blog Mr Hackquarium sont disponibles sous licence creative commons CC BY-SA 4.0 qui vous permet de les partager ou les modifier.
N’hésitez pas à me contacter à ce sujet.
Comment tu fais ?
Les ingrédients
- APIs Google ;
- outils libres et open-source : langage Python, éditeur de code Atom, blog WordPress.
La préparation
Récupération des données
- J’utilise l’API YouTube pour récupérer la liste de mes abonnements et pour chacune des chaînes, leurs statistiques et informations publiques ;
- J’utilise une implémentation en python de l’outil de détection de langue de Google5.
Classement
Pour avoir quelque chose de plus fin que les stats Social Blade, j’ai créé mon propre algorithme de classement fondé sur l’activité et la popularité de la chaîne. Je me suis inspiré des méthodes utilisées par les moteurs de recherche, pour essayer de mettre sur un même plan les chaînes quelle que soit leur ancienneté.
Évaluation
Je suis plutôt satisfait du résultat6.
Typiquement sur le TOP50 international de septembre, Dexter’s World Channel7 a dépassé The King Of DIY8 : cela correspond exactement à mon usage actuel de ces chaînes, je regarde beaucoup moins Joey qu’avant alors que je ne rate aucune vidéo de Dexter !
Publication
Les 2 classements, le TOP50 international et le TOP10 francophones, sont exportés en HTML, dans un tableau interactif, prêts à être intégré sur le blog Mr Hackquarium.
Archivage
Les données récupérées ainsi que les résultats de calculs intermédiaires sont enregistrés dans une base de données pour permettre leur utilisation ultérieure et dans un tableur pour les visualiser et manipuler simplement.
Les TOP10 et TOP50 YouTube aquariophiles de Mr @hackquarium ont intrigué et même inquiété certains internautes. Plusieurs personnes m'ont demandé comment je faisais, et quelques un·e·s m'ont gentiment mis en garde sur les dangers du… Share on X@ suivre
🖖🤓
- francophone
- La licéité signifie le respect de la Loi dans son ensemble (lois, réglements, constitution …) tandis que la légalité désigne seulement la conformité à la loi (ex: code pénal, code civil … réglement
- Une API —Application Programming Interface— est une interface destinée à permettre à des applications de communiquer entre elles
- C’est important de s’assurer de la concomitance de récupération des données pour éviter d’introduire un biais dans les calculs de comparaison, juste pour une question de différence d’âge des données de quelques jours ou quelques heures.
- Le classement international de septembre présente uniquement des chaînes anglophones et francophones, mais je suis également abonné à des chaînes dans d’autres langues. Leur classement ne leur permet pas encore d’apparaître dans le TOP50.
- je pense déjà à des évolutions de cet algorithme de classement
- chaîne créée le 13 décembre 2016 avec 405.333 abonnés
- chaîne créée le 17 mai 2008 avec 1.267.770 abonnés
Super, clair et concis, je ne découvre que maintenant, le site.
Big foss
^^