Compter les mots et afficher le résultat en nuage

Dans le but de voir de plus près à quoi ressemblaient les scripts bash je me suis lancé un petit défi, à savoir compter le nombre de mot sur un site web donner et afficher sous forme d'un nuage quels sont les mots les plus utilisé. Le script en lui même n'a pas grand intérêt et laisse passer des mots parasites mais le résultat est amusant.

Par exemple je l'ai fait tourner sur les sites suivants et vous pouvez voir le résultat en suivant les liens (Attention pages lourdes !) :

rue89.fr lemonde.fr lefigaro.fr liberation.fr eelv.fr parti-socialiste.fr u-m-p.org frontnational.com

N'hésitez pas à faire jouer votre touche ctrl et votre molette.

Cette "analyse" tiens compte de deux partis pris importants :

Tout d'abord je ne suis pas allé plus loin qu'une profondeur de 2 liens dans ma collecte de mots. Cela peut paraitre peu mais sur certains sites ça fait déjà un bon paquet de pages.

Ensuite, afin d'éliminer tous les pronoms, articles et autre mots de peu d'intérêt, je n'ai gardé que les mots de 6 caractères minimum (oui, et c'est aussi la solution la plus facile :D).

Si vous voullez récupérer le script en question, le voici (attention, c'est très moche mais ça fonctionne à peu près).

Pour toute remarques, insultes ou proposition d'amélioration du script, vous pouvez toujours envoyer un mail sur aegirs@adressedublog.


Commentaires :

Pas encore de commentaires

Laisser un commentaire

social