Début du traitement des urls

débutboucle

La commande wget permet de récupérer la page indiquée par l’url (fonction -O) et de stocker le lien dans un fichier html que l’on crée dans le répertoire PAGES-ASPIREES.

La variable $? est fonction de l’exécution de la commande précédente : elle prend la valeur 1 en cas d’échec de la commande qui la précède ou la valeur 0 si la commande s’est exécutée sans encombres. La condition if [$? ==0] permet donc de vérifier que wget  a bien récupéré la page web avant de passer à la suite du programme.

 

recupèreencodage

La commande file -i récupère l’encodage de la page et cut sectionne celui-ci suivant le délimiteur défini après -d et -f2 permet de récupérer le deuxième morceau. L’encodage se présentant sous la forme « charset=utf-8 », cette ligne de commande permet de récupérer le morceau à droite du délimiteur =. Le résultat des commandes file et cut est stocké dans la variable encodage.

 

 

 

 

 

 

 

 

Début du traitement des urls

Laisser un commentaire