• Obiose
    21 mai 2016 at 15 h 46 min #7768

    Bonjour Philippe !
    Je prends connaissance de ton site ! Bravo ! C’est top on trouve beaucoup d’informations utiles et notamment sur ce forum.
    Je poste donc une question sur le duplicate content avec l’insertion d’un document pdf.
    Je souhaite mettre un lien de téléchargement pour ma plaquette commerciale sur ma page d’accueil (www.obiose.com). Pour cela, j’ai inséré un plugin button avec l’url de mon pdf que j’ai copié depuis ma banque de média.
    Ma plaquette reprend en synthèse les éléments de mon site internet et notamment des textes qui sont simplement copier-coller : du coup question du duplicate content ?
    J’ai repris les notes de tes formations, j’ai souvenirs du robot indexeur google qui peut exclure certains liens en passant par le sitemap de Yoast Seo en modifiant le robot txt. Oula Peux-tu stp m’en dire plus et la marche à suivre pour exclure les pdf ?

    J’ai retrouvé mon robot.txt qui me dit : Dissallow:/wp-admin/ ?

    Obiose
    21 mai 2016 at 15 h 53 min #7769

    En complément, j’ai retrouvé dans le sitemaps XML de Yoast SEO que les fichiers média en attachement n’était pas dans le sitemap.
    L’exclusion du sitemap impact le robot google ?

    Merci par avance.

    Obiose
    21 mai 2016 at 16 h 01 min #7770

    J’oubliais le lien pour visualiser le lien de la plaquette commerciale sur la page d’accueil du site http://www.obiose.com

    Philippe BERTIEAUX
    22 mai 2016 at 9 h 41 min #7773

    Mes pour tes commentaires très positifs ! Excellentes questions ! Je vais tenter d’y répondre de la meilleure manière qui soit :

    1) Les fichiers PDF d’un site, reprenant du contenu rédactionnel similaire aux pages du même site, sont-ils considérés comme étant du Duplicate Content (contenus dupliqués) par Google, et don pénalisés ?

    Ma réponse : Tout d’abord, il est bon de savoir que les plaquettes et tout autre type de document en format PDF sont très appréciés par Google. En effet, ils permettent d’obtenir de meilleures notations Google, en général, ces documents sont considérés comme étant une véritable valeur ajoutée au site.
    La solution la plus simple serait de bloquer l’indexation de ce fichier PDF par les robots indexeurs au travers du célèbre (et aujourd’hui obligatoire) fichier ROBOTS.TXT . avec le même type de commande que tu évoquais, à savoir :

    Dissallow:/wp-admin/

    Ou dans ton cas :

    Dissallow:/wp-content/TONFICHIER.PDF

    Mais du coup, le fichier n’étant plus pris en compte par Google, tu ne bénéficieras plus de cette valeur ajoutée à ton site par le fichier PDF lui-même.
    Donc, la solution parfaite à mon sens, serait de laisser le PDF en libre accès, de le laisser se faire crawler par les robots indexeurs de Google sans contraintes, mais……. (Désolé !) de reformuler son contenu rédactionnel, une fois de plus !

    2) La gestion des sitemaps (Plugin SEO Yoast) dans WordPress permet de sélectionner les éléments et sitemaps à générer. Quels sont ceux à activer ? Quel impact en SEO.

    Ma réponse : et bien les sitemaps (sitmap.xml à la racine des serveurs web) sont devenus très importants en SEO, et ceux qui sont les plus appréciés par les robots crawler sont les suivants : pages, posts (articles)… et images (pour Google Image évidement !)

    Mais attention pour les images ; chaque image est “traitée” par défaut comme étant un document à part entière, dans un fichier HTML (page) dédiée. Ce qui génère pour chaque image une page vide de contenu rédactionnel (page fantôme). Pas bon en SEO. Mais notre ami Yoast a pensé à tout avec son plugin magique, et propose une option qui bloque la génération de pages fantômes en “attachement aux images”, voir ci-dessous ;

    J’espère avoir répondu à tes questions 🙂

    A très bientôt !

    Obiose
    23 mai 2016 at 12 h 34 min #7776

    Merci pour ta réponse claire. Du coup, j’aurais d’autres questions sur le sujet du robot txt

    Question 1 : Après avoir fouillé sur le web, je vois que certain parle d’optimisation du robot txt comme suit :
    User-agent: *
    Disallow: /cgi-bin
    Disallow: /wp-login.php
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /category/
    Disallow: */trackback
    Disallow: */feed
    Disallow: */comments
    Disallow: /*?
    Disallow: /*.php$
    Disallow: /*.js$
    Disallow: /*.inc$
    Disallow: /*.css$
    Disallow: /*.gz$
    Disallow: /*.swf$
    Disallow: /*.wmv$
    Disallow: /*.cgi$
    Disallow: /*.xhtml$

    Quel est ton avis sur cette optimisation du robot txt ?

    Question 2 : J’ai modifié mon fichier robots.txt à partir de l’éditeur de fichier de Yoast seo.
    Je peux voir la modification prise en compte sous Yoast.
    Par contre, je ne vois pas la modification sous http://www.obiose.com/robots.txt.
    As t’on un temps de latence entre la modification Yoast et la modification sur le serveur http://www.obiose.com ?

    Merci par avance.

    Philippe BERTIEAUX
    23 mai 2016 at 12 h 41 min #7777

    Salut, alors, pour la première question, je dirais que cela n’est vraiment pas nécessaire de bloquer autant de choses, sachant que Yoast se charge déjà (par d’autres biais techniques) d’optimiser les passages des robots indexeurs. Par exemple, dans ton bout de code ROBOTS.TXT, tu interdit l’indexation de l’admin n’es pas dans les index de Google. (il le précise lui-même d’ailleurs lorsque tu tape une requête en ce sens).

    Pour la seconde question, normalement, toutes modifications, par un biais ou un autre, de ce fichier est immédiate. AS-tu inséré un plugin spécifique de gestion de cache avancé ?

    Obiose
    23 mai 2016 at 13 h 41 min #7783

    Merci pour la première question.

    Pour la seconde, je n’ai pas inséré un plugin de cache avancé…
    J’ai juste installé des plugin pour agir sur le robot txt que j’ai désinstallé après essai.

    Philippe BERTIEAUX
    23 mai 2016 at 17 h 40 min #7784

    Pour agir sur le ROBOTS.TXT directement à partir du plugin Yoast (c’est mieux, sinon, après il risque d’y avoir des conflits) : gauche “SEO (yoast)”, puis OUTILS, et tu sélectionnes EDITEUR DE FICHIERS. Là, d’une manière plus centralisée, tu pourras faire ce que tu souhaites du ROBOTS.TXT 🙂

    Obiose
    23 mai 2016 at 18 h 15 min #7785

    Bizarrement sur Yoast j’ai bien mes exclusions mais pas sur le serveur.

    Philippe BERTIEAUX
    25 mai 2016 at 10 h 00 min #7786

    Salut, tu veux dire que quand tu es sous Yoast, tu as une version du ROBOTS.TXT différente de celle par le navigateur en direct ?

    Obiose
    25 mai 2016 at 10 h 18 min #7787

    c’est exact. à la suite de tes explications j’ai choisis d’exclure mon document pdf (même si ce n’est pas la meilleur solution).
    J’ai donc bien ma ligne : Disallow: /wp-content/Obiose-Ingénierie-Plaquette-commerciale.pdf dans l’éditeur de fichier Yoast.
    Par contre l’exclusion n’apparait pas dans http://www.obiose.com/robots.txt.
    Peux t’on considérer que si la ligne est inscrite sur l’éditeur Yoast, l’exclusion du document sera effective même si l’exclusion n’est pas inscrite sur le navigateur en direct ?
    Merci bcp.

    Philippe BERTIEAUX
    25 mai 2016 at 11 h 03 min #7789

    Salut, si , je la vois :

    User-agent: *
    Disallow: /wp-admin/
    Disallow: /wp-content/Obiose-Ingénierie-Plaquette-commerciale.pdf

    Tu dois avoir un soucis de cache . J’en suis sûr maintenant.
    Attention toutefois au caractère spécial “é” 🙂

    Obiose
    25 mai 2016 at 12 h 55 min #7790

    Ok Merci Philippe pour tous ces conseils !

Vous devez être authentifié(e) pour participer à cette discussion.