Undgå at din udviklings side indekseres i google

Når din webside endnu ikke skal vises til offentligheden, eller du måske er ved at få et redesign af din nuværende webside, er det meget vigtigt at den ikke indekseres i Google, eller andre søgemaskiner.

Undgå duplicate content i google

Både for at undgå at nysgerrige øjne ikke kommer ind og kigger før tid, men bestemt også for at undgå duplicate content.

Den letteste måde vil selvfølgelig være at vi helt undlader at vise siden til resten af verden, men det er heller ikke altid hensigtsmæssigt, hvis man gerne vil dele siden med en række brugere for at vurdere deres oplevelse el.l.

Der findes en række metoder til at undgå indeksering som er beskrevet i denne artikel fra  Antezata.

Du kan f.eks. bruge meta tags til at fortælle søgemaskinerne at din side ikke skal indekseres. Mit argument for ikke at bruge meta tags er dog at du kan være uheldig at disse rent faktisk bliver lagt live når siden skal lægges live, hvis man glemmer at fjerne dem.

Mit simple tip, er at lave det i server opsætningen, så du kører med 2 forskellige server opsætninger, 1 til live og 1 til udvikling.

Med 2 server opsætninger kan du undgå at din udviklingsside indekseres

På din udviklingsside laver du et “alias” til en overordnet robots.txt fil, der siger siden ikke skal indekseres, samtidig med at du beder webserveren sætte et tag der fortæller det samme.

 

 Fortæl at siden ikke skal indekseres med robots.txt

Du kan lægge en robots.txt fil ind, der fortæller at siden ikke skal indekseres, den kunne se således ud:

User-agent: * 
Disallow: /

Men ligesom med et meta tag, er der en mulighed for at denne kopieres med ud, hvis den bare lægger i roden, derfor laver jeg den altid som et alias til en fil på serveren direkte i server opsætningen. Jeg bruger fortrinsvis nginx, men det kan også gøres i apache, her er den simple konfiguration:

nginx konfigurationen kan lægges inde i din “server” blok:

location  /robots.txt {
    alias  /var/www/robots.txt_noindex;
}

Apache konfigurationen kan lægges inde i din “VirtualHost” blok:

Alias /robots.txt /var/www/robots.txt_noindex

På den måde kan du også have din “rigtige” robots.txt fil liggende i roden, uden det påvirker udviklingssiden.

 Fortæl at siden ikke skal indekseres med en header: X-Robots-Tag

En anden mulighed er at sætte en speciel header med en værdi der fortæller at siden ikke skal indekseres, headeren hedder X-Robots-Tag, og værdien kan sættes til noindex for at sikre at hele siden ikke indekseres.

nginx konfigurationen kan lægges inde i din “server” blok:

add_header X-Robots-Tag noindex;

Apache konfigurationen kan lægges inde i din “VirtualHost” blok:

Header set X-Robots-Tag "noindex"

X-Robots-Tag kan også antage mere avancerede værdier, som kan bruges andre steder, og specielt i stedet for meta tags.

Efterprøv om det virker

Husk at efterprøve om metoden virker efter endt opsætning, gå ind på dit domæne/robots.txt og se om filen vises som forventet.

Tjek også gerne om headeren vises som forventet, til Chrome kan man få udvidelsen HTTP Headers, hvor du hurtigt vil kunne se headeren:

X-Robots-Tag header
X-Robots-Tag header

 

Apache konfigurationer kan også lægges i en .htaccess fil, men her vil du stå med samme problem hvor filen kan risikere at blive kopieret ud, når siden ligges live.