O conteúdo duplicado está penalizando seu site

Standard

A forma como a versão nova do algoritmo de classificação de páginas do Big G está penalizando a existência de conteúdo duplicado ainda está provocando dúvidas. Este fim de semana recebi três e-mails sobre o mesmo tema. Discuti isso, internamente com a equipe de SEO da VI Solutions, e resovi que esta é uma boa oportunidade para escrever sobre o que já sabemos sobre este novo algoritmo.

Para ter uma noção melhor do que está acontecendo, precisamos ter algumas coisas em mente. Lembre que o que nos interessa aqui é que nosso conteúdo apareça nos primeiros resultados da serp (página de resultado de busca). E gere muito tráfego e muitos negócios este é o segredo do web marketing.

Conteúdo repetido pode prejudicar seu site

Imagem de: Paloma Gómez

Desde que o Google é Google que ele se baseia na nossa forma de interligar as páginas web para ordenar o resultado da busca. Esta ideia genial tem alguns problemas. O maior deles é que se baseia na integridade humana. Se um grande número de autores criar links de forma artificial, com intuito meramente comercial a qualidade do resultado das buscas cai.  Graças a isso, o Big G, simplesmente não detalha os algoritmos, valores e processos envolvidos na classificação das páginas. Imagine que, sem saber exatamente como é existem tantas técnicas de black hat SEO que dão certo. Se soubéssemos exatamente o que fazer a qualidade dos resultados das buscas seria muito pior do que já é.

O que eles podem dizer, e repetem isso a exaustão, é que a intenção de modificar os algoritmos de classificação é garantir que os autores que não respeitam as regras de publicação, sejam penalizados no resultado das buscas. Ou, em poucas palavras, acabem na página 10. J

Uma das regras de publicação mais importantes é: “Don’t create multiple pages, subdomains, or domains with substantially duplicate content.” Ou, em bom português: Não crie páginas, domínios e subdomínios múltiplos com conteúdo substancialmente duplicado.

Você não pode repetir seu conteúdo entre páginas, domínios ou subdomínios. Esta repetição será penalizada pela versão Penguin do algoritmo de classificação. Como, exatamente, ninguém sabe mas centenas de sites indicaram perda de tráfego. Descartando as técnicas de seo negro ficamos com dois erros muito comuns.

No seu blog

Muitos sites são baseados nas plataformas criadas para blogar. Notadamente, no WordPress. Estas plataformas, para melhorar a interação com os usuários, criam arquivos de histórico e páginas de categorias. Que, em última análise, são apenas endereços diferentes para o mesmo conteúdo.

Você precisa remover estes endereços do Google, indicando ao robô de ele deve ignorar estes endereços. Use, por exemplo, o .htaccess para criar redirecionamentos do tipo 301 (permanente). Ou, se for o WordPress, você pode usar o Yoast WordPress Seo plugin que permite que você especifique exatamente quais áreas do seu site serão indexadas ou não.

Na sua empresa

Não contrate os serviços de copywriter genéricos. Seja específico e exija exclusividade. Um dos meus clientes contratou uma empresa de marketing para adicionar conteúdo no seu site. Esta empresa publicou uma centena de artigos na área de blog do site do cliente. Duas coisas aconteceram: Os artigos, apesar de bem escritos não possuem conteúdo capaz de gerar tráfico. Ninguém se deu ao trabalho de fazer uma análise de palavras chaves, keywords, sobre o tema. Logo, os artigos não geram tráfego. A segunda é mais grave. Estes artigos foram vendidos para dezenas de empresas e estão disponíveis em centenas de endereços web. Além de não gerar tráfego, está penalizando o site do cliente.

Neste caso, a única solução é retrabalhar estes textos para diferenciar o conteúdo, tentar atrair algum tráfego ou, no mínimo parar de ser penalizado. É isso ou tirar o conteúdo do ar.

No Geral

Para evitar este tipo de penalização:

  1. Mantenha uma estrutura de links consistente. Se termina um link com / termine todos assim.
  2. Você deve escolher, de uma vez por todas, se prefere ser indexado como www.depijama.com ou como depijama.com. Se vai usar o www ou não no endereço das páginas do seu site. O .htaccess é um lugar excelente para garantir que todas as páginas do seu site serão indexadas da forma correta.
  3. Use o Webmasters Tools para definir junto ao Google como você prefere ser indexado.
  4. Evite grandes quantidades de texto repetido em todas as páginas. Copyright é um exemplo clássico. Inclua, por exemplo, uma referência, ou texto curto, em todas as páginas e um link para a página onde está o conteúdo completo.
  5. Se seu site, empresa, visa um mercado multinacional , use o domínios de topo de cada país. Use .com para os EUA, .co para o Reino Unido e .com.br para o Brasil, por exemplo.
  6. Minimize o conteúdo similar. Por exemplo, se você têm um site com algum tipo de portfólio com páginas que contém essencialmente o mesmo texto. Tente mixar estas páginas em uma única ou diferencie o conteúdo incluindo informações únicas a cada página.
  7. Não esqueça as versões para impressão. Alguns webmasters usam uma estrutura diferente de endereço para a versão adequada a impressão.

As penalizações

Finalmente uma boa notícia. Ninguém sabe exatamente quais são as penalizações ou se elas realmente existem. O que temos certeza é que como o robô de classificação não tem como saber qual o conteúdo que você gostaria que fosse apresentado nos resultados de buscas e o Google evita ter conteúdos duplicados na serp. O conteúdo que será apresentado pode não ser interessante para você.

Veja o caso do copywriter basta que um único site tenha um pagerank maior que o do meu cliente para que nenhuma das páginas com conteúdo, tão cuidadosamente adquirido, apareça no serp

Então, mesmo que não exista uma penalização oficial, nem automática nem manual, o seu site acaba sendo deslocado para os confins da serp.

Melhores práticas de SEO

Sempre que exista algum conteúdo duplicado, este conteúdo deve ser canonizado. Do ponto de vista do SEO isto quer dizer que as urls devem ser padronizadas e devem ser uniformizadas. As melhores formas de fazer isso são o redirecionamento do tipo 301, as urls canõnicas e o uso dos parâmetros de configuração do Webmaster Tools.

Redirecionamentos 301

Se seu servidor está no Apache, com linux, tudo o que você precisa fazer é incluir uma linha no seu arquivo .htaccess:

redirect 301 /diretorio/antigo_arquivo.htm http://www.lugarnovo.com.br/novo_arquivo.htm

A vantagem do redirecionamento é que se várias páginas com potencial de ranqueamento apontam para uma única página elas transferem parte deste potencial para a página destino.

Urls Canônicas

Uma outra forma interessante e muito valorizada pelo pessoal do Google é o uso da tag  rel=canonical

Esta tag transfere a mesma quantidade de potencial de ranqueamento que o redirecionamento e, frequentemente, é mais simples de ser implementada. Inclua a tag na parte head do seu arquivo html:

<link href=”http://www.seusite.com/versao-canonica/ ” rel=”canonical” />

Isto indica ao Google que a página em que a tag está no head deve ser tratada como uma cópia da página http://www.seusite.com/versao-canonica/ e que todos os links, e métricas de conteúdo devem ser aplicadas a url fornecida.

Parâmetros de configuração do Webmasters Tools

Este é exclusivo do Google, o Webmasters Tools contém uma série de parâmetros de configuração que permitem que você indique diretamente aos algoritmos de busca, como eles devem tratar o seu site, suas páginas e arquivos. Como é exclusivo do Google, estas instruções serão ignoradas por outros sites de buscas, como o Bing, por exemplo.

Para entender isso tudo melhor

Se você sabe inglês, a seguir estão alguns vídeos de Matt Cutts onde ele discute os problemas que podem ser causados por conteúdo duplicado.