3 maneras de eliminar páginas de blogs no deseados de Google

Anuncio

¿Cree en la idea de que una vez que algo se publica en Internet, se publica para siempre? Bueno, hoy vamos a disipar ese mito.

La verdad es que en muchos casos es bastante posible erradicar la información de Internet. Claro, hay un registro de páginas web que se han eliminado si buscas en Wayback Machine, ¿verdad? Sí, absolutamente. En la Máquina de Wayback hay registros de páginas web que datan de hace muchos años, páginas que no encontrará en una búsqueda de Google porque la página web ya no existe. Alguien lo eliminó o el sitio web se cerró.

Entonces, no hay forma de evitarlo, ¿verdad? La información quedará grabada para siempre en la piedra de Internet, allí durante generaciones para ver? Bueno no exactamente.

La verdad es que si bien puede ser difícil o imposible borrar las principales noticias que han proliferado desde un sitio web o blog de noticias a otro como un virus, en realidad es bastante fácil erradicar por completo una página web o varias páginas web de todos los registros de la existencia: para eliminar esa página para los motores de búsqueda y Wayback Machine La nueva máquina Wayback le permite regresar visualmente a la hora de Internet La nueva máquina Wayback le permite regresar visualmente en el tiempo de Internet Parece que desde el lanzamiento de Wayback Machine en 2001, los propietarios del sitio han decidido lanzar el back-end basado en Alexa y rediseñarlo con su propio código fuente abierto. Después de realizar pruebas con el ... Leer más. Hay una trampa, por supuesto, pero llegaremos a eso.

3 maneras de eliminar páginas de blog de la red

El primer método es el que usan la mayoría de los propietarios de sitios web porque no conocen nada mejor, simplemente eliminan las páginas web. Esto podría suceder porque se ha dado cuenta de que tiene contenido duplicado en su sitio, o porque tiene una página que no desea mostrar en los resultados de búsqueda.

Simplemente elimine la página

El problema con eliminar por completo las páginas de su sitio web es que, dado que ya ha establecido la página en la red, es probable que haya enlaces desde su propio sitio, así como enlaces externos desde otros sitios a esa página en particular. Cuando lo eliminas, Google reconoce inmediatamente esa página como una página faltante.

archivo no encontrado

Por lo tanto, al eliminar su página, no solo ha creado un problema con errores de rastreo "No encontrado", sino que también ha creado un problema para cualquiera que alguna vez haya vinculado a la página. Por lo general, los usuarios que accedan a su sitio desde uno de esos enlaces externos verán su página 404, que no es un problema importante, si utiliza algo como el código 404 personalizado de Google para brindar a los usuarios sugerencias útiles o alternativas. Pero, podría pensar que podría haber formas más elegantes de eliminar páginas de los resultados de búsqueda sin iniciar todos esos 404 para los enlaces entrantes existentes, ¿verdad?

Bueno, los hay.

Eliminar una página de los resultados de búsqueda de Google

En primer lugar, debe comprender que si la página web que desea eliminar de los resultados de búsqueda de Google no es una página de su propio sitio, no tendrá suerte a menos que existan razones legales o si el sitio ha publicado su información personal. información en línea sin su permiso. Si ese es el caso, utilice el solucionador de problemas de eliminación de Google para enviar una solicitud para que la página se elimine de los resultados de búsqueda. Si tiene un caso válido, puede que tenga algún éxito al eliminar la página; por supuesto, podría tener un éxito aún mayor simplemente contactando al propietario del sitio web Cómo eliminar información personal falsa en Internet Cómo eliminar información personal falsa en Internet Leer más como describí cómo hacerlo en 2009.

Ahora, si la página que desea eliminar de los resultados de búsqueda está en su propio sitio, tiene suerte. Todo lo que necesita hacer es crear un archivo robots.txt y asegurarse de no haber permitido la indexación de la página específica que no desea en los resultados de la búsqueda o el directorio completo con los contenidos que no desea. Esto es lo que parece bloquear una sola página.

 User-agent: * Disallow: /my-deleted-article-that-i-want-removed.html

Puede impedir que los bots rastreen directorios completos de su sitio de la siguiente manera.

 User-agent: * Disallow: / content-about-personal-stuff /

Google tiene una página de soporte excelente que puede ayudarlo a crear un archivo robots.txt si nunca antes ha creado uno. Esto funciona extremadamente bien, como expliqué recientemente en un artículo sobre la estructuración de ofertas de sindicación Cómo negociar acuerdos de sindicación y proteger su búsqueda Clasificaciones Cómo negociar acuerdos de sindicación y proteger su búsqueda Clasificaciones Sindicarse es furor en estos días. ¡Pero de repente puede encontrar que el socio de sindicación aparece más alto que usted en los resultados de búsqueda de una historia que escribió originalmente! Protege tus clasificaciones de búsqueda. Lea más para que no le hagan daño (solicitando a los socios de sindicación que no permitan la indexación de sus páginas en las que está sindicado). Una vez que mi propio socio de distribución accedió a hacer esto, las páginas que contenían contenido duplicado de mi blog desaparecieron por completo de las listas de búsqueda.

google-listings

Solo el sitio web principal aparece en el tercer lugar de la página en la que aparecen nuestros títulos, pero ahora mi blog aparece en el primer y segundo puesto; algo que hubiera sido casi imposible si un sitio web de autoridad superior dejara indexada la página duplicada.

Lo que muchas personas no se dan cuenta es que esto también es posible de lograr con el Archivo de Internet (la Máquina Wayback) también. Estas son las líneas que necesita agregar a su archivo robots.txt para hacerlo realidad.

 User-agent: ia_archiver Disallow: / sample-category /

En este ejemplo, le digo al Archivo de Internet que elimine todo lo que se encuentre en el subdirectorio de la categoría de muestra en mi sitio desde Wayback Machine. El archivo de Internet explica cómo hacerlo en su página de ayuda de exclusión. Aquí es también donde explican que "Internet Archive no está interesado en ofrecer acceso a sitios web u otros documentos de Internet cuyos autores no quieran que sus materiales estén en la colección".

Esto va en contra de la creencia común de que todo lo que se publique en Internet será arrastrado al archivo por toda la eternidad. No, los webmasters que poseen el contenido pueden eliminar el contenido del archivo utilizando el enfoque de robots.txt.

Eliminar una página individual con metaetiquetas

Si solo tiene algunas páginas individuales que desea eliminar de los resultados de la Búsqueda de Google, en realidad no tiene que utilizar el enfoque de robots.txt, simplemente podría agregar la metaetiqueta "robots" correcta a las páginas individuales, y dígales a los robots que no indexen ni sigan enlaces en toda la página.

enlaces externos3

Puede usar la meta "robots" arriba para evitar que los robots indexen la página, o podría decirle específicamente al robot de Google que no indexe para que la página solo se elimine de los resultados de búsqueda de Google, y otros robots de búsqueda todavía podrían acceder al contenido de la página.

Depende completamente de usted cómo le gustaría administrar lo que los robots hacen con la página y si la página aparece o no en la lista. Para algunas páginas individuales, este puede ser el mejor enfoque. Para eliminar un directorio completo de contenido, vaya con el método robots.txt.

La idea de "eliminar" contenido

Este tipo de vueltas en la cabeza de la idea de "eliminar contenido de Internet". Técnicamente, si elimina todos sus enlaces a una página de su sitio y los elimina de la Búsqueda de Google y del Archivo de Internet utilizando la técnica de robots.txt, la página se "borrará" de todos los intentos de Internet. Lo mejor de todo es que si existen enlaces a la página, esos enlaces seguirán funcionando y no se activarán errores 404 para esos visitantes.

Se trata de un enfoque más "suave" para eliminar contenido de Internet sin arruinar por completo la popularidad del enlace existente en su sitio a través de Internet. Al final, la forma de gestionar el contenido recopilado por los motores de búsqueda y el Archivo de Internet depende de usted, pero siempre recuerde que, a pesar de lo que dice la vida de las cosas que se publican en línea, realmente está completamente bajo su control. .