Generación de archivos robots
¿Qué es el archivo robots.txt?
Los motores de búsqueda acceden automáticamente a las páginas web en Internet y obtienen información de las páginas web a través de un programa llamado "araña" (también conocido como araña). Puede crear un archivo de texto sin formato robots.txt en su sitio web para declarar las partes del sitio web que no desea que las arañas visiten, de modo que parte o la totalidad del contenido del sitio web no pueda ser visitado e incluido por los motores de búsqueda, o puede especificar a través de robots.txt que los motores de búsqueda solo incluyan el contenido especificado. El primer archivo al que acceden los motores de búsqueda es el robots.txt.
Por favor, describa el archivo robots.txt en detalle.
Archivo Ubicación
El archivo robots.txt debe colocarse en la raíz del sitio. Por ejemplo, cuando un motor de búsqueda visita un sitio web, primero comprobará si existe el archivo robots.txt en el sitio web. Si el robot robots encuentra este archivo, determinará el alcance de sus permisos de acceso de acuerdo con el contenido de este archivo. La ubicación del archivo de robots de wordpress no se ha cargado en el programa raíz del sitio web de wordpress robots.txt, cuando los motores de búsqueda y los usuarios visitan un archivo, el programa de wordpress generará activamente un robots.txt para los motores de búsqueda y los usuarios; Si cargamos el robots.txt al programa raíz del sitio web, los usuarios y las arañas del motor de búsqueda visitan el archivo que cargamos, wordpress no producirá ese archivo. WordPress generará este archivo solo cuando el servidor no pueda encontrar robots.
Archivo Formato
El archivo "robots.txt" contiene uno o más registros, separados por líneas en blanco (con CR, CR/NL, o NL como terminador), cada uno de los cuales tiene el siguiente formato: "<field>:<optionalspace><value><optionalspace>" El archivo puede ser anotado con #, como se usa en UNIX. Los registros en este archivo generalmente comienzan con una o más líneas de User-agent, seguidas de varias líneas de Disallow, que se detallan de la siguiente manera: User-agent: El valor de este elemento se utiliza para describir el nombre del robot del motor de búsqueda. En el archivo "robots.txt", si hay más de un registro de agente de usuario, hay más de un robot sujeto a este protocolo. Por lo tanto, debe haber al menos un registro de agente de usuario en el archivo robots.txt. Si el valor de este elemento se establece en * (comodín), el protocolo es válido para cualquier bot de motor de búsqueda. En el archivo "robots.txt", sólo puede haber un registro como "User-agent:*". Disallow: El valor de este elemento se utiliza para describir una URL a la que no se desea acceder. Esta URL puede ser una ruta completa o parcial. Cualquier URL que comience con Disallow no será visitada por el robot. Por ejemplo, "Disallow: /help" no permite el acceso de los motores de búsqueda a /help.html y /help/index.html, mientras que "Disallow: /help/" permite que los robots accedan a /help.html, pero no a /help/index.html. Cualquier registro de Disallow está vacío, lo que significa que todas las partes del sitio web están permitidas para el acceso, y debe haber al menos un registro de Disallow en el archivo "/robots.txt". Si "/robots.txt" es un documento vacío, entonces el sitio está abierto para todos los robots de motores de búsqueda.
El escudo general
Bloquear la página de privacidad, la página de inicio de sesión en segundo plano, la página de caché, el directorio de imágenes, el directorio css, la página de plantilla, el contenido de la doble página de blindaje, al mismo tiempo, puede bloquear algunas páginas de mala calidad, como la red de oro de todos los miembros de la página de espacio de usuario, el enlace dinámico dz también se puede configurar el blindaje. Utilice el comando Disallow: para establecer.