Perl en Español

  1. Home
  2. Tutoriales
  3. Foro
  4. Artículos
  5. Donativos
  6. Publicidad
 

Cómo crear un archivo HTML

 
Publicar nuevo tema   Responder al tema    Foros de discusión -> Intermedio
Mensaje Mie Nov 08, 2006 1:18 pm
caribesoft
Perlero Nuevo
Perlero Nuevo
Registrado: 09 May 2006
Mensajes: 73
Ubicación: Cancun
Cómo crear un archivo HTML Responder citando

Hola Amigos Perlianos :

Tengo un sitio web que se actualiza y se genera en forma dinámica con scripts en Perl, pero ahora, para poder optimizar su posicionamiento en los buscadores, necesito crear dinámicamente también, los mismos archivos en HTML.

Es decir, el index de mi sitio web es index.pl. Este script genera internamente el código HTML y lo muestra en Internet. Mi pregunta es, ¿que debo hacer para que también me genere el archivo index.html y lo guarde en otra carpeta de mi servidor?

¿¿¿¿¿ Alguna orientada, hoy ando medio perdido ?????


Saludos ,

Caribesoft.
Mensaje Mie Nov 08, 2006 1:45 pm
explorer
Moderador
Moderador
Registrado: 24 Jul 2005
Mensajes: 4084
Ubicación: Valladolid, España
Responder citando

El posicionamiento en buscadores (por ejemplo, en Google), no depende de si tu sitio es dinámico o estático, sino que depende del número de enlaces externos que apunten a tu web. Esa es la razón por la cual foros como éste reciben la visita de robots para colocar sus enlaces. Es lo que se llama URL farming.

Aunque el sitio sea dinámico, si un motor de búsqueda es capaz de bucear por todo el árbol del sitio web, implica que no es necesario hacerlo estático. Cosa contraria es si la mayor parte de la información está detrás de un sistema de búsqueda, por ejemplo: los robots de los buscadores no saben qué información habrá detrás de ese diálogo. Esto se resuelve colocando enlaces que naveguen por la información sin tener que usar los procedimientos de búsqueda. La información seguirá siendo dinámica, pero la forma de acceder a ella dará la sensación de que son páginas estáticas. Mira en http://guiacolor.com.es/: aunque puedes realizar una búsqueda, siempre hay enlaces abajo que te permiten acceder a toda la información, por categorías. En cambio, en http://www.busqueloquebusque.com/, los buscadores no pasarán de la primera página.

Otro caso, si queremos dar esa información de forma estática, un procedimiento que se solía hacer en tiempos era imitar a una persona que realizaba peticiones en la página inicial y se quedaba con el resultado, que era la página estática. Esa 'persona' puede ser un script que haga peticiones a la base de datos y guardando las páginas devueltas, cada una con un nombre distinto.

Otra forma es parecida a la que comentas: si el usuario pide una información pero esa información ya ha sido generada antes, se la servimos inmediatamente. Si no, la generamos, la entregamos y la guardamos para la próxima ocasión. Se trata de un sistema parecido a un proxy caché. Si este es tu caso, debes grabar toda la página que normalmente sacarías a la salida estándar a un fichero (con un nombre apropiado). Luego, entrar en el procedimiento normal (es decir, aquel en el que se le entrega el fichero al usuario por pedir información ya grabada antes).
Mensaje Mie Nov 08, 2006 3:10 pm
kidd
Creador de Perl en Español
Creador de Perl en Español
Registrado: 15 Oct 2003
Mensajes: 1389
Ubicación: México
Responder citando

Hola:

Aunque Google o cualquier otro bot de los buscadores no tienen manera de saber si un sitio es estático o dinámico, la verdad es que si castigan a aquellos que sospechan que son dinámicos.

Por ejemplo, los foros no son bien posicionados por Google por el hecho de que detecta que el foro guarda sesiones, es por eso que en éste foro tuve que hacer una combinación de MOD REWRITE con eliminar sesiones para los bots, y así Google lo indexa sin problema:
http://www.google.com/search?hl=en&q=site%3Aperlenespanol.baboonsoftware.com%2Fforo

¿Mi recomendación?

No tiene sentido que vuelvas a hacer todo el trabajo, mejor usa el módulo MOD Rewrite y verás que funciona de maravilla, por ejemplo:

bash:
RewriteEngine On
RewriteRule index.htm index.pl [L,NC]


Si lo pones en tu .htaccess y entras a tu sitio y pones index.htm verás que de manera correcta te despliega lo de index.pl

Ahora, dígamos que quieres sacar secciones y que las tienes como:
index.pl?section=News

Podrías hacer algo así:
bash:
RewriteEngine On
RewriteRule news.htm index.pl?section=News [L,NC]


Puedes ver más detalles acerca de mod_rewrite en la siguiente liga:
http://httpd.apache.org/docs/1.3/mod/mod_rewrite.html


Saludos
Mensaje Mie Nov 08, 2006 4:30 pm
explorer
Moderador
Moderador
Registrado: 24 Jul 2005
Mensajes: 4084
Ubicación: Valladolid, España
Responder citando

¿Qué es eso de que Google detecta sesiones?
¿Una persona anónima que no se registre en el foro no puede visitarlo en su totalidad?
Mensaje Mie Nov 08, 2006 5:18 pm
caribesoft
Perlero Nuevo
Perlero Nuevo
Registrado: 09 May 2006
Mensajes: 73
Ubicación: Cancun
Gracias por la info Responder citando

Muchas gracias por los tips, no cabe suda que cada dia se aprende algo nuevo en este mudo tan compejo.

Kidd :

Estuve leyendo un poco sobre la info del mod_rewrite, esta interesante, hice unas pruebas pero no me resulto, te comento que pasa :

1. En el root del sitio web tengo un archivo llamado index.html, este lo que hace unicamente es llamar al script index.pl, que se encuentra dentro del directorio cgi-bin, y este a su vez tiene todos los links hacia el contenido del siito total.

2. Edite el .htaccess como me indicaste :

RewriteEngine On
RewriteRule index.htm index.pl [L,NC]
.... y no funciono

Le agregue ruta del script:

RewriteEngine On
RewriteRule index.htm http://travelly.com/cgi-bin/index.pl [L,NC]

Pero no funciona, me envia un INTERNAL ERROR

Que podra ser, este es el link del sitio www.travelly.com

Saludos y nevamente gracias,

Caribesoft (Smile
Mensaje Mie Nov 08, 2006 6:11 pm
kidd
Creador de Perl en Español
Creador de Perl en Español
Registrado: 15 Oct 2003
Mensajes: 1389
Ubicación: México
Responder citando

explorer escribió:
¿Qué es eso de que Google detecta sesiones?
¿Una persona anónima que no se registre en el foro no puede visitarlo en su totalidad?


Si, se puede visitar de manera ánonima, deja te explico que es lo que sucede. Normalmente cuando entras de manera ánonima y no tienes cookies habilitados, como cualquier bot, entonces los urls que se ven van a tener un sid integrado en el url. Pero, como Google reconoce por el url, piensa cada vez que visita que está leyendo una página diferente, porque siempre el sid es distinto, pero Google ve que es el mismo contenido o sumamente similar, entonces en ese momento te castiga por repetir páginas en tu sitio.

También es sabido que a Google no le gustan los urls que contienen la palabra sid dentro de ella.


caribesoft escribió:
RewriteEngine On
RewriteRule index.htm index.pl [L,NC]


Debes de checar que tengas el mod_rewrite habilitado, y en segunda, pensé que tu index.pl lo tenías en el root, pero lo tienes en el cgi-bin por lo que tendría que ser:

Perl:
RewriteEngine On
RewriteRule index.htm /cgi-bin/index.pl [L,NC]



Saludos
Mensaje Mie Nov 08, 2006 7:01 pm
explorer
Moderador
Moderador
Registrado: 24 Jul 2005
Mensajes: 4084
Ubicación: Valladolid, España
Responder citando

Vamos a ver si me aclaro... ¿En qué momento el phpBB inserta el sid en el URL?

Si yo entro de forma anónima, puedo recorrer todo el foro y no verlo nunca. Y lo he probado en otros tres foros más. Sí que he visto que hay campos ocultos alrededor de la caja de búsqueda, pero no creo que sea eso.

Incluso he hecho la prueba de hacer un mirror con el wget... y no veo el sid por ninguna parte...

Puede parecer una tontería, pero quiero saber exactamente ese comportamiento de google (¿tienes algún enlace con más información?), porque, en principio, mientras que es cierto que no le gustan las sesiones, ¿cómo activa este foro las sesiones en un usuario anónimo como es Google? Quiero decir que tampoco se cómo funciona exactamente el foro phpBB pero me interesa saber el hecho de llevar una sesión o no desde el principio.

Yo desde luego no lo he visto, por lo que me sorprende lo que has tenido que hacer con el mod_rewrite para ese caso.
Mensaje Mie Nov 08, 2006 7:21 pm
explorer
Moderador
Moderador
Registrado: 24 Jul 2005
Mensajes: 4084
Ubicación: Valladolid, España
Ejemplo Responder citando

* Cierro mi sesión
* Elimino las cookies
* Cierro y vuelvo a abrir el navegador
* Entro en el foro. Veo que todos los enlaces apuntan a páginas html (dando la sensación de ser estáticas, pero ya sabemos que no lo son)
* Puedo navegar por todo el foro y el sid no aparece salvo en un caso -al menos-, que es al pulsar alguna lista desplegable.

Entonces queda claro cómo lo hace: esconde bajo la apariencia de páginas estáticas referencias a páginas que no lo son, por eso Google las puede recorrer.

Aclarado el misterio. Smile
Mensaje Mie Nov 08, 2006 9:45 pm
kidd
Creador de Perl en Español
Creador de Perl en Español
Registrado: 15 Oct 2003
Mensajes: 1389
Ubicación: México
Responder citando

explorer escribió:
Vamos a ver si me aclaro... ¿En qué momento el phpBB inserta el sid en el URL?


Bueno con el foro ya no funciona porque está optimizado Wink

De hecho, si ves, verás que los urls tienen terminaciones en HTML.


Saludos
Publicar nuevo tema   Responder al tema    Foros de discusión -> Intermedio Todas las horas son GMT - 6 Horas
Página 1 de 1



Powered by phpBB © 2001, 2005 phpBB Group