Mie Nov 08, 2006 1:18 pm
|
 |
caribesoft
Perlero Nuevo

|
Registrado: 09 May 2006
Mensajes: 73
Ubicación: Cancun
|
|
| Cómo crear un archivo HTML |
|
|
Hola Amigos Perlianos :
Tengo un sitio web que se actualiza y se genera en forma dinámica con scripts en Perl, pero ahora, para poder optimizar su posicionamiento en los buscadores, necesito crear dinámicamente también, los mismos archivos en HTML.
Es decir, el index de mi sitio web es index.pl. Este script genera internamente el código HTML y lo muestra en Internet. Mi pregunta es, ¿que debo hacer para que también me genere el archivo index.html y lo guarde en otra carpeta de mi servidor?
¿¿¿¿¿ Alguna orientada, hoy ando medio perdido ?????
Saludos ,
Caribesoft. |
|
|
|

Mie Nov 08, 2006 1:45 pm
|
 |
explorer
Moderador

|
Registrado: 24 Jul 2005
Mensajes: 4084
Ubicación: Valladolid, España
|
|
|
|
|
El posicionamiento en buscadores (por ejemplo, en Google), no depende de si tu sitio es dinámico o estático, sino que depende del número de enlaces externos que apunten a tu web. Esa es la razón por la cual foros como éste reciben la visita de robots para colocar sus enlaces. Es lo que se llama URL farming.
Aunque el sitio sea dinámico, si un motor de búsqueda es capaz de bucear por todo el árbol del sitio web, implica que no es necesario hacerlo estático. Cosa contraria es si la mayor parte de la información está detrás de un sistema de búsqueda, por ejemplo: los robots de los buscadores no saben qué información habrá detrás de ese diálogo. Esto se resuelve colocando enlaces que naveguen por la información sin tener que usar los procedimientos de búsqueda. La información seguirá siendo dinámica, pero la forma de acceder a ella dará la sensación de que son páginas estáticas. Mira en http://guiacolor.com.es/: aunque puedes realizar una búsqueda, siempre hay enlaces abajo que te permiten acceder a toda la información, por categorías. En cambio, en http://www.busqueloquebusque.com/, los buscadores no pasarán de la primera página.
Otro caso, si queremos dar esa información de forma estática, un procedimiento que se solía hacer en tiempos era imitar a una persona que realizaba peticiones en la página inicial y se quedaba con el resultado, que era la página estática. Esa 'persona' puede ser un script que haga peticiones a la base de datos y guardando las páginas devueltas, cada una con un nombre distinto.
Otra forma es parecida a la que comentas: si el usuario pide una información pero esa información ya ha sido generada antes, se la servimos inmediatamente. Si no, la generamos, la entregamos y la guardamos para la próxima ocasión. Se trata de un sistema parecido a un proxy caché. Si este es tu caso, debes grabar toda la página que normalmente sacarías a la salida estándar a un fichero (con un nombre apropiado). Luego, entrar en el procedimiento normal (es decir, aquel en el que se le entrega el fichero al usuario por pedir información ya grabada antes). |
|

Mie Nov 08, 2006 3:10 pm
|
 |
kidd
Creador de Perl en Español

|
Registrado: 15 Oct 2003
Mensajes: 1389
Ubicación: México
|
|
|
|
|
Hola:
Aunque Google o cualquier otro bot de los buscadores no tienen manera de saber si un sitio es estático o dinámico, la verdad es que si castigan a aquellos que sospechan que son dinámicos.
Por ejemplo, los foros no son bien posicionados por Google por el hecho de que detecta que el foro guarda sesiones, es por eso que en éste foro tuve que hacer una combinación de MOD REWRITE con eliminar sesiones para los bots, y así Google lo indexa sin problema:
http://www.google.com/search?hl=en&q=site%3Aperlenespanol.baboonsoftware.com%2Fforo
¿Mi recomendación?
No tiene sentido que vuelvas a hacer todo el trabajo, mejor usa el módulo MOD Rewrite y verás que funciona de maravilla, por ejemplo:
| bash: | RewriteEngine On
RewriteRule index.htm index.pl [L,NC] |
Si lo pones en tu .htaccess y entras a tu sitio y pones index.htm verás que de manera correcta te despliega lo de index.pl
Ahora, dígamos que quieres sacar secciones y que las tienes como:
index.pl?section=News
Podrías hacer algo así:
| bash: | RewriteEngine On
RewriteRule news.htm index.pl?section=News [L,NC] |
Puedes ver más detalles acerca de mod_rewrite en la siguiente liga:
http://httpd.apache.org/docs/1.3/mod/mod_rewrite.html
Saludos |
|

Mie Nov 08, 2006 4:30 pm
|
 |
explorer
Moderador

|
Registrado: 24 Jul 2005
Mensajes: 4084
Ubicación: Valladolid, España
|
|
|
|
|
¿Qué es eso de que Google detecta sesiones?
¿Una persona anónima que no se registre en el foro no puede visitarlo en su totalidad? |
|

Mie Nov 08, 2006 5:18 pm
|
 |
caribesoft
Perlero Nuevo

|
Registrado: 09 May 2006
Mensajes: 73
Ubicación: Cancun
|
|
| Gracias por la info |
|
|
Muchas gracias por los tips, no cabe suda que cada dia se aprende algo nuevo en este mudo tan compejo.
Kidd :
Estuve leyendo un poco sobre la info del mod_rewrite, esta interesante, hice unas pruebas pero no me resulto, te comento que pasa :
1. En el root del sitio web tengo un archivo llamado index.html, este lo que hace unicamente es llamar al script index.pl, que se encuentra dentro del directorio cgi-bin, y este a su vez tiene todos los links hacia el contenido del siito total.
2. Edite el .htaccess como me indicaste :
RewriteEngine On
RewriteRule index.htm index.pl [L,NC]
.... y no funciono
Le agregue ruta del script:
RewriteEngine On
RewriteRule index.htm http://travelly.com/cgi-bin/index.pl [L,NC]
Pero no funciona, me envia un INTERNAL ERROR
Que podra ser, este es el link del sitio www.travelly.com
Saludos y nevamente gracias,
Caribesoft ( |
|

Mie Nov 08, 2006 6:11 pm
|
 |
kidd
Creador de Perl en Español

|
Registrado: 15 Oct 2003
Mensajes: 1389
Ubicación: México
|
|
|
|
|
| explorer escribió: | ¿Qué es eso de que Google detecta sesiones?
¿Una persona anónima que no se registre en el foro no puede visitarlo en su totalidad? |
Si, se puede visitar de manera ánonima, deja te explico que es lo que sucede. Normalmente cuando entras de manera ánonima y no tienes cookies habilitados, como cualquier bot, entonces los urls que se ven van a tener un sid integrado en el url. Pero, como Google reconoce por el url, piensa cada vez que visita que está leyendo una página diferente, porque siempre el sid es distinto, pero Google ve que es el mismo contenido o sumamente similar, entonces en ese momento te castiga por repetir páginas en tu sitio.
También es sabido que a Google no le gustan los urls que contienen la palabra sid dentro de ella.
| caribesoft escribió: | RewriteEngine On
RewriteRule index.htm index.pl [L,NC] |
Debes de checar que tengas el mod_rewrite habilitado, y en segunda, pensé que tu index.pl lo tenías en el root, pero lo tienes en el cgi-bin por lo que tendría que ser:
| Perl: | RewriteEngine On
RewriteRule index.htm /cgi-bin/ index.pl [L,NC ] |
Saludos |
|

Mie Nov 08, 2006 7:01 pm
|
 |
explorer
Moderador

|
Registrado: 24 Jul 2005
Mensajes: 4084
Ubicación: Valladolid, España
|
|
|
|
|
Vamos a ver si me aclaro... ¿En qué momento el phpBB inserta el sid en el URL?
Si yo entro de forma anónima, puedo recorrer todo el foro y no verlo nunca. Y lo he probado en otros tres foros más. Sí que he visto que hay campos ocultos alrededor de la caja de búsqueda, pero no creo que sea eso.
Incluso he hecho la prueba de hacer un mirror con el wget... y no veo el sid por ninguna parte...
Puede parecer una tontería, pero quiero saber exactamente ese comportamiento de google (¿tienes algún enlace con más información?), porque, en principio, mientras que es cierto que no le gustan las sesiones, ¿cómo activa este foro las sesiones en un usuario anónimo como es Google? Quiero decir que tampoco se cómo funciona exactamente el foro phpBB pero me interesa saber el hecho de llevar una sesión o no desde el principio.
Yo desde luego no lo he visto, por lo que me sorprende lo que has tenido que hacer con el mod_rewrite para ese caso. |
|

Mie Nov 08, 2006 7:21 pm
|
 |
explorer
Moderador

|
Registrado: 24 Jul 2005
Mensajes: 4084
Ubicación: Valladolid, España
|
|
| Ejemplo |
|
|
* Cierro mi sesión
* Elimino las cookies
* Cierro y vuelvo a abrir el navegador
* Entro en el foro. Veo que todos los enlaces apuntan a páginas html (dando la sensación de ser estáticas, pero ya sabemos que no lo son)
* Puedo navegar por todo el foro y el sid no aparece salvo en un caso -al menos-, que es al pulsar alguna lista desplegable.
Entonces queda claro cómo lo hace: esconde bajo la apariencia de páginas estáticas referencias a páginas que no lo son, por eso Google las puede recorrer.
Aclarado el misterio.  |
|
Mie Nov 08, 2006 9:45 pm
|
 |
kidd
Creador de Perl en Español

|
Registrado: 15 Oct 2003
Mensajes: 1389
Ubicación: México
|
|
|
|
|
| explorer escribió: | | Vamos a ver si me aclaro... ¿En qué momento el phpBB inserta el sid en el URL? |
Bueno con el foro ya no funciona porque está optimizado
De hecho, si ves, verás que los urls tienen terminaciones en HTML.
Saludos |
|
Powered by phpBB © 2001, 2005 phpBB Group
|