Archivos La Naturaleza del Software: Agosto 2008

Interesante artículo, escrito por Ed Catmull, co fundador de Pixar, y publicado en Harvard Bussiness Review, titulado How Pixar Fosters Collective Creativity.

dibujos-los-increibles-2b.jpg

Catmull afirma:

No creo que nuestro éxito sea en gran medida suerte. Al contrario, creo que es nuestra adherencia a un conjunto de principios y prácticas para administrar los talentos creativos y un riesgo responsable. Pixar es una comunidad en el verdadero sentido de la palabra. Pensamos las relaciones duraderas importan, y compartimos algunas creencias básicas: El talento es raro.

Efectivamente, estoy de acuerdo con Catmull, el talento es raro, aunque puede surgir en cualquier aprte.

En el artículo mencionan los principios operativos de Pixar:

1. Todos deben tener la libertad para comunicarse con cualquiera

2. Debe ser seguro para todos ofrecer las ideas.

3. Debemos estar cerca de la innovación que está ocurriendo en la comunidad académica.

Un artículo extenso, pero que vale la pena leer..

pixars.gif

 

* Este título es redundante, pero eso es tema para otra oportunidad

Continúo con mi lectura del libro Cómo Funciona la Web, publicado por el Centro de Investigación de la Web de la Universidad de Chile.

Esta vez me voy a concentrar en la parte del libro escrita por Ricardo Baeza, "La Anatomía de la Web", un capítulo muy bueno, con mucha información y estadísticas interesantes, sobretodo cuando describe la estructura de la web chilena.

Aunque hay algunos errores menores en el capítulo, como por ejemplo, se define un terabyte como un billón de megabytes (en realidad un terabyte es un billón de bytes), los resultados expuestos son muy interesantes.

Baeza discute los distintos análisis que se han hecho en forma experimental para tratar de descubrir la estructura de la web.

Si consideramos que la estructura de la web tendrá la forma de un grafo, este representa una estructura sintetizada en la siguiente figura:

Anatomiadelaweb.jpg

Esta estructura se extrajo del primer estudio realizado por Altavista, en 1999, considerando unas 200 millones de páginas, y unos 1.500 millones de enlaces, lo que correspondía a un 25% de la web de esa época. No tenemos estudios más nuevos, porque en realidad procesar y almacenar un grafo de este tamaño es una tarea formidable, en términos computacionales. Piensen que la web al año 2006 tenía más de 20.000 millones de páginas.

Las páginas de la izquierda (entrada) son las que referencias páginas dentro del núcleo, pero no son referenciadas de vuelta. Las de la derecha son páginas referenciadas desde el núcleo, pero sin referencias de vuelta hacia el núcleo.

Hay islas, es decir, páginas aisladas del resto. Los tentáculos son caminos sin salidas que salen desde las páginas en los extremos. Y tenemos túneles que conectan páginas de la izquierda con páginas de la derecha.

El núcleo está compuesto por unas 56 millones de páginas, a la izquierda hay 43 millones de páginas, al igual que a la derecha. En las islas tenemos unos 17 millones de páginas.

Ricardo Baeza y su equipo de investigación condujeron un estudio similar con las páginas en el dominio .cl.

Descubrieron una estructura similar. Las páginas de la izquierda corresponden a las páginas más nuevas, que no son demasiado conocidas, y que al tener éxito pasan al nucleo de la web, donde se encuentran las páginas más consolidadas. Las páginas de la derecha corresponden a páginas más antiguas, que no enlazan a las páginas del centro de la web, simplemente porque en su época esas páginas no existían.
También corresponden a páginas que no tienen enlaces externos, pero que se han preocupado de posicionarse bien mediante enlaces publicitarios. En Chile, la proporción de islas es mucho mayor que en el estudio original de Altavista.

La dinámica de formación de la web es bien violenta, de acuerdo al autor. Más de la mitad de la Web ha nacido en los últimos seis meses. De ese crecimiento, el 20% se genera a través de la replicación de sitios espejos u otro tipo de copias (incluyendo el plagio). La muerte de las páginas en internet es también alta. Se estima que la vida media de una página web es de unos tres meses.

La Anatomía de la Web Chilena

El último estudio a la web chilena es del año 2006, y arrojó estos resultados:

  • La web chilena tiene 170.000 sitios, con más de 7 millones de páginas.
  • Un sitio promedio tiene 43 páginas, y un peso promedio de 0,304 MiB.
  • Hay un promedio de 1,56 referencias desde otros sitios.
  • Cerca de un cuarto de las páginas chilenas fueron actualizadas en el último año.

Con respecto al contenido

  • De todos los sitios, el 20% de los sitios más grandes contiene el 99% de la información, en la web chilena.
  • Cerca del 21% de los sitios web son "invisibles" a los buscadores porque utilizan tecnologías como flash y javascript.
  • Cerca del 5% de los enlaces ya no existe.

La tecnología usada es muy reveladora:

  • El 66.7% usa Apache como servidor Web, seguido de Microsoft IIS con un 32.8%.
  • El sistema operativo más usado es Unix, con un 48.5%, seguido por Microsoft Windows con un 38.5% y Linux con un 12%.
  • PHP es el generador de páginas dinámicas más usado, con un 75% de la participación.
  • PDF es el formato de documento electrónico más usado, con el 53%, seguido de XML con un 21%.
  • Los chilenos parece que somos muy amigos del open source, porque de acuerdo al estudio "Aproximadamente hay una disponibilidad del doble de archivos con paquetes de software para Linux que para Windows en la Web chilena".

Me gustaría saber cómo ha variado esto en estos dos últimos años, con la explosión de contenidos debido a la Web 2.0. Aunque esta información es muy interesante y reveladora.

Sobre este archivo

Esta página es un archivo de las entradas en la categoría La Naturaleza del Software de Agosto 2008.

La Naturaleza del Software: Junio 2008 es el archivo anterior.

La Naturaleza del Software: Septiembre 2008 es el siguiente archivo.

Encontrará los contenidos recientes en la página principal. Consulte los archivos para ver todos los contenidos.

Technorati

Technorati search

» Blogs que enlazan aquí

Creative Commons License
Este weblog está licenciado bajo una Licencia Creative Commons.

BloGalaxia website stats
Google