RSS
Blog
Conocimiento abierto, el archivo de Internet y la historia de todo

Conocimiento abierto, el archivo de Internet y la historia de todo

13 de mayo de 2021 - por Andrew Oram

El almacenamiento digital es al mismo tiempo el medio más frágil jamás inventado y el más robusto. Un cambio en la magnetización de unos pocos bits microscópicos en un disco duro puede borrar el contenido para siempre. Además, cualquier persona que cause daño en su sitio web o redes sociales puede borrar la evidencia vergonzosa con unas pocas teclas. Pero en compensación, la capacidad de hacer copias digitales esencialmente sin costo permite que el contenido se replique y almacene en lugares seguros. Este segundo rasgo de los medios digitales es explotado por Internet Archive para preservar la historia de la web, y más.

El artículo es parte de una serie mensual en el blog de LPI para celebrar el aniversarios de varios proyectos clave de código abierto, explorando diferentes ángulos y direcciones del amplio movimiento de código abierto.

El Archivo de Internet se lanzó en 1996, cuando la mayoría de la gente había disfrutado del acceso a la web durante unos pocos años. (Fecho la popularidad real de la web desde el lanzamiento del navegador Mosaic en enero de 1993.) Ya, el ingeniero informático Brewster Kahle podía decir que se estaba perdiendo contenido histórico y, en respuesta, creó el Archivo de Internet. Los motores del archivo rastrean actualmente alrededor de 750 millones de páginas por día, y cada sitio contiene potencialmente cientos o miles de páginas web individuales. En el momento de escribir este artículo, el contenido estimado del archivo es de 552 mil millones de páginas web. Y tiene incluso más que sitios web. Este artículo explora los logros del Archivo de Internet y lo que ofrece tanto a los investigadores como a los usuarios de computadoras comunes.

Otro aspecto del conocimiento abierto está representado por los sitios web que ofrecen contenido original, en los que confío mucho cuando busco artículos como este. El superhéroe de estos sitios gratuitos es Wikipedia, que tuvo su vigésimo aniversario el 20 de enero de este año. Aunque el contenido de Wikipedia es original, se basa en referencias siempre que sea posible y advierte a los usuarios que no confíen en él como fuente principal. Además, el texto y las imágenes de Wikipedia se publican bajo una licencia Creative Commons, la licencia de documentación libre GNU o ambas. Por lo tanto, el contenido suele aparecer en otros sitios web.

Perdido en las nieblas del tiempo

Lo fácil que viene, se va fácil: esa es la característica principal de Internet. Aparentemente, la Corte Suprema de los Estados Unidos no ha aprendido esta lección, porque los jueces y su personal se refieren a enlaces web en sus fallos todo el tiempo. Los investigadores han determinado que casi la mitad de estos enlaces están rotos, produciendo la respuesta de error 404 estándar. Eso significa que no podemos descubrir las pruebas que utilizan los jueces para tomar decisiones que tienen consecuencias tan graves.

Los sitios de noticias, la investigación académica y cualquier otra persona que utilice la ventaja clave de la web corren el riesgo de perder la misma responsabilidad: la facilidad de vincular a otros sitios. El problema no se aplica solo a los sitios que fueron 404 (desaparecieron). También se aplica a los sitios que cambian de contenido después de haber basado un argumento en el contenido anterior. Por esta razón, cuando se usa el contenido web de las personas o las publicaciones en las redes sociales para expresar un punto, los comentaristas experimentados publican capturas de pantalla del contenido actual.

Una solución más organizada para preservar el pasado es proporcionada por Ámbar, un proyecto de Centro Berkman Klein de Harvard para Internet y Sociedad. Amber facilita guardar una copia de una página web en el momento en que la está viendo. Pero Amber tiene un requisito previo fundamental: un servidor web en el que guardar el contenido. La mayoría de nosotros usamos servicios web proporcionados por otras empresas y carecemos de los privilegios para guardar una página. Harvard ofrece una especie de "ámbar como servicio" a través de Perma.cc, donde cualquiera puede guardar una página en su estado actual, creando una URL a la que otros pueden hacer referencia más tarde. También es alentador que Drupal.org te permite guardar páginas a través de Amber. Perma.cc está respaldado por Internet Archive. Para comprobar qué tan frecuente es el problema de los enlaces rotos, miré a través de un articulo propio, eligiendo uno que era bastante largo y que había publicado exactamente cuatro años antes de mi investigación para este artículo de Internet Archive. Mi artículo publicado contenía 43 enlaces, de los cuales 7 estaban rotos, solo cuatro años después de que lo escribí.

Ingrese al Archivo de Internet. No tiran nada, por lo que puede recuperar un sitio web en muchas fechas diferentes. Echemos un vistazo a cómo recuperar páginas antiguas. Puedes hacer esto a través del Wayback Machine, una interfaz de búsqueda para el Archivo de Internet.

Suponga que uno de los enlaces de esta página web se ha convertido en 404. Puede recuperar el contenido de ese enlace de la siguiente manera.

  1. Vea la fuente de esta página web para encontrar la URL original que desea visitar.
  2. Levanta el Wayback Machine.
  3. Ingrese la URL en el cuadro de búsqueda.
  4. La página devuelta por Wayback Machine muestra las fechas en las que archivó esta página. Puede hacer clic en cualquiera de esas fechas para recuperar la página tal como apareció en esa fecha. Tenga paciencia, porque el sitio es lento. Un archivo puede permitirse esperar.

También puede omitir la interfaz visual y buscar la página manualmente, pero este es un tema complicado que no cubriré aquí. Si desea asegurarse de que una página web se conserve en su estado actual, puede utilizar la función guardar página ahora. También hay una forma de cargar archivos.

Calculo que más de 250 de mis artículos y publicaciones en blogs han desaparecido de varios sitios web. Pude recrear algunos artículos a partir de borradores que guardé, mientras que otros aparecieron a través de búsquedas en lugares extraños, como archivos de listas de correo. Pero estoy seguro de que están todos en el Archivo de Internet. Siempre que decido que vale la pena guardar uno, lo recupero y lo pongo en mi sitio web personal.

Probablemente no le guste todo lo que hay en Internet, por lo que tampoco le gustará todo lo que hay en Internet Archive. Recuerde que todo lo que la gente publica en Internet, por muy objetable que sea, puede tener valor para los investigadores e historiadores. Internet Archive tiene una política de derechos de autor similar a las políticas de los sitios de redes sociales, para cumplir con las leyes de eliminación de contenido.

Brewster Kahle, fundador y bibliotecario digital de Internet Archive, al revisar este artículo, comentó:

Las campañas de pandemia y desinformación han demostrado cuán dependientes somos de la información que está disponible de manera confiable en línea y de alta calidad. Estos son los roles de una biblioteca y estamos felices de servir como podamos.

Elogio de los algoritmos informáticos de fuerza bruta

¿Cómo puede el Archivo de Internet preservar, de manera regular, el estado actual de un medio que es más vasto que cualquier otro anterior en muchos órdenes de magnitud?

La respuesta es simple: utilizan las mismas técnicas de fuerza bruta empleadas por los motores de búsqueda. El Archivo de Internet busca en la web página por página, tratando de encontrar todo lo que puede. (El resto del contenido del archivo se analiza más adelante en este artículo). El archivo ha alquilado una enorme capacidad de almacenamiento para guardar todo lo que encuentra.

A los programadores les encanta encontrar formas inteligentes de evitar las técnicas de fuerza bruta, que tienen un nivel de optimización de O (n), lo que significa que solo se puede escalar invirtiendo la cantidad correspondiente de potencia informática. Pero a veces la fuerza bruta es el camino a seguir.

Por ejemplo, el procesamiento gráfico requiere leer una gran cantidad de datos sobre el gráfico y aplicar algoritmos a cada píxel. Esta es la razón por la que pocas aplicaciones podían realizar procesamiento gráfico hasta que se desarrolló un hardware barato para abordar las necesidades particulares de estas aplicaciones: la ahora omnipresente unidad de procesamiento de gráficos o GPU.

Otra área donde triunfa la fuerza bruta es el aprendizaje automático moderno. La idea basica se remonta a 1949, prácticamente el amanecer de la informática digital. La red neuronal inspiró a los investigadores de inteligencia artificial durante décadas, pero fue declarada un fracaso después de mucha investigación y sudor. Luego, los procesadores (incluidas las GPU) crecieron lo suficientemente rápido como para ejecutar los algoritmos en una cantidad de tiempo factible, mientras que la computación virtual y la nube proporcionaron una potencia de cálculo esencialmente ilimitada. Ahora, el aprendizaje automático se está aplicando a problemas de clasificación y categorización en todas partes.

Celebremos la tenacidad del Archivo de Internet. Atacaron su problema de frente en 1996 y la solución les ha funcionado desde entonces.

Es necesario hacer una nota sobre las limitaciones: el rastreo web omite gran parte de lo que vemos habitualmente en la web. Internet Archive no cruzará los muros de pago, detrás de los cuales se encuentran muchas noticias y contenido académico. El rastreador no puede enviar un formulario, por lo que no puede captar lo que los visitantes pueden ver en las páginas web generadas dinámicamente, como las publicadas por los sitios minoristas.

Más allá de la Web

La historia de la cultura perdida es parte de la historia misma. Algunos de los desastres que aún lamentamos incluyen estos:

  • Un solo obispo español en el siglo XVI, después de que España conquistara a los mayas en América Central, forzó la destrucción de todos los registros culturales y religiosos mayas. Los pocos códices que sobreviven indican una sofisticada investigación filosófica que nunca podremos investigar a fondo.
  • En 1258, los mongoles invasores destruyó la biblioteca de Bagdad, un acto de hedonismo gratuito que acompaña su toma de la ciudad. Esta pérdida paralizó una tradición fértil en la que la Europa medieval basó su propio renacimiento intelectual.
  • La destrucción de la antigua biblioteca de Alejandría, Egipto, parece haber ocurrido a lo largo de los siglos. Esta biblioteca inspiró a Kahle a pensar en Internet Archive.

Agregue a estos eventos catastróficos la pérdida de la magnífica arquitectura de la antigüedad (a menudo desmantelada por los residentes locales en busca de materiales de construcción baratos), el extinción de lenguas enteras (perdiendo con cada uno no solo una cultura sino una cosmovisión única), y la desaparición de poemas y obras de teatro que dieron forma a la literatura moderna de Safo, Sófocles y otros.

Mucho antes de Internet, muchos megabytes de datos estaban instalados en los centros de datos corporativos. Sus propietarios deben haberse dado cuenta de que los datos podrían quedarse atrás a medida que las empresas se trasladaran a nuevas computadoras, nuevas bases de datos y nuevos formatos. Los proveedores de software cierran, dejando a sus clientes atrapados con contenido en formatos opacos y propietarios. Las personas ahora tienen recuerdos preciosos en medios físicos para los que apenas existen dispositivos. Y así, nuestros datos se nos escapan de las manos.

Cuando Vint Cerf estaba diseñando el Protocolo de control de transmisión (TCP) en la década de 1970, me pregunto si imaginó la gran cantidad de contenido que luego se crearía para compartir a través de Internet. Hace varios años, Cerf dio la alarma por la pérdida de contenido digital en una misión que llamó Vitela digital. Hasta donde yo sé, Digital Vellum no se ha implementado. Pero Internet Archive cumple parte de esta función. Se dan cuenta de que existe una gran cantidad de contenido fuera de la web, en películas, cintas y páginas de libros, por lo que trabajan con bibliotecas y otras instituciones para llevar gran parte de esto a la web.

Aunque el archivo de Internet Términos de Uso Destaque su valor para los investigadores, tienen recursos maravillosos que todos pueden disfrutar. Ellos tienen un servicio de préstamo de libros que parece ser como los que ofrecen otras bibliotecas en la actualidad. Ofrecen una sección educativa para niños y repositorios especiales para música, imágenes, films, videojuegos, programas de radio clásicos.

Después de escuchar algunos de sus 15,000 conciertos grabados de Grateful Dead, Trate de recogiendo Yggdrasil, una de las primeras distribuciones de GNU Linux. (Para SLS encontré solo algunos meta informacion, tal vez porque SLS se distribuyó en disquetes). 100 grandes libros de mujeres negras, o escucha un discusión de los nombres y el género de Dios en la Mezquita de Mujeres de América. Hay algo para todos en el archivo de Internet.

Y cuando haya comprendido el alcance y el valor de Internet Archive, considere dándoles una donación—Para que nuestra cultura no siga el camino de los mayas.

Leer publicación anterior

Sobre Andrew Oram:

Andrew Oram

Andy es escritor y editor en el campo de la informática. Sus proyectos editoriales en O'Reilly Media iban desde una guía legal que cubría la propiedad intelectual hasta una novela gráfica sobre hackers adolescentes. Andy también escribe a menudo sobre tecnologías de la información para la salud, sobre cuestiones de política relacionadas con Internet y sobre tendencias que afectan la innovación técnica y sus efectos en la sociedad. Las publicaciones impresas donde ha aparecido su trabajo incluyen The Economist, Communications of the ACM, Copyright World, Journal of Information Technology & Politics, Vanguardia Dossier e Internet Law and Business. Las conferencias en las que ha presentado charlas incluyen la Convención de Código Abierto de O'Reilly, FISL (Brasil), FOSDEM (Bruselas), DebConf y LibrePlanet. Andy participa en la organización de políticas de la Association for Computing Machinery, USTPC.

Súper cheverísimo !!! Esta Plandemia me ha enseñado MUCHO a valorar el archivo de Internet. Lastimosamente los eventos negativos nos hace valorar los archivos que poseemos ... y me siento muy comprometido a la causa de construir conocimientos y un ethos filosófico válido para este tiempo tan crítico y para una existencia más feliz en el futuro para la Humanidad.