RSS
Blog
Open Knowledge, Internet Archive e History of Everything

Open Knowledge, Internet Archive e History of Everything

13 maggio 2021 - di Andrew Oram

L'archiviazione digitale è allo stesso tempo il supporto più fragile mai inventato e il più robusto. Un cambiamento nella magnetizzazione di pochi bit microscopici su un disco rigido può cancellare il contenuto per sempre. Inoltre, chiunque provochi danni sul proprio sito web o sui social media può cancellare le prove imbarazzanti con poche sequenze di tasti. Ma in compenso, la possibilità di creare copie digitali praticamente a costo zero consente di replicare e archiviare i contenuti in luoghi sicuri. Questa seconda caratteristica dei media digitali è sfruttata dall'Internet Archive per preservare la storia del web e altro ancora.

L'articolo fa parte di una serie mensile sul blog LPI per celebrare gli anniversari di diversi progetti chiave open source, esplorando diverse direzioni e percorsi dell'ampio movimento open source.

L'Internet Archive è stato lanciato nel 1996, quando la maggior parte delle persone ha usufruito dell'accesso al Web solo da pochi anni. (Data la reale popolarità del web dal rilascio del browser Mosaic nel gennaio 1993.) Già, l'ingegnere informatico Brewster Kahle sapeva che il contenuto storico andava perduto e in risposta creò l'Internet Archive. I motori dell'archivio attualmente eseguono la scansione di circa 750 milioni di pagine al giorno, ogni sito potenzialmente contenente centinaia o migliaia di singole pagine web. Al momento della stesura di questo articolo, il contenuto stimato dell'archivio è di 552 miliardi di pagine web. E ha anche più di siti web. Questo articolo esplora i risultati di Internet Archive e ciò che offre sia ai ricercatori che ai normali utenti di computer.

Un altro aspetto dell'open knowledge è rappresentato dai siti web che servono contenuti originali, sui quali faccio molto affidamento quando cerco articoli come questo. Il supereroe di questi siti gratuiti è Wikipedia, che ha avuto il suo 20 ° anniversario il 15 gennaio di quest'anno. Sebbene il contenuto di Wikipedia sia originale, si basa su riferimenti ove possibile e avverte gli utenti di non fare affidamento su di esso come fonte primaria. Inoltre, il testo e le immagini su Wikipedia sono rilasciati sotto una licenza Creative Commons, GNU Free Documentation License o entrambe. Pertanto, il contenuto viene spesso visualizzato su altri siti Web.

Perso nelle nebbie del tempo

Facile venire, facile andare: questa è la caratteristica principale di Internet. Apparentemente, la Corte Suprema degli Stati Uniti non ha imparato questa lezione, perché i giudici e il loro personale fanno sempre riferimento ai collegamenti web nelle loro sentenze. I ricercatori lo hanno determinato quasi la metà di questi collegamenti sono interrotti, producendo la risposta di errore 404 standard. Ciò significa che non possiamo scoprire le prove utilizzate dai giudici per prendere le decisioni che hanno conseguenze così pesanti.

La stessa perdita di responsabilità è messa a rischio dai siti di notizie, dalla ricerca accademica e da chiunque altro utilizzi il vantaggio principale del Web: la facilità di collegamento ad altri siti. Il problema non si applica solo ai siti 404 (scomparsi). Si applica anche ai siti che modificano il contenuto dopo aver basato un argomento sul vecchio contenuto. Per questo motivo, quando si utilizzano i contenuti web delle persone o i post sui social media per evidenziare un punto, i commentatori esperti pubblicano screenshot del contenuto corrente.

Una soluzione più organizzata per preservare il passato è fornita da Ambra, un progetto di Berkman Klein Center for Internet & Society di Harvard. L'ambra semplifica il salvataggio di una copia di una pagina Web nel momento in cui la visualizzi. Ma Amber ha un prerequisito fondamentale: un web server su cui salvare il contenuto. La maggior parte di noi utilizza servizi Web forniti da altre società e non abbiamo i privilegi per salvare una pagina. Una sorta di "Amber as a Service" viene offerta da Harvard attraverso Perma.cc, dove chiunque può salvare una pagina nel suo stato corrente, creando un URL a cui altri potranno fare riferimento in seguito. È anche incoraggiante Drupal.org ti consente di salvare le pagine tramite Amber. Perma.cc è supportato da Internet Archive. Per verificare quanto sia diffuso il problema dei collegamenti interrotti, ho esaminato un mio articolo, scegliendone uno abbastanza lungo e che avevo pubblicato esattamente quattro anni prima della mia ricerca per questo articolo di Internet Archive. Il mio articolo pubblicato conteneva 43 link, di cui 7 interrotti, appena quattro anni dopo averlo scritto.

Entra in Internet Archive. Non buttano via nulla, quindi puoi recuperare un sito web in molte date diverse. Diamo un'occhiata a come recuperare le vecchie pagine. Puoi farlo tramite Wayback macchina, un'interfaccia di ricerca per Internet Archive.

Supponiamo che uno dei link in questa pagina web sia diventato 404. Puoi recuperare il contenuto in quel link come segue.

  1. Visualizza l'origine di questa pagina web per trovare l'URL originale che desideri visitare.
  2. Solleva il file Wayback macchina.
  3. Immettere l'URL nella casella di ricerca.
  4. La pagina restituita dalla Wayback Machine mostra le date in cui ha archiviato questa pagina. Puoi fare clic su una qualsiasi di queste date per recuperare la pagina come appariva in quella data. Sii paziente, perché il sito è lento. Un archivio può permettersi di aspettare.

Puoi anche saltare l'interfaccia visiva e cercare la pagina manualmente, ma questo è un argomento complicato che non tratterò qui. Se vuoi assicurarti che una pagina web sia conservata nel suo stato corrente, puoi usare il funzione salva-pagina-ora. C'è anche un modo per caricare i file.

Stimo che più di 250 dei miei articoli e post sul blog siano scomparsi da vari siti web. Alcuni articoli ho potuto ricreare da bozze che ho salvato, mentre altri sono venuti fuori tramite ricerche in posti strani come archivi di mailing list. Ma sono sicuro che siano tutti nell'Internet Archive. Ogni volta che decido che vale la pena salvarne uno, lo recupero e lo metto sul mio sito web personale.

Probabilmente non ti piace tutto ciò che è su Internet, quindi non ti piacerà nemmeno tutto ciò che è in Internet Archive. Ricorda che tutto ciò che le persone pubblicano su Internet, non importa quanto discutibile, può avere valore per ricercatori e storici. Internet Archive ha una politica sul copyright simile alle politiche sui siti di social media, per aderire alle leggi sulla rimozione dei contenuti.

Brewster Kahle, fondatore e bibliotecario digitale di Internet Archive, durante la revisione di questo articolo, ha commentato:

Le campagne di pandemia e disinformazione hanno dimostrato quanto dipendiamo da informazioni disponibili online in modo affidabile e di alta qualità. Questi sono i ruoli di una biblioteca e siamo felici di servire come possiamo.

Elogio degli algoritmi informatici a forza bruta

Come può l'Internet Archive preservare, su base regolare, lo stato attuale di un mezzo che è più vasto di qualsiasi altro precedente di molti ordini di grandezza?

La risposta è semplice: usano le stesse tecniche di forza bruta impiegate dai motori di ricerca. L'Internet Archive esegue una ricerca nella pagina Web per pagina, cercando di trovare tutto ciò che può. (Altro contenuto nell'archivio è discusso più avanti in questo articolo). L'archivio ha affittato un'enorme capacità di archiviazione per conservare tutto ciò che trova.

I programmatori amano trovare modi intelligenti per evitare le tecniche di forza bruta, che hanno un livello di ottimizzazione di O (n), il che significa che puoi aumentare solo investendo una quantità corrispondente di potenza del computer. Ma a volte la forza bruta è la strada da percorrere.

Ad esempio, l'elaborazione grafica richiede la lettura di molti dati sulla grafica e l'applicazione di algoritmi a ogni pixel. Questo è il motivo per cui poche applicazioni potevano eseguire l'elaborazione grafica fino a quando l'hardware economico non fosse stato sviluppato per soddisfare le particolari esigenze di queste applicazioni: l'ormai onnipresente unità di elaborazione grafica o GPU.

Un'altra area in cui trionfa la forza bruta è l'apprendimento automatico moderno. L'idea di base risale al 1949, praticamente agli albori dell'informatica digitale. La rete neurale ha ispirato per decenni i ricercatori di intelligenza artificiale, ma è stata dichiarata un fallimento dopo molte ricerche e sudore. Quindi i processori (comprese le GPU) sono cresciuti abbastanza velocemente da eseguire gli algoritmi in una quantità di tempo possibile, mentre il calcolo virtuale e il cloud hanno fornito una potenza di calcolo essenzialmente illimitata. Ora l'apprendimento automatico viene applicato ovunque a problemi di classificazione e categorizzazione.

Quindi festeggiamo la tenacia di Internet Archive. Hanno affrontato il loro problema a testa alta nel 1996 e da allora la soluzione ha funzionato per loro.

Una nota sulle limitazioni è d'obbligo: la scansione del Web esclude gran parte di ciò che vediamo abitualmente sul Web. Internet Archive non attraverserà i paywall, dietro i quali si celano molte notizie e contenuti accademici. Il crawler non può inviare un modulo, quindi non può raccogliere ciò che i visitatori possono vedere nelle pagine Web generate dinamicamente come quelle dei siti di vendita al dettaglio.

Oltre il Web

La storia della cultura perduta fa parte della storia stessa. Alcuni dei disastri che ancora piangiamo includono questi:

A questi eventi catastrofici si aggiunge la perdita della magnifica architettura dei tempi antichi (spesso smantellata dai residenti locali alla ricerca di materiali da costruzione economici), il estinzione di intere lingue (perdendo con ciascuno non solo una cultura ma una visione del mondo unica) e la scomparsa di poesie e opere teatrali che hanno plasmato la letteratura moderna di Saffo, Sofocle e altri.

Ben prima di Internet, molti megabyte di dati erano sistemati nei data center aziendali. I loro proprietari devono aver capito che i dati potrebbero essere lasciati indietro quando le aziende passano a nuovi computer, nuovi database e nuovi formati. I fornitori di software falliscono, lasciando i loro clienti intrappolati con contenuti in formati opachi e proprietari. Le persone ora hanno ricordi preziosi su supporti fisici per i quali quasi nessun dispositivo esiste ancora. E così i nostri dati ci sfuggono di mano.

Quando Vint Cerf stava progettando il protocollo TCP (Transmission Control Protocol) negli anni '1970, mi chiedo se avesse immaginato l'enorme quantità di contenuto che in seguito sarebbe stato creato per essere condiviso su Internet. Diversi anni fa, Cerf ha lanciato l'allarme per la perdita di contenuti digitali in una missione da lui chiamata Pergamena digitale. Per quanto ne so, Digital Vellum non è stato implementato. Ma Internet Archive svolge alcune di queste funzioni. Si rendono conto che molti contenuti esistono al di fuori del web, su film, nastri e pagine di libri, quindi lavorano con biblioteche e altre istituzioni per portare gran parte di questi sul web.

Sebbene Internet Archive's Condizioni d'uso sottolineano il loro valore per i ricercatori, hanno risorse meravigliose di cui tutti potrebbero godere. Loro hanno un servizio di prestito libri sembra essere come quelli offerti da altre biblioteche oggi. Offrono una sezione educativa per bambini e archivi speciali per musica, immagini, cinema, video gamese programmi radiofonici classici.

Dopo aver sentito alcuni dei loro file 15,000 concerti dei Grateful Dead registrati, Provare a raccogliendo Yggdrasil, una delle prime distribuzioni di GNU Linux. (Per SLS ne ho trovati solo alcuni metainformazione, forse perché SLS è stato distribuito su floppy disk.) Check out 100 grandi libri di donne nereo ascolta un file discussione sui nomi e il sesso di Dio alla moschea delle donne d'America. C'è qualcosa per tutti nell'archivio Internet.

E quando hai afferrato la portata e il valore di Internet Archive, considera dando loro una donazione- in modo che la nostra cultura non vada come quella dei Maya.

Leggi il post precedente

Informazioni su Andrew Oram:

Andrea Oram

Andy è uno scrittore ed editor nel settore IT. I suoi progetti editoriali presso O'Reilly Media vanno da una guida legale sulla proprietà intellettuale a una graphic novel su hacker adolescenti. Andy scrive spesso anche sull'impatto dell'IT in ambito sanitario, su questioni politiche relative a Internet e sulle tendenze che incidono sull'innovazione tecnologica e i suoi effetti sulla società. Pubblicazioni stampate in cui è apparso il suo lavoro includono The Economist, Communications of the ACM, Copyright World, Journal of Information Technology & Politics, Vanguardia Dossier, and Internet Law and Business. Le conferenze cui ha presenziato includono la Open Source Convention di O'Reilly, FISL (Brasile), FOSDEM (Bruxelles), DebConf e LibrePlanet. Andy partecipa all'organizzazione politica della Association for Computing Machinery, USTPC.

Súper cheverísimo !!! Esta Plandemia me ha enseñado MUCHO a valorar el archivo de Internet. Lastimosamente los eventos negativos nos hace valorar los archivos que poseemos ... y me siento muy comprometido a la causa de construir conocimientos y un ethos filosófico válido para este tiempo tan crítico y para una existencia más feliz en el futuro para la Humanidad.