Како да пронајдете вести кои „исчезнале“ од Интернет?
Оваа новинарска лекција покажува како со помош на Гугл, Архивата на Тајм.мк и archive.org може да се видат содржини кои веќе не се достапни на веб-сајтовите каде што биле првобитно објавени.
Пишува: Филип Стојановски, информатичар, програмски координатор во Фондацијата Метаморфозис
Има ситуации кога е од јавен интерес да се пронајдат содржини кои биле објавени на Интернет, па потоа отстранети. Оваа новинарска лекција покажува како со помош на Гугл, Архивата на Тајм.мк и archive.org може да се видат содржини кои веќе не се достапни на веб-сајтовите каде што биле првобитно објавени.
Преносот на информации преку интернет се врши со копирање од компјутер на компјутер. Кога се разгледува некоја веб-страница, таа всушност се копира од серверот каде што е сместена, преку интернет провајдерот до компјутерот на корисникот (што опфаќа десетици и стотици можни копирања меѓу разни посредници). За да „дознаат“ што има на Интернет, пребарувачите прават интерни копии од страниците кои потоа ги анализираат. Во целиот тој процес има големи можности и нешто што било избришано по објавувањето да биде зачувано. Многу е веројатно дека она што е ставено на Интернет, „вечно“ ќе остане „таму“. Или барем доволно долго.
Без оглед на тоа кој бил мотивот за нивното бришење или измена, од техничка гледна точка има различни начини за отстранување на содржини од вебот:
- Директно бришење од страна на авторите, уредници, издавачите и другите лица со администраторски привилегии. Кога се пристапува до адресата на ваквите написи, се добива порака од типот „таква страница не постои“;
- Промени во базите на податоци или замена на софтверот што го придвижува веб сајтот. При нарачување на промената, зачувување на функционалната архива не било приоритетна потреба. Пример: Канал 5 има веб-сајт од 1999 година, но најстарите достапни вести се од 2003 г.;
- Промена на доменот или други атрибути на веб-сајтот. На пр. од utrinski.com.mk во utrinski.mk, при што некои написи во моментов не се достапни, иако се појавуваат при интерно пребарување;
- Исклучување на цели сајтови, каков што е случајот со www.a1.com.mk.
Пронаоѓањето на исчезната вест може да се заснова на пребарување врз две основи, или нивна комбинација. Првиот начин е пребарување со клучни зборови што се однесуваат на содржината на веста, особено ако го знаете насловот или лични именки што се појавуваат во веста. Вториот и многу поефикасен начин е ако Ви е позната точната веб-адреса на исчезнатата вест. Секако, до адресата, односно линкот или врската, можете да дојдете со претходно пребарување, на пример, преку Гугл. За содржините на македонски јазик особено полезно се покажува пребарувањето преку:
- агрегаторите како Тајм, Грид, Дејли и Пинг;
- форуми, блогови и сајтови за чување линкови и дискусии како пензионираниот Кајмак;
- стари постови на социјалните мрежи како Твитер или Фејсбук.
Гугл кеш (Google Cache)
Во случајот на „кешот“ на Гугл (Google Cache) зборот „кеш“ значи место каде привремено се складира нешто. Линкови до ваквите страници може да се појават меѓу резултатите од пребарувања. Како што објаснуваат од Гугл:
- Гугл ја снима секоја страница што ја испитува додека го поминува вебот и ја складира како бекап во случај оригиналната страница да не е достапна. Ако кликнете на „кешираниот“ линк (анг. Cached link) ќе ја видите веб-страницата како што изгледала во моментот кога сме ја индексирале. Оваа зачувана содржина Гугл ја користи за да процени дали дадената страница е релевантен погодок за вашето пребарување.
- Кога се прикажува зачуваната страница, на врвот има хедер (заглавие) кое служи како потсетување дека не мора да се работи за најновата/тековната верзија на страницата. Во ваквиот приказ, термините кои се однесуваат на вашето пребарување се истакнати (со жолта позадина) за полесно да видите зошто страницата е релевантна.
- Вакви „кеширани“ линкови не се појавуваат за сајтовите што не биле индексирани, како и за сајтовите чии сопственици побарале да не ги кешираме нивните содржини.
Ако ја имате директната врска (линк) кон избришана или изменета веб-страница, Гугл нуди и едноставен метод со кој може да ја видите зачуваната содржина која се наоѓала на таа адреса. Доволно е во полето за пребарување на Гугл прво да го впишете параметрот „cache:“ заедно со целата адреса на страницата (URL) во форма:
cache:http://точната адреса на страницата
Ограничување: Важно е да се има на ум дека содржините складирани во кешот на Гугл имаат релативно краток рок на траење. Се чуваат во рок од неколку недели. Исто така, ако во дадена страница се правеле измени, ја прикажува само последната снимена верзија, а не првобитната.
Архивата на Тајм.мк
Пронаоѓање на македонски содржини може да се изведе и со помош на посебната секција „Архива“ во рамките на агрегаторот Тајм.мк (time.mk/arhiva). Основната форма на агрегаторот опфаќа над 150 сајтови, но нуди ограничено количество податоци за секоја вест: линк, наслов, интро…, но не и целосни текстови. Тоа произлегува од неговата намена – да пренасочува кон оригиналните сајтови. Наспроти тоа, одделот „Архива“ содржи податоци од 16 македонски веб-сајтови, меѓу кои важни медиуми и Собранието, кои се зачувани како целосни текстови што може да се пребаруваат. За написите кои постојат на нивните оригинални веб-сајтови, архивата служи како класичен пребарувач и насочува директно кон нив. На увид на јавноста е достапен само текстот, додека сликите или мултимедијалните елементи не се зачувани.
Ограничување: За разлика од Гугл или агрегаторот Тајм.мк, кои постојано проверуваат дали има нешто ново на веб-сајтовите кои ги следат, кај архивата на Тајм.мк базата се полни повремено, од прилика два пати годишно. Тоа значи дека верзиите на написите кои се зачувани во неа се оние кои биле достапни на оригиналните веб-сајтови во моментот на „полнење“. Написите кои биле објавени и исчезнати пред основањето на архивата во ноември 2012 година, или, пак, кои биле објавени и избришани меѓу две „полнења“ нема да бидат забележани во нејзината база на податоци.
Архивата на Интернет
Архивата на Интернет (Archive.org) е непрофитна дигитална библиотека чија мисија е „универзален пристап до сето знаење“. Таа обезбедува перманентно складирање и бесплатен јавен пристап до збирки дигитални материјали, како веб-сајтови, музика, филмови и скоро три милиони книги со истечени авторски права. Покрај архивската функција, таа е и активистичка организација која се залга за слободен и отворен Интернет.
Слично на Гугл, софтверот на Архивата наречен „Машина за си било еднаш“ (анг. Wayback Machine) од 1996 година има складирано неколку стотици милијарди веб-страници. Меѓу другите, архивира и страници од повеќето влијателни македонски медиуми. Но, за разлика од Гугл, овие снимени содржини не се пребарливи по клучни зборови, туку се достапни исклучиво со внесување на директната адреса на бараната страница.
Она што ја издвојува оваа „Машина“ од претходните алатки е дека таа дава можност да се видат сите снимени верзии на една иста страница, достапни по датуми.
Ограничување: Дополнително интересно е што во случај на отворање на некоја од страниците, во некои случаи може да се користат и линковите во нив за да се дојде до други страници од истиот веб-сајт. Во некои случаи зачувани се и фотографии или може и да се активира код за анимации. Но, во општ случај, Архивата чува само содржини од типот текст (ХТМЛ) и вметнати слики, а не и видео прилози кои биле составен дел од даден текст. Така на пример, може да се прочитаат голем дел од вестите на А1 ТВ, но не во целост, бидејќи текстуалниот дел во многу случаи бил само краток вовед чија намена била да го наведе посетителот да го види видео-прилогот, а не целосен транскрипт.
Пример 1: „Топ 10 најчитани вести…“
Ниту еден од линковите во написот „Топ 10 најчитани вести на Курир за 2012 година“ не функционира. Во списокот се наведени написи со фотографии на осомничените за убиството кај Смилковско Езеро, преку преживеалиците на Боки 13, спортски контроверзи, промоција на проширен текст на „Излези момче“ или најава за затворање на Фејбук, при што како најчитана е посочена веста за „чудото“ во Св. Димитрија.
Ако се кликне на било кој од линковите, се добива страница со текст
„404 – Артиклот #[број на запис од база] не е пронајден“.
Арно ама, за сите тие написи стојат зачувани копии на Archive.org (1, 2, 3, 4, 5, 6, 7, 8, 9, 10) и тоа во по неколку „примероци“.
Пример 2: „Партиите со интернет загари…“
На 5 ноември 2010 година, Сител објави вест насловена „Партиите со интернет “загари“ наметнуваат мислење во просторот за коментари“, која обработува интересна тема на прилично балансиран начин. За жал, веста била отстранета и не се појавува во при користење на интерниот пребарувач од матичнот сајт. Ако насловот се внесе во пребарувачот Гугл, се добиваат траги од веста на Пинг, Тајм.мк, Дејли и на форумот Cotle.ca, од кои може да се дознае оригиналниот линк.
На оригиналниот линк се добива порака на англиски дека „страницата не е најдена“. Текстот не е зачуван во кешот на Гугл оти е поминато долго време, ниту, пак, бил снимен во архивата на Тајм.мк, оти бил избришан пред нејзиното формирање. Но, има зачувани копии на Archive.org. Притоа, не изгледа исто како на оригиналниот сајт, оти некои од мултимедијалните елементи не се собрани, меѓу другото и илустрацијата и форматирањето (CSS).
***
Кога има потреба да се најдат податоци кој некој би сакал да се исчезнати од интернет, најчесто се користи комбинација од разни методи на пребарување. Со оглед на тоа што голем дел од секојдневниот живот се одвива преку Интернет, оваа област на истражувачко новинарство ќе има сè поширока примена.
Сите коментари и забелешки поврзани со овој и другите написи на Вистиномер, барањата за корекции и појаснувања, како и предлозите за проверка на изјавите на политичарите и ветувањата на политичките партии, можете да ги доставите преку овој формулар