O problemu formata elektroničkih dokumenata

O problemu formata elektroničkih dokumenata

Problem s formatima dokumenata nastaje zbog činjenice da su ih “ustanovljavale” razne organizacije i softverske kompanije, pa je nastalo mnoštvo različitih formata za elektroničke dokumente koji su međusobno “inkompatibilni”. Neke su kompanije odbile javno obznaniti detaljne specifikacije svojih formata, te su ih zaštitile i zakonski, čime su nastali tzv. zatvoreni odnosno vlasnički formati dokumenata za čije je korištenje potreban softver (redovno također vlasnički) kompanije koji je taj format izmislila. Onima koji bi željeli dokument u istom tom formatu kreirati i uređivati pomoću svojih vlastitih programa, to je onemogućeno

Zdenko Kremer

U vezi s korištenjem slobodnih ili otvorenih informatičkih tehnologija o kojima smo ovdje već pisali, treba spomenuti i problem formata elektroničkih dokumenata koji se razmjenjuju u javnoj komunikaciji. Problem nametanja zatvorenih tj. vlasničkih (propriatory) formata u javnom i poslovnom sektoru predstavlja značajnu prepreku za razvoj i širenje ove vrste informatičkih tehnologija, čija bi najšira primjena, kao što smo već naglasili, rezultirala značajnim pozitivnim efektima na naš privredni, a i ukupni društveni razvoj.

Možda nije naodmet detaljnije izložiti o čemu se ovdje radi. Objasnit ćemo najprije pojam formata elektroničkog dokumenata, odnosno, općenitije, formata “datoteke” kao skupa istovrsnih podataka koji se zajedno čuvaju u elektronskom obliku. Poznato je da sve informacije koje se unose u elektroničko računalo, moraju biti pretvorene u binarnu formu (u niz “jedinica i nula”). Primjerice, da bi se napisani tekst mogao spremiti na magnetskom mediju računala i kasnije pravilno “reproducirati”, na njegovom zaslonu, odnosno na pisaču (printeru), potrebno je svako slovo, odnosno tekstualni znak, prema nekoj konvenciji pretvoriti u određeni binaran “obrazac”, pri čemu se slaganjem tih obrazaca dobije cjelina teksta u elektroničkom obliku, kao što se cjelina teksta na papiru dobije slaganjem slova. Da bi se ovaj postupak mogao provoditi na jednoznačan način, nužno je uvesti standard, odnosno konvenciju prema kojoj se ovakva pretvorba vrši. Tako su tokom vremena stvoreni razni standardi koji se odnose na pretvorbu tekstualnih znakova u binarnu formu. Prvi među njima, koji je ujedno poslužio i kao osnova za sve ostale, bio je tzv. ASCII standard (ASCII je kratica za American Standard Code for Information Interchange), stvoren šezdesetih godina prošlog stoljeća, kod kojega je svaki znak predstavljen binarnim obrascem od 7 bita (tj. sa sedam binarnih znamenaka) – primjerice slovu A je pridružen obrazac 1000001, kojemu u decimalnom obliku odgovara broj 65, slovu B obrazac 1000010 kojemu odgovara broj 66 itd. Ukupan broj znakova koji ASCII standard može obuhvatiti iznosi 27 = 128. Ovaj broj se pokazao nedostatnim kad je bilo potrebno uvesti razne druge tekstualne znakove i simbole, kao što su recimo hrvatska slova s dijakritičkim znakovima ili slična takva slova u drugim jezicima. Tako su nastale razne “kodne stranice”, odnosno ISO standardi kod kojih su tekstualni znakovi predstavljeni s 8 bita (tj. jednim byteom) informacije, a postoje i oni kod kojih imamo 16 ili 32 bita (Unicode).

Međutim, danas više nije važno samo kako će se u elektroničkom obliku predstaviti pojedina slova ili znakovi, već i kako će tekst koji pišemo izgledati na zaslonu, odnosno ispisan na papiru. Tu su u igri još i veličine teksta, vrste fontova, širine margina, poravnanja paragrafa, dimenzije i prijelomi stranica, te mnoštvo drugih “standardnih” i “naprednih” opcija za koje zna svatko tko je ikada pisao u nekom tekst procesoru poput Microsoft Worda. Prema tome, elektronički dokument osim samog teksta u binarnoj formi, mora, u istoj toj formi, sadržavati još brojne druge informacije potrebne da bi mogao biti prikazan u prikladnom obliku. Format elektroničkog dokumenta predstavlja konvenciju (standard) prema kojoj se sve te informacije definiraju i “kodiraju” unutar datoteke koja predstavlja dotični elektronički dokument. Ova definicija odnosi se i na sve ostale vrste datoteka, kao što su izvršne, podatkovne, grafičke, audio/video datoteke i dr.

Praksa koja ograničava dostupnost informacija

Problem s formatima dokumenata nastaje zbog činjenice da su ih “ustanovljavale” razne organizacije i softverske kompanije, pa je tako nastalo mnoštvo različitih formata za elektroničke dokumente koji su međusobno “inkompatibilni”. I ne samo to, već su neke kompanije odbile javno obznaniti detaljne specifikacije svojih formata, te su ih zaštitile i zakonski, čime su nastali tzv. zatvoreni odnosno vlasnički (proprietary) formati dokumenata za čije je korištenje potreban softver (redovno također vlasnički) kompanije koji je taj format izmislila. Onima koji bi željeli dokument u istom tom formatu kreirati i uređivati pomoću svojih vlastitih programa, to je praktički onemogućeno.

Ovdje se dakako radi o lošoj praksi kojom se ograničava dostupnost informacija i smanjuje efikasnost njihovog korištenja. Treba reći kako su štetnost korištenja zatvorenih tj. vlasničkih formata dokumenata u javnoj komunikaciji uvidjele i vlade mnogih zemalja, koja raznim mjerama nastoje izbjeći njihovu upotrebu. Primjerice u raznim službenim izjavama Europske Unije koje se odnose na javnu komunikaciju, preporuča se primjena otvorenih formata dokumenata – a to su oni za koje su specifikacije obznanjene tj. dostupne. Takve se preporuke mogu naći i u dokumentima koje je donijela Hrvatska Vlada, odnosno Ured za e-Hrvatsku. Međutim, u javnoj komunikaciji u našoj zemlji i dalje se koriste uglavnom zatvoreni (vlasnički) formati. Primjerice za dostavu podataka u FINU ili Poreznu upravu koristi se vlasnički.xls (Microsoft Excel) format, a i neki “elektronički servisi” koje nudi naša država pretpostavljaju vlasnički softver i standarde.

Također, u komunikaciji s raznim drugim institucijama, privrednim subjektima, uredništvima časopisa, te ostalim više ili manje službenim instancama, opaža se da svi očekuju elektroničke dokumente u .doc (Microsoft Word) formatu. Čini se da je posvuda prošireno mišljenje da su jedino .doc i još eventualno .pdf jedini “normalni” formati elektroničkih dokumenata (uz .xls koji se odnosi na “proračunske tablice”) i oni se kao takvi u elektroničkoj komunikaciji podrazumijevaju – recimo u oglasima za razne književne konkurse ili na web stranicama časopisa koji pozivaju na suradnju, rijetko kada će biti navedeno u kojem formatu treba slati priloge. No, u slučaju .doc formata, kao i .xls-a, radi o vlasničkom formatu tvrtke Microsoft za čije je “normalno” korištenje potreban softverski paket Microsoft Office koji je također vlasnički. .pdf format tvrtke Adobe ovaj je status zadržavao sve do nedavno – tokom 2008. objavljena je njegova specifikacija i od onda se smatra otvorenim.

Muke po pdf-u

Nažalost, .pdf format je pogodan za dokumente koje nije potrebno mijenjati. Zbog toga nam je za potrebe “fleksibilnije” elektroničke komunikacije očito nužan neki treći format dokumenata koji bi bio otvoren i slobodan, tj. takav da se njime bez ikakvih ograničenja može služiti svatko i da mu je specifikacija poznata. Format koji se sam nameće je Open Document Format temeljen na prilično popularnom jeziku za “označavanje” podataka koji se naziva xml (Extensible Markup Language). Ovaj format inače ima vrlo široku primjenu, posebno na području Europe i Sjeverne Amerike – preporučuju ga sve nadležne evropske institucije, a NATO ga koristi kao svoj službeni standard.

Tekst procesor pomoću kojega možemo kreirati dokument u Open Document Formatu (.odt) naziva OpenOffice Writer i on predstavlja dio besplatnog uredskog paketa OpenOffice. Ovaj uredski paket izdaje se pod licencom koja predstavlja stanovitu modifikacija GNU GPL-a, tako da se može smatrati otvorenim softverom (tj. softverom otvorenog koda). Osim OpenOffice Writera, paket sadrži i tablični kalkulator OpenOffice Calc (analogon Microsoft Excela), alat za izradu prezentacija OpenOffice Impress (analogon Microsoft Power Pointa), a također i alate za rad s grafikom i bazama podataka. Razvoj ovoga softvera započela je njemačka tvrtka Star Division krajem osamdesetih godina prošlog stoljeća, da bi ga 1999. kupila velika američka informatička tvrtka Sun Microsystems, koja je nešto kasnije izvorni kod ovoga softvera proglasila otvorenim i njegov razvoj prepustila “open source” zajednici. Taj se razvoj nastavlja sve do danas uz potporu Suna, a u novije vrijeme i Oraclea. Najnovija verzija ovog softvera danas nosi oznaku 3.3.0. Treba napomenuti da je jedna grupa nezavisnih programera nedavno pokrenula inicijativu da se projekt razvoja ovog uredskog paketa oslobodi korporativnog utjecaja i tako postane u potpunosti “slobodnim”. Tako je nastao paket LibreOffice koji je OpenOfficeu posve analogan. S obzirom da postoje verzije OpenOfficea, a i LibreOfficea, namijenjene svim najzastupljenijim računalnim platformama (Linux, Mac, Windows), koje se mogu se slobodno skinuti s interneta i “ekspresno” instalirati na računalo, a pritom se način rada bitno ne razlikuje od onoga pri korištenju Microsoftovog Officea – programi su slični i vizualno, tj. imaju analogna korisnička sučelja (GUI) – nema razloga da se Open Document Format najšire ne upotrebljava i u javnoj komunikaciji, i za “osobne” potrebe korisnika (umjesto microsoftovog .doc formata). Posebno bi korisno bilo da ovaj format postane standard u državnoj upravi i obrazovanju čime bi se još više poticala njegova upotreba. Smatramo da bi Hrvatska Vlada, odnosno Središnji državni ured za e-Hrvatsku trebali poduzeti dodatne napore u promociji Open Document Formata, posebno u onim segmentima društvene djelatnosti za koje su izravno nadležni.

Prednosti .tex formata

U ovoj priči o formatima dokumenata nije naodmet spomenuti još jedan format koji je možda neprikladan za javnu komunikaciju u najširem smislu, ali bi se u raznim slučajevima elektroničke komunikacije, njegova upotreba mogla pokazati vrlo praktičnom. Radi se o .tex formatu koji se široko primjenjuje u prirodoznanstvenoj zajednici jer posjeduje velike mogućnosti za rad s matematičkim izrazima, no, to ne predstavlja prepreku da se koristi i za pisanje tekstova druge vrste. .tex format odnosno TeX sustav (radi se o još jednom sustavu za obradu teksta) razvio je američki softverski stručnjak Donald E. Knuth krajem sedamdesetih godina prošlog stoljeća i on je tokom osamdesetih godina postao standardnim dijelom većine operativnih sustava za računala baziranih na UNIX-u. TeX je danas dogurao do verzije 3.1415926.

Prednosti .tex formata nad Open Document Formatom (.odt) uglavnom se svode na njegovu jednostavnost – dokument u .tex formatu redovito je manje veličine i bez problema se može čitati u bilo kojem editoru, a odgovarajući TeX-sustav može se instalirati i na vrlo starim kompjuterima na kojima “standardni” uredski paketi ne rade. Zgodno je također primijetiti kako se formati dokumenata koji se koriste kod “standardnih” tekst procesora vremenom mijenjaju – u slučaju OpenOfficea imamo tri različita formata koja su dosad bila u upotrebi (.sdw, .sxw i .odt), o Microsoft Officeu, kod kojega sa formati dokumenata mijenjaju svako malo, da se i ne govori – što može dovesti do problema sa njihovim prikazom. Recimo, nakon dovoljno dugog vremena, odgovarajući tekst procesor može prestati podržavati starije formate. No, još je nezgodnije to što se neki problemi s prikazom starijih formata javljaju i inače – pogotovo kod nekih složenijih manipulacija u tekstu (primjerice u slučaju tzv. “embedded objekata”), a mogu se primijetiti i u njegovom formatiranju. Nasuprot tome, .tex format se ne mijenja već tridesetak godina, nego se samo usavršava, pri čemu “stare stvari” ostaju (a k tome je kako smo rekli i lako čitljiv). Zbog toga se čini zgodnim dokumente arhivirati upravo u .tex formatu, tim prije što su takvi dokumenti kao što smo također spomenuli, redovito manje veličine.

Može se reći da je prednost .odt formata nad .tex-om svodi uglavnom na prednosti korištenja OpenOffice paketa tj. OpenOffice Writtera u odnosu na editore u kojima se pišu TeX, odnosno LaTeX dokumenti (LaTeXje jezik za “označavanje” podataka koji koristi TeX sustav), premda i za .tex dokumente postoji grafičko sučelje pomoću kojega se pisanje ovakvih dokumenata znatno pojednostavljuje (programski paket pod nazivom Kile). Vjerojatno bi se daljim razvojem toga sučelja .tex format mogao učiniti pristupačnim puno širem krugu korisnika, odnosno daleko popularnijim nego je on danas.

Spomenimo na kraju da je svoj skroman doprinos ovim naporima pokušalo dati i Udruženje za razvoj slobodnog softvera Little Lion koje je prije više godina izradilo program LLn_ttp za pretvorbu tekstualnih dokumenata napisanih u bilo kojem editoru u .tex, .dvi ili .pdf format. Zasad se, istina, radi o jednostavnom softveru skromnih mogućnosti, koji je prikladan za rad sa tekstovima jednostavne “strukture” (za složenije tekstove potrebno je poznavati LaTeX sintaksu), no u planu je njegov dalji razvoj i prilagodba potrebama zahtjevnijih korisnika. Izvorni kod ovog programa, njegova izvršna verzija kompajlirana pod Debian GNU/Linuxom 3.0 (Woody), te uputa za njegovo korištenje može se naći na web stranicama našeg Udruženja (http://free-zg.t-com.hr/little_lion).