EFNs logo
 
 
 

FILKONVERTERING

En innføring i forskjellige åpne dataformater og
hvordan konvertering fra proprietære og lukkede formater til disse kan gjøres.

Copyleft ©2003–2004 Øyvind A. Holm

Innhold

1. OM DOKUMENTET

Målet med dette dokumentet er å lage en oversikt over lagringsformater som er brukbare til langtidslagring og utveksling mellom brukere uavhengig av maskinplattform og fortrinnsvis i åpne dataformater. Tillegg til filen foregår kontinuerlig og inneholder for tiden mest informasjon om konvertering og behandling av formater under Linux, da dette er den eneste plattformen forfatteren av dokumentet bruker. Informasjon om fremgangsmåter under f.eks. MS Windows og Macintosh er velkommen, og gjerne generelle oppskrifter på eksempelvis følgende områder:

Sitter du på kunnskap om dette eller lignende databehandling, vennligst send oppskriften til sunny@efn.no så det kan legges inn. Programmene som brukes til transport og bearbeiding av dataene bør om det er mulig være åpen kildekode. Omtale om flere formater er også ønskelig, det eneste kravet er at de er fritt tilgjengelige og ikke er belemret med patenter.

Hvis du ikke vil nevnes i «Bidragsytere», må dette opplyses om i eposten.

2. HVORFOR ER LAGRINGSFORMATET SPESIELT VIKTIG Å TENKE PÅ?

Dine data som er lagret på datamaskinen er det mest verdifulle av alt. En datamaskin kan erstattes, de finnes det mange av, men det å kunne lese og reprodusere det som du har laget er det aller viktigste. Mange programmer lagrer i dag dine data i en form som er meget vanskelig tilgjengelig. Programmet du bruker i dag vil være i stand til å lese det, men vil det samme være tilfelle i framtiden?

Ved lagring av dokumenter og data generelt bør man ta høyde for at programmet som ble brukt til å lage dokumentet ikke alltid vil være tilgjengelig. Filene bør ikke være mer kompliserte enn nødvendig, og proprietære, obskure formater bør unngås. Spesielt hvis teksten er vanskelig å lese på andre maskinplattformer eller man har et ønske om at dokumentet skal kunne vises på en lang rekke medier.

For hver type data (tekst, bilder, lyd, film osv.) finnes det et vell av forskjellige formater å velge i. Noen av disse er av høy kvalitet, men bruken begrenses ofte av patenter og lisenser som setter grenser for hva forbrukeren kan foreta seg med formatet. Lite utbredt støtte for enkelte kryptiske formater forekommer også, ofte er en fil kun leselig på en sær maskinvareplattform med et spesialprogram som i verste fall ikke har muligheter for å eksportere dataene for innlesing i andre programmer. Etterhvert har det også blant annet i USA blitt forbudt å analysere dine egne data og lage uautoriserte dekodere som kan lese proprietære formater. Det er derfor av stor viktighet at filene er lagret i et format som man vet vil være fritt tilgjengelig langt inn i fremtiden, ellers risikerer man å sitte med dataene sine der lesbarheten er avhengig av programprodusentens godvilje. Du kan lese filen, men forstår du den?

I den anledning kan det derfor være ønskelig å konvertere dokumentet/filen til et annet format som egner seg bedre for lagring.

3. BESKRIVELSE AV FORSKJELLIGE FORMATER

Den følgende oversikten inneholder en liste over forskjellige lagringsformater som hver har sine fordeler eller ulemper, alt etter hva slags behov man måtte ha for lagring. Skal teksten/innholdet eksempelvis inneha en stor grad av fleksibilitet og kunne vises på en lang rekke utstyr, eller forlanges det at dokumentet skal vises nøyaktig likt alle steder?

Felles for alt som listes opp her, er at formatene er åpne og ikke er heftet av patenter som begrenser bruken. Proprietære og lukkede formater, filtyper som ikke er skikkelig dokumentert eller gjennomtenkt og som ikke egner seg for langsiktig lagring blir stille og elegant ignorert. En konsekvens av at formatene er åpne og godt dokumenterte, er at det til enhver tid vil eksistere informasjon om hvordan dataene kan leses, og at det dermed vil være mulig å rekonvertere til nye og eventuelt bedre formater hvis det skulle vise seg at de utgår på dato en gang i framtida.

3.1 TEKST

3.1.1 REN TEKST

Det enkleste og letteste formatet å ha med å gjøre, skulle man tro er ren tekst, uten spesielle formateringskoder. Det som imidlertid kan skape problemer, er virvaret av forskjellige tegnsett.

For å ta det helt grunnleggende, et tegnsett er tallverdiene som hvert tegn er representert med internt i datamaskinen. De fleste tegnsettene (IBMs EBCDIC som et unntak) baserer seg på ASCII som ble definert i den teknologiske steinalder 1968. Det er et 7-bits tegnsett og definerer verdiene 0–127 — det engelske alfabetet, tall og generell tegnsetting. Etterhvert begynte ryktene å gå om at det var flere språk ute i den store verden, og området 128–255 ble tatt i bruk til særnasjonale bokstaver og tegn.

På grunn av at en byte bare kan ha 256 forskjellige verdier, har det i årenes løp blitt utviklet et vell av forskjellige tegnsett for å kunne representere spesielle bokstaver på forskjellige språk. En norsk Æ har verdien 198 i «ISO-8859-1»-tegnsettet (også kjent som «latin1») som er det mest brukte tegnsettet under UNIX og windows i vestlige land. Akkurat den samme Æ’en har verdien 146 i MS-DOS («CP865»-tegnsettet) og 174 på Macintosh. Sitter du med MS-DOS og skal lese en fil laget i Linux eller windows, vil «æøåÆØÅ» bli skrevet som «µ°σ╞╪┼» og på Macintosh vil det vise seg som «Ê¯ÂΔÿ≈». Bare rot. På norsk kan man saktens tråkle seg fram til riktig tegnsett i og med at vi stort sett bare har æøå å tenke på, men får vi med russiske, hebraiske eller japanske tekstfiler å gjøre, blir det straks verre. Det er rundt regnet bortimot 200 forskjellige tegnsett i vanlig bruk i verden i dag, hvert med sine særegenheter, og å finne ut hvilket tegnsett som er brukt er ikke alltid en enkel sak.

For å ordne opp i dette, ble Unicode utviklet, et gigantisk tegnsett som på sikt skal inneholde tegn og bokstaver fra alle verdens språk, også antikke skriftspråk som gammelgresk, runer og egyptiske hieroglyfer. Selv om kinesisk, japansk og koreansk har okkupert brorparten av tegnplassene som er delt ut hittil, er det nok å ta av. ISO 10646 definerer «Universal Character Set» som et 31-bits tegnsett (2.147.483.648 tegn), men det antas at det aldri vil bli nødvendig å bruke området over 21 bits, noe som gir plass til en drøy million tegn. Planen er at dette skal være den endelige måten å representere skriftspråk i datamaskiner, og tildelingen av tegnplasser gjøres av The Unicode Consortium som er en uavhengig organisasjon uten forbindelser til de store kommersielle selskapene.

En oversikt over tegnene som hittil er tildelt, ligger på <http://www.unicode.org/charts/> i PDF-format.

Unicode kan lagres i flere forskjellige formater. Under windows og NT er det vanlig å lagre det i «UCS-2», med den mest signifikante byten først. En «A» blir dermed lagret som bytene 00+65. Dette er et ganske upraktisk format å ha med å gjøre, av flere grunner:

I tillegg til dette finnes flere måter å lagre Unicode på. Kort fortalt er disse UCS-4, UCS-4LE, UCS-4BE, UTF-16, UTF-16BE, UTF-16LE, UTF-32, UTF-32BE og UTF-32LE der noen av disse bruker fire bytes på å representere ett tegn, noe som medfører en firedobling av filstørrelsen.

Den mest smertefrie overgangen til Unicode er per i dag å lagre teksten i UTF-8 fordi:

En god innføring i UTF-8 kan du finne på <http://www.cl.cam.ac.uk/~mgk25/unicode.html>.

3.1.2 HTML/XHTML

Formatet som hjemmesider og dokumenter på WWW er skrevet i. Passer meget godt til langtidslagring av dokumenter på grunn av dets store utbredelse og at det er ganske lesbart for det menneskelige øye. På de fleste maskinplattformene vil det finnes en eller annen form for HTML-leser (engelsk: «browser») eller konverteringsverktøy. Det ferdige resultatet som vises på skjermen eller skrives ut vil ikke nødvendigvis se nøyaktig likt ut alle steder. Velskrevet (X)HTML vil kunne vises på en lang rekke utstyr, for eksempel HTML-lesere med og uten grafikk, utstyr for blinde, mobiltelefoner og utskrift til papir. Fila trenger ikke å inneholde 8-bits tegn, ved hjelp av såkalte «entiteter» (engelsk: «entities») kan man skrive på alle verdens språk kun ved bruk av ren ASCII. For at bilder skal kunne vises, kreves det flere filer, eller de må være tilgjengelig via datanettverket.

3.1.3 STRUCTURED GENERAL MARKUP LANGUAGE (SGML)

Som oftest skrevet manuelt i en teksteditor. SGML er et vidt begrep. HTML for eksempel, er egentlig en SGML-dialekt som har sin egen «Document Type Definition» (DTD) — en definisjon av hvordan dokumentet er oppbygd og som definerer hva som kan brukes i korrekt sammenheng. En del standardiserte DTD-er er i utstrakt bruk, en av de mest populære er for bruk med DocBook, et program som brukes mye til dokumentasjon. DocBook kan konvertere SGML-filene til en rekke formater, blant andre HTML, Postscript og PDF.

3.1.4 EXTENDED MARKUP LANGUAGE (XML)

En videreføring av SGML. Mange programmer lagrer filene direkte i XML, disse kan ofte være meget kompliserte. Lesbarheten for det menneskelige øye varierer, fra enkle filer skrevet i en teksteditor til maskingenerert svada med kryptiske data. Det er derfor ikke garantert at filene er særlig lette å konvertere til nye formater, men dette er for å øke fleksibiliteten da forskjellige programmer har forskjellige behov. Åpen programvare har imidlertid ikke for vane å gjøre ting mer komplisert enn nødvendig. Hvis formatet er meget komplisert, kan man i likhet med SGML trenge en DTD som beskriver formatet de forskjellige dataene er lagret på. Filene trenger ikke å inneholde 8-bits tegn, men kan inneholde entiteter som vil kunne representere tegn og bokstaver fra alle verdens språk.

3.1.5 LaTeX/TeX

TeX er et makrospråk utviklet av Donald Knuth. Det er ganske utbredt i universitetsmiljøer og er spesielt godt egnet til vitenskapelige og matematiske artikler og bøker. TeX kan i seg selv virke ganske kryptisk, og man skal være rimelig frelst for å bruke det til allmenn bruk. På grunn av dette ble LaTeX utviklet, et makrospråk som har likheter med TeX, men som begrenser nødvendigheten av å måtte «programmere» sine dokumenter. Terskelen for å kunne lære seg TeX/LaTeX er litt høyere enn det man forventer av «vanlige» brukere, men har man behov for å skrive kompliserte matematiske uttrykk eller vitenskapelige formler, er det noe av det beste på markedet.

TeX/LaTeX er utviklet med filosofien «What You Want Is What You Get» og ikke «What You See Is All You Get» som grafiske tekstbehandlere baserer seg på. Teksten skrives inn i en vanlig teksteditor og forfatteren slipper å ta konsentrasjonen bort fra innholdet for å henge seg opp i tittelstørrelser, skrifttyper og formatering. Bruken av tekstbehandlere som bruker prinsippet «WYSIWYG» (What You See Is What You Get) fører lett til at forfatteren blir sittende og fikle med layout og typografi, noe som vedkommende kanskje ikke er kvalifisert for. Typografi er et omfattende fagområde å sette seg inn i, og WYSIWYG-applikasjoner stiller krav til brukeren om å beherske dette. Tex/LaTeX tar denne byrden fra forfatteren og setter dokumentet opp på en måte som ser typografisk riktig ut og lar derfor vedkommende fokusere på innhold, ikke utseende.

TeX/LaTex kan være maskingenerert, men skrives som oftest i en standard teksteditor og er derfor lesbar direkte for det menneskelige øye. Det finnes mange programmer som kan konvertere det til andre formater som for eksempel HTML. Etter at en fil er behandlet med TeX eller LaTeX, genereres en .dvi-fil som igjen kan konverteres til Postscript eller PDF.

3.2 PRESENTASJONSFORMATER

Med «presentasjonsformater» menes filformater som er ment å kunne gjenskape et dokument nøyaktig slik det var tenkt, med nøyaktig lik sidevisning selv om filen blir lest av forskjellige programmer, eller på forskjellige maskinvareplattformer.

3.2.1 PORTABLE DOCUMENT FORMAT (PDF)

En grafisk PDF-leser vil (forhåpentligvis) vise dokumentet nøyaktig likt på alle skjermer, og man vil kunne se en nøyaktig kopi av det som vil skrives ut. PDF-filer kan leses med den offisielle versjonen fra Adobe, Acrobat Reader som kan hentes gratis og som kan brukes på en lang rekke plattformer: Linux, Solaris, Symbian OS, Palm OS og Windows bare for å nevne noen. I tillegg finnes det flere forskjellige lesere som kan defineres som Open Source.

PDF er i liten grad redigerbart, det er ment å være et format for lesing og utskrift. Skal det gjøres forandringer i dokumentet, må man få tak i det originale dokumentet PDF-fila er laget fra.

Det er heller ikke alltid det vil være så enkelt å konvertere dokumentetet. Det kan være problemer å plukke ut ren tekst fra dokumentet, avhengig av programmet fila er laget med. Dette kan gi seg utslag i mellomrom mellom bokstavene i et ord, eller at enkelte bokstaver og ord forsvinner på grunn av at de ofte er representert ved hjelp av bilder. PDF er binærfiler, og inneholder derfor 8-bits tegn.

3.2.2 POSTSCRIPT

I de fleste tilfeller er PDF mer praktisk til langtidslagring. Postscript er ment som et mellomformat på vei til skriveren og kan derfor inneholde spesifikk informasjon om en spesiell skriver. Det er ukomprimert og tar relativt stor plass i enkelte tilfeller. Dette gjelder imidlertid som oftest bare når det er maskingenerert kode, ikke når det er manuelt programmert. Postscript er et programmeringsspråk som man kan lage ganske så kompliserte figurer i. Hele dokumentet lagres kun som en fil som også inneholder bilder og skrifttyper. Filene inneholder som oftest ingen 8-bits tegn.

3.3 BILDER

3.3.1 PORTABLE NETWORK GRAPHICS (PNG)

Etter at Unisys bestemte seg for å tjene penger på GIF-formatet som de eier patenten på, kom PNG inn som et gratis og bedre alternativ. Det er i likhet med JPG komprimert og derfor en del mindre enn GIF-bilder, men komprimeringen foregår uten at det blir tap av bildekvalitet. JPG-bilder blir merkbart dårligere ettersom komprimeringen øker, og GIF har alvorlige begrensninger, blant annet kan en GIF-fil bare inneholde opp til 256 farger.

3.3.2 Joint Photographics Expert Group (JPG/JPEG)

JPG-filer er i dag den vanligste måten å lagre og utveksle bilder til hjemme- og halvprofesjonell bruk. Det er i stand til å gjengi bilder med høy fotografisk kvalitet, men inneholder komprimering og vil derfor medføre et visst tap av bildedata, alt etter kvaliteten bildet er lagret med. Komprimeringen som brukes i JPG er optimalisert for fotografier eller bilder med et stort antall farger. Dette vil ofte føre til at ikoner og detaljerte småbilder med store kontraster i mange tilfeller vil se bedre ut hvis de lagres som .png eller .gif-filer. Per Inge Østmoen har skrevet artikkelen «Bildelagring — formater og problemer» som tar for seg komprimering av bilder. Den er tilgjengelig på EFNs hjemmesider med adressen <http://www.efn.no/bildelagring.html>.

Selv så vanlig JPG-formatet er på Internett og blant brukere, tok det lang tid før det ble tatt med i dette dokumentet. Årsaken er et patentkrav som ble fremsatt av Forgent Networks ganske nylig der de påberopte seg patentrettigheter til logaritmer som brukes for tolking av formatet. En del usikkerhet har versert angående friheten på formatet, og det var en periode muligheter for at standarden ble fjernet fra listen over ISO-standarder. Selv om blant andre Sony betalte summer i milliondollarklassen til dette firmaet for å sikre seg retten til framtidig bruk av formatet, har patentkravet istedenfor å få juridiske konsekvenser heller bidratt til den generelle munterhet og det blir stort sett ikke tatt seriøst.

3.3.3 TIFF

Et ganske stort bildeformat som er ment for profesjonell bruk og til behadling av bilder og sider som skal ut på papir. Brukes mye av fotografer og avis- og bladredaksjoner. Det er et omfattende format med mange lagringsmuligheter og det kan til tider være uenighet i tolkningen av formatet lagret på andre maskinplattformer.

Kildekode og programmer for å behandle .tiff-bilder: <http://www.libtiff.org/>.

(Mer inngående info om fordeler, oppbygning og bruksområder mottas med takk.)

3.4 LYD

3.4.1 WAV

Ukomprimert lagringsformat utviklet av Microsoft. Det er i stand til å lagre musikk fra CD-er uten tap, men tar stor plass. Egner seg best til bruk i lydredigeringsprogrammer der det ikke er ønskelig å bruke maskinressurser på å (de)komprimere lyddataene under kjøring. Ved «ripping» av CD-er lagres filene som oftest i dette formatet, og man vil vanligvis komprimere dem med flac for å unngå tap, eller Ogg Vorbis for lagring i musikkarkivet.

3.4.2 FLAC

Komprimert format for lagring av lyd. Det pakker .wav-filer «lossless», altså uten tap av originale lyddata. Filene blir omtrent halvparten så store som de originale .wav-filene. Meget godt egnet for sikkerhetskopi av favorittene i platesamlinga, men kan etterhvert som samlinga utvider seg ta uforholdmessig stor plass. Dette blir en vurderingssak fra forbrukerens side, etterhvert har prisen på lagringsmedia som kjent rast nedover.

3.4.3 OGG VORBIS

Komprimert format for lagring av lyd. Samme prinsippet som MP3, men bruker andre algoritmer som ikke er belemret med patenter. Meget bra for lagring, men er et «lossy» format, noe som gjør at noe av lyddataene går tapt. Det er imidlertid bare et irritasjonsmoment uten særlig praktisk betydning for andre enn purister som vil lagre musikken «lossless». Gull-ører over hele verden har vært med under testing og utvikling av formatet, og det regnes nå som MP3 helt overlegen. Størrelsen på den ferdige .ogg-fila kan variere fra 1⁄30-del av .wav-fila (slappeste kvalitet «-1», ca. 46 kilobits/sekund) til en snau tredjedel (Beste kvalitet «10», ca. 432 kilobits/sekund)¹. Bedre komprimering kan også oppnås, alt ettersom hvor nøye det er med lydkvaliteten. En filstørrelse på nærmere en hundredel av .wav-fila er ikke vanskelig å få til, med helt akseptabel lydkvalitet for lagring av f.eks. tale.

Hjemmesiden til Ogg Vorbis er <www.vorbis.com> der du kan finne informasjon og de originale programmene for avspilling og produksjon av .ogg-filer.

3.5 FILM

3.5.1 THEORA

Et nytt filformat for lagring av film. Det er basert på den såkalte «VP3-codec»-en som er patentert av On2 Technologies, Inc.. Denne patenten ble i september 2002 forært Open Source-miljøet til fri bruk. Utvikling av Theora skjer i regi av Xiph.org, selskapet som har utviklet Ogg Vorbis.

Theora er under utvikling, men en 1.0-versjon er like rundt hjørnet. Den var forventet å være ferdig i juni 2003, men er pr. 2004-01-20 kommet til «alpha 2»-versjon. Det er fint de tar seg god tid for å gjøre det skikkelig. For dette blir en slager, og er virkelig noe å glede seg til for alle film- og animasjonsinteresserte. Mer informasjon er å finne på hjemmesiden, <http://www.theora.org>.

3.5.2 MULTIPLE-IMAGE NETWORK GRAPHICS (MNG)

En avlegger av PNG-formatet som inneholder animasjon. En oversikt over hvilke avspillere som støtter MNG kan du finne på <http://www.doc.cs.univ-paris8.fr/mirrors/mng/mngapps.html>. Hjemmeside: <http://www.libpng.org/pub/mng/>.

3.6 KRYPTERING

Når det gjelder å beskytte sine data mot lesing av uvedkommende, er null sikkerhet bedre enn dårlig sikkerhet. Et krypteringsprogram som bruker dårlige og enkle algoritmer vil gi en falsk trygghetsfølelse og føre til at sensitive data blir lagret på en måte som ofte bare fører til mindre anstrengelser fra de som går inn for å få tilgang til dataene. Det er overraskende laber kvalitet på krypteringen til de fleste programmer som har denslags innebygget, det finnes programmer som knekker passordsperrede filer i Word, Wordperfect, Excel osv. på sekunder. Et program som knekket passord på Wordperfectfiler på 90-tallet hadde til og med innlagt pause på noen sekunder så brukeren ikke skulle se at programmet fant det riktige passordet på brøkdelen av et sekund. Kun et fåtall programmer har den nødvendige sikkerheten som gjør det mulig å kryptere data med militær sikkerhet, noen slike er listet ut nedenfor.

3.6.1 GPG/GnuPG — GNU PRIVACY GUARD

Meget kraftig og sikkert krypteringsprogram med GPL-lisens. Er med dagens teknologi uknekkelig, og vil være sikkert i mange år framover. Baserer seg på prinsippet med en privat og offentlig nøkkel der den offentlige nøkkelen kan deles med offentligheten, og den private nøkkelen beskyttes. Den private nøkkelen brukes til å dekryptere og signere filer, og personer som har den offentlige nøkkelen kan bruke denne til å kryptere filer som kun den som har den private nøkkelen er i stand til å dekryptere.

Hvis sterk kryptering er påkrevet, er dette programmet å anbefale. Det er den mest seriøse aktøren på krypteringsarenaen innenfor Open Source-miljøet i dag.

Hjemmeside: <http://www.gnupg.org>.

3.6.2 PGP — PRETTY GOOD PRIVACY

Forløperen til GnuPG, originalt laget av Philip Zimmermann i 1991. Dette var første gang sterk kryptering ble tilgjengelig for allmennheten, og resulterte i at Zimmermann ble tiltalt for brudd på loven som forbyr eksport av sterk kryptoteknologi fra USA. En del komplikasjoner rundt patentrettigheter på enkelte krypteringsalgoritmer i PGP førte etterhvert til at Ståle Schumacher Ytteborg utviklet en internasjonal versjon av PGP som fritt kunne brukes utenfor USA med andre og faktisk bedre algoritmer. Denne versjonen var ikke lovlig til bruk innenfor USA, men fritt tilgjengelig utenfor. Senere ble også loven mot eksport av kryptografisk materiale omgått. Denne loven forbød bare eksport i elektronisk form, og en stor dugnad ble organisert der kildekoden for PGP 5.0 ble trykket på papir, sendt ut av USA og deretter scannet ved hjelp av OCR (Optical Character Recognition) tilbake til elektronisk form. Dette ble den internasjonale PGP 5.0i, helt lovlig å bruke, og ingen eksportbestemmelser ble brutt.

PGP blir fortsatt brukt av mange, men etterhvert som PGP ble lansert som et kommersiellt produkt, ble det slutt på distribusjon av kildekoden. Pr. april 2003 er 8.0 den siste versjonen, men den siste versjonen som ble levert med kildekode var 6.5.8 som daterer seg helt tilbake til 2000-09-07. Et krypteringsprogram uten kildekode er ikke mye verdt, de fleste vil derfor anse GnuPG for å være et bedre alternativ.

Oppdatering 2003-08-13: I følge <http://www.pgp.com/products/sourcecode.html> gjøres kildekoden tilgjengelig for «peer review» med sterke restriksjoner, og det er bare tilgjengelige versjoner for Windows og Macintosh.

Noen bruker fortsatt den gamle PGP-versjonen 2.6.3i fra 1996-04-24 og ser ut til å klare seg bra med det. Den er ikke oppdatert siden da, men hvis den er av interesse, finnes den på <http://www.pgpi.org/download/>. En innføring i patentbestemmelsene for denne versjonen ligger på <http://www.pa.msu.edu/reference/pgp-readme-1st.html>.

Hjemmeside: <http://www.pgpi.org>.

4. KONVERTERING

4.1 FRA MS WORD

Microsoft Word er et ganske utbredt lagringsformat i bedrifter og blant private, og brukes i stor grad til utveksling av informasjon på epost. Dette går til en viss grad greit på Microsoft-plattformen og hvis man har en rimelig oppdatert versjon av Word. Sitter man derimot på en eldre versjon av Word, kan ikke nye dokumenter leses uten videre. Det samme gjelder også hvis det er eldre dokumenter (Word versjon 2.0 som et eksempel) i nyere versjoner av Word. Nye Word-versjoner klarer faktisk ikke å lese gamle filer, og hvis det er støtte for gamle dokumenter, blir det ofte store avvik fra originalen. Dette er bevisst politikk fra Microsofts side, for å tvinge forbrukerne til å stadig oppgradere til siste versjon eller kjøpe «filtre» som kan lese gamle filer. Word-formatet må derfor betegnes som et lite holdbart lagringsformat, når det viser seg at det allerede nå er store problemer med å lese gamle dokumenter.

En mer dyptgående analyse av problemene og usikkerheten rundt Word-formatet finnes i artikkelen «Brave New Word» av Thomas Gramstad som ligger tilgjengelig på EFNs hjemmesider.

4.1.1 TIL HTML

AbiWord lager fin HTML som også blir godkjent av HTML-validatoren på w3.org. Den lagrer imidlertid filene i UTF-8, og selv om dette etter utviklingen å dømme er tegnsettet som vil bli mest brukt i fremtiden, er det ikke alle browsere som støtter dette enda. En ganske sikker måte er å konvertere alle UTF-8-sekvensene til entiteter som kan skrives utvetydig kun ved bruk av 7-bits ASCII. Programmer som kan oversette fra UTF-8 til HTML-entities, er:

AntiWord — Hjemmeside: <http://www.winfield.demon.nl/>.

KWord — MS Word-lignende tekstbehandler og presentasjonsverktøy som kjører under KDE. Hjemmeside: <http://www.koffice.org/kword/>

OpenOffice.org — En Open Source «office-pakke» med blant annet tekstbehandler, regneark og diverse presentasjonsverktøy. Den er basert på Star Office som etterhvert valgte å trå inn i den kommersielle verden. Open Office er fullt på høyde med Microsoft Office når det gjelder krav til vanlig bruk. Hjemmeside: <http://www.openoffice.org>.

4.1.2 TIL POSTSCRIPT

Postscript-filer kan lages fra de fleste programmer som har utskriftsmuligheter. Velg en Postscript-printer og skriv deretter til en fil.

4.1.3 TIL PDF

En mye brukt metode for å konvertere til PDF, er å gå veien om Postscript og deretter konvertere denne fila til PDF. Programmer som for eksempel ps2pdf kan brukes til dette. Mange programmer som for eksempel OpenOffice kan eksportere dokumentet direkte til PDF.

Det gjøres oppmerksom på at selv om .pdf-fila vil få økt lesbarhet på forskjellige plattformer, vil muligheten til å gjøre endringer i fila forsvinne. Den originale .doc-fila bør derfor i tillegg lagres i et åpent tekstbehandlingsformat som for eksempel OpenOffice.

4.2 FRA MP3

MP3 («Moving Picture Experts Group, Audio Layer III») revolusjonerte lydlagringen da det kom i vanlig bruk tidlig på 1990-tallet. Det ble utviklet av det tyske selskapet Fraunhofer Institut på midten av 80-tallet og de fikk i 1989 patent på teknologien. Formatet ble etterhvert det mest brukte lydformatet blant folk til lagring av musikk og kunne fortsatt vært et greit nok alternativ hvis ikke Fraunhofer bestemte seg for å gjøre store penger på formatet. I september 1998 sendte de et brev til utviklere av gratisprogrammer som lager MP3-filer med beskjed om at de sitter på patenten og det nå må betales for å bruke formatet. Dette gjaldt også produsenter av MP3-spillere, og prisen ble satt til $15.000 (femten tusen dollar) som en engangssum og deretter $2,50 per enhet. Det ble også innført avgift på avspillingsutstyr for MP3-filer, $15.000 som en engangssum og $0,50 per enhet. De har etterhvert moderert kravene litt, og dagens priser finner du her. Alt dette resulterer i at da Fraunhofer har både patenten og lovverket på sin side, er det ikke sikkert det vil bli tillatt å bruke MP3-programmer i framtiden som ikke er kjøpt på lisens. For de som har et stort lager av MP3 og ikke vil betale for å høre på musikken sin vil dette være meget dårlige nyheter. Enkelte Linux-distribusjoner har fjernet støtte for alt som har med MP3 å gjøre nettopp på grunn av dette.

I tillegg har tidens tann tært på MP3-formatet, det er egentlig gammel teknologi som ikke har gjennomgått nevneverdig utvikling siden begynnelsen av 90-tallet. Arvtakeren MP3Pro er en del mer oppdatert til dagens nivå hva teknologi angår, men de tunge patentene som formatet er belemret med, innbyr ikke til aktiv bruk.

Et mye bedre alternativ til MP3 er Ogg Vorbis som har vist seg å overgå MP3 på de fleste, muligens alle områder. De fleste avspillingsprogrammer støtter i dag dette formatet, blant andre de populære programmene XMMS, WinAmp og Zinf, tidligere kjent som FreeAmp.

4.2.1 TIL OGG VORBIS

Direkte konvertering fra MP3 til Ogg Vorbis bør vanligvis unngås. MP3 og OGG bruker forskjellige pakkealgoritmer, og en konvertering fra MP3 til OGG vil medføre at kvaliteten blir dårligere, lyddata skjæres bort to ganger: a) Ved konvertering til MP3 og b) konvertering fra MP3 til OGG. Hvis du har råmaterialet tilgjengelig (For eksempel CD-en, .flac- eller .wav-fila) bør mellomstadiet MP3 kuttes bort og en konvertering gjøres direkte. Er ikke utgangsmediet tilgjengelig og du vil gjøre deg ferdig med MP3, finnes det imidlertid metoder.

4.2.1.1 UNDER LINUX

Audacity er et lydredigeringsprogram som kan lese MP3-filer og fra versjon 1.0.0 har mulighet for å lagre dem i Ogg Vorbis.

Problemet med å bruke dette programmet, er at man må ta en og en fil om gangen, og man må vente til komprimeringen er ferdig. Er det en stor mengde filer som skal konverteres, bør et script eller program ta seg av alle filene på en gang, så kan man gjøre andre ting mens maskinen jobber for seg sjøl. Bash-scriptet mp3_to_ogg tar seg av denne jobben. For at det skal fungere, er disse programmene nødvendig:

Siste versjon av scriptet kan hentes fra fra <http://www.sunbase.org/src/mp3_to_ogg/mp3_to_ogg>.

4.3 FILM

Film kan være et komplisert format å konvertere blant annet fordi det er så mange faktorer å ta med i betraktning under prosessen. Alt ettersom hvor stor verdi opptaket har, i hvilken grad den samme filen kan hentes fra offisielle kilder, bør du bestemme deg for hvilken kvalitet den skal lagres i. Lagringen krever stor plass, og det kan derfor være greit å tenke gjennom hvilke ting du vil prioritere å bruke plass på. Dette er hovedfaktorene som bestemmer plassbruken:

De aktuelle konverteringsprogrammene vil som oftest konvertere med ganske greie standardinstillinger, så det vil her i dokumentet bare bli lagt inn oppskrifter som er på et ganske generelt nivå, fininstillinger er beskrevet i dokumentasjonen for de enkelte programmene.

4.3.1 MULIGE PATENTPROBLEMER

Filmer blir lagret ved hjelp av forskjellige «codecs» som beskriver formatet og datamengden filmen består av. Disse blir av noen Open Source-programmer brukt i form av modifiserte eller konstruerte biblioteker, for eksempel .dll-filer. Et eksempel på dette er programmet MPlayer som støtter avspilling og generering av hundrevis av lyd- og filmformater. En stor del av disse har imidlertid et diskutabelt forhold til patenter som ikke gjelder i Norge og EU for øyeblikket, men som gjennom restriktive EU-direktiver kan gjøre tilgang og bruk en del vanskeligere enn i dag. Dette er forsåvidt et tema som gjelder de fleste formatene, men spesielt avdelingen for filmformater er et juridisk minefelt der man må sjekke hver minste algoritme, spesielt i USA der man lett risikerer søksmål for brudd på de mest banale algoritmer. Det er lett å føyse denne problematikken bort med en «jeg gir blanke og bruker hvilke biblioteker jeg vil»-innstilling, men brukes programvare i kommersiell øyemed, følger det med en del potensielle restriksjoner og regler man må rette seg etter. Skal du derfor bygge opp et arkiv med filmer (som er erhvervet på lovlig måte og som du derfor har bruksrett til, bare for å få den diskusjonen av veien) er det derfor viktig å konvertere filmen til et åpent format. Hvis du lagrer i et filmformat som medfører kvalitetstap, er konvertering en ting man som helst bare vil gjøre en gang.

Kommer: Fremgangsmåter for å konvertere ting som .wmv til Theora, .mpg og eventuelle andre. Hvis du har erfaring med denslags konvertering der (aller helst) åpen programvare er brukt, vennligst send oppskriften til sunny@efn.no så det kan bli tatt med i dokumentet.

5. BIDRAGSYTERE

Takk til Roy Galaasen, Tom Grydeland og Ragnar Skre for kreative innspill.

6. FOTNOTER

¹: Utført med Ogg Vorbis 1.0 på «Two of us» av Beatles.


Dette dokumentets adresse:
http://www.efn.no/filkonvertering.html

Elektronisk Forpost Norge er en rettighetsorganisasjon som jobber
med medborgerskap og juridiske rettigheter i IT-samfunnet.
www.efn.no


Sist oppdatert av   Øyvind A. Holm   2004-05-18 10:37:12 +0200

Creative
 Commons License

Dokumentet er lisensiert under en Creative Commons-lisens.

Support the Blue Ribbon
 Campaign for Free Speech! Best Viewed With Any Browser Valid XHTML 1.0! Frames Free! Ribbon 
Campaign www.linux.org — a GNU 
and better computer for you