MILYEN FORMÁTUMBAN VANNAK A MEK DOKUMENTUMOK?
(1996. augusztus 1.)
A számítástechnika és az Internet jelenlegi gyors fejlődése -- és a
szabványosítás hiányosságai -- miatt sajnos nagyon sokféle formátumban
léteznek manapság az elektronikus szövegek. Ezt a formai változatosságot
tovább súlyosbítja a magyar (és egyéb európai nyelvek) ékezetes betűinek
problémája. Ha minden elterjedt megoldást figyelembe veszünk, akkor a
különböző szövegformátumok és kódkészletek kombinálásával például az "Anyám
tyúkja" több száz variációban is számítógépre vihető. A MEK-ben megpróbálunk
minél kevesebb formátumot használni és minden mást ezek valamelyikére
konvertálni. Csak a nálunk leginkább elterjedt ékezetes "szabványokat" és
szövegformátumokat támogatjuk, és ezek közül is elsősorban azokat,
amelyekhez ingyenesen terjeszthető megjelenítő vagy konvertáló program
létezik -- lehetőleg minél több géptípusra illetve operációs rendszerre.
Néhány speciális dokumentumnál teszünk csak kivételt, de a szükséges
megjelenítő program rendszerint ilyenkor a dokumentum mellé van csomagolva.
Ékezetek
A MEK kialakításakor arra törekedtünk, hogy minél szélesebb kör tudja
ékezethelyesen olvasni és letölteni a magyar nyelvű dokumentumokat. Az
állományokat a helka gépen általában ISO 8859-2 (Latin-2) ékezetes
kódkészlettel tároljuk. Néhány dokumentum van csak ékezet nélküli
formátumban, de ezek eleve így is íródtak és így terjedtek el a hálózaton.
Előfordul, hogy egyes ASCII file-okban 437-es (CWI) ékezetek vannak, mert
ezek eredetileg ilyen kódkészlettel készültek és speciális keretrajzoló
karaktereket tartalmaznak, amelyek nem konvertálhatók Latin-2 kódokra. A
HTML formátumú dokumentumok viszont mind csak ISO 8859-2 (Latin-2) vagy HTML
"acute" betűkkel érhetők el.
Az online is nézegethető ékezetes ASCII szövegeknél a szolgáltató gopher
szerver a karakterek szempontjából ötféle megjelenítést kínál a
felhasználóknak:
- ISO 8859-2 (Latin-2) ékezetek;
- ISO 852 ékezetek;
- ISO 437 (CWI) ékezetek;
- ékezet nélküli formátum;
- repülő ékezetes formátum.
A MEK gopher "főbejáratnál" a különböző ékezetes "ajtók" közül a használt
klienstől függően célszerű választani:
- Az egyre jobban terjedő grafikus World-Wide Web böngészők (pl. MS
Explorer, Netscape) az ISO 8859-es karaktereket támogatják, így ezeket
használva a Latin-2-es ajtóval kaphatunk ékezethelyes megjelenítést. (Igaz,
ezek a kliensek néha csak a Latin-1 kódkészletre vannak felkészítve, de ez a
magyar ékezetes betűknél egyedül a hosszú "ő" és az "ű" esetében jelent egy
kis szépséghibát.) Azok számára is ez a felület ajánlatos, akik valamilyen
nagygépen futó karakteres gopher vagy World-Wide Web (pl. lynx) klienst
használnak. Továbbá ilyen formátumban érdemes letölteni a dokumentumokat
akkor is, ha később valamilyen Windows alá készült szövegszerkesztőbe
akarjuk őket betölteni. (A grafikus WWW kliensek használóinak egyébként
további két Latin-2-es ajtó is rendelkezésére áll: egy háttérképekkel
"feldíszített" gopher menürendszer és egy valódi HTML felület.)
- Ha a kliens PC-n, DOS alatt fut, akkor általában -- a DOS "codepage"
beállításától függően -- a 852-es vagy a 437-es (CWI) ékezetes formátum az
ajánlható. Ugyancsak így érdemes letölteni (vagy letöltés után ilyen formára
átkonvertálni) azokat a dokumentumokat, amiket később DOS alapú
szövegszerkesztőkkel vagy megjelenítőkkel akarunk használni.
- Akik csak levelezés útján, pl. GopherMail segítségével tudnak
hozzáférni a MEK anyagaihoz, azoknak inkább a repülő ékezetes forma tűnik
hasznosnak, amelyről tetszőleges formába lehet átkonvertálni a megkapott
file-t. Ugyancsak ez a legbiztosabb formátum akkor, ha a gopher vagy lynx
kliensből levélben akarjuk elküldetni magunknak vagy másoknak a kiválasztott
dokumentumot.
- Ha olyan gépünk, terminálunk, operációs rendszerünk, vagy kommunikációs
programunk van, amelyikkel nem lehet magyar ékezeteket megjeleníteni, és
csak meg akarunk nézni vagy el akarunk levélben küldeni egy egyszerűbb
szöveget, akkor érdemes az ékezet nélküli "ajtón" bemenni, mert az ilyen
szöveg könnyebben olvasható, mint a repülő ékezetes.
Ha nem tudjuk eldönteni, hogy melyik ékezetes formátumot képes a gépünk
jól megjeleníteni, akkor próbáljuk ki az egyes "ajtókat" és a főmenünél már
látni fogjuk a különbségeket. A Ruhatárban található egy teszt állomány,
amiben az összes, a MEK dokumentumokban található ékezetes betű szerepel;
ezt megnézve azonnal látszik, hogy a kliensünk pontosan mit és hogyan tud
megjeleníteni. A nem magyar ékezetes betűk egy része -- a kódkészletek
hiányosságai miatt -- csak a Latin-2 (és a repülő ékezetes) üzemmódban
létezik, egyéb esetben a legjobban közelítő karakter jelenik meg.
A gopher menükben a címek az angol ábécé betűinek sorrendjében jelennek
meg. Ennek az a kellemetlen következménye van, hogy az ékezetes betűvel
kezdődő címek a menülisták végére kerülnek. Ez alól egyelőre csak a
Szépirodalom polc a kivétel, ahol egy külön számozás segítségével az
ékezetes betűk az ékezet nélküli megfelelőjük mellé rendeződnek be. Az
ékezet nélküli és a repülő ékezetes üzemmódban természetesen nincs ilyen
"szépséghiba". A végleges megoldást a WWW felület teljes kiépülése jelenti
majd.
Ha nem a gopher vagy WWW kliens saját "Save" funkciójával mentjük el a
dokumentumot, hanem pl. Kermit-tel, Zmodem-mel vagy FTP-vel töltjük le,
akkor mindenképpen abban a kódkészletben lesz az elmentett file, amiben a
MEK szolgáltató gépén eredetileg is van -- tehát általában Latin-2-ben.
További bonyodalmat szokott okozni, ha egy Internet szolgáltatás
használója maga szeretne ékezetes betűket írni (bevihető-e ilyen a
billentyűzetén egyáltalán? megengedi-e a kommunikációs program? milyen
kódkészletet használ? stb.). Ezeknek a problémáknak a megkerülésére a MEK
gophernél egyelőre nem várjuk el azt, hogy a könyvtár használói ékezetes
betűket írjanak. Ezért bár nem tilos, de nem érdemes ékezeteket beírni a
Katalógusban való keresésnél. A MEK Web felületénél (pl. a Vendégkönyvnél) a
Latin-2 kódkészlet vagy a HTML "acute" karakterek használata javasolt, de
szintén nem kötelező.
Dokumentum- és file-formátumok
A MEK-ben "támogatott" és "megtűrt" dokumentum formátumok vannak. Az első
kategóriába a legelterjedtebb "public domain" formátumok tartoznak: ASCII,
HTML, PostScript, Adobe PDF és TeX. Ezek mellett megtűrt a hazánkban
általánosan használt Word for Windows, valamint néhány ritkábban előforduló
szabvány: RTF, SGML, Ventura, WordPerfect. Ezekről a formátumokról és a
hozzájuk tartozó file-név végződésekről részletesebben lásd a MEK Ajánlás
3.2 pontját (Irattár).
A leggyakoribb az ékezetes, max. 70 karaktereres sorokra tördelt,
elválasztójel nélküli ("sima") ASCII szöveg. (Az ilyen állományok neve
rendszerint ".hun" végződésű.) Ez a legkönnyebben kezelhető és terjeszthető,
a legkülönbözőbb gépkörnyezetekben is olvasható formátum, ami mindenféle
szerkesztővel, szövegfeldolgozó programmal, nyomtatóval stb. használható.
Egyetlen hátránya, hogy a magyar nyelvű "nyers" szövegen kívül speciális
dolgok: különleges karakterek, tipográfiai elemek, szövegtördelés,
betűtípusok, ábrák, képek, táblázatok stb. nem, vagy csak kompromisszumokkal
szerepelhetnek a dokumentumban. Ha ezek az adott dokumentumnál fontosak,
akkor az ASCII változat helyett/mellett valamilyen "fejlettebb" formátumot
használunk.
Utóbbiak közül a leggyakoribbak jelenleg a MEK gyűjteményében a Word for
Windows szövegszerkesztő ".doc" végződésű dokumentumai. Mivel a 2.0 verziójú
WinWord elterjedtebb és több szövegszerkesztő ismeri (köztük a Word újabb
verziói is), ezért igyekszünk az ilyen dokumentumokat 2.0-ás formátumra
konvertálva tárolni. A Word dokumentumok nagy problémája, hogy a
szövegszerkesztő verziójától, az adott gépen telepített karakterkészletektől
és a használt nyomtató típusától függően ugyanannak a dokumentumnak a
megjelenése kissé különböző lehet különböző számítógépeken: pl. megváltozik
a sorok és oldalak tördelése, másként jelennek meg egyes speciális
karakterek. De amíg jobb és szabványosabb formátumok nem terjednek el, addig
ezt kell elfogadnunk. A MEK egyébként sem nyomdakész dokumentumok "raktára",
hanem egy elektronikus szövegeket tartalmazó könyvtár. A WinWord
dokumentumok -- más speciális formátumú vagy nagyméretű állományokhoz
hasonlóan -- a letöltés megkönnyítése érdekében rendszerint tömörítve
találhatók a MEK-ben, hiszen ezek online böngészése úgysem célszerű.
Az állományok tömörítéséhez a PKZIP programot, annak is a leginkább
ismertnek tekinthető 1.02-es változatát használjuk. A tapasztalatok szerint
ezt a legtöbb, ZIP-szabványt ismerő szoftver ki tudja csomagolni, bár
nyilván nem a legjobb és leghatékonyabb tömörítő algoritmus. További
hátránya, hogy ha letöltés közben megsérül a file, akkor semmit sem lehet
belőle megmenteni. (Ilyenkor esetleg a PKZIPFIX program használata segíthet
még.) A ".zip" file-ok mellett van néhány önkicsomagoló, ".exe" állomány is.
Ezek rendszerint az ARJ program valamelyik változatával készültek és azzal
is ki lehet őket csomagolni. A futtatható programokat elindítás előtt
ajánlatos valami új vírusellenőrrel megvizsgálni, mert nem tudunk teljes
garanciát vállalni az archívum vírusmentességéért. Ugyancsak érdemes
ellenőrizni a WinWord dokumentumokat makrovírusok szempontjából, illetve
kikapcsolni az automatikus makroindítás funkciót a Word szövegszerkesztőben
(a /m opcióval a WinWord indításakor, vagy a Shift lenyomásával a dokumentum
betöltésekor).
A gopher és WWW kliensek egy része letöltés vagy elmentés előtt nem
mutatja meg az állomány eredeti végződését, így a ".zip" vagy ".doc" stb.
végződést nekünk kell a felajánlott file-név után írnunk. Ha nem vagyunk
biztosak a helyes végződésben, akkor nézzük meg a file elérési útvonalát
(Unix-os klienseknél például az "=" gombbal), és ebből általában kiderül az
állomány neve és típusa. Fontos azt is tudni, hogy a ".doc", ".zip", ".exe"
stb. végű állományokat "bináris módban" kell letölteni (pl. a Kermitnél vagy
az FTP-nél), míg a szöveges anyagoknál az "ASCII módú" letöltés ajánlható,
mert ilyenkor automatikusan megtörténik a sorvég-jelek konvertálása, melyek
a Unix és a DOS operációs rendszereknél különbözőek. Ha nem így teszünk,
akkor a sorvégeket utólag kell konvertálni.
Nézegetők, konvertálók
A különböző formátumokban levő dokumentumok megjelenítéséhez vagy
konvertálásához néhány szabadon terjeszthető segédprogramot a MEK gopherben
a Ruhatár és Raktár menüben "akasztottunk fel", de ezek többsége
természetesen más szoftverarchívumokból is letölthető. Érdemes először
mindig az "_index" nevű állományt megnézni, mert ebből kiderül az egyes
programok célja és mérete.
Néhány fontosabb program a jelenlegi gyűjteményből:
Az DOS és Windows segédprogramok "Archiválók" nevű menüjében az
általánosan használt PKZIP tömörítő mellett egyéb hasonló programok is
találhatóak.
Számos program van itt a különböző formátumú szöveges állományok
nézegetésére is. Ilyen például a már WinWord 6.0-ás dokumentumok
megtekintését is biztosító Word Viewer 6.0; vagy a Word, WinWord és
WordPerfect nézegető View 8.7-es program. Letölthetőek még ezenkívül Adobe
PDF, Postscript és TeX állományok kezeléséhez szükséges szoftverek is.
Vannak HTML->ASCII konvertáló programok is, amelyekkel kiszűrhetők a
letöltött HTML dokumentumokban levő formázó parancsok és "acute" karakterek.
A különböző ékezetproblémák megoldására egy univerzális ékezetes
karakter-átalakító program (CONVERT.ZIP) áll a könyvtári olvasók
rendelkezésére. A program a Latin-2, a CWI, a 852, és a repülő ékezetek
közötti konvertálást oldja meg, de a felhasználók további, tetszőleges
konvertáló táblákkal egészíthetik ki.
A WinWord makrovírusok elleni védekezéshez néhány ellenőrprogramot is
elhelyeztünk itt.
Ha valakinek ezek után is gondja van a MEK anyagainak letöltésével vagy
megjelenítésével, az jelezze a MEK üzemeltetőinek, de adja meg pontosan,
hogy milyen számítógépes környezetben, milyen programokkal dolgozik. Örömmel
veszünk újabb public-domain szövegkezelő és -konvertáló segédprogramokat is
a gyűjteménybe.