Dimenzió #16

Gyer(MEK)kor (Magyar Elektronikus Könyvtár)

(irodalom, népmesék, karcolatok, regények)

                MILYEN FORMÁTUMBAN VANNAK A MEK DOKUMENTUMOK?

                            (1996. augusztus 1.)

   A  számítástechnika  és  az  Internet  jelenlegi  gyors fejlődése -- és a
szabványosítás  hiányosságai  --  miatt  sajnos  nagyon  sokféle formátumban
léteznek  manapság  az  elektronikus  szövegek. Ezt a formai változatosságot
tovább  súlyosbítja  a  magyar  (és egyéb európai nyelvek) ékezetes betűinek
problémája.  Ha  minden  elterjedt  megoldást  figyelembe  veszünk,  akkor a
különböző  szövegformátumok és kódkészletek kombinálásával például az "Anyám
tyúkja" több száz variációban is számítógépre vihető. A MEK-ben megpróbálunk
minél  kevesebb  formátumot  használni  és  minden  mást  ezek valamelyikére
konvertálni.  Csak  a  nálunk leginkább elterjedt ékezetes "szabványokat" és
szövegformátumokat   támogatjuk,   és   ezek  közül  is  elsősorban  azokat,
amelyekhez  ingyenesen  terjeszthető  megjelenítő  vagy  konvertáló  program
létezik  --  lehetőleg  minél  több géptípusra illetve operációs rendszerre.
Néhány  speciális  dokumentumnál  teszünk  csak  kivételt,  de  a  szükséges
megjelenítő program rendszerint ilyenkor a dokumentum mellé van csomagolva.


                                  Ékezetek

   A  MEK  kialakításakor  arra  törekedtünk, hogy minél szélesebb kör tudja
ékezethelyesen  olvasni  és  letölteni  a  magyar  nyelvű dokumentumokat. Az
állományokat   a   helka  gépen  általában  ISO  8859-2  (Latin-2)  ékezetes
kódkészlettel   tároljuk.   Néhány   dokumentum   van  csak  ékezet  nélküli
formátumban,  de  ezek eleve így is íródtak és így terjedtek el a hálózaton.
Előfordul,  hogy  egyes  ASCII file-okban 437-es (CWI) ékezetek vannak, mert
ezek  eredetileg  ilyen  kódkészlettel  készültek  és speciális keretrajzoló
karaktereket  tartalmaznak,  amelyek  nem  konvertálhatók Latin-2 kódokra. A
HTML formátumú dokumentumok viszont mind csak ISO 8859-2 (Latin-2) vagy HTML
"acute" betűkkel érhetők el.

   Az  online is nézegethető ékezetes ASCII szövegeknél a szolgáltató gopher
szerver   a   karakterek   szempontjából   ötféle   megjelenítést   kínál  a
felhasználóknak:

                      - ISO 8859-2 (Latin-2) ékezetek;
                      - ISO 852 ékezetek;
                      - ISO 437 (CWI) ékezetek;
                      - ékezet nélküli formátum;
                      - repülő ékezetes formátum.

   A MEK gopher "főbejáratnál" a különböző ékezetes "ajtók" közül a használt
klienstől függően célszerű választani:

   - Az  egyre  jobban  terjedő  grafikus  World-Wide Web böngészők  (pl. MS
Explorer,  Netscape)  az  ISO  8859-es  karaktereket  támogatják, így ezeket
használva  a Latin-2-es ajtóval kaphatunk ékezethelyes megjelenítést. (Igaz,
ezek a kliensek néha csak a Latin-1 kódkészletre vannak felkészítve, de ez a
magyar  ékezetes betűknél egyedül a hosszú "ő" és az "ű" esetében jelent egy
kis  szépséghibát.)  Azok számára is ez a felület ajánlatos, akik valamilyen
nagygépen  futó  karakteres  gopher  vagy  World-Wide Web (pl. lynx) klienst
használnak.  Továbbá  ilyen  formátumban  érdemes letölteni a dokumentumokat
akkor  is,  ha  később  valamilyen  Windows  alá  készült szövegszerkesztőbe
akarjuk  őket  betölteni.  (A  grafikus  WWW kliensek használóinak egyébként
további  két  Latin-2-es  ajtó  is  rendelkezésére  áll:  egy háttérképekkel
"feldíszített" gopher menürendszer és egy valódi HTML felület.)

   - Ha  a  kliens PC-n, DOS alatt fut, akkor általában -- a DOS  "codepage"
beállításától  függően  -- a 852-es vagy a 437-es (CWI) ékezetes formátum az
ajánlható. Ugyancsak így érdemes letölteni (vagy letöltés után ilyen formára
átkonvertálni)   azokat   a   dokumentumokat,   amiket   később   DOS  alapú
szövegszerkesztőkkel vagy megjelenítőkkel akarunk használni.

   - Akik   csak  levelezés  útján,  pl.  GopherMail   segítségével   tudnak
hozzáférni  a  MEK  anyagaihoz, azoknak inkább a repülő ékezetes forma tűnik
hasznosnak,  amelyről  tetszőleges  formába  lehet átkonvertálni a megkapott
file-t.  Ugyancsak  ez  a legbiztosabb formátum akkor, ha a gopher vagy lynx
kliensből levélben akarjuk elküldetni magunknak vagy másoknak a kiválasztott
dokumentumot.

   - Ha olyan gépünk, terminálunk, operációs rendszerünk, vagy kommunikációs
programunk  van,  amelyikkel  nem  lehet magyar ékezeteket megjeleníteni, és
csak  meg  akarunk  nézni  vagy  el  akarunk levélben küldeni egy egyszerűbb
szöveget,  akkor  érdemes  az  ékezet nélküli "ajtón" bemenni, mert az ilyen
szöveg könnyebben olvasható, mint a repülő ékezetes.

   Ha  nem  tudjuk eldönteni, hogy melyik ékezetes formátumot képes a gépünk
jól  megjeleníteni, akkor próbáljuk ki az egyes "ajtókat" és a főmenünél már
látni  fogjuk  a  különbségeket.  A Ruhatárban található egy teszt állomány,
amiben  az  összes,  a MEK dokumentumokban található ékezetes betű szerepel;
ezt  megnézve  azonnal  látszik, hogy a kliensünk pontosan mit és hogyan tud
megjeleníteni.  A  nem  magyar  ékezetes  betűk  egy része -- a kódkészletek
hiányosságai  miatt  --  csak  a  Latin-2  (és a repülő ékezetes) üzemmódban
létezik, egyéb esetben a legjobban közelítő karakter jelenik meg.

   A  gopher  menükben a címek az angol ábécé betűinek sorrendjében jelennek
meg.  Ennek  az  a  kellemetlen  következménye van, hogy az ékezetes betűvel
kezdődő  címek  a  menülisták  végére  kerülnek.  Ez  alól  egyelőre  csak a
Szépirodalom  polc  a  kivétel,  ahol  egy  külön  számozás  segítségével az
ékezetes  betűk  az  ékezet  nélküli  megfelelőjük  mellé rendeződnek be. Az
ékezet  nélküli  és  a  repülő ékezetes üzemmódban természetesen nincs ilyen
"szépséghiba".  A  végleges megoldást a WWW felület teljes kiépülése jelenti
majd.

   Ha  nem  a  gopher vagy WWW kliens saját "Save" funkciójával mentjük el a
dokumentumot,  hanem  pl.  Kermit-tel,  Zmodem-mel  vagy FTP-vel töltjük le,
akkor  mindenképpen  abban  a kódkészletben lesz az elmentett file, amiben a
MEK szolgáltató gépén eredetileg is van -- tehát általában Latin-2-ben.

   További   bonyodalmat   szokott  okozni,  ha  egy  Internet  szolgáltatás
használója   maga   szeretne  ékezetes  betűket  írni  (bevihető-e  ilyen  a
billentyűzetén  egyáltalán?  megengedi-e  a  kommunikációs  program?  milyen
kódkészletet  használ?  stb.).  Ezeknek a problémáknak a megkerülésére a MEK
gophernél  egyelőre  nem  várjuk  el azt, hogy a könyvtár használói ékezetes
betűket  írjanak.  Ezért  bár  nem tilos, de nem érdemes ékezeteket beírni a
Katalógusban való keresésnél. A MEK Web felületénél (pl. a Vendégkönyvnél) a
Latin-2  kódkészlet  vagy  a HTML "acute" karakterek használata javasolt, de
szintén nem kötelező.


                       Dokumentum- és file-formátumok

   A MEK-ben "támogatott" és "megtűrt" dokumentum formátumok vannak. Az első
kategóriába  a  legelterjedtebb "public domain" formátumok tartoznak: ASCII,
HTML,  PostScript,  Adobe  PDF  és  TeX.  Ezek  mellett  megtűrt a hazánkban
általánosan  használt Word for Windows, valamint néhány ritkábban előforduló
szabvány:  RTF,  SGML,  Ventura,  WordPerfect.  Ezekről a formátumokról és a
hozzájuk  tartozó  file-név  végződésekről részletesebben lásd a MEK Ajánlás
3.2 pontját (Irattár).

   A  leggyakoribb  az  ékezetes,  max.  70  karaktereres  sorokra  tördelt,
elválasztójel  nélküli  ("sima")  ASCII  szöveg.  (Az  ilyen állományok neve
rendszerint ".hun" végződésű.) Ez a legkönnyebben kezelhető és terjeszthető,
a  legkülönbözőbb  gépkörnyezetekben  is  olvasható formátum, ami mindenféle
szerkesztővel,  szövegfeldolgozó  programmal,  nyomtatóval stb. használható.
Egyetlen  hátránya,  hogy  a  magyar nyelvű "nyers" szövegen kívül speciális
dolgok:   különleges   karakterek,   tipográfiai   elemek,   szövegtördelés,
betűtípusok, ábrák, képek, táblázatok stb. nem, vagy csak kompromisszumokkal
szerepelhetnek  a  dokumentumban.  Ha  ezek az adott dokumentumnál fontosak,
akkor  az  ASCII változat helyett/mellett valamilyen "fejlettebb" formátumot
használunk.

   Utóbbiak  közül a leggyakoribbak jelenleg a MEK gyűjteményében a Word for
Windows szövegszerkesztő ".doc" végződésű dokumentumai. Mivel a 2.0 verziójú
WinWord  elterjedtebb  és  több szövegszerkesztő ismeri (köztük a Word újabb
verziói  is),  ezért  igyekszünk  az  ilyen dokumentumokat 2.0-ás formátumra
konvertálva   tárolni.   A   Word   dokumentumok  nagy  problémája,  hogy  a
szövegszerkesztő verziójától, az adott gépen telepített karakterkészletektől
és  a  használt  nyomtató  típusától  függően  ugyanannak  a dokumentumnak a
megjelenése  kissé különböző lehet különböző számítógépeken: pl. megváltozik
a   sorok  és  oldalak  tördelése,  másként  jelennek  meg  egyes  speciális
karakterek. De amíg jobb és szabványosabb formátumok nem terjednek el, addig
ezt kell elfogadnunk. A MEK egyébként sem nyomdakész dokumentumok "raktára",
hanem   egy   elektronikus   szövegeket   tartalmazó   könyvtár.  A  WinWord
dokumentumok  --  más  speciális  formátumú  vagy  nagyméretű  állományokhoz
hasonlóan  --  a  letöltés  megkönnyítése  érdekében  rendszerint  tömörítve
találhatók a MEK-ben, hiszen ezek online böngészése úgysem célszerű.

   Az  állományok  tömörítéséhez  a  PKZIP  programot,  annak is a leginkább
ismertnek  tekinthető 1.02-es változatát használjuk. A tapasztalatok szerint
ezt  a  legtöbb,  ZIP-szabványt  ismerő  szoftver  ki  tudja csomagolni, bár
nyilván  nem  a  legjobb  és  leghatékonyabb  tömörítő  algoritmus.  További
hátránya,  hogy  ha  letöltés közben megsérül a file, akkor semmit sem lehet
belőle  megmenteni. (Ilyenkor esetleg a PKZIPFIX program használata segíthet
még.) A ".zip" file-ok mellett van néhány önkicsomagoló, ".exe" állomány is.
Ezek  rendszerint  az ARJ program valamelyik változatával készültek és azzal
is  ki  lehet  őket  csomagolni.  A  futtatható  programokat elindítás előtt
ajánlatos  valami  új  vírusellenőrrel  megvizsgálni, mert nem tudunk teljes
garanciát   vállalni   az  archívum  vírusmentességéért.  Ugyancsak  érdemes
ellenőrizni  a  WinWord  dokumentumokat  makrovírusok szempontjából, illetve
kikapcsolni  az automatikus makroindítás funkciót a Word szövegszerkesztőben
(a /m opcióval a WinWord indításakor, vagy a Shift lenyomásával a dokumentum
betöltésekor).

   A  gopher  és  WWW  kliensek  egy  része letöltés vagy elmentés előtt nem
mutatja  meg  az  állomány eredeti végződését, így a ".zip" vagy ".doc" stb.
végződést  nekünk  kell  a  felajánlott file-név után írnunk. Ha nem vagyunk
biztosak  a  helyes  végződésben,  akkor nézzük meg a file elérési útvonalát
(Unix-os  klienseknél például az "=" gombbal), és ebből általában kiderül az
állomány  neve és típusa. Fontos azt is tudni, hogy a ".doc", ".zip", ".exe"
stb. végű állományokat "bináris módban" kell letölteni (pl. a Kermitnél vagy
az  FTP-nél),  míg a szöveges anyagoknál az "ASCII módú" letöltés ajánlható,
mert  ilyenkor automatikusan megtörténik a sorvég-jelek konvertálása, melyek
a  Unix  és  a  DOS operációs rendszereknél különbözőek. Ha nem így teszünk,
akkor a sorvégeket utólag kell konvertálni.


                           Nézegetők, konvertálók

   A   különböző   formátumokban  levő  dokumentumok  megjelenítéséhez  vagy
konvertálásához  néhány szabadon terjeszthető segédprogramot a MEK gopherben
a   Ruhatár   és   Raktár  menüben  "akasztottunk  fel",  de  ezek  többsége
természetesen  más  szoftverarchívumokból  is  letölthető.  Érdemes  először
mindig  az  "_index"  nevű  állományt  megnézni, mert ebből kiderül az egyes
programok célja és mérete.

             Néhány fontosabb program a jelenlegi gyűjteményből:

   Az   DOS   és  Windows  segédprogramok  "Archiválók"  nevű  menüjében  az
általánosan  használt  PKZIP  tömörítő  mellett  egyéb  hasonló programok is
találhatóak.

   Számos   program  van  itt  a  különböző  formátumú  szöveges  állományok
nézegetésére   is.   Ilyen   például   a  már  WinWord  6.0-ás  dokumentumok
megtekintését  is  biztosító  Word  Viewer  6.0;  vagy  a  Word,  WinWord és
WordPerfect  nézegető  View 8.7-es program. Letölthetőek még ezenkívül Adobe
PDF,  Postscript  és  TeX  állományok  kezeléséhez  szükséges szoftverek is.
Vannak   HTML->ASCII  konvertáló  programok  is,  amelyekkel  kiszűrhetők  a
letöltött HTML dokumentumokban levő formázó parancsok és "acute" karakterek.

   A   különböző   ékezetproblémák   megoldására  egy  univerzális  ékezetes
karakter-átalakító   program   (CONVERT.ZIP)   áll   a   könyvtári   olvasók
rendelkezésére.  A  program  a  Latin-2,  a CWI, a 852, és a repülő ékezetek
közötti  konvertálást  oldja  meg,  de  a  felhasználók további, tetszőleges
konvertáló táblákkal egészíthetik ki.

   A  WinWord  makrovírusok  elleni  védekezéshez néhány ellenőrprogramot is
elhelyeztünk itt.

   Ha  valakinek  ezek után is gondja van a MEK anyagainak letöltésével vagy
megjelenítésével,  az  jelezze  a  MEK üzemeltetőinek, de adja meg pontosan,
hogy milyen számítógépes környezetben, milyen programokkal dolgozik. Örömmel
veszünk  újabb public-domain szövegkezelő és -konvertáló segédprogramokat is
a gyűjteménybe.
Google
 
Web iqdepo.hu
    © Copyright 1996-2024
    iqdepo / intelligence quotient designing power - digitális kultúrmisszió 1996 óta
    All rights reserved. Minden jog fenntartva.