szentiras.hu
szentiras.hu copied to clipboard
Sortörések kezelése
A BD nagyon sok "versbe szedett" tördelést alkalmaz, emiatt elodázhatatlanná vált szerintem a bekezdések, versek és sortörések elkülönítése. Normál esetben (nagyon helyesen) a versek előtt nincs sortörés (csak a Zsoltároknál). Viszont ehelyett az kéne (talán ez lenne a legegyszerűbb), ha a versnek lenne egy olyan tulajdonsága, hogy "új bekezdés". @borazslo Ez mennyire volna megvalósítható?
(Erről már volt szó korábban a #18 kapcsán)
Gyanús, hogy szövegforrásilag hiányzik ez az információ. :(
- A Szövegforrásba olyanokat szeret @HarmaiGabor, hogy "Jelenség: vers előtt sortörés."
- Elég a vers előtt lévő sortéreseket jelölni (br)? Bekezdésekre nem bontunk / nem tudunk bontani (p)? @HarmaiGabor: Mit gondolsz?
Most elég lenne az, ha csak a versekhez beállítanánk, hogy új bekezdés kell-e. Illetve azt hiszem úgy kéne, hogy vers előtti sortörés fajtája: semmi/új bekezdés/új sor. Szóval lehetne egy jelenség, hogy vers előtti sortörés fajtája, és 0, 1, 2 (semmi, kicsi - <br> pl. himnusz vagy zsoltár verssora -, nagy - <p> új bekezdés)
Sziasztok,
a sortörésre ill. bekezdésekre vonatkozó infó valóban adatbázis-szinten hiányzik, így emberi átnyálazást igényel. Jelzésszerűen azért a KNB-ben van néhány
-jel, ami sortörést jelöl, de meg kék egyeznünk egy egységes jelölésrendszerben, és akkor önkéntes munka kérdése a szövegforrás föltöltése.
Én eredendően 5 html-jelzést gondoltam integrálni a magam szövegforrásába:
a dőlt betűs szövegrész elején
a dőlt betűs szövegrész végén
a vastag betűs szövegrész elején
a vastag betűs szövegrész végén
a sortöréseknek
Úgy gondoltam, ennyi - és nem több - még nem teszi ember számára áttekinthetetlenné a fájlt. Persze a html csak analógia: az adatbázist földolgozó szoftvereket mindegyikre meg kell tanítani.
Szóval vitassuk meg! Kell-e, és ha igen, miért, külön sortörésjel mondjuk a zsoltároknál a verssoroknak, vagy oda is jó a
?
Ha kialakítunk valamilyen konszenzust, akkor önkénteseket lehet keresni, hogy a könyvkiadások alapján küzdjenek meg a szövegforrásokkal.
Na tessék! Szóval
'<'i'>' a dőlt betűs szövegrész elején '<'/i'>' a dőlt betűs szövegrész végén '<'b'>' a vastag betűs szövegrész elején '<'/b'>' a vastag betűs szövegrész végén '<'br'>' mint sortörés
Aposztrofok persze nem számítanak, csak különben a github is html-jelnek érti.
A bekezdésjeleket
és a sortöréseket
(tipikusan verses anyagoknál) mindenképpen meg kéne különböztetni a PDF kimenet okán is, de később is praktikus tudni.
Még szebbet tudunk csinálni, ha a vers-jellegű dolgokat külön jelöljük, akár jelenségekkel.
A másik, ami szerintem lényeges, hogy a bekezdéseket a bekezdés ELEJÉN, a sortöréseket a törött sor VÉGÉN jelöljük. Ennek csomó haszna van a megjelenítésnél és egyszerűbb is bevinni a szövegforrásba.
A bekezdés jel fontos. A legtöbb esetben új bekezdés van és a sortörés igen ritka (leginkább tényleg a költői részeknél).
Ajánlatom akkor, hogy adatbázis/szövegforrás szinten kerüljenek be ezek és csak ezek a jelölők:
-
= **új bekezdés**: A vers szövegében jelölve a szöveg előtt a legelején. Lezárása nincs. (A következő új bekezdés jelnél vagy fejezet végén vagy költői rész kezdetén lezáródik.) Címsor, vagy alcímsor, stb. után nem kell jelölni az új bekezdést, anélkül is az kezdődik.
-
= sortörés: Bekezdést nem módosító sortörés. Előfordulhat vers kellős közepén. Vers legelejére sosem rakjuk inkább az előző végére. (Ha egy vers új bekezdést indít, akkor az előző vers végére nem rakunk sortörést.) -
és = költői / verses rész: Különlegesen formázott költői rész elejét és végét jelöljük ezzel. Automatikusan új bekezdésnek számít, tehát nem kell. A végét is jelöljük, mert sok versen és bekezdésen átívelhet. (Zsoltárokhoz nem rakjuk ki. Ott automatikusan odaértjük a legelejére és a legvégére.)
- és valamint és = dőlt valamint kiemelt: Szövegeken belül fordulhat elő. (Címsorokban is?) Esetenként verseken is átível! Itt felmerül, hogy tud-e a feldolgozó egység mit kezdeni azzal, ha a lezárás csak öt vers múlva következik. Különösen akkor, amikor valamiért csak az első két verset kell megjeleníteni. Pláne, ha csak a 3. és 5. verset jelenítjük meg, miközben a dőlt rész a 4-től a 7-ig tart.)
Oké?
(@HarmaiGabor: ha a nyitó kacsacsőr elé raksz egy \ jelet, akkor rendesen jelenik meg, nem pedig feldolgozva.)
Készítsetek már egy mintát! Tehát nyúljatok bele valamelyik szövegforrásba, és valamelyik kevert (verses/prózai) oldalt készítsétek el úgy, ahogyan javasoljátok. Akkor jobban fogom érteni a dolgot, mert most nem teljesen világos, hogy milyen a bekezdés elején lévő bekezdésjel.
- október 13. 3:30 borazslo írta, [email protected]:
A bekezdés jel fontos. A legtöbb esetben új bekezdés van és a sortörés igen ritka (leginkább tényleg a költői részeknél).
Ajánlatom akkor, hogy adatbázis/szövegforrás szinten kerüljenek be ezek és csak ezek a jelölők:
= _új bekezdés_: A vers szövegében jelölve a szöveg előtt a legelején. Lezárása nincs. (A következő új bekezdés jelnél vagy fejezet
végén vagy költői rész kezdetén lezáródik.)
= sortörés: Bekezdést nem módosító sortörés. Előfordulhat vers kellős közepén. Vers legelejére sosem rakjuk inkább az előző végére. (Ha egy vers új bekezdést indít, akkor az előző vers végére nem rakunksortörést.)
és = költői / verses rész: Különlegesen formázott költői rész elejét és végét jelöljük ezzel. Automatikusan új bekezdésnek számít, tehát nem kell. A végét is jelöljük, mert sok versen és bekezdésen átívelhet. (Zsoltárokhoz nem rakjuk ki. Ott automatikusan
odaértjük a legelejére és a legvégére.)
és valamint és = dőlt valamint kiemelt: Szövegeken belül fordulhat elő. (Címsorokban is?) Esetenként verseken is átível! Itt felmerül, hogy tud-e a feldolgozó egység mit kezdeni azzal, ha a lezárás csak öt vers múlva következik. Különösen akkor, amikor valamiért csak az első két verset kell megjeleníteni. Pláne, ha csak a 3. és 5. verset jelenítjük meg, miközben a dőlt rész a 4-től a 7-ig tart.)
Oké?
(@HarmaiGabor https://github.com/HarmaiGabor: ha a nyitó kacsacsőr elé raksz egy \ jelet, akkor rendesen jelenik meg, nem pedig feldolgozva.)
— Reply to this email directly or view it on GitHub https://github.com/borazslo/szentiras.hu/issues/113#issuecomment-147569226 .
http://staging.szentiras.hu/BD/1Kor3,18-23 Ide behekkeltem a formázást. (És mutatja a problémát is, ha a vers elején van a bekezdés-jel, akkor a versszámozásnak ehhez alkalmazkodni kell, de ez nem nagy ügy.) A 20. vers "Továbbá:" után következik egy "poetry" szakasz, aminek a sorait "br" választja el. A 21. vers pedig "p" jellel indul.
http://staging.szentiras.hu/BD/1Kor3 - a 9. vers elejére is beraktam egy bekezdésjelt. (Mivel bekezdések sehol nincsenek jelölve a szövegforrásokban, nem tudom, hogy a nyomtatott formában hol van új bekezdés, de gondolom, azért vannak, nem mindig bekezdés nélkül folyik a szöveg.).
Illetve itt-ott vannak
jelek, a sor végén pl. http://staging.szentiras.hu/RUF/1Kor3
(De ez nem jó, a sortörés nem ugyanaz, mint az új bekezdés, amit adott esetben másképp kell formázni.)
@HarmaiGabor: Próbáltam egy minta oldalt ide rakni. Ebben látható, hogy bekezdésekhez, verses részekhez és új sorokhoz, hova és milyen jelek kellenek (illetve nem kellenek). Remélem segít.
Hazudnék, ha azt állítanám, hogy a "
"-ket értem. Problémámra Jó példa a 11-15 vers: Miből állapítottad meg, hogy a 11. vers elejére kell
és nem
a 10. vers végére
? Továbbá miből állapítottad meg, hogy a 14. vers
végére kell
és nem a 15. elejére
? Szóval mi a különbség?
A -t, akkor lehetne
a a @HarmaiGabor https://github.com/HarmaiGabor: Próbáltam egy minta oldalt
ide rakni. Ebben látható, hogy bekezdésekhez, verses részekhez és új
sorokhoz, hova és milyen jelek kellenek (illetve nem kellenek). Remélem
segít.
[image: bibliaformazas]
https://cloud.githubusercontent.com/assets/2767787/10471349/19f0362e-71e3-11e5-8f9d-8b1671aa2e4f.jpg —
Reply to this email directly or view it on GitHub
https://github.com/borazslo/szentiras.hu/issues/113#issuecomment-147886462
.
Wordben kipróbálhatod a különbséget. Az Enter hatására kerül be a p mint paragraph jel, a Shift+enter hatására a br jel. Ha nagyon szépen akarunk formázni, akkor alapvetően p-t kell használnunk. Az új bekezdést a tördelésben behúzással és/vagy nagyobb sorközzel jelöljük. A br nem tesz be behúzást, sem sorköz változást. Ha a kimenet nem tesz különbséget a bekezdések és a sima sortörések között, akkor persze mindegy, meg azt is mondhatjuk, hogy poetryn kívül eső szövegeknél a brt bekezdés végének értelmezzük.
Még annyi, hogy megjelenítési szempontból kb mindegy, hogy a bekezdéseket hol és mivel jelöljük, csak ne vesszen el információ. Poetry közepén lehet szükség tagolásra, de azt jelölheti két br is akár. Amit viszont fontos lenne megvárni, azaz STL fordítás, mivel az speciálisan formázza a dialógusokat, és lehet, hogy azokat a pktől és brektől is el kell különítenünk, hogy szép és rugalmas legyen különböző kimenetekben
Kezdem érteni a problémátokat, azt hiszem, egy terminológiai félreértés
fennforgása forog fönn: én a
-t ott használtam, ahol a Wordben
<Enter>-t várnék. Ha a html-ben ez a <Shift> + <Enter> megfelelője, akkor
melléfogtam, és fájlonként egy általános csereművelettel lehet a dolgon
segíteni:
-ből
Saját szövegeimben a <Shift> + <Enter>-t minimálisan használom, leginkább pongyola de hatékony megoldásként, amikor nem akarok egy új bekezdés sajátos formázásával vacakolni, hanem a <Shift> + <Enter> kielégítő eredményt ad. Mondjuk ha a Nemzeti dalt idézem, verssorok között tényleg célszerű lehet a <Shift> + <Enter>, míg versszakok elválasztására az <Enter>.
A
Egybetűs jelzésként, pl:
További kérdés: számítunk-e kétfajta <Enter>-re akár költeményeken belül? Hirtelen nem jut eszembe a Nemzeti Dalhoz hasonló versszakos, és azon belül verssoros tagolású költemény a Szentírásban, de ha volna is ilyen, két
jelzéssel kezelhető, nem?
Gábor
- október 14. 8:42 Bertalan Fodor írta, [email protected]:
Wordben kipróbálhatod a különbséget. Az Enter hatására kerül be a p mint paragraph jel, a Shift+enter hatására a br jel. Ha nagyon szépen akarunk formázni, akkor alapvetően p-t kell használnunk. Az új bekezdést a tördelésben behúzással és/vagy nagyobb sorközzel jelöljük. A br nem tesz be behúzást, sem sorköz változást. Ha a kimenet nem tesz különbséget a bekezdések és a sima sortörések között, akkor persze mindegy, meg azt is mondhatjuk, hogy poetryn kívül eső szövegeknél a brt bekezdés végének értelmezzük.
— Reply to this email directly or view it on GitHub https://github.com/borazslo/szentiras.hu/issues/113#issuecomment-147952758 .
http://szentiras.hu/KNB/Zsolt1 - itt úgy néz ki, hogy van extra tagolás (2 br-rel, aminél jobb lenne, ha nem lenne ekkora köz a "strófák" között, tehát 2 br-nél kisebb, 1 br-nél nagyobb (és erre pont jó lehetne a p)
Jó, meggyőztetek, akkor két <Enter> lesz, a
jelű a verssorok
tördelésére (Word: Shift + Enter), a
jelű az általános bekezdésjel
(Word: Enter) Ez részemről annyi feladatot jelent, hogy a
szövegforrásaimban és a Visual Basic makróimban a
jeleket
-re kell cserélni. Verseket egyenlőre nem tördeltem, ill. ahol mintaként mégis, az hibajavítást igényel.
Ha erre így rábólintotok, akkor rászánok az ügyre egy órát az életkémből, és egyben megcsinálom. Utána önkénteseket kell találni, akik a különböző szövegforrásokat következetesen betördelik.
- október 14. 11:54 Bertalan Fodor írta, [email protected]:
http://szentiras.hu/KNB/Zsolt1 - itt úgy néz ki, hogy van extra tagolás (2 br-rel, aminél jobb lenne, ha nem lenne ekkora köz a "strófák" között, tehát 2 br-nél kisebb, 1 br-nél nagyobb (és erre pont jó lehetne a p)
— Reply to this email directly or view it on GitHub https://github.com/borazslo/szentiras.hu/issues/113#issuecomment-147994866 .
Illetve még egy: részetekről rendben van a
- október 14. 11:54 Bertalan Fodor írta, [email protected]:
http://szentiras.hu/KNB/Zsolt1 - itt úgy néz ki, hogy van extra tagolás (2 br-rel, aminél jobb lenne, ha nem lenne ekkora köz a "strófák" között, tehát 2 br-nél kisebb, 1 br-nél nagyobb (és erre pont jó lehetne a p)
— Reply to this email directly or view it on GitHub https://github.com/borazslo/szentiras.hu/issues/113#issuecomment-147994866 .
A
Annyi még a megjegyzésem van (ahogy @briff utalt rá), hogy kb. két héten belül megkapom a Simon T. László féle fordítást. Ebben vannak extrább formázások, ami miatt ez eddigi html jelzések mellé elvileg bekerülhet még valami új. De a többi jelzés helyes felvitelét ettől még meg lehet csinálni.
OK, akkor a megbeszéltek szerint lecserélem az eddig betett
-ket
-kre, és fölkészítem a VBA makrókat, hogy csináljanak belőle valami normálisan kinéző word-kimenetelt.
Még az jutott eszembe, hogy lenne értelme egy
Simon T. László fordításától amúgy eddig tartalmi szempontból nem estem hanyatt, de ha megkapnánk egy kiadói szöveget, az kétségtelenül tanulságos lenne formai szempontból: átalakítanánk szövegforrássá, majd visszaalakítanánk könyvvé, és ellenőrizhetnénk, hogy van-e információveszteség.
- október 14. 22:39 borazslo írta, [email protected]:
A
és rendben van.Annyi még a megjegyzésem van (ahogy @briff https://github.com/briff utalt rá), hogy kb. két héten belül megkapom a Simon T. László féle fordítást. Ebben vannak extrább formázások, ami miatt ez eddigi html jelzések mellé elvileg bekerülhet még valami új. De a többi jelzés helyes felvitelét ettől még meg lehet csinálni.
— Reply to this email directly or view it on GitHub https://github.com/borazslo/szentiras.hu/issues/113#issuecomment-148190700 .
Megkaptuk a Simon T. László szöveget. Felkerült a dropboxba.
Formázások a fordításban:
- Behúzás nélküli bekezdés/sor. Úgy látom, hogy mindig üres sor előzi meg. Nem minden fejezet kezdődik ilyennel. (
)
- Első sora behúzott bekezdés/sor. Ez a legáltalánosabb. A párbeszédes részek is ilyenek. (
) - Üres sor. Sokszor fejezet végén, de nem mindig. Mintha behúzás nélkül sor jönne utána. ()
- Dőlt betű ( és )
- Verses rész (behúzás, extra betűméret). pl Lk 1,46b-55 (
és ) - Verses rész II (behúzás, dőlt, normál betűméret) Lk 3,4-6
Egyéb jelenségek (már másutt is ismert):
- címsor, alcímsor (könyvek elejére gyűjtve)
- szögletes zárójelben versszám, majd a vers üres. pl Mk 15,28
- dupla szögletes zárójelben versek sokasága: Mk 16,9-20
- lábjegyzetek (komplex, hosszú, kereszt hivatkozásokkal, csak vége jel (*), szövegből olykor logikusan következő eleje).
Sortörés problémához +1 példa Ez is ide tartozik? http://szentiras.hu/KNB/Iz43 Versek előtt nincsen sortörés így egy sorba kerül az előzővel ha nem kezdő, vagy cím után következő vers. A csatolt link képernyőkép a jelenlegi állapotról https://drive.google.com/open?id=0BxIp3m5LoyK0WVpON1c4bzRmc28
Igen, ez ugyanaz a probléma.
OK, tartsatok ki, a magyar Szentírások roppant érdekessé válnak számomra, mihelyst megjelennek a nyilvánosan publikált görög-magyar szószedetben úgy, ahogy Berti remekül megoldotta :-)
Szóval eredendően is ezen kilátás miatt kezdtem a magyar Szentírások digitális szövegével foglalkozni, és - elismerve a probléma önértékét - az én életkémbe továbbra is ezen kilátás miatt férnek be. Ezt most csak azért írom, mert jelenleg elsődleges preferenciám, hogy az elkészült újszövetségi adatbázis utómunkálatait befejezzem.
Ha jól belegondolok, saját preferenciám magyarázza, hogy - mielőtt Veletek kapcsolatba léptem volna - még irtottam is a sortöréseket az adatbázisomban lévő nemzeti fordításokból: messze nem 100%-osan, inkább olyan 50-60%-osan, de a Tarjányi Béci által a saját honlapján publikált Word doksikban elég sok sortörés megvolt. Csakhát nekem versenként a fordítás szavai kellettek...
Keresztkérdés: Bécitől nem lehetne elkérni magát a Ventura-fájlt? Én már írtam neki, hogy a Ventura mint szoftver, a végét járja, de nem válaszolt. Ezzel együtt messze a legegyüttműködőbb külső partnerünk, talán a bencésektől eltekintve, úgyhogy becsüljük meg... Hosszú távon nagyon jónak tartanám, ha mi magunk lehetnénk a Szent Jeromos Bibliatársulat...
Ja, a Bencések: nem tudnák valahogy, mondjuk pdf-ben, megküldeni a Békés-Dallost is? Az én hibaszűrési módszerem két független digitalizáció utólagos egybevetése, plusz magyar szövegeknél Word helyesírásellenőrzés.
2016-02-05 22:55 GMT+01:00 Bertalan Fodor [email protected]:
Igen, ez ugyanaz a probléma.
— Reply to this email directly or view it on GitHub https://github.com/borazslo/szentiras.hu/issues/113#issuecomment-180581576 .