szentiras.hu icon indicating copy to clipboard operation
szentiras.hu copied to clipboard

Sortörések kezelése

Open briff opened this issue 9 years ago • 25 comments

A BD nagyon sok "versbe szedett" tördelést alkalmaz, emiatt elodázhatatlanná vált szerintem a bekezdések, versek és sortörések elkülönítése. Normál esetben (nagyon helyesen) a versek előtt nincs sortörés (csak a Zsoltároknál). Viszont ehelyett az kéne (talán ez lenne a legegyszerűbb), ha a versnek lenne egy olyan tulajdonsága, hogy "új bekezdés". @borazslo Ez mennyire volna megvalósítható?

briff avatar Oct 12 '15 13:10 briff

(Erről már volt szó korábban a #18 kapcsán)

molnarm avatar Oct 12 '15 14:10 molnarm

Gyanús, hogy szövegforrásilag hiányzik ez az információ. :(

  • A Szövegforrásba olyanokat szeret @HarmaiGabor, hogy "Jelenség: vers előtt sortörés."
  • Elég a vers előtt lévő sortéreseket jelölni (br)? Bekezdésekre nem bontunk / nem tudunk bontani (p)? @HarmaiGabor: Mit gondolsz?

borazslo avatar Oct 12 '15 14:10 borazslo

Most elég lenne az, ha csak a versekhez beállítanánk, hogy új bekezdés kell-e. Illetve azt hiszem úgy kéne, hogy vers előtti sortörés fajtája: semmi/új bekezdés/új sor. Szóval lehetne egy jelenség, hogy vers előtti sortörés fajtája, és 0, 1, 2 (semmi, kicsi - <br> pl. himnusz vagy zsoltár verssora -, nagy - <p> új bekezdés)

briff avatar Oct 12 '15 14:10 briff

Sziasztok, a sortörésre ill. bekezdésekre vonatkozó infó valóban adatbázis-szinten hiányzik, így emberi átnyálazást igényel. Jelzésszerűen azért a KNB-ben van néhány
-jel, ami sortörést jelöl, de meg kék egyeznünk egy egységes jelölésrendszerben, és akkor önkéntes munka kérdése a szövegforrás föltöltése. Én eredendően 5 html-jelzést gondoltam integrálni a magam szövegforrásába: a dőlt betűs szövegrész elején a dőlt betűs szövegrész végén a vastag betűs szövegrész elején a vastag betűs szövegrész végén
a sortöréseknek

Úgy gondoltam, ennyi - és nem több - még nem teszi ember számára áttekinthetetlenné a fájlt. Persze a html csak analógia: az adatbázist földolgozó szoftvereket mindegyikre meg kell tanítani.

Szóval vitassuk meg! Kell-e, és ha igen, miért, külön sortörésjel mondjuk a zsoltároknál a verssoroknak, vagy oda is jó a
?

Ha kialakítunk valamilyen konszenzust, akkor önkénteseket lehet keresni, hogy a könyvkiadások alapján küzdjenek meg a szövegforrásokkal.

Csomorkany avatar Oct 12 '15 20:10 Csomorkany

Na tessék! Szóval

'<'i'>' a dőlt betűs szövegrész elején '<'/i'>' a dőlt betűs szövegrész végén '<'b'>' a vastag betűs szövegrész elején '<'/b'>' a vastag betűs szövegrész végén '<'br'>' mint sortörés

Aposztrofok persze nem számítanak, csak különben a github is html-jelnek érti.

Csomorkany avatar Oct 12 '15 20:10 Csomorkany

A bekezdésjeleket

és a sortöréseket
(tipikusan verses anyagoknál) mindenképpen meg kéne különböztetni a PDF kimenet okán is, de később is praktikus tudni. Még szebbet tudunk csinálni, ha a vers-jellegű dolgokat külön jelöljük, akár jelenségekkel. A másik, ami szerintem lényeges, hogy a bekezdéseket a bekezdés ELEJÉN, a sortöréseket a törött sor VÉGÉN jelöljük. Ennek csomó haszna van a megjelenítésnél és egyszerűbb is bevinni a szövegforrásba.

briff avatar Oct 12 '15 20:10 briff

A bekezdés jel fontos. A legtöbb esetben új bekezdés van és a sortörés igen ritka (leginkább tényleg a költői részeknél).

Ajánlatom akkor, hogy adatbázis/szövegforrás szinten kerüljenek be ezek és csak ezek a jelölők:

  • = **új bekezdés**: A vers szövegében jelölve a szöveg előtt a legelején. Lezárása nincs. (A következő új bekezdés jelnél vagy fejezet végén vagy költői rész kezdetén lezáródik.) Címsor, vagy alcímsor, stb. után nem kell jelölni az új bekezdést, anélkül is az kezdődik.


  • = sortörés: Bekezdést nem módosító sortörés. Előfordulhat vers kellős közepén. Vers legelejére sosem rakjuk inkább az előző végére. (Ha egy vers új bekezdést indít, akkor az előző vers végére nem rakunk sortörést.)
  • és = költői / verses rész: Különlegesen formázott költői rész elejét és végét jelöljük ezzel. Automatikusan új bekezdésnek számít, tehát nem kell

    . A végét is jelöljük, mert sok versen és bekezdésen átívelhet. (Zsoltárokhoz nem rakjuk ki. Ott automatikusan odaértjük a legelejére és a legvégére.)

  • és valamint és = dőlt valamint kiemelt: Szövegeken belül fordulhat elő. (Címsorokban is?) Esetenként verseken is átível! Itt felmerül, hogy tud-e a feldolgozó egység mit kezdeni azzal, ha a lezárás csak öt vers múlva következik. Különösen akkor, amikor valamiért csak az első két verset kell megjeleníteni. Pláne, ha csak a 3. és 5. verset jelenítjük meg, miközben a dőlt rész a 4-től a 7-ig tart.)

Oké?

(@HarmaiGabor: ha a nyitó kacsacsőr elé raksz egy \ jelet, akkor rendesen jelenik meg, nem pedig feldolgozva.)

borazslo avatar Oct 13 '15 01:10 borazslo

Készítsetek már egy mintát! Tehát nyúljatok bele valamelyik szövegforrásba, és valamelyik kevert (verses/prózai) oldalt készítsétek el úgy, ahogyan javasoljátok. Akkor jobban fogom érteni a dolgot, mert most nem teljesen világos, hogy milyen a bekezdés elején lévő bekezdésjel.

  1. október 13. 3:30 borazslo írta, [email protected]:

A bekezdés jel fontos. A legtöbb esetben új bekezdés van és a sortörés igen ritka (leginkább tényleg a költői részeknél).

Ajánlatom akkor, hogy adatbázis/szövegforrás szinten kerüljenek be ezek és csak ezek a jelölők:

  • = _új bekezdés_: A vers szövegében jelölve a szöveg előtt a legelején. Lezárása nincs. (A következő új bekezdés jelnél vagy fejezet

    végén vagy költői rész kezdetén lezáródik.)


    = sortörés: Bekezdést nem módosító sortörés. Előfordulhat vers kellős közepén. Vers legelejére sosem rakjuk inkább az előző végére. (Ha egy vers új bekezdést indít, akkor az előző vers végére nem rakunk

    sortörést.)

    és = költői / verses rész: Különlegesen formázott költői rész elejét és végét jelöljük ezzel. Automatikusan új bekezdésnek számít, tehát nem kell

    . A végét is jelöljük, mert sok versen és bekezdésen átívelhet. (Zsoltárokhoz nem rakjuk ki. Ott automatikusan

    odaértjük a legelejére és a legvégére.)

    és valamint és = dőlt valamint kiemelt: Szövegeken belül fordulhat elő. (Címsorokban is?) Esetenként verseken is átível! Itt felmerül, hogy tud-e a feldolgozó egység mit kezdeni azzal, ha a lezárás csak öt vers múlva következik. Különösen akkor, amikor valamiért csak az első két verset kell megjeleníteni. Pláne, ha csak a 3. és 5. verset jelenítjük meg, miközben a dőlt rész a 4-től a 7-ig tart.)

Oké?

(@HarmaiGabor https://github.com/HarmaiGabor: ha a nyitó kacsacsőr elé raksz egy \ jelet, akkor rendesen jelenik meg, nem pedig feldolgozva.)

— Reply to this email directly or view it on GitHub https://github.com/borazslo/szentiras.hu/issues/113#issuecomment-147569226 .

Csomorkany avatar Oct 13 '15 08:10 Csomorkany

http://staging.szentiras.hu/BD/1Kor3,18-23 Ide behekkeltem a formázást. (És mutatja a problémát is, ha a vers elején van a bekezdés-jel, akkor a versszámozásnak ehhez alkalmazkodni kell, de ez nem nagy ügy.) A 20. vers "Továbbá:" után következik egy "poetry" szakasz, aminek a sorait "br" választja el. A 21. vers pedig "p" jellel indul.

briff avatar Oct 13 '15 09:10 briff

http://staging.szentiras.hu/BD/1Kor3 - a 9. vers elejére is beraktam egy bekezdésjelt. (Mivel bekezdések sehol nincsenek jelölve a szövegforrásokban, nem tudom, hogy a nyomtatott formában hol van új bekezdés, de gondolom, azért vannak, nem mindig bekezdés nélkül folyik a szöveg.).

briff avatar Oct 13 '15 09:10 briff

Illetve itt-ott vannak
jelek, a sor végén pl. http://staging.szentiras.hu/RUF/1Kor3 (De ez nem jó, a sortörés nem ugyanaz, mint az új bekezdés, amit adott esetben másképp kell formázni.)

briff avatar Oct 13 '15 16:10 briff

@HarmaiGabor: Próbáltam egy minta oldalt ide rakni. Ebben látható, hogy bekezdésekhez, verses részekhez és új sorokhoz, hova és milyen jelek kellenek (illetve nem kellenek). Remélem segít. bibliaformazas

borazslo avatar Oct 13 '15 23:10 borazslo

Hazudnék, ha azt állítanám, hogy a "

"-ket értem. Problémámra Jó példa a 11-15 vers: Miből állapítottad meg, hogy a 11. vers elejére kell

és nem a 10. vers végére
? Továbbá miből állapítottad meg, hogy a 14. vers végére kell
és nem a 15. elejére

? Szóval mi a különbség?

A esetében annyit látok, hogy a az bentebb kezdődik és dőlt betűs. Ez OK, de ha mondjuk ki lehetne váltani a

-t, akkor lehetne a

a helyett.

  1. október 14. 1:49 borazslo írta, [email protected]:

@HarmaiGabor https://github.com/HarmaiGabor: Próbáltam egy minta oldalt ide rakni. Ebben látható, hogy bekezdésekhez, verses részekhez és új sorokhoz, hova és milyen jelek kellenek (illetve nem kellenek). Remélem segít. [image: bibliaformazas] https://cloud.githubusercontent.com/assets/2767787/10471349/19f0362e-71e3-11e5-8f9d-8b1671aa2e4f.jpg

— Reply to this email directly or view it on GitHub https://github.com/borazslo/szentiras.hu/issues/113#issuecomment-147886462 .

Csomorkany avatar Oct 14 '15 06:10 Csomorkany

Wordben kipróbálhatod a különbséget. Az Enter hatására kerül be a p mint paragraph jel, a Shift+enter hatására a br jel. Ha nagyon szépen akarunk formázni, akkor alapvetően p-t kell használnunk. Az új bekezdést a tördelésben behúzással és/vagy nagyobb sorközzel jelöljük. A br nem tesz be behúzást, sem sorköz változást. Ha a kimenet nem tesz különbséget a bekezdések és a sima sortörések között, akkor persze mindegy, meg azt is mondhatjuk, hogy poetryn kívül eső szövegeknél a brt bekezdés végének értelmezzük.

briff avatar Oct 14 '15 06:10 briff

Még annyi, hogy megjelenítési szempontból kb mindegy, hogy a bekezdéseket hol és mivel jelöljük, csak ne vesszen el információ. Poetry közepén lehet szükség tagolásra, de azt jelölheti két br is akár. Amit viszont fontos lenne megvárni, azaz STL fordítás, mivel az speciálisan formázza a dialógusokat, és lehet, hogy azokat a pktől és brektől is el kell különítenünk, hogy szép és rugalmas legyen különböző kimenetekben

briff avatar Oct 14 '15 08:10 briff

Kezdem érteni a problémátokat, azt hiszem, egy terminológiai félreértés fennforgása forog fönn: én a
-t ott használtam, ahol a Wordben <Enter>-t várnék. Ha a html-ben ez a <Shift> + <Enter> megfelelője, akkor melléfogtam, és fájlonként egy általános csereművelettel lehet a dolgon segíteni:
-ből

Saját szövegeimben a <Shift> + <Enter>-t minimálisan használom, leginkább pongyola de hatékony megoldásként, amikor nem akarok egy új bekezdés sajátos formázásával vacakolni, hanem a <Shift> + <Enter> kielégítő eredményt ad. Mondjuk ha a Nemzeti dalt idézem, verssorok között tényleg célszerű lehet a <Shift> + <Enter>, míg versszakok elválasztására az <Enter>.

A -t, mint stílust elfogadom, de jó lenne valami sokkal rövidebb elnevezés: Ha ilyen hosszú tag-elnevezésekkel dolgozunk, akkor volna értelme az összes szövegforrást áttenni xml szövegfájlba.

Egybetűs jelzésként, pl: (költemény)? A megtévesztő, mert ugyebár a bibliai "vers" az mást jelent, mint amire itt gondolunk.

További kérdés: számítunk-e kétfajta <Enter>-re akár költeményeken belül? Hirtelen nem jut eszembe a Nemzeti Dalhoz hasonló versszakos, és azon belül verssoros tagolású költemény a Szentírásban, de ha volna is ilyen, két

jelzéssel kezelhető, nem?

Gábor

  1. október 14. 8:42 Bertalan Fodor írta, [email protected]:

Wordben kipróbálhatod a különbséget. Az Enter hatására kerül be a p mint paragraph jel, a Shift+enter hatására a br jel. Ha nagyon szépen akarunk formázni, akkor alapvetően p-t kell használnunk. Az új bekezdést a tördelésben behúzással és/vagy nagyobb sorközzel jelöljük. A br nem tesz be behúzást, sem sorköz változást. Ha a kimenet nem tesz különbséget a bekezdések és a sima sortörések között, akkor persze mindegy, meg azt is mondhatjuk, hogy poetryn kívül eső szövegeknél a brt bekezdés végének értelmezzük.

— Reply to this email directly or view it on GitHub https://github.com/borazslo/szentiras.hu/issues/113#issuecomment-147952758 .

Csomorkany avatar Oct 14 '15 09:10 Csomorkany

http://szentiras.hu/KNB/Zsolt1 - itt úgy néz ki, hogy van extra tagolás (2 br-rel, aminél jobb lenne, ha nem lenne ekkora köz a "strófák" között, tehát 2 br-nél kisebb, 1 br-nél nagyobb (és erre pont jó lehetne a p)

briff avatar Oct 14 '15 09:10 briff

Jó, meggyőztetek, akkor két <Enter> lesz, a
jelű a verssorok tördelésére (Word: Shift + Enter), a

jelű az általános bekezdésjel (Word: Enter) Ez részemről annyi feladatot jelent, hogy a szövegforrásaimban és a Visual Basic makróimban a
jeleket

-re kell cserélni. Verseket egyenlőre nem tördeltem, ill. ahol mintaként mégis, az hibajavítást igényel.

Ha erre így rábólintotok, akkor rászánok az ügyre egy órát az életkémből, és egyben megcsinálom. Utána önkénteseket kell találni, akik a különböző szövegforrásokat következetesen betördelik.

  1. október 14. 11:54 Bertalan Fodor írta, [email protected]:

http://szentiras.hu/KNB/Zsolt1 - itt úgy néz ki, hogy van extra tagolás (2 br-rel, aminél jobb lenne, ha nem lenne ekkora köz a "strófák" között, tehát 2 br-nél kisebb, 1 br-nél nagyobb (és erre pont jó lehetne a p)

— Reply to this email directly or view it on GitHub https://github.com/borazslo/szentiras.hu/issues/113#issuecomment-147994866 .

Csomorkany avatar Oct 14 '15 15:10 Csomorkany

Illetve még egy: részetekről rendben van a és páros a költemények kezdetének és végének jelzésére a helyett?

  1. október 14. 11:54 Bertalan Fodor írta, [email protected]:

http://szentiras.hu/KNB/Zsolt1 - itt úgy néz ki, hogy van extra tagolás (2 br-rel, aminél jobb lenne, ha nem lenne ekkora köz a "strófák" között, tehát 2 br-nél kisebb, 1 br-nél nagyobb (és erre pont jó lehetne a p)

— Reply to this email directly or view it on GitHub https://github.com/borazslo/szentiras.hu/issues/113#issuecomment-147994866 .

Csomorkany avatar Oct 14 '15 15:10 Csomorkany

A és rendben van.

Annyi még a megjegyzésem van (ahogy @briff utalt rá), hogy kb. két héten belül megkapom a Simon T. László féle fordítást. Ebben vannak extrább formázások, ami miatt ez eddigi html jelzések mellé elvileg bekerülhet még valami új. De a többi jelzés helyes felvitelét ettől még meg lehet csinálni.

borazslo avatar Oct 14 '15 20:10 borazslo

OK, akkor a megbeszéltek szerint lecserélem az eddig betett
-ket

-kre, és fölkészítem a VBA makrókat, hogy csináljanak belőle valami normálisan kinéző word-kimenetelt.

Még az jutott eszembe, hogy lenne értelme egy jelzésnek a laptörésre. Ha ugyanis a mi szövegforrásunk lesz egyszer egy távoli galaxisban a könyvkiadások alapja is, akkor erre a jelre szükség van. A KNB esetében érik a dolog, mivel a Ventura ahol jelenleg tárolják, egy erőst haldokló szoftver.

Simon T. László fordításától amúgy eddig tartalmi szempontból nem estem hanyatt, de ha megkapnánk egy kiadói szöveget, az kétségtelenül tanulságos lenne formai szempontból: átalakítanánk szövegforrássá, majd visszaalakítanánk könyvvé, és ellenőrizhetnénk, hogy van-e információveszteség.

  1. október 14. 22:39 borazslo írta, [email protected]:

A és rendben van.

Annyi még a megjegyzésem van (ahogy @briff https://github.com/briff utalt rá), hogy kb. két héten belül megkapom a Simon T. László féle fordítást. Ebben vannak extrább formázások, ami miatt ez eddigi html jelzések mellé elvileg bekerülhet még valami új. De a többi jelzés helyes felvitelét ettől még meg lehet csinálni.

— Reply to this email directly or view it on GitHub https://github.com/borazslo/szentiras.hu/issues/113#issuecomment-148190700 .

Csomorkany avatar Oct 15 '15 11:10 Csomorkany

Megkaptuk a Simon T. László szöveget. Felkerült a dropboxba.

Formázások a fordításban:

  • Behúzás nélküli bekezdés/sor. Úgy látom, hogy mindig üres sor előzi meg. Nem minden fejezet kezdődik ilyennel. (

    )

  • Első sora behúzott bekezdés/sor. Ez a legáltalánosabb. A párbeszédes részek is ilyenek. (
    )
  • Üres sor. Sokszor fejezet végén, de nem mindig. Mintha behúzás nélkül sor jönne utána. ()
  • Dőlt betű ( és )
  • Verses rész (behúzás, extra betűméret). pl Lk 1,46b-55 ( és )
  • Verses rész II (behúzás, dőlt, normál betűméret) Lk 3,4-6

Egyéb jelenségek (már másutt is ismert):

  • címsor, alcímsor (könyvek elejére gyűjtve)
  • szögletes zárójelben versszám, majd a vers üres. pl Mk 15,28
  • dupla szögletes zárójelben versek sokasága: Mk 16,9-20
  • lábjegyzetek (komplex, hosszú, kereszt hivatkozásokkal, csak vége jel (*), szövegből olykor logikusan következő eleje).

borazslo avatar Dec 19 '15 01:12 borazslo

Sortörés problémához +1 példa Ez is ide tartozik? http://szentiras.hu/KNB/Iz43 Versek előtt nincsen sortörés így egy sorba kerül az előzővel ha nem kezdő, vagy cím után következő vers. A csatolt link képernyőkép a jelenlegi állapotról https://drive.google.com/open?id=0BxIp3m5LoyK0WVpON1c4bzRmc28

Zolta avatar Feb 05 '16 17:02 Zolta

Igen, ez ugyanaz a probléma.

briff avatar Feb 05 '16 21:02 briff

OK, tartsatok ki, a magyar Szentírások roppant érdekessé válnak számomra, mihelyst megjelennek a nyilvánosan publikált görög-magyar szószedetben úgy, ahogy Berti remekül megoldotta :-)

Szóval eredendően is ezen kilátás miatt kezdtem a magyar Szentírások digitális szövegével foglalkozni, és - elismerve a probléma önértékét - az én életkémbe továbbra is ezen kilátás miatt férnek be. Ezt most csak azért írom, mert jelenleg elsődleges preferenciám, hogy az elkészült újszövetségi adatbázis utómunkálatait befejezzem.

Ha jól belegondolok, saját preferenciám magyarázza, hogy - mielőtt Veletek kapcsolatba léptem volna - még irtottam is a sortöréseket az adatbázisomban lévő nemzeti fordításokból: messze nem 100%-osan, inkább olyan 50-60%-osan, de a Tarjányi Béci által a saját honlapján publikált Word doksikban elég sok sortörés megvolt. Csakhát nekem versenként a fordítás szavai kellettek...

Keresztkérdés: Bécitől nem lehetne elkérni magát a Ventura-fájlt? Én már írtam neki, hogy a Ventura mint szoftver, a végét járja, de nem válaszolt. Ezzel együtt messze a legegyüttműködőbb külső partnerünk, talán a bencésektől eltekintve, úgyhogy becsüljük meg... Hosszú távon nagyon jónak tartanám, ha mi magunk lehetnénk a Szent Jeromos Bibliatársulat...

Ja, a Bencések: nem tudnák valahogy, mondjuk pdf-ben, megküldeni a Békés-Dallost is? Az én hibaszűrési módszerem két független digitalizáció utólagos egybevetése, plusz magyar szövegeknél Word helyesírásellenőrzés.

2016-02-05 22:55 GMT+01:00 Bertalan Fodor [email protected]:

Igen, ez ugyanaz a probléma.

— Reply to this email directly or view it on GitHub https://github.com/borazslo/szentiras.hu/issues/113#issuecomment-180581576 .

Csomorkany avatar Feb 07 '16 05:02 Csomorkany