SARS-CoV-2-Infektionen_in_Deutschland_Archiv
SARS-CoV-2-Infektionen_in_Deutschland_Archiv copied to clipboard
Umstellung des Respositoriums / Restructuring of the repository
Liebe Alle,
im Issue #10 wurde bereits besprochen, dass die Größe des Repositoriums über die Zeit stark zugenommen hat. Eine der Ursachen dafür ist die doppelte Bereitstellung der Daten: Im Archiv, als auch in der Historie der Aktuell_Deutschland_SarsCov2_Infektionen.csv
.
Da die Größe auch uns zu schaffen macht und wir über Git LFS nur ein begrenztes Volumen an Traffic anbieten können, habe wir uns dazu entschlossen eine Umstrukturierung vorzunehmen:
- Das derzeitige Repositorium „SARS-CoV-2_Infektionen_in_Deutschland“ wird zu einem reinen Archiv Datensatz umgebaut, welcher die
Aktuell_Deutschland_SarsCov2_Infektionen.csv
nicht weiter enthalten wird. Der Name des Repositoriums wird sich zu „SARS-CoV-2-Infektionen_in_Deutschland_Archiv“ ändern. - Die Bereitstellung der
Aktuell_Deutschland_SarsCov2_Infektionen.csv
erflogt über das Repositorium „SARS-CoV-2-Infektionen_in_Deutschland“.
In beiden Repositorien sind damit täglich die neuen Dateien enthalten: Im Archiv-Repositorum als datierte Datei JJJJ-MM-DD_Deutschland_SarsCov2_Infektionen.csv
. Im Repositorium „SARS-CoV-2-Infektionen_in_Deutschland“ als täglich überschriebene Aktuell_Deutschland_SarsCov2_Infektionen.csv
.
Achtung, im Vergleich zum derzeitigen Repositorium ändert sich der Branch von master
zu main
und der Unterstrich im Titel wird zum Bindestrich.
Die Umstellung ist für den 30. August geplant, wenn bis dahin keine grundlegenden Probleme durch die Community geäußert werden. Wir bitten alle User:innen die Information weiterzugeben und laden zum Feedback ein.
----English Version---- Dear All,
In Issue #10 we already discussed that the size of the repository has increased significantly over time. One of the reasons for this is the redundant provision of data: In the archive, as well as in the history of Aktuell_Deutschland_SarsCov2_Infektionen.csv
.
Since the size is also a problem for us and we can only offer a limited volume of traffic via Git LFS, we decided to restructure the repository:
- The current repository "SARS-CoV-2_Infektionen_in_Deutschland" will be converted to an archive-only data set, which will no longer contain the
Aktuell_Deutschland_SarsCov2_Infektionen.csv
. The name of the repository will change to "SARS-CoV-2-Infektionen_in_Deutschland_Archiv". - The provision of the
Aktuell_Deutschland_SarsCov2_Infektionen.csv
will be done via the repository "SARS-CoV-2-Infektionen_in_Deutschland".
In both repositories the new files are provided on a daily basis: In the archive repository as dated file JJJJ-MM-DD_Deutschland_SarsCov2_Infektionen.csv
. In the repository "SARS-CoV-2-Infektionen_in_Deutschland" as daily overwritten Aktuell_Deutschland_SarsCov2_Infektionen.csv
.
Note, compared to the current repository, the branch changes from master
to main
and the underscore in the title becomes a hyphen.
The restructuring is planned for August 30, if no fundamental problems are expressed by the community until then. We ask all users to pass on the information and invite for feedback.
Mit besten Grüßen @HannesWuensche für das Team RKI | Open Data
Liebe Alle,
kurzer Reminder: Die Umstellung des Repositoriums ist für morgen geplant. Bitte passt eure Pipelines an.
----English Version---- Dear All,
short reminder: The restructuring of the repository is due tomorrow. Please adjust your pipelines.
Mit besten Grüßen @HannesWuensche für das Team RKI | Open Data
Moin Hannes, im Moment gibt es ja nun ein Repo mit aktueller Datei und Archiv (https://github.com/robert-koch-institut/SARS-CoV-2_Infektionen_in_Deutschland) sowie das Repo mit Bindestrich statt Unterstrich und nur der aktuellen Datei (https://github.com/robert-koch-institut/SARS-CoV-2-Infektionen_in_Deutschland). Beide enthalten die aktuelle Datei namens Aktuell_Deutschland_SarsCov2_Infektionen.csv, aber nur das erstere Repo enthält auch ein Archiv, wenn ich das richtig sehe. Wird die Struktur bis auf Weiteres so bleiben? Danke vorab und beste Grüße.
Hallo Anna,
die oben angekündigte Umstellung ist nach wie vor geplant. Leider laufen gerade so viele Aufgaben auf, dass ich noch keine Zeit gefunden habe die Umstellung umzusetzen. Ist aber für diese Woche geplant.
Die Aktuell_Deutschland_SarsCov2_Infektionen.csv
wird dann nur noch im https://github.com/robert-koch-institut/SARS-CoV-2-Infektionen_in_Deutschland enthalten sein.
Beste Grüße @HannesWuensche
Alles klar, dann beäugen wir weiterhin wachsam, was da kommt. Vielen Dank für die schnelle Rückmeldung!
Gerade gesehen, dass die Umstellung jetzt erfolgt ist... einmal durchatmen, alles gut gegangen! :)
Werden das Archiv-Repo und das Aktuell-Repo zur gleichen Zeit aktualisiert - oder gibt es gute Gründe, für die tagesaktuellen Zahlen auf das neue "Bindestrichrepo" umzusteigen?
@HannesWuensche
Der Name des Repositoriums wird sich zu „SARS-CoV-2-Infektionen_in_Deutschland_Archiv“ ändern.
Sollte mMn unbedingt gemacht werden, damit man den Umstellungsbedarf direkt erkennt. Außerdem sind die optisch identischen aktuellen Namen eine große Fehlerquelle.
Ich hatte heute früh das Fehlen der '*Aktuell`-CSV im Hauptverzeichnis bemerk und Fehler gesucht. Dabei sind mir Umstellungen direkt eingefallen.
Habe RKI Github Präsenz besucht, bin - unbemerkt - in das neue Bindestrich-Repo gestolpert. In der README stand aber noch nichts zu der Änderung, da also nichts gefunden. Dann die ganze Reihe Fehleranalyse bis hin zu "github" benimmt sich merkwürdig, dann in Verzweiflung die repo URLs geprüft. Erst als ich die mit fc verglichen habe ist mir aufgefallen, dass zwei existieren ;-) Und erst dann habe ich den Thread hier entdeckt.
Selbst nachdem es mir klar war, war das Arbeiten mit "Was ist Unterstrich, was ist Bindestrich" schwierig. Das Wort "Archiv" im Repo-Namen wäre das sehr klärend. ;-)
Lieber Hannes Wünsche,
vielen Dank nochmal für die tolle Informationspoltik. Bei uns (NDR) sollte es laufen.
Beste Grüße Claus
Von: HannesWuensche @.> Gesendet: Mittwoch, 31. August 2022 09:54 An: robert-koch-institut/SARS-CoV-2_Infektionen_in_Deutschland @.> Cc: Subscribed @.***> Betreff: Re: [robert-koch-institut/SARS-CoV-2_Infektionen_in_Deutschland] Umstellung des Respositoriums / Restructuring of the repository (Issue #22)
Diese E-Mail wurde über das öffentliche Internet versendet. Achten Sie daher besonders auf den Absender und handeln sie umsichtig mit den angehängten Dateien und Links.
Liebe Alle,
kurzer Reminder: Die Umstellung des Repositoriums ist für morgen geplant. Bitte passt eure Pipelines an.
----English Version---- Dear All,
short reminder: The restructuring of the repository is due tomorrow. Please adjust your pipelines.
Mit besten Grüßen @HannesWuenschehttps://github.com/HannesWuensche für das Team RKI | Open Data
— Reply to this email directly, view it on GitHubhttps://github.com/robert-koch-institut/SARS-CoV-2_Infektionen_in_Deutschland/issues/22#issuecomment-1232590818, or unsubscribehttps://github.com/notifications/unsubscribe-auth/AOZ2EINH3HTNYNE3QR7F2S3V34FR7ANCNFSM56DO5LTQ. You are receiving this because you are subscribed to this thread.Message ID: @.@.>>
Liebe Alle,
in den letzten Tagen sehen wir einen stark gestiegenen Traffic auf unseren LFS Dateien. Da wir nach wie vor nur ein begrenztes LFS Volumen auf Github haben, möchten wir dem begegnen und eine weitere Umstellung im Repository vornehmen:
- der aktuelle Branch
master
wird gelöscht - ein neuer Branch
main
wird angelegt - alle Dateien des Archivs werden als
.csv.zip
bereitgestellt
Damit wird die stark angewachsene Commit History beseitigt und die Größe des Repositories insgesamt reduziert.
Die Umstellung ist zum Ende der Woche geplant, der neue main
Branch wir bereits vorher angelegt und befüllt.
Beste Grüße @HannesWuensche für das Team RKI | Open Data
Bitte keine Zip-Dateien, sondern ein Stream-Entpackbares Format wie gzip
, lzma
oder brotli
benutzen, wie hier bereits vor einem halben Jahr vorgeschlagen. Zip-Dateien müssen zur Dekomprimierung vollständig in den Speicher geladen werden, was uns Datenjournalist:innen das Leben schwer macht.
Hallo @yetzt,
vielen dank für das Feedback und die Erinnerung.
Um die größtmögliche Interoperabilität/Nutzer:innenfreundlichkeit zu erreichen, würden wir gzip verwenden. Sofern in den nächsten Tagen keine weiteren Einwände aufkommen, werden die Dateien dann als .csv.gz
bereitgestellt.
Beste Grüße @HannesWuensche
Liebe Alle,
nach erneuter Beratung haben wir uns entschieden auf .csv.xz
statt auf .csv.gz
umstellen.
Die höhere Kompressionsrate und der Umstand, dass wir das Format es bereits im Datensatz der Sequenzdaten nutzen, hat uns noch einmal zu Umdenken gebracht. Wir bitten erneuten Wechsel zu entschuldigen. 🙄
Beste Grüße @HannesWuensche für das Team RKI | Open Data
Kurze Nachfrage: Passiert das perspektivisch auch für das Repository SARS-CoV-2-Infektionen_in_Deutschland?
Hallo @yetzt,
da wir im Repository SARS-CoV-2-Infektionen_in_Deutschland nicht Archivieren und daher nur die Diffs erfasst werden, wächst das Repo nicht ansatzweise so schnellt. Derzeit stellt es somit kein Problem dar, entsprechend ist keine Umstellung geplant. Das heißt leider nicht, das wir ein Umstellung für die Zukunft ausschließen können.
Insgesamt wollen wir im nächsten Schritt lieber eine Datenbank mit API anbieten, als weiter die Daten per CSV bereitzustellen.
Beste Grüße @HannesWuensche für das Team RKI | Open Data
Das ist schade, denn (im Idealfall komprimierte) Rohdaten in simplen, wohlefinierten Formaten ohne API-Overhead sind für uns am einfachsten zu handhaben. Für das CSV benötigt meine Software etwa 30 Sekunden, komprimiert mit gzip unter 5 (i/o und transfert sind die Flaschenhälse, weshalb es mit Kompression schneller geht).
Vielen Dank für die Rückmeldung!