ph-submissions
ph-submissions copied to clipboard
Sumarização de narrativas acerca de eventos do passado documentados na web utilizando Python: o caso do Arquivo.pt (PH/JISC/TNA)
O Programming Historian em Português recebeu a seguinte lição: "Sumarização de narrativas acerca de eventos do passado documentados na web utilizando Python: o caso do Arquivo.pt", por @rncampos and @dcgomes.
A lição traduzida está no link a seguir: https://github.com/programminghistorian/ph-submissions/blob/gh-pages/pt/licoes/originais/sumarizacao-narrativas-web-python.md. As imagens estão na pasta https://github.com/programminghistorian/ph-submissions/tree/gh-pages/images/sumarizacao-narrativas-web-python.
Até que um editor seja atribuído, eu servirei como editor temporário.
Peço para avaliarem a lição, assim como se há necessidade de adequação de dados ou algum conteúdo. Por favor, deixem suas sugestões neste ticket. Para cada modificação a ser sugerida, por favor, peço para indicar as linhas do ficheiro de maneira que facilite os ajustes. O ideal é realizar as modificações após as sugestões dos dois revisores.
Todos os membros da comunidade estão convidados a oferecer feedback construtivo que deve ser publicado neste canal, mas é solicitado que leiam primeiro as diretrizes para revisores (/directrizes-revisor) e sigam a nossa política anti-assédio (abaixo). Pedimos que todas as revisões parem após o envio da segunda revisão formal para que o/a autor/tradutor(a) possa concentrar-se no ajuste da lição. Eu farei um anúncio neste tópico quando isso ocorrer.
Vou me esforçar para manter a conversa aberta aqui no GitHub, mas se alguém sentir a necessidade de discutir algo em particular, pode entrar em contato comigo, ou pode sempre recorrer para o nosso mediador independente se achar necessário.
Se houver alguma preocupação dos autores, eles podem entrar em contato com o mediador do PH em português (Luís Ferla).
@DanielAlvesLABDH -- alterei o ticket para indicar que a lição foi submetida. Desculpa se alguma coisa nao está como devia
@rncampos e @dcgomes -- o commit acima (fc32699) inclui as pequenas alteracoes que fiz ao vosso artigo durante a revisao técnica. mais uma vez os meus parabéns pelo excelente trabalho. O resumo das alteracoes é o seguinte:
Alteracoes feitas
- l. 20 -- adicionei link para API na wikipedia em Portugues
- l. 22 -- adicionei informacao contextual acerca de Jorge Sampaio
- ll. 40-45 -- video embebido trocado por link externo
- ll. 59-64 -- video embebido trocado por link externo
- l. 83 -- adicionei link para pagina da wikipedia acerca de sistemas distribuidos
- l. 83 -- adicionei link para pagina da wikipedia acerca de Big Data
- l. 83 -- adicionei link para pagina da Hadoop na wikipedia
- ll. 89-94 -- video embebido trocado por link externo
- l. 146 -- Corrigi caracter que nao estava a aparecer
- l. 192 -- Corrigi caracteres que nao estavam a aparecer
- l. 192 -- 'interface Google-type' -> 'interface semelhante ao Google'
- l. 192 -- 'query' -> 'pesquisa'
- ll. 295-299 -- video embebido trocado por link externo
- l 302 -- adicionei links para a wikipedia
- l. 324 -- corrigi caracter que nao estava a aparecer
- l. 328 -- corrigi caracter que nao estava a aparecer
- l. 330 -- adicionei virgula
- l. 472 -- corrigi caracter que nao estava a aparecer
- l. 474-476 -- adicionei nota sobre o financiamento
- ll. 499-501 -- removi 'Notas de Rodapé', a única referencia aparece agora como link no corpo do texto.
Uma pequena nota sobre a remocao dos vídeos embebidos -- por norma, nao costumamos publicar vídeos no corpo da licao, e evitamos que estes sejam fulcrais (por razoes de sustabilidade). Por isso troquei os vídeos por links externos.
Duas pequenas alteracoes que merecem a vossa atencao:
Alteracoes sugeridas
- l. 26 -- 'familiarização com a instalação de packages python (via [git]' -> suponho que queiram dizer via [pip] (ou outro package manager)
- l. 26 / Pré-requisitos -- adicionar informacao da versao mínima necessária de Jupyter Notebooks (ou a versao com que testaram a licao)
Olá Tiago,
Obrigado pelas alterações.
Relativamente à tua primeira questão. Na verdade é mesmo ao git que nos referimos. O Conta-me Histórias não se encontra no pypi (por uma questão de licenças) pelo que a instalação tem que ser feita via git como referido no tutorial. Quanto à tua questão das versões utilizadas. No caso da versão anaconda local o python usado é Python 3.6. 5 No caso do google colab foi a Python 3.6. 9
Achas que podes adicionar uma mensagem relativa a isto (para ficar desde já de acordo com o que pretendes)?
Abraço
De: tiagosousagarcia @.> Enviada: 18 de janeiro de 2022 11:18 Para: programminghistorian/ph-submissions @.> Cc: Ricardo Campos @.>; Mention @.> Assunto: Re: [programminghistorian/ph-submissions] Sumarização de narrativas acerca de eventos do passado documentados na web utilizando Python: o caso do Arquivo.pt (PH/JISC/TNA) (Issue #420)
@rncamposhttps://github.com/rncampos e @dcgomeshttps://github.com/dcgomes -- o commit acima (fc32699https://github.com/programminghistorian/ph-submissions/commit/fc32699119143ce6b468b8404f6889123ea00b83) inclui as pequenas alteracoes que fiz ao vosso artigo durante a revisao técnica. mais uma vez os meus parabéns pelo excelente trabalho. O resumo das alteracoes é o seguinte:
Alteracoes feitas
- l. 20 -- adicionei link para API na wikipedia em Portugues
- l. 22 -- adicionei informacao contextual acerca de Jorge Sampaio
- ll. 40-45 -- video embebido trocado por link externo
- ll. 59-64 -- video embebido trocado por link externo
- l. 83 -- adicionei link para pagina da wikipedia acerca de sistemas distribuidos
- l. 83 -- adicionei link para pagina da wikipedia acerca de Big Data
- l. 83 -- adicionei link para pagina da Hadoop na wikipedia
- ll. 89-94 -- video embebido trocado por link externo
- l. 146 -- Corrigi caracter que nao estava a aparecer
- l. 192 -- Corrigi caracteres que nao estavam a aparecer
- l. 192 -- 'interface Google-type' -> 'interface semelhante ao Google'
- l. 192 -- 'query' -> 'pesquisa'
- ll. 295-299 -- video embebido trocado por link externo
- l 302 -- adicionei links para a wikipedia
- l. 324 -- corrigi caracter que nao estava a aparecer
- l. 328 -- corrigi caracter que nao estava a aparecer
- l. 330 -- adicionei virgula
- l. 472 -- corrigi caracter que nao estava a aparecer
- l. 474-476 -- adicionei nota sobre o financiamento
- ll. 499-501 -- removi 'Notas de Rodapé', a única referencia aparece agora como link no corpo do texto.
Uma pequena nota sobre a remocao dos vídeos embebidos -- por norma, nao costumamos publicar vídeos no corpo da licao, e evitamos que estes sejam fulcrais (por razoes de sustabilidade). Por isso troquei os vídeos por links externos.
Duas pequenas alteracoes que merecem a vossa atencao:
Alteracoes sugeridas
- l. 26 -- 'familiarização com a instalação de packages python (via [git]' -> suponho que queiram dizer via [pip] (ou outro package manager)
- l. 26 / Pré-requisitos -- adicionar informacao da versao mínima necessária de Jupyter Notebooks (ou a versao com que testaram a licao)
— Reply to this email directly, view it on GitHubhttps://github.com/programminghistorian/ph-submissions/issues/420#issuecomment-1015313447, or unsubscribehttps://github.com/notifications/unsubscribe-auth/AEMYCXXPECSWEPTNNGUJ6TTUWVD43ANCNFSM5HGZAR3Q. Triage notifications on the go with GitHub Mobile for iOShttps://apps.apple.com/app/apple-store/id1477376905?ct=notification-email&mt=8&pt=524675 or Androidhttps://play.google.com/store/apps/details?id=com.github.android&referrer=utm_campaign%3Dnotification-email%26utm_medium%3Demail%26utm_source%3Dgithub. You are receiving this because you were mentioned.Message ID: @.***>
Caros colegas, caro @tiagosousagarcia, o @josircg aceitou ficar como Editor para esta lição. Agradeço a sua disponibilidade e desejo que o trabalho de revisão corra bem. Se for necessária alguma ajuda da minha parte estou disponível. Abraço a todos
Olá @tiagosousagarcia e @rncampos. Ainda essa semana vou testar o código e as considerações levantadas pelo revisor. @DanielAlvesLABDH teremos apenas um revisor para este tutorial?
Foram convidados dois @josircg. Estamos a aguardar
Alguns reparos:
-
A introdução poderia conter uma frase sobre a perenidade dos conteúdos online, informação que só nos é dada na secção “Arquivo.pt” onde esta informação não é tão necessária, particularmente se tiver sido dita anteriormente (“cerca de 80% da informação disponível na Web desaparece ou é alterada no prazo de apenas 1 ano. Este facto origina a perda de informação fundamental para documentar os eventos da era digital.)
-
Na secção ”Arquivo.pt“ poderia adicionar-se algo sobre o material contido no Arquivo, frisando que o Arquivo.pt recolhe “exaustivamente a web portuguesa", como é referido no próprio website do arquivo.pt. Ou pelo menos, frisando que o arquivo contém maioritariamente páginas em português, apesar de também ter conteúdo noutras línguas. O examplo usando para a pesquisa, ”Jorge Sampaio“ reforça a relevância dos conteúdos em português e por isso devia estar mais explícito antes.
-
Sendo que os dados são apresentados em formato JSON, este formato deveria ser mencionado nos pré-requisitos ou deveria haver um link para uma definição.
-
Há alguma repetição entre as secções Arquivo.pt e Conta-me Histórias e as respectivas secções de ”contributos“ (especialmente no que diz respeito á secção do Conta-me Histórias). Alguma desta informação podia ser condensada numa só secção ou parágrafo.
-
O código está muito claro e os passos estão muito bem explicados.
Muito obrigado pela revisão, @DanielaMajor!
@rncampos e @dcgomes, ainda esperamos uma outra revisão -- quando chegar, o @josircg vai fazer um sumário dos pontos mais importantes
@josircg estou passando por todas as issues do PHpt e avaliando o andamento das atividades. Esta lição está pronta para seguir para publicação?
Ainda não Jimmy. Estamos precisando de um outro revisor que não estamos encontrando. Não tem ninguém aí da FGV que possa pegar essa revisão?
será que a @daniellesanchesDH topa colaborar com esta atividade?
Olá a todos! Só uma pequena nota para dizer que esta é a minha última semana a trabalhar com o PH. Foi um prazer enorme trabalhar nesta lição, e só tenho pena de não estar presente na sua publicação! Muito obrigado aos autores, @rncampos e @dcgomes pela excelente lição, e ao @josircg pelo trabalho editorial!
Caros, as minhas desculpas pelo longo silêncio. Estou a procurar alguém para fazer a segunda revisão desta lição. Assim que tiver novidades indico aqui. Espero que agora possamos avançar mais rápido. Obrigado a todos pela paciência!
Olá de novo. A Salete Farias @saletefarias aceitou fazer a segunda revisão desta lição. Agradeço muito uma vez mais a sua generosidade e profissionalismo.
Prezados, é uma alegria poder contribuir mais um vez com o Programming Historian. Obrigada @DanielAlvesLABDH novamente pelo convite. Enquanto revisava a lição, testei a instalação das bibliotecas e executei todos os códigos apresentados, utilizei o Colab do Google (uma das plataformas recomendadas pela lição) e tudo funcionou perfeitamente, inclusive aproveito para dizer que gostei imenso dessa lição e dos projetos arquivo.pt e Conta-me Histórias. A seguir minhas sugestões de alteração, por linha:
- [ ] Linha 55: Remover a palavra
está
ou a palavraencontra-se
. Ao invés deTodo o software desenvolvido encontra-se está disponível como
, substituir porTodo o software desenvolvido encontra-se disponível como
ouTodo o software desenvolvido está disponível como
- [ ] Linha 83: Sugiro substituir
um sistema de informação de grande escala distribuído
porum sistema de informação distribuído de grande escala
- [ ] Linha 306: Poderíamos substituir
apontadores
porendereços
? No Brasil, apesar de usarmos apontar para indicar uma direção não usamos para indicação de endereços na internet. Porém, apesar de achar estranho eu entendi - [ ] Linha 308: o site http://tellmestories.pt está fora do ar, tentei várias vezes e apenas aparece a mensagem que não é possível aceder ao site, talvez seja melhor tirar essa informação da tradução, ou colocar alguma mensagem quanto a isso, ou verificar se o site mudou de endereço
- [ ] Linha 312: Poderíamos substituir
apontadores
porendereços
? mesma observação da linha 306 - [ ] Linha 320: Na segunda linha deste parágrafo aparece
que por sua vez analisa automaticamente as notícias de 24 websites
, quando eu executei aparece no rodapé da página que a pesquisa aconteceuem 26 websites e não em 24
. Aqui fiquei a pensar que talvez o conta-me histórias tenha alargado o seu escopo - [ ] Linha 326: Na segunda linha deste parágrafo aparece o seguinte texto -
O último período temporal é referente ao ano de 2019 (tipicamente inferior em um ano à data da pesquisa em virtude de um período de embargo definido pela equipa do Arquivo.pt)
. Sugiro retirar o texto entre parênteses, pois qual data da pesquisa estamos a referir, a da lição ou do utilizador que acabou de pesquisar? Este texto pode causar confusão ao leitor, eu fiquei confusa aqui. Se a pesquisa é pelo Jorge Sampaio realmente o último período temporal é 2019, porém pesquisei por António Costa e o último período temporal é janeiro de 2020, a mesma coisa para Marcelo Rebelo de Sousa, por exemplo - [ ] Linha 466: No final da segunda linha deste parágrafo, sugiro tirar o S de estruturas, logo no lugar de
faz deste tipo de infra-estruturas
substituir porfaz deste tipo de infra-estrutura
- [ ] Linha 466: No final da terceira linha deste parágrafo, sugiro tirar o S de estruturas, e acrescentar S ao final da palavra outro e ao final da palavra tipo, portanto, no lugar de
O acesso generalizado a este tipo de infra-estruturas obriga, no entanto, à existência de outro tipo de ferramentas
ficariaO acesso generalizado a este tipo de infra-estrutura obriga, no entanto, à existência de outros tipos de ferramentas
Estas são as minhas observações e sugestões. Abraços Salete Farias
Muito obrigado pela revisão e pela rapidez na resposta @saletefarias. Excelente! Tendo isto em conta, caros @rncampos e @dcgomes temos tudo pronto para que possam fazer uma revisão da vossa proposta. @josircg não sei se tens algo mais a acrescentar?
Olá Daniel, Já procedi às alterações indicadas pela Salete (a quem agradeço os comentários)
Muito obrigado @rncampos! @josircg quer fazer uma última revisão antes de avançarmos?
Nada a acrescentar. A revisão ficou ótima!
Obrigado @josircg. Sendo assim vou fazer uma última leitura e os ajustes necessários à publicação. Obrigado a todos/as!
Caros, comecei a rever o texto e verifiquei que não surgem algumas das revisões sugeridas pela Daniela. @rncampos pode confirmar, por favor, por exemplo:
-
A introdução poderia conter uma frase sobre a perenidade dos conteúdos online, informação que só nos é dada na secção “Arquivo.pt” onde esta informação não é tão necessária, particularmente se tiver sido dita anteriormente (“cerca de 80% da informação disponível na Web desaparece ou é alterada no prazo de apenas 1 ano. Este facto origina a perda de informação fundamental para documentar os eventos da era digital.)
-
Na secção ”Arquivo.pt“ poderia adicionar-se algo sobre o material contido no Arquivo, frisando que o Arquivo.pt recolhe “exaustivamente a web portuguesa", como é referido no próprio website do arquivo.pt. Ou pelo menos, frisando que o arquivo contém maioritariamente páginas em português, apesar de também ter conteúdo noutras línguas. O examplo usando para a pesquisa, ”Jorge Sampaio“ reforça a relevância dos conteúdos em português e por isso devia estar mais explícito antes.
-
Sendo que os dados são apresentados em formato JSON, este formato deveria ser mencionado nos pré-requisitos ou deveria haver um link para uma definição.
Não me parece que tenham feito estas alterações e acho que são relevantes.
Outra questão relativa às imagens. A política de acessibilidade do Programming Historian foi actualizada e temos um conjunto de recomendações relativas às imagens, nomeadamente a inclusão de texto "alt". Ricardo, por favor, veja estas recomendações (https://github.com/programminghistorian/jekyll/wiki/Achieving-Accessibility-Alt-text-Colour-Contrast) e introduza os respectivos "alt" no link de acesso às imagens da lição, por favor.
Olá Daniel Alves,
Já encaminhei para o Daniel Gomes.
Cumprimentos Ricardo Campos
De: Daniel Alves @.> Enviada: 25 de novembro de 2022 14:16 Para: programminghistorian/ph-submissions @.> Cc: Ricardo Campos @.>; Mention @.> Assunto: Re: [programminghistorian/ph-submissions] Sumarização de narrativas acerca de eventos do passado documentados na web utilizando Python: o caso do Arquivo.pt (PH/JISC/TNA) (Issue #420)
Caros, comecei a rever o texto e verifiquei que não surgem algumas das revisões sugeridas pela Daniela. @rncamposhttps://github.com/rncampos pode confirmar, por favor, por exemplo:
- A introdução poderia conter uma frase sobre a perenidade dos conteúdos online, informação que só nos é dada na secção “Arquivo.pt” onde esta informação não é tão necessária, particularmente se tiver sido dita anteriormente (“cerca de 80% da informação disponível na Web desaparece ou é alterada no prazo de apenas 1 ano. Este facto origina a perda de informação fundamental para documentar os eventos da era digital.)
- Na secção ”Arquivo.pt“ poderia adicionar-se algo sobre o material contido no Arquivo, frisando que o Arquivo.pt recolhe “exaustivamente a web portuguesa", como é referido no próprio website do arquivo.pt. Ou pelo menos, frisando que o arquivo contém maioritariamente páginas em português, apesar de também ter conteúdo noutras línguas. O examplo usando para a pesquisa, ”Jorge Sampaio“ reforça a relevância dos conteúdos em português e por isso devia estar mais explícito antes.
- Sendo que os dados são apresentados em formato JSON, este formato deveria ser mencionado nos pré-requisitos ou deveria haver um link para uma definição.
Não me parece que tenham feito estas alterações e acho que são relevantes.
Outra questão relativa às imagens. A política de acessibilidade do Programming Historian foi actualizada e temos um conjunto de recomendações relativas às imagens, nomeadamente a inclusão de texto "alt". Ricardo, por favor, veja estas recomendações (https://github.com/programminghistorian/jekyll/wiki/Achieving-Accessibility-Alt-text-Colour-Contrast) e introduza os respectivos "alt" no link de acesso às imagens da lição, por favor.
— Reply to this email directly, view it on GitHubhttps://github.com/programminghistorian/ph-submissions/issues/420#issuecomment-1327524530, or unsubscribehttps://github.com/notifications/unsubscribe-auth/AEMYCXXHN4HNGFCFULUCHZLWKDCYJANCNFSM5HGZAR3Q. You are receiving this because you were mentioned.Message ID: @.***>
Olá, Fiz as alterações sugeridas pela Daniela Major. Falta mais alguma acção da minha parte. Abraços.
From: Daniel Alves @.***> Sent: Friday, 25 November 2022 14:15 To: programminghistorian/ph-submissions Cc: Daniel Gomes; Mention Subject: Re: [programminghistorian/ph-submissions] Sumarização de narrativas acerca de eventos do passado documentados na web utilizando Python: o caso do Arquivo.pt (PH/JISC/TNA) (Issue #420)
Caros, comecei a rever o texto e verifiquei que não surgem algumas das revisões sugeridas pela Daniela. @rncamposhttps://github.com/rncampos pode confirmar, por favor, por exemplo:
-
A introdução poderia conter uma frase sobre a perenidade dos conteúdos online, informação que só nos é dada na secção “Arquivo.pt” onde esta informação não é tão necessária, particularmente se tiver sido dita anteriormente (“cerca de 80% da informação disponível na Web desaparece ou é alterada no prazo de apenas 1 ano. Este facto origina a perda de informação fundamental para documentar os eventos da era digital.)
-
Na secção ”Arquivo.pt“ poderia adicionar-se algo sobre o material contido no Arquivo, frisando que o Arquivo.pt recolhe “exaustivamente a web portuguesa", como é referido no próprio website do arquivo.pt. Ou pelo menos, frisando que o arquivo contém maioritariamente páginas em português, apesar de também ter conteúdo noutras línguas. O examplo usando para a pesquisa, ”Jorge Sampaio“ reforça a relevância dos conteúdos em português e por isso devia estar mais explícito antes.
-
Sendo que os dados são apresentados em formato JSON, este formato deveria ser mencionado nos pré-requisitos ou deveria haver um link para uma definição.
Não me parece que tenham feito estas alterações e acho que são relevantes.
Outra questão relativa às imagens. A política de acessibilidade do Programming Historian foi actualizada e temos um conjunto de recomendações relativas às imagens, nomeadamente a inclusão de texto "alt". Ricardo, por favor, veja estas recomendações (https://github.com/programminghistorian/jekyll/wiki/Achieving-Accessibility-Alt-text-Colour-Contrast) e introduza os respectivos "alt" no link de acesso às imagens da lição, por favor.
— Reply to this email directly, view it on GitHubhttps://github.com/programminghistorian/ph-submissions/issues/420#issuecomment-1327524530, or unsubscribehttps://github.com/notifications/unsubscribe-auth/ADEDGYCTZB2TYUDOEVBUYKDWKDCYJANCNFSM5HGZAR3Q. You are receiving this because you were mentioned.Message ID: @.***>
@dcgomes acho que não tinhas acesso ao repositório. Não vejo as alterações feitas no documento: https://github.com/programminghistorian/ph-submissions/blob/gh-pages/pt/licoes/originais/sumarizacao-narrativas-web-python.md
Obrigado pelas edições @dcgomes. Vou concluir a revisão do texto e depois dou feedback!
Caros, fiz uma revisão geral e ainda faltam algumas coisas antes de podermos avançar para a publicação. Ao @rncampos e ao @dcgomes:
- por favor, vejam estas recomendações (https://github.com/programminghistorian/jekyll/wiki/Achieving-Accessibility-Alt-text-Colour-Contrast) e introduzam os respectivos "alt" nos links de acesso às imagens da lição
- é preciso definir um "abstract" para a lição no cabeçalho do .md
- sugiram uma imagem para aparecer junto ao título da lição quando esta for publicada. Vejam os exemplos das outras lições: https://programminghistorian.org/pt/licoes/
- sugiram um texto "alt" para essa imagem, a colocar no cabeçalho do .md
Ao @josircg:
- é necessário definir os itens "difficulty", "activity" e "topics" do cabeçalho do .md
Agradeço uma vez mais toda a vossa colaboração. Já falta pouco!
Hello all,
Please note that as part of a reorganisation of the /pt directory, this lesson's .md file has been moved to a new location within our Submissions Repository.
It is now found here: https://github.com/programminghistorian/ph-submissions/blob/gh-pages/pt/esbocos/originais/sumarizacao-narrativas-web-python.md
A consequence is that this lesson's preview link has changed. It is now: http://programminghistorian.github.io/ph-submissions/pt/esbocos/originais/sumarizacao-narrativas-web-python
Please let me know if you encounter any difficulties or have any questions. Very best, Anisa
Hi to all. I have just created a pull request with the required changes
- abstract added
- all field added
As for the image we suggest you could use the one that is part of the lesson: sumarizacao-narrativas-web-python-1.jpg
Best Ricardo and Daniel
Olá Ricardo e Daniel,
- seguem minhas sugestões para o campos Dificulty, Activity e Topics:
para o campo Dificulty: 2 (Medium) para o campo Activity: Transform para o campo Topic: api, python, data-manipulation
- um pequeno detalhe: ficou um parênteses a mais no link js_json_intro.asp
Rodei todos os scripts para ver se tenho algo mais a acrescentar. Não sei se vale a pena indicar isso no texto final mas tudo rodou perfeitamente com python 3.8
Parabéns mais uma vez pelo conteúdo. Está muito bom e muito didático!
Olá José. Ok do nosso lado. Relativamente ao ponto dois não sei se é possível alterares do teu lado (não sei muito bem o que é isso a que te referes). Obrigado Ricardo