pdf2dataset
pdf2dataset copied to clipboard
Ajustar o retorno do método extract_text
O método extract_text
com a opção return_list retorna atualmente uma lista de lista de strings. Acredito que o retorno poderia ser refatorado para retornar apenas uma lista de strings.
Por exemplo:
- de:
# saída para o processamento de um PDF de 3 páginas *hoje*
[
["página 1"],
["página 2"],
["página 3"],
]
- para:
[
"página 1",
"página 2"
"página 3"
]
CC: @icaropires