MorphoBr icon indicating copy to clipboard operation
MorphoBr copied to clipboard

temos casos de formas sem plural?

Open arademaker opened this issue 5 years ago • 7 comments

Vide comentário no issue #61.

Será que teremos casos de palavras que não tem plural? Neste caso como sinalizar?

arademaker avatar Feb 11 '20 20:02 arademaker

@arademaker e @lucasrct, como já sugeri antes, precisamos elaborar um script que faça essa checagem para os substantivos e adjetivos. Defendo que todo substantivo e todo adjetivo da língua portuguesa deve ter um plural, mesmo nomes próprios, porque, eventualmente, essas palavras podem vir a ser usadas no plural. Em muitos casos, a forma do plural vai ser igual à do singular. Por exemplo, todo nome de lugar pode ser usado na seguinte estrutura:

Não há apenas uma Alemanha, mas várias Alemanhas, pois cada região do país tem suas especificidades; por exemplo, a Alemanha do Norte é bem diferente da Alemanha do Sul.

Exemplos desse tipo não são incomuns em corpora. Curiosamente, o corretor ortográfico do iPhone não reconhece a palavra Alemanha no plural, sublinhando-a de vermelho… Uma limitação que o nosso recurso permite superar. No atual desenho do conjunto de etiquetas que utilizamos, seguindo o principal recurso do qual partimos, só temos etiquetas de singular e plural, o que implica que mesmo formas repetidas devem ser listadas. Exemplos disso: o substantivo lápis e o adjetivo simples. O mesmo problema de repetição é muito frequente no caso do gênero, ver dentista e inteligente. Particularmente, não consideraria uma prioridade agora a revisão das etiquetas, para incluir uma terceira etiqueta de número e uma terceira etiqueta de gênero, para os casos de formas idênticas. Podemos abrir uma questão de longo prazo pra pensar sobre isso no futuro, quando tivermos claramente definida a aplicação sintática do recurso. É claro que as repetições aumentam o tamanho do recurso em arquivo de texto, mas essa repetição é em grande parte eliminada quando convertemos a lista para autômato de estados finitos. Outra investigação interessante seria fazer um levantamento das formas de plural sem singular! Um desses casos é a palavra óculos na língua culta, cujo lema é óculos e não tem singular. No nosso recurso temos:

~/MorphoBr$ grep -E "^óculos?" nouns/*.dict nouns/j-p.delaf.dict:óculo óculo+N+M+SG nouns/j-p.delaf.dict:óculos óculo+N+M+PL nouns/nouns.gfl.dict:óculos óculos+N+M+PL nouns/nouns.gfl.dict:óculos óculos+N+M+SG

Ao meu ver, essa modelagem está correta: as duas primeiras entradas representam o singular e o plural do lema óculo, a terceira entrada constitui a única forma existente na língua culta do lema óculos, e a última entrada é a forma do singular de óculos na língua coloquial.

leoalenc avatar Feb 16 '20 15:02 leoalenc

@arademaker e @lucasrct, se o script referido acima apontar formas de substantivos ou adjetivos sem plural, precisamos corrigir isso, porque senão vou continuar obtendo erros na derivação de diminutivos.

leoalenc avatar Feb 16 '20 16:02 leoalenc

Acima vc disse e a última entrada é a forma do singular de óculos na língua coloquial. na verdade a primeira né?

arademaker avatar May 17 '21 18:05 arademaker

Na forma atual do recurso, depois do issue #67 os exemplos que @leoalenc, na discussão de duplicidates, foram tratados e ficaram:

5639 óculos	óculo+N+M+PL
5640 óculo	óculo+N+M+SG
5644 óculos	óculos+N+M

12435 lápis	lápis+N+M

11817 simples	simples+N
4042 simples	simples+A

18745 simples	simples+ADV

Para simples como N, temos uma entrada em http://wn.mybluemix.net/synset?id=12212690-n que justifica e https://michaelis.uol.com.br/moderno-portugues/busca/portugues-brasileiro/simples/.

Para dentista temos:

3187 dentistas	dentista+N+PL
3188 dentista	dentista+N+SG

Para inteligente não temos agora repetição de gênero nos substantivos nem nos adjetivos:

nouns/nouns-inf.dict
3226 inteligentes	inteligente+N+PL
3227 inteligente	inteligente+N+SG

adjectives/adjectives-imp.dict
14759inteligentes	inteligente+A+PL
14760inteligente	inteligente+A+SG

arademaker avatar Jun 09 '21 22:06 arademaker

Acima vc disse e a última entrada é a forma do singular de óculos na língua coloquial. na verdade a primeira né?

@arademaker, na linguagem coloquial, costumamos ouvir ou ler coisas como preciso de um óculos novo, o que é contemplado pela seguinte entrada, a ultima das mencionadas naquele comentário meu:

nouns/nouns.gfl.dict:óculos óculos+N+M+SG

leoalenc avatar Jun 10 '21 16:06 leoalenc

Claro agora, achei que a forma óculo era a que vc considerava coloquial.

arademaker avatar Jun 10 '21 20:06 arademaker

@arademaker e @leoalenc, neste commit implementei uma função que lista casos em que o número de formas no plural é diferente do número de formas no singular para um mesmo lema, portanto aponta formas sem plural e formas sem singular. Essa função compara a lista de lema+tags sem duplicações, isso para evitar listar casos como florzinhas e florezinhas que gerariam falso erro por ter uma forma a mais no plural. A função produz um documento em que a cada linha são listadas as entradas de um lema que não possuía número de formas no plural igual ao número de formas no singular, se quiserem posso mudar o formato.

portes-pagos	portes-pagos+N+M+PL, portes-pagosinhos	portes-pagos+N+DIM+M+PL, portes-pagosinhas	portes-pagos+N+DIM+F+PL
posses	posses+N+F+PL
posteriori	posteriori+N+M+SG, posteriorizinho	posteriori+N+DIM+M+SG
postiços	postiços+N+M+PL, postiçosinhos	postiços+N+DIM+M+PL, postiçosinhas	postiços+N+DIM+F+PL
postres	postres+N+M+PL, postresinhos	postres+N+DIM+M+PL, postresinhas	postres+N+DIM+F+PL
poucas	poucas+N+F+PL

Alguns dos casos listados parecem ser de erro no lema como posses e poucas. Obs.: para substantivos foram listados 1574 casos e para adjetivos 115 casos.

analununes avatar Jun 15 '21 18:06 analununes