llama icon indicating copy to clipboard operation
llama copied to clipboard

Does it support Albanian?

Open fatjoni opened this issue 1 year ago • 1 comments

I know it is not in the list of official supported languages, but I am hoping since it has Latin characters it could somehow be. And if so, are the chances greater to be supported in the biggest one?

fatjoni avatar Mar 09 '23 20:03 fatjoni

I don't speak Albanian so I cannot judge these. I'd assume the meaning carries through but there are all sorts of errors and words from another languages.

Generated using 13B 8-bit LLaMA, the prompt was first line and first 2 characters of second line.

Q:  Ku është tualeti?
A:  Nuk ka këtojnë.
Q:  Mund të më ndihmoni?
A:  E vogëlli i njohur.
Q:  Vetmi nuk ka qenë, kuqe e kuptojnë nga jeta?
A:  Një dita në vitin.
Q:  Dua për një gjuhën shqipe.
A:  Për të cilën një gjuhën shqipe.
Q:  Të dua një gjuhën shqipe.
A:  Shkruaj një gjuhën shqipe.
Q:  Kjo fletështë nje gjuhën shqipe.
A:  Një dita e një fletëshme në vitin.
Q:  Kjo fletështë nje gjuhën shqipe.
A:  Fletëshme një gjuhën shqipe.
Q:  Kjo fletështë nje gjuhën shqipe.
A:  Fletështë një gjuhën shqipe.
Q:  Një dita e një fletëshme në vitin.
A:  Fletështë një gjuhën shqipe.

Maybe better generation settings would result in more meaningful output and less repetition, mine were:

  'temperature': 1.99,
  'repetition_penalty': 1.15,
  'top_k': 30,
  'top_p': 0.18,

  'do_sample': True,
  'typical_p': 1,
  'no_repeat_ngram_size': 0,
  'min_length': 0,

  'penalty_alpha': 0,
  'num_beams': 1,
  'length_penalty': 2,
  'early_stopping': False,

jmiskovic avatar Mar 10 '23 09:03 jmiskovic

Llama was mostly trained on English, so Albanian was not officially supported. Closing

WuhanMonkey avatar Sep 06 '23 17:09 WuhanMonkey