grok-1 More detailed documentation needed, otherwise it's less meaningful for most developers.

More detailed documentation needed, otherwise it's less meaningful for most developers.

Open deerleo opened this issue 1 year ago • 1 comments

How to train, evaluate, and provide the train script
Example train datasets
Docs of grok's technical details.

Mar 18 '24 01:03 deerleo

Info from run.py:

grok_1_model = LanguageModelConfig(
        vocab_size=128 * 1024,
        pad_token=0,
        eos_token=2,
        sequence_len=8192,
        embedding_init_scale=1.0,
        output_multiplier_scale=0.5773502691896257,
        embedding_multiplier_scale=78.38367176906169,
        model=TransformerConfig(
            emb_size=48 * 128,
            widening_factor=8,
            key_size=128,
            num_q_heads=48,
            num_kv_heads=8,
            num_layers=64,
            attn_output_multiplier=0.08838834764831845,
            shard_activations=True,
            # MoE.
            num_experts=8,
            num_selected_experts=2,
            # Activation sharding.
            data_axis="data",
            model_axis="model",
        ),
    )

Mar 18 '24 02:03 trholding

grok-1 grok-1 copied to clipboard

More detailed documentation needed, otherwise it's less meaningful for most developers.

grok-1
grok-1 copied to clipboard