ReactiveAI
/

RxT-Beta-Micro-Decoder-Base

🇪🇺 Region: EU

Model card Files Files and versions

AdamF92 commited on 4 days ago

Commit

34cccbc

·

verified ·

1 Parent(s): dfa06cb

In progress training - batch: 4096

Files changed (2) hide show

config.json +43 -0
model.safetensors +3 -0

config.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "att_groups": 4,
+  "att_heads": 16,
+  "att_query_groups": 8,
+  "cross_att_type": "sqa",
+  "dense_layer_dim": 1024,
+  "embed_dim": 256,
+  "ff_activation": "silu",
+  "ff_dim": 96,
+  "ff_dropout": 0.0,
+  "final_stateless_layers_config": [
+    "moe"
+  ],
+  "head_norm_type": "rms_norm",
+  "moe_bias_mode": "global",
+  "moe_grouped_gemm": true,
+  "moe_shared_experts_bias_mode": "global",
+  "moe_top_k": 10,
+  "moe_use_cutlass_grouped_gemm": true,
+  "moe_use_weighted_shared_experts": false,
+  "num_experts": 384,
+  "num_layers": 16,
+  "num_shared_experts": 2,
+  "rope_base": 100000,
+  "router_amp": true,
+  "self_att_type": "sqa",
+  "seq_len": 8192,
+  "shared_expert_dim": 192,
+  "stateless_layers_config": [
+    "dense",
+    "moe"
+  ],
+  "stm_size": 4096,
+  "use_attention_output_bias": false,
+  "use_flash_attention": true,
+  "use_gated": true,
+  "use_gated_attention": true,
+  "use_gated_cross_attention": false,
+  "use_head_norm": true,
+  "use_moe": true,
+  "use_vectorized_moe": true,
+  "vocab_size": 65536
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:af61e01526b02a009486f5b69025f14b4988c718031fa6b505bfae29f4170e30
+size 1144123896