Nava-Maya-INfrence

Sleeping

rahul7star commited on 28 days ago

Commit

b6ae190

verified ·

1 Parent(s): 17841f2

Update app_fa3.py

Files changed (1) hide show

app_fa3.py CHANGED Viewed

@@ -101,7 +101,7 @@ def load_model():
                 torch_dtype=torch.bfloat16 if HAS_CUDA else torch.float32,
                 device_map="auto" if HAS_CUDA else {"": "cpu"},
                 trust_remote_code=True,
-                attn_implementation="flash_attention_3" if FA_INSTALLED else None
             )
             model_pt = PeftModel.from_pretrained(base_model, LORA_NAME, device_map="auto" if HAS_CUDA else {"": "cpu"})

                 torch_dtype=torch.bfloat16 if HAS_CUDA else torch.float32,
                 device_map="auto" if HAS_CUDA else {"": "cpu"},
                 trust_remote_code=True,
+                attn_implementation="kernels-community/vllm-flash-attn3",
             )
             model_pt = PeftModel.from_pretrained(base_model, LORA_NAME, device_map="auto" if HAS_CUDA else {"": "cpu"})