Model save

Browse files

Files changed (3) hide show

README.md +13 -12
adapter_model.safetensors +1 -1
trainer_state.json +134 -119

README.md CHANGED Viewed

@@ -19,7 +19,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [Qwen/Qwen2.5-Coder-3B-Instruct](https://huggingface.co/Qwen/Qwen2.5-Coder-3B-Instruct) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.9492
 ## Model description
@@ -53,17 +53,18 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
-| 1.0767        | 0.2974 | 20   | 1.0971          |
-| 0.8846        | 0.5948 | 40   | 1.0391          |
-| 0.8305        | 0.8922 | 60   | 1.0038          |
-| 0.7694        | 1.1784 | 80   | 0.9842          |
-| 0.8401        | 1.4758 | 100  | 0.9652          |
-| 0.7302        | 1.7732 | 120  | 0.9530          |
-| 0.7097        | 2.0595 | 140  | 0.9501          |
-| 0.7044        | 2.3569 | 160  | 0.9492          |
-| 0.5562        | 2.6543 | 180  | 0.9499          |
-| 0.6572        | 2.9517 | 200  | 0.9509          |
-| 0.5972        | 3.2379 | 220  | 0.9651          |
 ### Framework versions

 This model is a fine-tuned version of [Qwen/Qwen2.5-Coder-3B-Instruct](https://huggingface.co/Qwen/Qwen2.5-Coder-3B-Instruct) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.9728
 ## Model description
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
+| 1.0721        | 0.2985 | 20   | 1.1757          |
+| 0.8989        | 0.5970 | 40   | 1.1059          |
+| 0.8293        | 0.8955 | 60   | 1.0656          |
+| 0.787         | 1.1940 | 80   | 1.0364          |
+| 0.7025        | 1.4925 | 100  | 1.0206          |
+| 0.7386        | 1.7910 | 120  | 0.9961          |
+| 0.7471        | 2.0896 | 140  | 0.9916          |
+| 0.624         | 2.3881 | 160  | 0.9843          |
+| 0.6839        | 2.6866 | 180  | 0.9728          |
+| 0.6561        | 2.9851 | 200  | 0.9737          |
+| 0.6027        | 3.2836 | 220  | 0.9785          |
+| 0.5221        | 3.5821 | 240  | 0.9843          |
 ### Framework versions

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b68179dd4961db59364133b7edb05644a28ecf1e34552b96ba1192bc7d522dae
 size 239536272

 version https://git-lfs.github.com/spec/v1
+oid sha256:80eb04aaf7473993b1e707e8b1c6ef2520334bba07acf6b2237ee6fdd682bfe0
 size 239536272

trainer_state.json CHANGED Viewed

@@ -1,199 +1,214 @@
 {
-  "best_global_step": 160,
-  "best_metric": 0.9492282867431641,
-  "best_model_checkpoint": "j05hr3d/SFT-Qwen2.5-Coder-3B/checkpoint-160",
-  "epoch": 3.2379182156133828,
   "eval_steps": 20,
-  "global_step": 220,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.29739776951672864,
-      "grad_norm": 0.38066861033439636,
-      "learning_rate": 9.756838905775076e-05,
-      "loss": 1.0767,
       "step": 20
     },
     {
-      "epoch": 0.29739776951672864,
-      "eval_loss": 1.0970656871795654,
-      "eval_runtime": 12.8563,
-      "eval_samples_per_second": 4.511,
-      "eval_steps_per_second": 0.622,
       "step": 20
     },
     {
-      "epoch": 0.5947955390334573,
-      "grad_norm": 0.49776822328567505,
-      "learning_rate": 9.148936170212766e-05,
-      "loss": 0.8846,
       "step": 40
     },
     {
-      "epoch": 0.5947955390334573,
-      "eval_loss": 1.0391403436660767,
-      "eval_runtime": 10.5598,
-      "eval_samples_per_second": 5.493,
-      "eval_steps_per_second": 0.758,
       "step": 40
     },
     {
-      "epoch": 0.8921933085501859,
-      "grad_norm": 0.47521692514419556,
-      "learning_rate": 8.541033434650457e-05,
-      "loss": 0.8305,
       "step": 60
     },
     {
-      "epoch": 0.8921933085501859,
-      "eval_loss": 1.0037544965744019,
-      "eval_runtime": 10.5615,
-      "eval_samples_per_second": 5.492,
-      "eval_steps_per_second": 0.757,
       "step": 60
     },
     {
-      "epoch": 1.178438661710037,
-      "grad_norm": 0.5635558366775513,
-      "learning_rate": 7.933130699088146e-05,
-      "loss": 0.7694,
       "step": 80
     },
     {
-      "epoch": 1.178438661710037,
-      "eval_loss": 0.9841997623443604,
-      "eval_runtime": 10.561,
-      "eval_samples_per_second": 5.492,
-      "eval_steps_per_second": 0.758,
       "step": 80
     },
     {
-      "epoch": 1.4758364312267658,
-      "grad_norm": 0.47897258400917053,
-      "learning_rate": 7.325227963525836e-05,
-      "loss": 0.8401,
       "step": 100
     },
     {
-      "epoch": 1.4758364312267658,
-      "eval_loss": 0.9652481079101562,
-      "eval_runtime": 10.5639,
-      "eval_samples_per_second": 5.49,
-      "eval_steps_per_second": 0.757,
       "step": 100
     },
     {
-      "epoch": 1.7732342007434945,
-      "grad_norm": 0.34135618805885315,
-      "learning_rate": 6.717325227963525e-05,
-      "loss": 0.7302,
       "step": 120
     },
     {
-      "epoch": 1.7732342007434945,
-      "eval_loss": 0.9529991149902344,
-      "eval_runtime": 10.5682,
-      "eval_samples_per_second": 5.488,
-      "eval_steps_per_second": 0.757,
       "step": 120
     },
     {
-      "epoch": 2.059479553903346,
-      "grad_norm": 0.47506430745124817,
-      "learning_rate": 6.109422492401215e-05,
-      "loss": 0.7097,
       "step": 140
     },
     {
-      "epoch": 2.059479553903346,
-      "eval_loss": 0.9500848650932312,
-      "eval_runtime": 10.5677,
-      "eval_samples_per_second": 5.488,
-      "eval_steps_per_second": 0.757,
       "step": 140
     },
     {
-      "epoch": 2.356877323420074,
-      "grad_norm": 0.826922595500946,
-      "learning_rate": 5.5015197568389065e-05,
-      "loss": 0.7044,
       "step": 160
     },
     {
-      "epoch": 2.356877323420074,
-      "eval_loss": 0.9492282867431641,
-      "eval_runtime": 10.615,
-      "eval_samples_per_second": 5.464,
-      "eval_steps_per_second": 0.754,
       "step": 160
     },
     {
-      "epoch": 2.654275092936803,
-      "grad_norm": 1.0807068347930908,
-      "learning_rate": 4.893617021276596e-05,
-      "loss": 0.5562,
       "step": 180
     },
     {
-      "epoch": 2.654275092936803,
-      "eval_loss": 0.9498729109764099,
-      "eval_runtime": 10.6388,
-      "eval_samples_per_second": 5.452,
-      "eval_steps_per_second": 0.752,
       "step": 180
     },
     {
-      "epoch": 2.9516728624535316,
-      "grad_norm": 0.8790673613548279,
-      "learning_rate": 4.2857142857142856e-05,
-      "loss": 0.6572,
       "step": 200
     },
     {
-      "epoch": 2.9516728624535316,
-      "eval_loss": 0.9508957862854004,
-      "eval_runtime": 10.6216,
-      "eval_samples_per_second": 5.461,
-      "eval_steps_per_second": 0.753,
       "step": 200
     },
     {
-      "epoch": 3.2379182156133828,
-      "grad_norm": 0.7400524020195007,
-      "learning_rate": 3.677811550151976e-05,
-      "loss": 0.5972,
       "step": 220
     },
     {
-      "epoch": 3.2379182156133828,
-      "eval_loss": 0.9650547504425049,
-      "eval_runtime": 10.6208,
-      "eval_samples_per_second": 5.461,
-      "eval_steps_per_second": 0.753,
       "step": 220
     },
     {
-      "epoch": 3.2379182156133828,
-      "step": 220,
-      "total_flos": 3.426567206333645e+16,
-      "train_loss": 0.7596470009196888,
-      "train_runtime": 958.9571,
-      "train_samples_per_second": 2.8,
-      "train_steps_per_second": 0.355
     },
     {
-      "epoch": 3.2379182156133828,
-      "eval_loss": 0.9492282867431641,
-      "eval_runtime": 10.6264,
-      "eval_samples_per_second": 5.458,
-      "eval_steps_per_second": 0.753,
-      "step": 220
     }
   ],
   "logging_steps": 20,
-  "max_steps": 340,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 5,
   "save_steps": 20,
@@ -218,7 +233,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.426567206333645e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 180,
+  "best_metric": 0.9728425145149231,
+  "best_model_checkpoint": "j05hr3d/SFT-Qwen2.5-Coder-3B/checkpoint-180",
+  "epoch": 3.582089552238806,
   "eval_steps": 20,
+  "global_step": 240,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.29850746268656714,
+      "grad_norm": 0.48786428570747375,
+      "learning_rate": 9.753086419753087e-05,
+      "loss": 1.0721,
       "step": 20
     },
     {
+      "epoch": 0.29850746268656714,
+      "eval_loss": 1.1757386922836304,
+      "eval_runtime": 10.4355,
+      "eval_samples_per_second": 5.75,
+      "eval_steps_per_second": 0.767,
       "step": 20
     },
     {
+      "epoch": 0.5970149253731343,
+      "grad_norm": 0.688591718673706,
+      "learning_rate": 9.135802469135802e-05,
+      "loss": 0.8989,
       "step": 40
     },
     {
+      "epoch": 0.5970149253731343,
+      "eval_loss": 1.1058913469314575,
+      "eval_runtime": 8.5976,
+      "eval_samples_per_second": 6.979,
+      "eval_steps_per_second": 0.93,
       "step": 40
     },
     {
+      "epoch": 0.8955223880597015,
+      "grad_norm": 0.4469507336616516,
+      "learning_rate": 8.518518518518518e-05,
+      "loss": 0.8293,
       "step": 60
     },
     {
+      "epoch": 0.8955223880597015,
+      "eval_loss": 1.0656379461288452,
+      "eval_runtime": 8.5963,
+      "eval_samples_per_second": 6.98,
+      "eval_steps_per_second": 0.931,
       "step": 60
     },
     {
+      "epoch": 1.1940298507462686,
+      "grad_norm": 0.3167116641998291,
+      "learning_rate": 7.901234567901235e-05,
+      "loss": 0.787,
       "step": 80
     },
     {
+      "epoch": 1.1940298507462686,
+      "eval_loss": 1.0364410877227783,
+      "eval_runtime": 8.6008,
+      "eval_samples_per_second": 6.976,
+      "eval_steps_per_second": 0.93,
       "step": 80
     },
     {
+      "epoch": 1.4925373134328357,
+      "grad_norm": 0.588107705116272,
+      "learning_rate": 7.283950617283951e-05,
+      "loss": 0.7025,
       "step": 100
     },
     {
+      "epoch": 1.4925373134328357,
+      "eval_loss": 1.0205715894699097,
+      "eval_runtime": 8.6057,
+      "eval_samples_per_second": 6.972,
+      "eval_steps_per_second": 0.93,
       "step": 100
     },
     {
+      "epoch": 1.7910447761194028,
+      "grad_norm": 0.6192528009414673,
+      "learning_rate": 6.666666666666667e-05,
+      "loss": 0.7386,
       "step": 120
     },
     {
+      "epoch": 1.7910447761194028,
+      "eval_loss": 0.9961486458778381,
+      "eval_runtime": 8.5981,
+      "eval_samples_per_second": 6.978,
+      "eval_steps_per_second": 0.93,
       "step": 120
     },
     {
+      "epoch": 2.08955223880597,
+      "grad_norm": 0.49059680104255676,
+      "learning_rate": 6.049382716049383e-05,
+      "loss": 0.7471,
       "step": 140
     },
     {
+      "epoch": 2.08955223880597,
+      "eval_loss": 0.9915516972541809,
+      "eval_runtime": 8.6047,
+      "eval_samples_per_second": 6.973,
+      "eval_steps_per_second": 0.93,
       "step": 140
     },
     {
+      "epoch": 2.388059701492537,
+      "grad_norm": 0.41391539573669434,
+      "learning_rate": 5.4320987654320986e-05,
+      "loss": 0.624,
       "step": 160
     },
     {
+      "epoch": 2.388059701492537,
+      "eval_loss": 0.9842909574508667,
+      "eval_runtime": 8.6,
+      "eval_samples_per_second": 6.977,
+      "eval_steps_per_second": 0.93,
       "step": 160
     },
     {
+      "epoch": 2.6865671641791042,
+      "grad_norm": 0.5299602746963501,
+      "learning_rate": 4.814814814814815e-05,
+      "loss": 0.6839,
       "step": 180
     },
     {
+      "epoch": 2.6865671641791042,
+      "eval_loss": 0.9728425145149231,
+      "eval_runtime": 8.6028,
+      "eval_samples_per_second": 6.974,
+      "eval_steps_per_second": 0.93,
       "step": 180
     },
     {
+      "epoch": 2.9850746268656714,
+      "grad_norm": 0.6335314512252808,
+      "learning_rate": 4.197530864197531e-05,
+      "loss": 0.6561,
       "step": 200
     },
     {
+      "epoch": 2.9850746268656714,
+      "eval_loss": 0.973730206489563,
+      "eval_runtime": 8.5961,
+      "eval_samples_per_second": 6.98,
+      "eval_steps_per_second": 0.931,
       "step": 200
     },
     {
+      "epoch": 3.283582089552239,
+      "grad_norm": 0.6432749032974243,
+      "learning_rate": 3.580246913580247e-05,
+      "loss": 0.6027,
       "step": 220
     },
     {
+      "epoch": 3.283582089552239,
+      "eval_loss": 0.9784586429595947,
+      "eval_runtime": 8.5988,
+      "eval_samples_per_second": 6.978,
+      "eval_steps_per_second": 0.93,
       "step": 220
     },
     {
+      "epoch": 3.582089552238806,
+      "grad_norm": 0.638783872127533,
+      "learning_rate": 2.962962962962963e-05,
+      "loss": 0.5221,
+      "step": 240
     },
     {
+      "epoch": 3.582089552238806,
+      "eval_loss": 0.9842756986618042,
+      "eval_runtime": 8.5989,
+      "eval_samples_per_second": 6.978,
+      "eval_steps_per_second": 0.93,
+      "step": 240
+    },
+    {
+      "epoch": 3.582089552238806,
+      "step": 240,
+      "total_flos": 3.78148862442455e+16,
+      "train_loss": 0.7386853178342183,
+      "train_runtime": 1029.4211,
+      "train_samples_per_second": 2.599,
+      "train_steps_per_second": 0.325
+    },
+    {
+      "epoch": 3.582089552238806,
+      "eval_loss": 0.9728425145149231,
+      "eval_runtime": 8.6231,
+      "eval_samples_per_second": 6.958,
+      "eval_steps_per_second": 0.928,
+      "step": 240
     }
   ],
   "logging_steps": 20,
+  "max_steps": 335,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 5,
   "save_steps": 20,
       "attributes": {}
     }
   },
+  "total_flos": 3.78148862442455e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null