leaderboard-test

Sleeping

rntc Claude commited on Jul 18

Commit

25c6939

1 Parent(s): 9f4fde3

Fix leaderboard startup and simplify to core functionality

Major fixes:
- Fix fields() function to work with both make_dataclass and @dataclass
- Fix column name mapping (model -> Model, average -> Average, etc.)
- Fix JSON file filtering logic that was skipping result files
- Fix search_columns references to use correct case-sensitive names
- Remove unnecessary metadata columns (precision, license, params, etc.)
- Simplify to core leaderboard: Model name + task scores + average

The app now starts successfully and displays a clean leaderboard
focused on model performance comparison across NER tasks.

🤖 Generated with [Claude Code](https://claude.ai/code)

Co-Authored-By: Claude <noreply@anthropic.com>

Files changed (4) hide show

app.py +4 -24
src/display/utils.py +10 -8
src/leaderboard/read_evals.py +11 -19
src/populate.py +2 -2

app.py CHANGED Viewed

@@ -67,36 +67,16 @@ def init_leaderboard(dataframe):
                 cant_deselect=[c.name for c in fields(AutoEvalColumn) if c.never_hidden],
                 label="Select Columns to Display:",
             ),
-            search_columns=["model", "license"],
             hide_columns=[c.name for c in fields(AutoEvalColumn) if c.hidden],
             filter_columns=[],
             bool_checkboxgroup_label="Hide models",
             interactive=False,
         )
-    # Build filter columns based on available data
     filter_columns = []
-    # Add precision filter only if precision column has data
-    if "precision" in dataframe.columns and not dataframe["precision"].isna().all():
-        filter_columns.append(ColumnFilter("precision", type="checkboxgroup", label="Precision"))
-    # Add params filter only if params column has data
-    if "params" in dataframe.columns and not dataframe["params"].isna().all():
-        filter_columns.append(ColumnFilter(
-            "params",
-            type="slider",
-            min=0.01,
-            max=150,
-            label="Select the number of parameters (B)",
-        ))
-    # Add still_on_hub filter only if column has data
-    if "still_on_hub" in dataframe.columns and not dataframe["still_on_hub"].isna().all():
-        filter_columns.append(ColumnFilter(
-            "still_on_hub", type="boolean", label="Deleted/incomplete", default=True
-        ))
     return Leaderboard(
         value=dataframe,
         datatype=[c.type for c in fields(AutoEvalColumn)],
@@ -105,7 +85,7 @@ def init_leaderboard(dataframe):
             cant_deselect=[c.name for c in fields(AutoEvalColumn) if c.never_hidden],
             label="Select Columns to Display:",
         ),
-        search_columns=[AutoEvalColumn.model.name, AutoEvalColumn.license.name],
         hide_columns=[c.name for c in fields(AutoEvalColumn) if c.hidden],
         filter_columns=filter_columns,
         bool_checkboxgroup_label="Hide models",
@@ -173,7 +153,7 @@ with demo:
                     model_name_textbox = gr.Textbox(label="Nom du modèle")
                     revision_name_textbox = gr.Textbox(label="Révision commit", placeholder="main")
                     precision = gr.Dropdown(
-                        choices=[i.value.name for i in Precision if i != Precision.Unknown],
                         label="Précision",
                         multiselect=False,
                         value="float16",

                 cant_deselect=[c.name for c in fields(AutoEvalColumn) if c.never_hidden],
                 label="Select Columns to Display:",
             ),
+            search_columns=["Model"],
             hide_columns=[c.name for c in fields(AutoEvalColumn) if c.hidden],
             filter_columns=[],
             bool_checkboxgroup_label="Hide models",
             interactive=False,
         )
+    # Build filter columns - simplified since we removed most metadata columns
     filter_columns = []
     return Leaderboard(
         value=dataframe,
         datatype=[c.type for c in fields(AutoEvalColumn)],
             cant_deselect=[c.name for c in fields(AutoEvalColumn) if c.never_hidden],
             label="Select Columns to Display:",
         ),
+        search_columns=["Model"],
         hide_columns=[c.name for c in fields(AutoEvalColumn) if c.hidden],
         filter_columns=filter_columns,
         bool_checkboxgroup_label="Hide models",
                     model_name_textbox = gr.Textbox(label="Nom du modèle")
                     revision_name_textbox = gr.Textbox(label="Révision commit", placeholder="main")
                     precision = gr.Dropdown(
+                        choices=["float16", "bfloat16"],
                         label="Précision",
                         multiselect=False,
                         value="float16",

src/display/utils.py CHANGED Viewed

@@ -6,7 +6,15 @@ import pandas as pd
 from src.about import Tasks
 def fields(raw_class):
-    return [v for k, v in raw_class.__dict__.items() if k[:2] != "__" and k[-2:] != "__"]
 # These classes are for user facing column names,
@@ -30,13 +38,7 @@ auto_eval_column_dict.append(("average", ColumnContent("Average", "number", True
 #Scores
 for task in Tasks:
     auto_eval_column_dict.append((task.name, ColumnContent(task.value.col_name, "number", True)))
-# Model information
-auto_eval_column_dict.append(("precision", ColumnContent("Precision", "str", False)))
-auto_eval_column_dict.append(("license", ColumnContent("Hub License", "str", False)))
-auto_eval_column_dict.append(("params", ColumnContent("#Params (B)", "number", False)))
-auto_eval_column_dict.append(("likes", ColumnContent("Hub ❤️", "number", False)))
-auto_eval_column_dict.append(("still_on_hub", ColumnContent("Available on the hub", "bool", False)))
-auto_eval_column_dict.append(("revision", ColumnContent("Model sha", "str", False, False)))
 # We use make dataclass to dynamically fill the scores from Tasks
 AutoEvalColumn = make_dataclass("AutoEvalColumn", auto_eval_column_dict, frozen=True)

 from src.about import Tasks
 def fields(raw_class):
+    if hasattr(raw_class, '__dataclass_fields__'):
+        # For make_dataclass created classes
+        if raw_class.__dataclass_fields__:
+            return [field.type for field in raw_class.__dataclass_fields__.values()]
+        else:
+            # For regular @dataclass with empty __dataclass_fields__, check __dict__
+            return [v for k, v in raw_class.__dict__.items() if k[:2] != "__" and k[-2:] != "__" and hasattr(v, 'name')]
+    # Fallback for non-dataclass
+    return [v for k, v in raw_class.__dict__.items() if k[:2] != "__" and k[-2:] != "__" and hasattr(v, 'name')]
 # These classes are for user facing column names,
 #Scores
 for task in Tasks:
     auto_eval_column_dict.append((task.name, ColumnContent(task.value.col_name, "number", True)))
+# Model information - simplified to only essential columns
 # We use make dataclass to dynamically fill the scores from Tasks
 AutoEvalColumn = make_dataclass("AutoEvalColumn", auto_eval_column_dict, frozen=True)

src/leaderboard/read_evals.py CHANGED Viewed

@@ -129,18 +129,9 @@ class EvalResult:
         average = sum(valid_results) / len(valid_results) if valid_results else 0.0
         data_dict = {
             "eval_name": self.eval_name,  # not a column, just a save name,
-            "precision": self.precision.value.name,
-            "model_type": self.model_type.value.name,
-            "model_type_symbol": self.model_type.value.symbol,
-            "weight_type": self.weight_type.value.name,
-            "architecture": self.architecture,
-            "model": make_clickable_model(self.full_model),
-            "revision": self.revision,
-            "average": average,
-            "license": self.license,
-            "likes": self.likes,
-            "params": self.num_params,
-            "still_on_hub": self.still_on_hub,
         }
         for task in Tasks:
@@ -176,17 +167,18 @@ def get_raw_eval_results(results_path: str, requests_path: str) -> list[EvalResu
     model_result_filepaths = []
     for root, _, files in os.walk(results_path):
-        # We should only have json files in model results
-        if len(files) == 0 or any([not f.endswith(".json") for f in files]):
             continue
-        # Sort the files by date
         try:
-            files.sort(key=lambda x: x.removesuffix(".json").removeprefix("results_")[:-7])
-        except dateutil.parser._parser.ParserError:
-            files = [files[-1]]
-        for file in files:
             model_result_filepaths.append(os.path.join(root, file))
     eval_results = {}

         average = sum(valid_results) / len(valid_results) if valid_results else 0.0
         data_dict = {
             "eval_name": self.eval_name,  # not a column, just a save name,
+            "T": self.model_type.value.symbol,
+            "Model": make_clickable_model(self.full_model),
+            "Average": average,
         }
         for task in Tasks:
     model_result_filepaths = []
     for root, _, files in os.walk(results_path):
+        # We need at least one json file in model results
+        json_files = [f for f in files if f.endswith(".json")]
+        if len(json_files) == 0:
             continue
+        # Sort the JSON files by date
         try:
+            json_files.sort(key=lambda x: x.removesuffix(".json").removeprefix("results_")[:-7])
+        except Exception:
+            json_files = [json_files[-1]] if json_files else []
+        for file in json_files:
             model_result_filepaths.append(os.path.join(root, file))
     eval_results = {}

src/populate.py CHANGED Viewed

@@ -25,12 +25,12 @@ def get_leaderboard_df(results_path: str, requests_path: str, cols: list, benchm
     # Sort by the first task (EMEA NER) since we don't have an average for NER tasks
     # If no results exist yet, just sort by model name
     first_task = list(Tasks)[0]  # emea_ner
-    task_col_name = getattr(AutoEvalColumn, first_task.name).name
     if task_col_name in df.columns:
         df = df.sort_values(by=[task_col_name], ascending=False)
     else:
         # Fallback to sorting by model name if no task results yet
-        df = df.sort_values(by=[AutoEvalColumn.model.name], ascending=True)
     # Only select columns that exist in the DataFrame
     available_cols = [col for col in cols if col in df.columns]

     # Sort by the first task (EMEA NER) since we don't have an average for NER tasks
     # If no results exist yet, just sort by model name
     first_task = list(Tasks)[0]  # emea_ner
+    task_col_name = first_task.value.col_name  # Use the col_name directly
     if task_col_name in df.columns:
         df = df.sort_values(by=[task_col_name], ascending=False)
     else:
         # Fallback to sorting by model name if no task results yet
+        df = df.sort_values(by=["Model"], ascending=True)
     # Only select columns that exist in the DataFrame
     available_cols = [col for col in cols if col in df.columns]