fix: Formatting/linter issues

bradhilton · bradhilton · commit 0e498cfaeeee · 2026-01-02T18:08:26.000Z
diff --git a/examples/hn_title_generator/reference_grpo_trainer.py b/examples/hn_title_generator/reference_grpo_trainer.py
@@ -3,7 +3,6 @@
 from typing import Tuple
 
 import numpy as np
-import wandb
 from datasets import Dataset
 from dotenv import load_dotenv
 from transformers import PreTrainedTokenizer
@@ -18,6 +17,7 @@
 )
 from vllm import SamplingParams
 
+import wandb
 from art.utils import limit_concurrency
 
 load_dotenv()
diff --git a/src/art/cli.py b/src/art/cli.py
@@ -29,10 +29,21 @@
 
 @app.command()
 def migrate(
-    path: Path = typer.Argument(..., help="Path to model dir, project dir, or trajectories dir"),
-    dry_run: bool = typer.Option(False, "--dry-run", "-n", help="Show what would be migrated without making changes"),
-    keep_jsonl: bool = typer.Option(False, "--keep-jsonl", help="Keep original JSONL files after conversion"),
-    verbose: bool = typer.Option(False, "--verbose", "-v", help="Print progress for each file"),
+    path: Path = typer.Argument(
+        ..., help="Path to model dir, project dir, or trajectories dir"
+    ),
+    dry_run: bool = typer.Option(
+        False,
+        "--dry-run",
+        "-n",
+        help="Show what would be migrated without making changes",
+    ),
+    keep_jsonl: bool = typer.Option(
+        False, "--keep-jsonl", help="Keep original JSONL files after conversion"
+    ),
+    verbose: bool = typer.Option(
+        False, "--verbose", "-v", help="Print progress for each file"
+    ),
 ) -> None:
     """
     Migrate trajectory files from JSONL to Parquet format.
@@ -88,24 +99,33 @@ def migrate(
                     model_dir,
                     delete_originals=not keep_jsonl,
                     dry_run=dry_run,
-                    progress_callback=lambda f: typer.echo(f"    {f}") if verbose else None,
+                    progress_callback=lambda f: typer.echo(f"    {f}")
+                    if verbose
+                    else None,
                 )
                 result = result + model_result
     else:
-        typer.echo(f"Error: Could not determine path type. Expected a model, project, or trajectories directory.", err=True)
+        typer.echo(
+            f"Error: Could not determine path type. Expected a model, project, or trajectories directory.",
+            err=True,
+        )
         raise typer.Exit(1)
 
     # Print summary
     if dry_run:
         typer.echo(f"\n[DRY RUN] Would migrate {result.files_migrated} files")
         if result.bytes_before > 0:
-            typer.echo(f"  Estimated space savings: {result.space_saved / 1024 / 1024:.1f} MB")
+            typer.echo(
+                f"  Estimated space savings: {result.space_saved / 1024 / 1024:.1f} MB"
+            )
     else:
         typer.echo(f"\nMigrated {result.files_migrated} files")
         if result.files_skipped > 0:
             typer.echo(f"Skipped {result.files_skipped} files")
         if result.bytes_before > 0 and result.bytes_after > 0:
-            typer.echo(f"Space saved: {result.space_saved / 1024 / 1024:.1f} MB ({result.compression_ratio:.1f}x compression)")
+            typer.echo(
+                f"Space saved: {result.space_saved / 1024 / 1024:.1f} MB ({result.compression_ratio:.1f}x compression)"
+            )
 
     if result.errors:
         typer.echo(f"\nErrors ({len(result.errors)}):", err=True)
diff --git a/src/art/local/backend.py b/src/art/local/backend.py
@@ -12,17 +12,16 @@
 import numpy as np
 import polars as pl
 import torch
-import wandb
 import weave
 from openai import AsyncOpenAI
 from tqdm import auto as tqdm
 from transformers import AutoImageProcessor, AutoTokenizer
 from transformers.image_processing_utils import BaseImageProcessor
 from transformers.tokenization_utils_base import PreTrainedTokenizerBase
 from typing_extensions import Self
-from wandb.sdk.wandb_run import Run
 from weave.trace.weave_client import WeaveClient
 
+import wandb
 from art.utils.deployment import (
     DeploymentResult,
     Provider,
@@ -45,6 +44,7 @@
 )
 from art.utils.trajectory_logging import write_trajectory_groups_parquet
 from mp_actors import close_proxy, move_to_child_process
+from wandb.sdk.wandb_run import Run
 
 from .. import dev
 from ..backend import Backend
diff --git a/src/art/utils/benchmarking/load_trajectories.py b/src/art/utils/benchmarking/load_trajectories.py
@@ -105,9 +105,13 @@ async def load_trajectories(
         return pl.DataFrame()
 
     # Collect all parquet files
-    all_parquet_files: list[tuple[str, str, str, int]] = []  # (path, model, split, step)
+    all_parquet_files: list[
+        tuple[str, str, str, int]
+    ] = []  # (path, model, split, step)
 
-    for model_dir in tqdm(model_dirs, desc="Scanning models", unit="model", disable=not debug):
+    for model_dir in tqdm(
+        model_dirs, desc="Scanning models", unit="model", disable=not debug
+    ):
         model_name = model_dir.name
         traj_root = Path(get_trajectories_dir(str(model_dir)))
 
@@ -121,12 +125,14 @@ async def load_trajectories(
             for trajectory_path in split_dir.glob("*.parquet"):
                 try:
                     step = int(trajectory_path.stem)
-                    all_parquet_files.append((
-                        str(trajectory_path),
-                        model_name,
-                        split_dir.name,
-                        step,
-                    ))
+                    all_parquet_files.append(
+                        (
+                            str(trajectory_path),
+                            model_name,
+                            split_dir.name,
+                            step,
+                        )
+                    )
                 except ValueError:
                     continue
 
@@ -220,7 +226,8 @@ async def load_trajectories(
                             "content": msg[1],
                             "tool_calls": msg[2],
                             "tool_call_id": msg[3],
-                            "trainable": msg[4] is not None,  # finish_reason present = trainable
+                            "trainable": msg[4]
+                            is not None,  # finish_reason present = trainable
                         }
 
                 # Build processed message
diff --git a/src/art/utils/benchmarking/log_constant_metrics_wandb.py b/src/art/utils/benchmarking/log_constant_metrics_wandb.py
@@ -1,8 +1,7 @@
 """Utilities for logging constant baseline metrics to Weights & Biases."""
 
-import wandb
-
 import art
+import wandb
 
 
 async def log_constant_metrics_wandb(
diff --git a/src/art/utils/trajectory_logging.py b/src/art/utils/trajectory_logging.py
@@ -82,38 +82,50 @@ def write_trajectory_groups_parquet(
                     msg = {
                         "finish_reason": msg.finish_reason,
                         "index": msg.index,
-                        "message": msg.message.to_dict() if hasattr(msg.message, "to_dict") else msg.message,
+                        "message": msg.message.to_dict()
+                        if hasattr(msg.message, "to_dict")
+                        else msg.message,
                     }
                 messages.append(_flatten_message(msg))
 
-            rows.append({
-                "group_index": group_index,
-                "reward": trajectory.reward,
-                "metrics": json.dumps(trajectory.metrics) if trajectory.metrics else None,
-                "metadata": json.dumps(trajectory.metadata) if trajectory.metadata else None,
-                "tools": json.dumps(trajectory.tools) if trajectory.tools else None,
-                "logs": trajectory.logs if trajectory.logs else None,
-                "messages": messages,
-            })
+            rows.append(
+                {
+                    "group_index": group_index,
+                    "reward": trajectory.reward,
+                    "metrics": json.dumps(trajectory.metrics)
+                    if trajectory.metrics
+                    else None,
+                    "metadata": json.dumps(trajectory.metadata)
+                    if trajectory.metadata
+                    else None,
+                    "tools": json.dumps(trajectory.tools) if trajectory.tools else None,
+                    "logs": trajectory.logs if trajectory.logs else None,
+                    "messages": messages,
+                }
+            )
 
     # Define schema
-    message_type = pa.struct([
-        ("role", pa.string()),
-        ("content", pa.string()),
-        ("tool_calls", pa.string()),
-        ("tool_call_id", pa.string()),
-        ("trainable", pa.bool_()),
-    ])
-
-    schema = pa.schema([
-        ("group_index", pa.int64()),
-        ("reward", pa.float64()),
-        ("metrics", pa.string()),
-        ("metadata", pa.string()),
-        ("tools", pa.string()),
-        ("logs", pa.list_(pa.string())),
-        ("messages", pa.list_(message_type)),
-    ])
+    message_type = pa.struct(
+        [
+            ("role", pa.string()),
+            ("content", pa.string()),
+            ("tool_calls", pa.string()),
+            ("tool_call_id", pa.string()),
+            ("trainable", pa.bool_()),
+        ]
+    )
+
+    schema = pa.schema(
+        [
+            ("group_index", pa.int64()),
+            ("reward", pa.float64()),
+            ("metrics", pa.string()),
+            ("metadata", pa.string()),
+            ("tools", pa.string()),
+            ("logs", pa.list_(pa.string())),
+            ("messages", pa.list_(message_type)),
+        ]
+    )
 
     if not rows:
         table = pa.table({name: [] for name in schema.names}, schema=schema)
@@ -168,7 +180,9 @@ def read_trajectory_groups_parquet(path: str | Path) -> list[TrajectoryGroup]:
             messages_and_choices=messages_and_choices,
             reward=row_dict["reward"],
             metrics=json.loads(row_dict["metrics"]) if row_dict.get("metrics") else {},
-            metadata=json.loads(row_dict["metadata"]) if row_dict.get("metadata") else {},
+            metadata=json.loads(row_dict["metadata"])
+            if row_dict.get("metadata")
+            else {},
             logs=row_dict.get("logs") or [],
         )
 
diff --git a/src/art/utils/trajectory_migration.py b/src/art/utils/trajectory_migration.py
@@ -235,53 +235,77 @@ def migrate_jsonl_to_parquet(
                     if "finish_reason" in msg:
                         # Choice format - extract inner message, mark as trainable
                         inner = msg.get("message", {})
-                        messages.append({
-                            "role": inner.get("role"),
-                            "content": inner.get("content"),
-                            "tool_calls": json.dumps(inner.get("tool_calls")) if inner.get("tool_calls") else None,
-                            "tool_call_id": None,
-                            "trainable": True,
-                        })
+                        messages.append(
+                            {
+                                "role": inner.get("role"),
+                                "content": inner.get("content"),
+                                "tool_calls": json.dumps(inner.get("tool_calls"))
+                                if inner.get("tool_calls")
+                                else None,
+                                "tool_call_id": None,
+                                "trainable": True,
+                            }
+                        )
                     else:
                         # Regular message
-                        messages.append({
-                            "role": msg.get("role"),
-                            "content": msg.get("content"),
-                            "tool_calls": json.dumps(msg.get("tool_calls")) if msg.get("tool_calls") else None,
-                            "tool_call_id": msg.get("tool_call_id"),
-                            "trainable": False,
-                        })
-
-                rows.append({
-                    "group_index": group_index,
-                    "reward": traj.get("reward"),
-                    "metrics": json.dumps(traj.get("metrics")) if traj.get("metrics") else None,
-                    "metadata": json.dumps(traj.get("metadata")) if traj.get("metadata") else None,
-                    "tools": json.dumps(traj.get("tools")) if traj.get("tools") else None,
-                    "logs": traj.get("logs"),
-                    "additional_histories": json.dumps(traj.get("additional_histories")) if traj.get("additional_histories") else None,
-                    "messages": messages,
-                })
+                        messages.append(
+                            {
+                                "role": msg.get("role"),
+                                "content": msg.get("content"),
+                                "tool_calls": json.dumps(msg.get("tool_calls"))
+                                if msg.get("tool_calls")
+                                else None,
+                                "tool_call_id": msg.get("tool_call_id"),
+                                "trainable": False,
+                            }
+                        )
+
+                rows.append(
+                    {
+                        "group_index": group_index,
+                        "reward": traj.get("reward"),
+                        "metrics": json.dumps(traj.get("metrics"))
+                        if traj.get("metrics")
+                        else None,
+                        "metadata": json.dumps(traj.get("metadata"))
+                        if traj.get("metadata")
+                        else None,
+                        "tools": json.dumps(traj.get("tools"))
+                        if traj.get("tools")
+                        else None,
+                        "logs": traj.get("logs"),
+                        "additional_histories": json.dumps(
+                            traj.get("additional_histories")
+                        )
+                        if traj.get("additional_histories")
+                        else None,
+                        "messages": messages,
+                    }
+                )
 
         # Define the message struct schema
-        message_type = pa.struct([
-            ("role", pa.string()),
-            ("content", pa.string()),
-            ("tool_calls", pa.string()),
-            ("tool_call_id", pa.string()),
-            ("trainable", pa.bool_()),
-        ])
-
-        schema = pa.schema([
-            ("group_index", pa.int64()),
-            ("reward", pa.float64()),
-            ("metrics", pa.string()),
-            ("metadata", pa.string()),
-            ("tools", pa.string()),
-            ("logs", pa.list_(pa.string())),
-            ("additional_histories", pa.string()),
-            ("messages", pa.list_(message_type)),
-        ])
+        message_type = pa.struct(
+            [
+                ("role", pa.string()),
+                ("content", pa.string()),
+                ("tool_calls", pa.string()),
+                ("tool_call_id", pa.string()),
+                ("trainable", pa.bool_()),
+            ]
+        )
+
+        schema = pa.schema(
+            [
+                ("group_index", pa.int64()),
+                ("reward", pa.float64()),
+                ("metrics", pa.string()),
+                ("metadata", pa.string()),
+                ("tools", pa.string()),
+                ("logs", pa.list_(pa.string())),
+                ("additional_histories", pa.string()),
+                ("messages", pa.list_(message_type)),
+            ]
+        )
 
         # Handle empty case
         if not rows:
diff --git a/tests/unit/test_trajectory_parquet.py b/tests/unit/test_trajectory_parquet.py