GraphNet 自动样本抽取 Agent 设计 #602

Dayuxiaoshui · 2026-01-22T10:05:44Z

Dayuxiaoshui
Jan 22, 2026

GraphNet 自动样本抽取 Agent 设计方案

1. 问题描述

现状：从 Hugging Face (HF) 提取样本目前依赖人工编写 run_model.py，效率低且难以应对海量异构模型。
目标：构建自动化 Agent，实现从模型 ID 到样本的转换：ModelID → Sample

2. 方案设计

Agent 采用模块化设计，通过状态流转实现自动化。

2.1 数据结构

Model: 本地模型实体（权重、配置、环境依赖）
Metadata: 模型元数据（InputShape、Dtype 等）
Script: 生成的 run_model.py 脚本
Sample: 目标子图样本（包含 model.py, graph_net.json, input_meta.py 等）
KnowledgeBase: 知识库（收集的 run_model.py 及元数据）

2.2 核心操作

Fetch: ModelID → Model - 模型下载与同步
Analyze: Model → Metadata - 解析 config.json 提取元数据
CodeGen: Metadata → Script - 混合策略：优先 LLM 生成，失败则使用通用模板
Extract: Script → Sample - 在子进程中执行脚本并提取计算图
Deduplicate: Sample → bool - 基于 graph_hash 检查是否与已有样本重复
Verify: Sample → bool - 样本合法性校验
Archive: Script → KnowledgeBase - 将生成的 run_model.py 保存到样本目录，形成知识库

2.3 架构流程图

graph LR
    ID[HF Model ID] -->|Fetch| M[Local Model]
    M -->|Analyze| Meta[Metadata]
    
    subgraph Codegen [CodeGen Strategy]
        direction TB
        Meta --> LLM[LLM Engine]
        Meta --> Tpl[Template]
    end
    
    LLM --> S[run_model.py]
    Tpl --> S
    
    S -->|Extract| G[Sample]
    G -->|Deduplicate| Check{Duplicate?}
    Check -->|Yes| Skip[Skip Existing]
    Check -->|No| Verify[Verify]
    Verify --> Result{Success?}
    Result -->|Yes| Archive[Archive Script]
    Archive --> KB[KnowledgeBase]
    KB -.Feedback.-> Codegen

lixinqi · 2026-01-23T05:57:59Z

lixinqi
Jan 23, 2026
Maintainer

run_model.py也应该需要入库才对的。收集足够多的run_model.py，能够帮助自动抓取agent不断改进。

1 reply

Dayuxiaoshui Jan 23, 2026
Author

我理解这个建议。将 run_model.py 入库确实能形成反馈循环，帮助 Agent 持续改进。

Dayuxiaoshui · 2026-01-23T11:34:17Z

Dayuxiaoshui
Jan 23, 2026
Author

量化指标：成功生成并验证通过的样本数 / 总尝试数

0 replies

lixinqi · 2026-01-23T11:38:18Z

lixinqi
Jan 23, 2026
Maintainer

还得有一个查重的环节。防止和已有的模型重复了。

0 replies

lixinqi · 2026-01-25T10:53:49Z

lixinqi
Jan 25, 2026
Maintainer

ADT形式化描述。


Model :=
	Object # 本地模型实体（权重、配置、环境依赖）
Metadata :=
	Object # 模型元数据（InputShape、Dtype 等）
Script :=
	Object # 生成的 run_model.py 脚本
Sample :=
	Object # 目标子图样本（包含 model.py, graph_net.json, input_meta.py 等）
KnowledgeBase
	:= Object #知识库（收集的 run_model.py 及元数据）

AutoExtractor :=
	Model
	<- $Hint (ModelID <- str) # 从提示词获取ModelID
	<- $Fetch (Model <- ModelID) # 模型下载与同步
	<- $Analyze (Metadata <- Model) # 解析 config.json 提取元数据
	<- $CodeGen (Script <- Metadata) # 混合策略：优先 LLM 生成，失败则使用通用模板
	<- $Extract (Sample <- Script) # 在子进程中执行脚本并提取计算图
	<- $Deduplicate (bool <- Sample) # 基于 graph_hash 检查是否与已有样本重复
	<- $Verify (bool <- Sample) # 样本合法性校验
	<- $Archive (KnowledgeBase <- Script) # 将生成的 run_model.py 保存到样本目录，形成知识库

A <- B <- C表示函数类型，等效于def (c: C, b: B) -> A:等python函数签名。采用倒叙是为了强加目标感。
$符号代表类别名。比如$Hint (ModelID <- str)表示给(ModelID <- str)类型在当前上下文取一个别名Hint，也可以看做是变量名。

从上面的定义可以看出来，当前的类型定义不够明确。

1 reply

lixinqi Jan 25, 2026
Maintainer

我个人最不清楚Metadata和KnowledgeBase是如何表达的

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

GraphNet 自动样本抽取 Agent 设计 #602

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{editor}}'s edit

{{editor}}'s edit

Uh oh!

Replies: 4 comments 2 replies

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

GraphNet 自动样本抽取 Agent 设计 #602

Uh oh!

Uh oh!

Dayuxiaoshui Jan 22, 2026

GraphNet 自动样本抽取 Agent 设计方案

1. 问题描述

2. 方案设计

2.1 数据结构

2.2 核心操作

2.3 架构流程图

Replies: 4 comments · 2 replies

Uh oh!

lixinqi Jan 23, 2026 Maintainer

Uh oh!

Dayuxiaoshui Jan 23, 2026 Author

Uh oh!

Dayuxiaoshui Jan 23, 2026 Author

Uh oh!

lixinqi Jan 23, 2026 Maintainer

Uh oh!

lixinqi Jan 25, 2026 Maintainer

Uh oh!

lixinqi Jan 25, 2026 Maintainer

Dayuxiaoshui
Jan 22, 2026

Replies: 4 comments 2 replies

lixinqi
Jan 23, 2026
Maintainer

Dayuxiaoshui Jan 23, 2026
Author

Dayuxiaoshui
Jan 23, 2026
Author

lixinqi
Jan 23, 2026
Maintainer

lixinqi
Jan 25, 2026
Maintainer

lixinqi Jan 25, 2026
Maintainer