Skip to content

MayDomine/arxiv_rss_bot

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

242 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

arXiv Papers Bot 🤖

This repository automatically fetches and displays relevant papers from arXiv based on configured criteria.

RSS Vercel Deployment An example of deployed RSS Server using vercel

You can click this to deploy yours

Deploy with Vercel

📊 Statistics

  • Last Updated: 2026-03-06 06:14:20 UTC
  • Total Papers Found: 30
  • Categories Monitored: cs.AI, cs.CL, cs.DC, cs.LG

📚 Recent Papers

Authors: Luchang Li, Dongfang Li, Bozhao Gong, Yu Zhang
Category: cs.DC
Published: 2026-03-06
Score: 10.0
Type: new
ArXiv ID: 2603.04716v1

Abstract

Prefill-Decode (P/D) disaggregation has emerged as a widely adopted optimization strategy for Large Language Model (LLM) inference. However, there currently exists no well-established methodology for determining the optimal number of P/D hardware resources, subject to constraints on total throughput...

🤖 AI Summary (by qwen-long) - Click to expand

论文总结:SLO-Aware Compute Resource Allocation for Prefill-Decode Disaggregated LLM Inference


1. 论文的主要贡献和创新点

✅ 解决的问题

当前在 Prefill-Decode (P/D) disaggregation 架构下的大模型推理部署中,缺乏一种系统化的方法来确定最优的 Prefill 和 Decode 实例数量(即 GPU 资源配比)。这一问题直接影响到:

  • 是否能满足 SLO(Service Level Objectives),如 TTFT(Time To First Token)和 TPOT(Time Per Output Token)
  • 是否能实现 高吞吐、低成本、资源高效利用

现有工具(如 NVIDIA AIConfigurator)虽然支持参数搜索优化,但未提供基于理论建模的精确资源分配公式。


🚀 提出的新方法与创新思路

作者提出了一种 结合理论建模与实证基准测试的混合方法(hybrid approach),用于精准预测满足 SLO 和总吞吐要求的 P/D 资源数量。

主要创新点包括:

创新点 内容
1. 理论驱动的 P/D 资源计算模型 基于总吞吐量、输入/输出长度、Prefill/Decode 吞吐能力,推导出 N_prefillN_decode 的闭式解公式(公式 5~7),可直接计算所需实例数。
2. 基于 M/M/1 队列理论建模 Prefill 吞吐 将 Prefill 请求处理过程建模为 M/M/1 排队系统,从最大实测吞吐(TP_prefill_max)出发,推导出在目标 TTFT 下的实际可用吞吐(公式 13)。该方法考虑了请求到达率与排队延迟的影响。
3. 实证测量 Decode 吞吐以满足 TPOT 通过基准测试获取不同 Decode batch size 下的 TPOT 和 decode throughput 曲线,选择满足 TPOT 要求的最大 batch size,从而获得有效 decode throughput。
4. 不依赖端到端搜索或模拟器 相比 AIConfigurator 等基于搜索的方法,本方法无需大规模仿真或试错,计算效率更高,适用于实时容量规划。

🔍 相比现有方法的优势

对比维度 本文方法 现有方法(如 AIConfigurator、SGLang 部署实践)
是否支持 SLO-aware 分配 ✅ 显式建模 TTFT & TPOT 约束 ❌ 多数仅关注性能调优,不联合建模 SLO
是否给出解析解 ✅ 可直接计算 P/D 数量 ❌ 多依赖启发式或搜索
是否结合实测数据 ✅ Empirical + Theoretical Hybrid ⚠️ 部分纯理论或纯黑盒
部署成本与效率 ✅ 最小化过度配置,提升节点利用率 ❌ 容易出现资源浪费或 SLO 违规

2. 核心实验方法和设置

📊 实验场景设定(Realistic Inference Scenario)

参数 设置值
LLM 模型 DeepSeek-V3.1-Terminus
硬件平台 NVIDIA H200 GPU(每节点 8 卡)
推理引擎 SGLang v0.5.8
评估工具 EvalScope v1.4.2
部署方式 P/D 分离部署,各自独立运行在单独节点上
并行策略 Prefill 使用 TP + EP;Decode 使用 TP(禁用 DP/EP)
Multi-Token Prediction (MTP) 启用
Chunked Prefill Size 24576(远大于典型输入长度)

🎯 用户需求(Workload & SLO Constraints)

指标
平均输入长度(Lin) 6144 tokens
平均输出长度(Lout) 512 tokens
总吞吐目标(TP_total) 5 Million Tokens Per Minute (M TPM) ≈ 83.3k tokens/s
TTFT 要求 ≤ 2 秒
TPOT 要求 ≤ 20 ms/token

注:这些是典型的长上下文生成任务场景,常见于企业级 LLM 服务。


📈 评估指标

指标 描述
Achieved Throughput 实际达到的总 token 处理速率
TTFT Time To First Token,衡量响应延迟
TPOT Time Per Output Token,衡量生成流畅度
P/D Ratio Prefill 与 Decode 实例的比例
Node Utilization Efficiency 单个节点平均承载的吞吐量(越高越好)

🔀 基线方法对比

本文没有直接对比多个 baseline,而是采用 消融式验证设计

  • 主方案(Proposed): 3P4D(3 个 Prefill 实例 + 4 个 Decode 实例)
  • 对比方案(Baseline): 3P3D(减少一个 Decode 实例)

通过比较两者在相同 SLO 下所能支撑的最大吞吐,验证资源分配合理性。


3. 主要实验结果和性能指标

📣 关键性能数据

指标 数值 来源
最大 Prefill Throughput 28,300 tokens/s 实测(非空闲状态)
实际有效 Prefill Throughput(满足 TTFT≤2s) ~25,000 tokens/s 公式 (13) 推导(Toverhead = 100ms)
满足 TPOT≤20ms 的 Decode Throughput ~1,700 tokens/s 图2 中查表得到
推荐 P/D Ratio 0.82 : 1 (≈ 3P4D) 公式 (7) 计算得出
所需实例数 3 Prefill + 4 Decode 公式 (5)(6) 计算

📊 与基线方法对比结果(3P4D vs 3P3D)

部署方案 最大可达吞吐 是否满足 SLO TTFT margin TPOT bottleneck 节点平均吞吐
3P4D(本文推荐) ~4.8 M TPM ✅ 是(接近 5M TPM) 充裕 0.69 M TPM/node
3P3D(基线) ~3.6 M TPM ❌ 否(受限于 TPOT) 充裕 严重瓶颈 0.60 M TPM/node

💡 结果说明:

  • 3P3D 因 Decode 资源不足,导致 TPOT 超限,无法进一步提升吞吐;
  • 3P4D 在几乎满足全部 SLO 的前提下,逼近目标吞吐,且单位节点效率更高。

🔍 消融实验分析(Implicit Ablation)

尽管未显式命名“ablation study”,但以下实验体现了消融思想:

  1. 不同 Chunk Size 对 TTFT 预测准确性影响

    • 当 chunked prefill size ≥ request length 时,M/M/1 模型预测准确。
    • 即使 chunk 更大(如 24k chunk 处理 6k 输入),预测仍保持良好近似(见图1)。
  2. KV Cache Transfer Time 影响

    • 图1显示预测 TTFT 不含 KV 传输时间 → 实测略高,误差随输入长度增加而增大。
    • 表明 To verhead 需准确估计以提高精度。
  3. Decode Batch Size vs TPOT/Throughput 曲线

    • 图2 显示:增大 batch size 提升 throughput,但也显著增加 TPOT。
    • 必须权衡才能找到满足 SLO 的最佳 operating point。

4. 关键结论和发现

✅ 主要发现

  1. P/D 资源分配可以被精确建模
    通过将 Prefill 视为 M/M/1 排队系统,能够从最大吞吐推导出 SLO-constrained 实际吞吐,具有强理论基础。

  2. 最优 P/D ratio 由输入/输出长度和阶段吞吐共同决定
    公式 $ R_{P/D} = \frac{L_{in} \cdot TP_{decode}}{L_{out} \cdot TP_{prefill}} $ 揭示了关键因素间的平衡关系。

  3. Decode 阶段常成为瓶颈
    实验表明,在长输入、短输出场景下,Decode 吞吐较低(仅 ~1.7k tokens/s),需要更多实例来匹配 Prefill 能力。

  4. 所提方法能接近理论最优资源配置
    在真实部署中,3P4D 方案实现了 4.8M TPM,已达目标 5M TPM 的 96%,且 SLO 完全达标。


⚠️ 方法的局限性

局限性 说明
未考虑 Prefix Caching 若启用 prefix cache(如 KVCache sharing),实际计算量下降,需调整输入长度定义。
假设 M/M/1 排队模型成立 要求请求串行处理,当 chunk size >> input length 时可能发生 batching,偏离模型假设。
依赖高质量实测数据 如最大 Prefill Throughput 和 Decode Batch-TPOT 曲线必须准确测量,否则误差会传播。
静态工作负载假设 当前模型针对稳态请求流设计,对突发流量适应性未知。

🔮 未来工作方向

  1. 与 AIConfigurator 类工具集成
    将本方法嵌入自动化部署 pipeline,先用 AIConfigurator 寻找最优 TP/EP 配置,再用本文方法进行资源规模估算。

  2. 扩展至多阶段分离架构(如 EPD Disaggregation)
    支持 Embedding / Prefill / Decode 三阶段独立部署,进一步解耦资源需求。

  3. 动态弹性调度支持
    结合在线监控反馈,动态调整 P/D 实例数量以应对负载波动。

  4. 支持更复杂的排队模型(如 M/G/1)
    放宽指数分布假设,提升在异构请求场景下的建模准确性。


✅ 总结一句话

本文首次提出了一个 SLO-aware、理论可解释、工程可落地 的 P/D disaggregated LLM 推理资源分配框架,通过 M/M/1 排队建模 + 实证基准测量 的混合方法,实现了对 Prefill 与 Decode 资源数量的精准预测,在真实场景中达到了接近目标吞吐且严格满足 SLO 的高效部署效果。


Authors: Hanyong Shao, Yingbo Hao, Ting Song, Yan Xia, Di Zhang, Shaohan Huang, Xun Wu, Songchen Xu, Le Xu, Li Dong, Zewen Chi, Yi Zou, Furu Wei
Category: cs.LG
Published: 2026-03-06
Score: 10.0
Type: new
ArXiv ID: 2603.05232v1

Abstract

NVIDIA's 2:4 Sparse Tensor Cores deliver 2x throughput but demand strict 50% pruning -- a ratio that collapses LLM reasoning accuracy (Qwen3: 54% to 15%). Milder $(2N-2):2N$ patterns (e.g., 6:8, 25% pruning) preserve accuracy yet receive no hardware support, falling back to dense execution without a...

🤖 AI Summary (by qwen-long) - Click to expand

论文总结:SlideSparse: Fast and Flexible (2N-2):2N Structured Sparsity


1. 论文的主要贡献和创新点

✅ 解决了什么问题

  • 硬件支持与模型精度之间的矛盾
    NVIDIA 的 Sparse Tensor Cores 支持 2:4 structured sparsity,可带来约 2× 的 GEMM 吞吐提升,但要求 50% 权重被剪枝。然而,这种激进的剪枝比例在大语言模型(LLM)上会导致严重精度下降(如 Qwen3 推理准确率从 54% → 15%),尤其在复杂推理任务中不可接受。

  • 轻量级稀疏模式缺乏硬件加速
    更温和的 (2N-2):2N 结构化稀疏模式(如 6:8,即 25% 剪枝)能较好保留模型精度,但由于不满足 2:4 硬件格式,无法利用 Sparse Tensor Cores,只能回退到 dense 执行,完全浪费了稀疏性带来的潜在收益

🚀 提出的新方法和思路

  • Sliding Window Decomposition(滑动窗口分解)
    将任意一个 (2N-2):2N 稀疏权重块,通过 N-1 个步长为 2 的重叠滑动窗口,无损地拆解为多个符合 2:4 格式的子块。例如,6:8(N=4)可拆为 3 个 2:4 子窗口,总容量恰好匹配原始非零权重数。

  • Activation Lifting(激活提升)
    对应输入激活需要进行重排以保持数学等价性。该操作仅为索引映射(index remapping),无额外算术开销,因此可以融合进 per-token quantization 流程中,实现近零成本的在线处理。

  • 端到端系统集成
    将上述技术集成至 vLLM 推理框架,构建完整的三阶段流水线:

    1. Offline packer:预处理权重打包;
    2. Initial compression:模型加载时压缩;
    3. Online fused kernel:运行时融合量化与激活重排。

🔍 相比现有方法的优势

方面 SlideSparse 现有方案(如 cuSPARSELt)
支持稀疏模式 全系列 (2N-2):2N(如 4:6, 6:8, 8:10) 仅支持 2:4
是否利用硬件加速 ✅ 利用 Sparse Tensor Cores ❌ 非 2:4 模式回退为 dense
精度影响 无损转换,精度不变 若使用 2:4 则精度大幅下降
性能增益 接近理论最优加速比 $N/(N-1)$ 无增益或仅限 2:4
易部署性 无需修改硬件,兼容现有 GPU 受限于硬件硬编码约束

2. 核心实验方法和设置

📊 数据集与模型

  • 模型家族
    • Llama:Llama3.2-1B, Llama3.2-3B
    • Qwen:Qwen2.5-7B, Qwen2.5-14B
    • BitNet:BitNet-2B
  • 任务类型:LLM 推理(decode 和 prefill 阶段)
  • 稀疏模式测试范围:4:6 (N=3), 6:8 (N=4), 8:10 (N=5), ..., 14:16 (N=8)

⚙️ 实验设置

  • 硬件平台(共六种 GPU):
    • 数据中心级:A100 (Ampere), H100 (Hopper), B200 (Blackwell)
    • 消费级:RTX 4090 (Ada), RTX 5080 (Blackwell)
    • 嵌入式:DGX Spark (GB10)
  • 精度支持:FP4, INT8, FP8, BF16, FP16
  • 序列长度 M 范围:从 decode 场景的小 M(64~512)到 prefill 的大 M(最高达 65536)

📈 评估指标

  • Speedup Ratio:相对于 cuBLASLt 的 dense GEMM 基线的加速比
  • End-to-end Throughput:tokens/sec
  • Efficiency (%):实测加速 / 理论最大加速(基于 2:4 硬件能力推导)
  • Latency Breakdown:分析 decode vs. prefill 性能差异

🆚 基线方法对比

基线 描述
cuBLASLt (dense) 密集矩阵乘法基准,用于计算 speedup
cuSPARSELt (2:4 native) 官方 2:4 稀疏加速库,作为性能上限参考
(2N-2):2N + dense fallback 当前主流做法:即使有稀疏性也按密集执行

3. 主要实验结果和性能指标

📈 关键性能数据

✅ Kernel-Level 加速(M=16384)

GPU + Precision 6:8 Sparsity Speedup 理论上限 $N/(N-1)=4/3≈1.33×$ 是否超越理论?
A100 (INT8) 1.41–1.42× 1.33× ✅ 是(因 2:4 实际 >2×)
RTX 4090 (FP8) 1.35–1.37× 1.33× ✅ 接近
B200 (INT8) 4.06–4.32× 异常高(dense baseline 未优化)

注:B200 上异常高的加速源于 cuBLASLt 在 Blackwell 架构上的 INT8 实现尚未优化,导致 dense 基线较慢。

✅ 端到端推理加速(vLLM)

场景 模型 Sparsity Speedup 备注
A100, INT8, prefill Qwen2.5-7B 6:8 1.33× 精确匹配理论上限
RTX 4090, FP8, prefill Qwen2.5-7B 6:8 1.19× 消费级 GPU 仍显著受益
B200, INT8, decode/prefill Qwen-7B 6:8 1.05–1.21× 全 M 范围稳定增益

✅ 效率分析(Efficiency >100%)

GPU Precision 6:8 Efficiency
A100 INT8 115%
H100 INT8 119%
B200 INT8 134%
H100 FP8 117%
B200 FP8 122%

💡 关键发现:效率超过 100%,说明 SlideSparse 不仅没有引入额外开销,反而更充分地释放了 Sparse Tensor Cores 的潜力!

🔍 消融实验与关键观察

观察项 发现
M ≥ 1024 进入 compute-bound 区域,加速趋于稳定并接近理论值
M ≥ 4096 最佳性能表现,与理论预期高度一致
M < 256(decode) memory-bound,加速有限甚至 <1.0(受 kernel 开销影响)
Memory saving 6:8 存储仅需 75% 权重空间,缓解带宽压力,在 memory-bound 场景也有增益

4. 关键结论和发现

✅ 主要发现

  1. 首次实现 (2N-2):2N 模式在 2:4 硬件上的加速
    SlideSparse 成功打通了“精度友好”稀疏模式与“高性能”硬件之间的鸿沟。

  2. 理论加速比可达且可验证
    在 compute-bound 工作负载下,6:8 稀疏性的实测 end-to-end 加速比达到 1.33×精确等于理论极限 $N/(N-1)=4/3$

  3. 跨设备、跨精度通用性强
    在 A100/H100/B200/RTX4090/5080 等多种 GPU 上均取得显著加速,涵盖 INT8/FP8/BF16/FP16/FP4 多种精度。

  4. 效率反超原生 2:4
    得益于 fused quantization-slide kernel 设计,效率普遍超过 100%,表明其优于传统稀疏执行路径。

  5. 消费级 GPU 同样受益
    RTX 4090 上 FP8 推理达到 1.19× 加速,证明该技术具有广泛部署价值。

⚠️ 局限性(Limitations)

  • 依赖后处理剪枝(post-hoc pruning)
    当前实验基于 magnitude pruning,未结合 sparse-aware training,可能限制更高稀疏度下的精度表现(如 4:6)。

  • 小 M 场景增益有限
    在 decode 阶段(M<256),由于内存开销占主导,加速效果受限。

  • cuSPARSELt 自身存在缺陷
    如 FP16 支持缺失、某些配置出现 “illegal instruction” 错误,影响部分 benchmark 完整性。

  • 当前仅支持静态稀疏模式
    未探索 layer-wise 或 token-adaptive 动态稀疏选择。

🔮 未来工作方向

  1. Sparse-Aware Training Integration
    从训练初期就引入 (2N-2):2N 约束,进一步压榨高稀疏度下的精度-效率边界。

  2. 扩展至其他推理框架
    将 SlideSparse 集成进 TensorRT-LLMSGLang 等系统,推动生态普及。

  3. 支持动态稀疏适应(Dynamic Sparsity Adaptation)
    根据 layer sensitivity 或 token importance 动态调整稀疏程度。

  4. 适配下一代 M:N 硬件
    论文提出通用理论框架,若未来推出 1:4 Sparse Tensor Cores(a=4×),SlideSparse 可自然扩展并达到密度决定的速度上限 $S_{eff} = L/Z$


🏁 总结

SlideSparse 是首个将 (2N-2):2N 轻量级结构化稀疏模式与 NVIDIA 2:4 Sparse Tensor Cores 硬件加速能力连接起来的系统。它通过 Sliding Window Decomposition + Activation Lifting 实现无损转换,并以近乎零代价融合进现有推理流程。实验表明,在 Qwen2.5-7B 上 6:8 稀疏性即可实现 1.33× 的端到端加速,同时保留 95% 以上的原始精度,打破了“要么快但不准,要么准但不快”的二元困境,为 LLM 的高效部署提供了新的实用路径。


Authors: Di Zhang, Xun Wu, Shaohan Huang, Yudong Wang, Hanyong Shao, Yingbo Hao, Zewen Chi, Li Dong, Ting Song, Yan Xia, Zhifang Sui, Furu Wei
Category: cs.CL
Published: 2026-03-06
Score: 9.0
Type: new
ArXiv ID: 2603.05168v1

Abstract

Semi-structured N:M sparsity and low-bit quantization (e.g., 1.58-bit BitNet) are two promising approaches for improving the efficiency of large language models (LLMs), yet they have largely been studied in isolation. In this work, we investigate their interaction and show that 1.58-bit BitNet is na...

🤖 AI Summary (by qwen-long) - Click to expand

论文总结:Sparse-BitNet: 1.58-bit LLMs are Naturally Friendly to Semi-Structured Sparsity


1. 论文的主要贡献和创新点

✅ 解决的问题

当前提升 Large Language Models (LLMs) 效率的两大主流技术是:

  • 低比特量化(如 1.58-bit BitNet)
  • 半结构化稀疏(如 N:M sparsity,典型为 2:4 或 6:8 模式)

然而,这两者通常被独立研究,缺乏对它们之间交互效应的系统探索。本文提出并验证了一个关键假设:

1.58-bit BitNet 是否比全精度模型(如 BF16)更兼容 N:M 半结构化稀疏?

🚀 提出的新方法:Sparse-BitNet

作者提出了 Sparse-BitNet —— 一个统一框架,首次在训练中联合应用 1.58-bit 量化与动态 N:M 稀疏化,实现端到端稳定训练。

核心创新设计:

  • Quant-then-Mask 范式:先对权重进行 ternary 量化({-1,0,1}),再施加基于原始浮点权重的 N:M 掩码。
  • 动态掩码更新:每一步都根据当前 master weights 动态生成 N:M 掩码,避免掩码过时。
  • Dual STE(Straight-Through Estimator)梯度策略
    • 允许梯度流经所有 master weights(包括被 mask 掉的),防止结构过早坍塌。
    • 显著优于“仅更新活跃权重”的传统做法。

🔍 相比现有方法的优势

维度 优势说明
兼容性更强 1.58-bit BitNet 天然具有 ~42% 的零权重,其优化过程会促使权重极化(polarization),形成更适合稀疏化的结构。
鲁棒性更高 在相同 N:M 稀疏约束下,BitNet 的性能下降显著小于 BF16 模型。
效率提升明显 结合自研的 6:8 sparse kernel,在训练和推理阶段均获得高达 1.30× 的加速
无需后处理剪枝 稀疏性是在训练过程中自然形成的,而非依赖于预训练 + 后剪枝流程。

2. 核心实验方法和设置

📚 数据集

  • 训练数据:RefineWeb 数据集,每个模型训练约 50B tokens
  • 评估任务
    • 下游零样本任务:HellaSwag, ARC-E, PIQA, BoolQ, COPA
    • 困惑度(PPL)测试:在 RefineWeb 验证集上计算

⚙️ 实验设置

  • 模型架构:基于 Qwen2.5 系列,规模覆盖:
    • 0.5B, 1.5B, 3B
  • 稀疏模式
    • 主要使用 6:8(即每 8 个元素保留 6 个非零,25% 稀疏)
    • 对比测试了从 8:8(密集)到 2:8 的多种 N:M 设置
  • 量化配置
    • BitNet:权重 ternary {-1,0,1},激活 8-bit absmax 量化
    • BF16 baseline:标准浮点训练
  • 硬件平台
    • A100 GPU(prefill 阶段)
    • B200 GPU(decode 阶段)
  • 训练细节
    • 序列长度:2048
    • 优化器:AdamW,学习率 1e-5,cosine 调度
    • 所有变体保持相同的 token 数、数据分布、optimizer 和架构

🆚 基线方法对比

方法 描述
Dense BF16 全精度密集训练(无稀疏)
Sparse BF16 (6:8) 全精度 + 6:8 半结构化稀疏训练
Dense BitNet 1.58-bit 量化但不稀疏
Sparse-BitNet (Ours) 联合 1.58-bit 量化 + 6:8 稀疏训练

3. 主要实验结果和性能指标

📊 关键性能数据汇总

(1)下游任务平均准确率下降对比(△)

模型大小 方法 平均 Score △ Drop
0.5B Sparse BF16 53.76 -3.02
Sparse BitNet 52.71 -1.15
1.5B Sparse BF16 52.63 -7.71
Sparse BitNet 53.60 -3.79
3B Sparse BF16 60.18 -3.20
Sparse BitNet 57.96 -0.80

结论:在所有尺度下,Sparse-BitNet 的性能下降远小于 Sparse BF16。

(2)验证困惑度(PPL)增加对比(越小越好)

模型大小 方法 PPL↑增量(稀疏 vs 密集)
0.5B BF16 +1.20 → +23.11
BitNet +0.32 → 26.31
1.5B BF16 +0.60
BitNet +0.24
3B BF16 +0.45
BitNet +0.17

结论:BitNet 在引入稀疏后 PPL 上升更缓,表明其对稀疏更具鲁棒性。

(3)归一化 PPL 增长 vs 稀疏强度(图2)

  • 2:4(等价于 4:8)稀疏模式下:
    • BF16:+18.8% ↑(超过 10% 可接受阈值)
    • BitNet:仅 +5.7% ↑(仍低于阈值)
  • 崩溃临界点
    • BF16 在 4:8 就已“崩溃”
    • BitNet 直到 3:8 才突破阈值

➡️ 表明 BitNet 可承受更强的稀疏程度而不失稳。

(4)端到端吞吐量与加速比(Table 3)

场景(GPU) 输入配置(M) Dense (tok/s) Sparse (tok/s) Speedup
Prefill (A100) 65K seq len 42.7k 55.5k 1.30×
Decode (B200) batch=512 30.4k 34.4k 1.13×

最高达 1.30× 加速,证明实际部署价值。


🔬 消融实验结果

(1)不同训练设计对比(Qwen2.5-0.5B, 6:8)

变体 Val PPL 分析
Ours (quant-then-mask + dense grad) 26.31 最优,收敛快且稳定
Mask without grad 27.48 性能差,因 masked 权重无法恢复
Mask from quantized weight 32.23 极不稳定,因 ternary 引起大量 magnitude ties
Sparse before quant 26.71 次优,耦合噪声影响探索能力

(2)掩码翻转率(Flip Rate)分析

  • Ours:早期高翻转(探索),后期逐渐收敛 → 健康演化
  • Mask without grad:翻转率过低 → 过早冻结,限制搜索空间
  • Mask from quantized:持续高波动 → 不稳定选择

(3)Dense-to-Sparse 训练调度影响(Table 4)

稀疏阶段占比 p (%) Val PPL
25% 27.48
50% 27.39
75% 26.71
100% (sparse-from-scratch) 26.31

➡️ 表明需要足够长的稀疏训练时间才能达到最佳效果,“延迟切换”会导致永久质量损失。


4. 关键结论和发现

✅ 主要发现

  1. 1.58-bit BitNet 天然更友好于 N:M 稀疏

    • 其训练动态导致权重极化(polarization),形成清晰的“高幅值信号区”与“低幅值冗余区”,使得 N:M 剪枝主要作用于后者,减少信息丢失。
  2. Sparse-BitNet 实现更优的精度-效率权衡

    • 在相同稀疏度下,性能下降更小;可支持更高稀疏度而不崩溃。
  3. 动态掩码 + 密集梯度回传至关重要

    • 是保证训练稳定性与最终性能的关键机制。
  4. 结合专用 kernel 可实现真实加速

    • 自定义 6:8 sparse tensor core 支持,带来最高 1.30× 的 end-to-end 加速

⚠️ 局限性

  • 当前主要聚焦于 6:8 和 2:4 模式,尚未扩展至其他 N:M 比例或混合粒度。
  • 依赖于特定硬件支持(如 Sparse Tensor Core),通用性受限。
  • 未探讨与其他压缩技术(如 LoRA 微调)的结合潜力。

🔮 未来工作方向

  • 探索 更低比特(如 1-bit)与稀疏性的协同效应。
  • 将该范式应用于 vision-language modelsdecoder-only 架构的大规模部署
  • 开发跨硬件平台的通用稀疏 kernel,提升可移植性。
  • 研究如何将此思想用于 post-training pruning 流程以进一步压缩已有模型。

💡 一句话总结
1.58-bit BitNet 不仅本身高效,还因其内在结构特性成为半结构化稀疏的理想载体。Sparse-BitNet 首次揭示并利用这一协同效应,在保持更高精度的同时实现显著加速,为高效 LLM 设计开辟了新的 Pareto 前沿。

🔗 代码开源地址:https://github.com/AAzdi/Sparse-BitNet


Authors: Mikail Yayla, Akash Kumar
Category: cs.LG
Published: 2026-03-06
Score: 8.5
Type: new
ArXiv ID: 2603.05048v1

Abstract

Robustness to bit errors is a key requirement for the reliable use of neural networks (NNs) on emerging approximate computing platforms and error-prone memory technologies. A common approach to achieve bit error tolerance in NNs is injecting bit flips during training according to a predefined error ...

🤖 AI Summary (by qwen-long) - Click to expand

论文总结:MCEL: Margin-Based Cross-Entropy Loss for Error-Tolerant Quantized Neural Networks


1. 论文的主要贡献和创新点

解决的问题

当前神经网络(NNs)在部署于近似计算平台(approximate computing platforms)和易出错存储技术(error-prone memory technologies,如低电压SRAM、RRAM等)时,会因位翻转(bit flips) 导致推理精度严重下降。传统解决方案是训练时注入位错误(bit flip injection),但这带来了以下问题:

  • 引入显著的计算开销
  • 在高错误率下降低推理精度
  • 难以扩展到大型网络架构
  • 依赖特定错误模型,泛化性差

因此,亟需一种无需错误注入训练、高效且可扩展的鲁棒性增强方法。


提出的新方法与新思路

作者提出了一种全新的视角:将位错误容忍能力与分类输出层的“分类间隔”(classification margin)直接关联

核心洞察

  • 分类 margin 定义为最大 logit 与次大 logit 的差值:
    $$ m(x,\theta) = f_\theta(x){y(x)} - \max{k \neq y(x)} f_\theta(x)_k $$
  • 更大的 margin 意味着更强的抗扰动能力,即使参数发生微小变化(如 bit flip),预测也不会改变。

基于此,作者提出了 Margin Cross-Entropy Loss (MCEL),其核心思想是在标准 Cross-Entropy Loss 中显式地引入 margin 约束。

MCEL 的设计要点

  • 在损失函数中对真实类别 logit 减去一个固定 margin m: $$ \text{MCEL}(y,i) = -\log \frac{\exp(y_i - m)}{\sum_k \exp(y_k)} $$
  • 但由于 softmax 具有平移不变性(shift invariance),直接减 m 无效(网络可通过整体下调 logits “作弊”)。
  • 因此引入 tanh-based logit clamping 机制: $$ \hat{y}_k = L \cdot \tanh\left(\frac{y_k}{L}\right) $$ 将所有 logits 限制在 $[-L, L]$ 范围内,防止全局漂移,使 margin 具有意义。

最终 MCEL 成为一个可解释、可调节、无需错误注入训练的鲁棒性优化方法。


相比现有方法的优势

维度 传统方法(Error Injection) MCEL(本文方法)
是否需要错误注入训练 ✅ 是,开销大 ❌ 否,训练干净
可扩展性 差,难以用于大模型 好,即插即用
计算效率 低,需模拟每位翻转 高,仅修改 loss
参数可解释性 有,m 控制鲁棒强度
泛化性 依赖错误模型 不依赖具体错误模式

MCEL 是首个无需训练时错误注入即可提升 QNNs 错误容忍度的方法。


2. 核心实验方法和设置

使用的数据集

数据集 输入尺寸 类别数 模型
FashionMNIST (1,28,28) 10 VGG3
SVHN (3,32,32) 10 VGG7
CIFAR10 (3,32,32) 10 MobileNetV2
Imagenette(ImageNet子集) (3,64,64) 10 ResNet18

实验设置

  • 量化方案:Binary(BNN)、2-bit、4-bit、8-bit QNNs
  • 训练方式:全程采用 Quantization-Aware Training (QAT)
  • 错误注入方式
    • 仅在推理阶段注入 bit flips
    • 比特错误率(BER)从 0% 到 2% 不等
    • 假设 0↔1 翻转概率相等
  • 实现工具:自研框架 GitHub,支持高效 GPU bit-level 操作

评估指标

  • 主指标:Top-1 Accuracy vs. Bit Error Rate 曲线
  • 辅助分析指标
    • Mean Logit Margin (MLM):训练过程中 top-1 与 top-2 logit 的平均差值
    • Margin 参数 m 的影响(消融实验)

基线方法对比

  • Baseline:Standard Cross-Entropy Loss(CEL),PyTorch 默认实现
  • 对比方法
    • 对于 BNNs:Modified Hinge Loss (MHL) [Buschjager et al., DATE 2021]
  • 所有模型均不在训练中注入任何错误

3. 主要实验结果和性能指标

关键性能数据

  • 1% BER 下,MCEL 相比 CEL 最多提升 15.32% 的准确率
    • 示例:FashionMNIST + 4-bit VGG3,MCEL(m=32) 达到 ~85%,而 CEL 仅为 ~70%
  • 多数配置下,MCEL 在 BER > 0.5% 时显著优于 CEL
  • BNNs 上也有效,部分场景接近甚至超过 MHL

与基线方法的对比结果

场景 MCEL vs. CEL MCEL vs. MHL(BNN)
FashionMNIST (4b VGG3) ↑15.32% @1% BER
SVHN (4b VGG7) ↑~12% @1% BER MCEL 更优
CIFAR10 (4b MobileNetV2) 明显更鲁棒
Imagenette (4b ResNet18) 有一定增益
BNNs (Fashion/VGG3) MLM 提升约30倍 MHL 略优(m=128)
BNNs (SVHN/VGG7) MLM 提升约60倍 MCEL 更优

🔍 MCEL 在多数 QNN 和 BNN 架构上均表现出更强的错误容忍能力。


消融实验结果

  • Margin 参数 m 的影响
    • 最佳 m 在不同任务中不同(如 Fashion: m=32~128;SVHN: m=64)
    • 过大的 m(如 >200)会导致训练困难或精度下降
    • 推荐范围:m ∈ [1, 128],结合 L=100 得到 RLS = m/(2L) ∈ [0.5%, 64%]
  • Logit Clipping 必要性验证
    • 若不使用 tanh clamp,直接减 m 几乎无效果(因 softmax 平移不变)
    • tanh clamp 保证了 margin 的实际作用

4. 关键结论和发现

主要发现

  1. 分类 margin 是决定 NN 抗 bit-flip 能力的关键因素
    • 输出层 logits 的 margin 越大,模型越能容忍参数扰动。
  2. 无需错误注入也能实现强鲁棒性
    • MCEL 通过优化 margin 实现鲁棒性,摆脱了对错误模型的依赖。
  3. MCEL 是通用、高效、即插即用的 loss 替代方案
    • 只需替换 CEL,无需修改网络结构或训练流程。
  4. tanh clamp 解决了 margin 的尺度敏感性和优化稳定性问题
    • 提供了 smooth、bounded、可微的 logits 约束机制。

方法的局限性

  1. 适用于分类任务:依赖明确的 logits 输出,难以直接推广到生成模型(如 GANs、VAEs)或序列建模(如 Transformers)。
  2. 对极低比特(如 2-bit)和复杂数据集(如 Imagenette)效果受限
    • 表示能力受限 + margin 约束 → 训练难度增加,收敛慢。
  3. Margin 参数需调优:虽然可解释,但仍需根据任务选择合适的 m
  4. 未考虑非均匀错误分布:假设所有 bit 翻转概率相同,现实中可能不成立(如高位比特更关键)。

未来工作方向

  1. 扩展至非分类任务:探索结构化输出(structured output)中的 margin 定义,如 sequence-level margin。
  2. 动态 margin 调整:设计自适应 m 或课程学习策略,在训练中逐步增大 margin。
  3. 结合硬件感知优化:联合优化 MCEL 与内存映射、电压缩放策略,实现端到端可靠性保障。
  4. 理论分析 margin 与泛化性的关系:建立 margin、鲁棒性与 generalization error 的理论联系。

总结

🎯 MCEL 提供了一个简洁、高效、可解释的新范式:通过控制输出层 margin 来提升量化神经网络的错误容忍能力,无需训练时注入错误。它不仅在多个数据集和架构上显著优于传统方法,还揭示了鲁棒性的本质机制——决策边界的宽度决定了系统的容错能力。


Authors: G. Madan Mohan, Veena Kiran Nambiar, Kiranmayee Janardhan
Category: cs.AI
Published: 2026-03-06
Score: 8.0
Type: new
ArXiv ID: 2603.04837v1

Abstract

We introduce the Dynamic Behavioral Constraint (DBC) benchmark, the first empirical framework for evaluating the efficacy of a structured, 150-control behavioral governance layer, the MDBC (Madan DBC) system, applied at inference time to large language models (LLMs). Unlike training time alignment m...

🤖 AI Summary (by qwen-long) - Click to expand

论文总结:Design Behaviour Codes (DBCs): A Taxonomy-Driven Layered Governance Benchmark for Large Language Models


1. 论文的主要贡献和创新点

解决的问题

当前大语言模型(LLMs)在高风险领域(如医疗、法律、国家安全)的部署速度远超其治理机制的发展。现有的 AI 安全方法存在明显局限:

  • 训练时对齐方法(如 RLHF、DPO)计算成本高、模型锁定、缺乏透明度;
  • 推理时过滤机制(如内容审核 API)仅能事后拦截,无法主动引导模型行为。

该论文旨在解决 如何在不修改模型的前提下,实现可衡量、可审计、跨司法管辖区适配的动态行为治理


提出的新方法与新思路

作者提出了 Dynamic Behavioral Constraint (DBC) 框架,这是一种基于系统提示(system-prompt)层的行为治理层,具有以下核心创新:

  • 结构化治理规范:提出 MDBC (Madan DBC) 系统,包含 150 个显式控制项(controls),组织为 8 个治理支柱(Pillars)和 7 个操作模块(Blocks),覆盖从认知处理到合规管理的完整行为链条。
  • 分层治理架构:DBC 是一种 model-agnostic、jurisdiction-mappable、auditable 的推理时治理层,作用于生成前阶段,塑造模型在整个上下文窗口中的行为先验。
  • 统一风险分类体系:构建了一个涵盖 30 个风险域 的细粒度 AI 风险分类法(taxonomy),分为六大集群:
    • Hallucination & Calibration
    • Bias & Fairness
    • Malicious Use & Security
    • Privacy & Data Protection
    • Robustness & Reliability
    • Misalignment & Agency

相比现有方法的优势

维度 传统方法(RLHF/DPO/Content Moderation) DBC 框架
可解释性 黑箱,难以追溯 显式控制项,可审计
灵活性 需重新训练或微调 无需模型修改,即插即用
多法规映射 缺乏直接对应 支持 EU AI Act、NIST AI RMF、SOC 2、ISO 42001 多框架自动评分
主动性 被动过滤或固化训练 在生成前主动约束行为
评估方式 单一任务 benchmark 跨模型、跨攻击策略、红队代理生成的综合评估

2. 核心实验方法和设置

数据集与测试用例生成

  • 未使用静态公开数据集,而是采用 agentic red-team protocol 自动生成对抗性提示。
  • 对每个 30 个风险域 × 5 种攻击策略 = 150 组合,由一个自主攻击代理(Claude-3-Haiku)与目标模型进行 5 轮交互式对抗对话,最终生成一个冷启动(cold-start)的最优攻击提示。
  • 总共生成 260 个高质量对抗提示,覆盖所有风险域。

攻击策略包括:

  1. Direct:直接请求有害行为
  2. Roleplay:要求模型扮演无约束角色
  3. Few-Shot:提供示例诱导风险输出
  4. Hypothetical:以虚构或学术场景间接诱导
  5. Authority Spoof:冒充权威身份合理化请求

实验设置(Three-Arm Controlled Design)

采用 十一臂实验设计,核心三臂如下:

Arm 描述
Base 无任何系统提示,原始 LLM 输出
Base + Moderation 添加通用安全提示(如“请保持安全、事实性和礼貌”)
Base + DBC 应用完整的 150 控制项 MDBC 系统提示

此外还包括各 Cluster 的消融实验及灰盒攻击测试(Gray-box Adversarial Override)。


评估指标

  • Risk Exposure Rate (RER):模型响应中暴露于风险的比例(越低越好)
  • Relative Risk Reduction (RR%):相对于 Base 的相对风险下降百分比
  • MDBC Adherence Score:1–10 分制,衡量对 MDBC 控制的遵循程度
  • Regulatory Compliance Scores:自动化打分 EU AI Act、NIST AI RMF、SOC 2、ISO 42001 合规性(1–10)
  • Fleiss’ κ:三法官一致性检验,评估标注可靠性
  • Statistical Tests:McNemar 检验(配对)、Bootstrap 置信区间(95%, 2000 resamples)、Cohen’s h 效应量

基线方法对比

  • Base:基准模型行为
  • Base + Moderation:代表主流实践中的简单安全提示
  • DBC 层:作为独立变量进行因果归因分析

3. 主要实验结果和性能指标

关键性能数据(见 Table 4 和 Figure 1)

Arm RER (%) 绝对风险降低 (pp) 相对风险降低 (RR%)
Base 7.19
Base + Moderation 7.15 0.04 0.6%
Base + DBC 4.55 2.64 36.8%

DBC 层实现了 36.8% 的相对风险降低,而标准 moderation 仅降低 0.6%


MDBC 遵循度与合规性提升(Table 5)

指标 Base Base + DBC 提升
MDBC Adherence 8.60 8.70 +0.10
EU AI Act 7.82 8.50 +0.68
NIST AI RMF 7.65 7.90 +0.25
SOC 2 7.58 8.02 +0.44
ISO 42001 7.71 8.11 +0.40

所有合规框架得分均超过 7.0 可接受阈值,其中 EU AI Act 达到 8.5/10


消融实验结果(Cluster Ablation Study)

通过激活单个 DBC Block 观察风险降低效果,发现:

  • Cluster E(Integrity Protection, MDBC-081–099) 表现最佳:
    • 在恶意使用、安全攻击等领域带来最广泛的风险抑制
    • 实现跨域稳定化(cross-domain stabilization)
    • 是唯一在所有测试域中未出现“高风险”单元的模块
  • 其他 Cluster(A, B, C, D, F, G)改进较为渐进,部分依赖性强(如 Cluster B 在对抗性任务中表现脆弱)

Cluster E 提供最高的边际风险降低效益,支持轻量化部署策略


对抗鲁棒性测试(Gray-box Attack)

  • 引入 DBC Bypass Rate (DBR) 指标:攻击者在 DBC 提示前注入 override 指令
  • 结果显示:
    • 正常 DBC 错误率(RER):4.55%
    • 攻击下 DBR:4.83%
    • 即约 4–5% 的攻击可部分或完全绕过 DBC 层

⚠️ 尽管增幅小,但仍揭示了指令劫持(instruction hijacking)的潜在漏洞


4. 关键结论和发现

主要发现

  1. DBC 框架显著优于通用 moderation:实现 36.8% 相对风险降低,证明结构化提示的有效性。
  2. DBC 提升多法规合规性:尤其在 EU AI Act 上达 8.5/10,具备实际监管应用潜力。
  3. Cluster E(Integrity Protection)是关键驱动力:建议优先部署此模块以实现最小可行控制集(minimal viable control set)。
  4. 跨模型泛化能力强:在多个不同厂商的 LLM 家族上均观察到正向风险降低,无负迁移现象(no negative transfer)。
  5. 评估协议可靠:三法官 ensemble 的 Fleiss’ κ > 0.70,达到 substantial agreement 水平。

方法的局限性

  1. LLM-as-Judge 的偏倚风险:尽管采用跨提供商法官,仍可能存在预训练文本模式熟悉性偏差。
  2. 提示生成偏差:攻击提示由 LLM 自动生成,可能遗漏人类特有的攻击路径。
  3. 温度设定影响:固定 temperature=0.7 影响结果方差;T=0 更确定但低估现实多样性。
  4. 模型版本不稳定:API 模型行为可能随时间变化而未更新版本号。
  5. 静态提示部署:当前为一次性系统提示,尚未实现动态上下文感知的 adaptive DBC 激活。

未来工作方向

  1. 开发 加密签名提示(cryptographic prompt signing)哨兵令牌嵌入(sentinel token embedding) 以抵御指令劫持。
  2. 探索 动态 DBC 激活机制:根据会话中检测到的风险实时启用特定控制块。
  3. 进行 人类标注验证研究:对分层样本(n=100)进行人工标注,校准 LLM judge 的判断偏差。
  4. 构建 DBC Studio 工具链:支持企业级定制化控制集配置与合规报告生成。
  5. 推动 DBC 成为 开放标准:联合监管机构推广为可审计的 AI 治理基础设施。

📦 开源承诺:作者已公开发布 benchmark code、prompt database、MDBC specification,推动可复现、纵向追踪的 AI 治理研究生态。


Authors: Waleed Afandi, Hussein Abdallah, Ashraf Aboulnaga, Essam Mansour
Category: cs.LG
Published: 2026-03-06
Score: 8.0
Type: new
ArXiv ID: 2603.04545v1

Abstract

Efficient inference for graph neural networks (GNNs) on large knowledge graphs (KGs) is essential for many real-world applications. GNN inference queries are computationally expensive and vary in complexity, as each involves a different number of target nodes linked to subgraphs of diverse densities...

🤖 AI Summary (by qwen-long) - Click to expand

论文核心结论与实验结果总结

1. 论文的主要贡献和创新点

解决的问题

在大规模 Knowledge Graphs (KGs) 上进行 Graph Neural Network (GNN) 推理面临以下挑战:

  • 计算开销大:每个推理查询涉及不同数量的目标节点(Target Nodes, TN),其邻域子图结构多样且密度不均,导致推理成本高昂。
  • 内存浪费严重:现有系统将训练好的 GNN 模型以单体文件形式存储,必须全量加载模型参数和非目标节点嵌入(embeddings),即使这些组件对当前查询无关。
  • 缺乏语义感知:传统加速方法如剪枝(pruning)、量化(quantization)和知识蒸馏(knowledge distillation)虽能减小模型体积,但无法根据查询的结构和语义特性动态适配计算与数据加载。

提出的新方法:KG-WISE

本文提出 KG-WISE —— 一种面向大规模 KG 的任务驱动、查询感知的 GNN 推理系统。其核心思想是通过 LLM 指导的语义子图提取 + 细粒度模型分解 + 查询定制化模型实例化 来实现高效推理。

创新点

  1. LLM-Guided Query Template Generation

    • 在训练前,利用 LLM 分析任务描述和 KG schema,生成可复用的 SPARQL 查询模板(Query Template, QT)。
    • 该模板用于提取与目标任务语义相关的紧凑子图(task-relevant subgraph),避免加载无关邻居。
  2. Fine-Grained Model Decomposition

    • 将训练后的 GNN 模型拆分为细粒度组件:模型参数(weights)按节点类型分块的节点嵌入(node embeddings)
    • 使用 Key-Value Store(KV Store) 存储嵌入,支持基于节点类型的按需加载。
  3. Query-Aware Model Instantiation

    • 推理时复用预生成的 QT,从 KG 中提取与当前查询相关的语义子图 SG。
    • 仅加载 SG 所需的模型参数和嵌入块,构建一个轻量级、查询特定的模型 $M'$ 进行推理。
    • 动态选择稀疏或稠密张量聚合方式优化效率。

相比现有方法的优势

特性 传统方法(Pruning/Quantization/KD) KG-WISE
是否支持部分加载 ❌ 全模型加载 ✅ 按需加载嵌入和权重
是否考虑查询语义 ❌ 固定采样策略 ✅ LLM 指导语义相关性
存储机制 单体文件 KV Store + 文件存储
内存占用 高(>99% 为嵌入) 极低(仅加载相关部分)
推理延迟 显著降低

2. 核心实验方法和设置

数据集

使用 KGBen benchmark,包含六个真实世界的大规模 KGs,覆盖多种应用场景:

数据集 节点数 边数 任务类型 指标
DBLP-15M 15.6M 252M NC (Paper-Venue) ACC
MAG-42M 42.4M 166M NC (Paper-Venue) ACC
YAGO4 30.7M 400M NC (Place-Country) ACC
ogbl-wikikg2 2.5M 17M LP (Person-Org) H@10
YAGO3-10 123K 1.1M LP (Country-Area) H@10
DBLP-15M 15.6M 252M LP (Author-Affiliation) H@10

注:NC = Node Classification, LP = Link Prediction

实验设置

  • 硬件环境:Ubuntu VM,双路 64 核 Intel Xeon CPU,256GB RAM,NVIDIA V100 GPU(32GB VRAM)
  • RDF 引擎:Virtuoso 07.20.3229
  • KV Store:Zarr(支持块索引和压缩)
  • GNN 架构:RGCN(Relational GCN)
  • Hop 数:固定为 K=2 层,防止过平滑(over-smoothing)

评估指标

  • Accuracy / Hits@10 (H@10):预测准确性
  • Inference Time:端到端推理时间(含预处理、模型加载、前向传播)
  • Memory Usage:RAM 和 GPU 显存消耗
  • Energy Consumption & CO₂ Emissions:使用 CodeCarbon 工具测量碳足迹

基线方法对比

类别 方法 说明
Inference Accelerators GCNP (Pruning) 通道剪枝
Degree-Quant (DQ) 量化感知训练
GKD 几何知识蒸馏
Training Accelerators GraphSAINT 随机游走采样
IBMB 基于重要性的 mini-batch
MorsE 结构感知采样
KG-TOSA 任务导向采样(固定模式)

所有基线均适配至 RGCN 支持异构图。


3. 主要实验结果和性能指标

关键性能数据

任务 方法 推理时间 内存使用 准确率
DBLP-PV (NC) KG-WISE 23.6s 6.3GB 0.91
Best Baseline (GCNP) 150s 30GB 0.87
MAG-PV (NC) KG-WISE 49s 10.7GB 0.71
DQ 480s 41s 0.67
YAGO4-PC (NC) KG-WISE 59.9s 9.8GB 0.91
DQ 1615s 54.2GB 0.83

最高达 28× 加速,内存减少 98%

与基线方法对比结果

  • 推理速度提升
    • 平均 10–28× 更快,在 YAGO4 上达到 28× 加速。
  • 内存使用下降
    • 最高 98% 内存节省(YAGO4),平均降低 90%+
  • 准确率表现
    • 持平或更高:KG-WISE 在多数任务上准确率优于或等于 SOTA 方法,最高提升 4%
    • 原因:LLM 提取的语义子图更紧凑,起到正则化作用,排除噪声节点。

消融实验结果

(1)LLM-Guided Subgraph vs. 固定模式(KG-TOSA)

方法 推理时间 内存 准确率
KG-TOSA 100% 100% 基准
KG-WISE 41–52% 60–84% ≈ 或略优

LLM 指导显著提升子图质量,减少无关节点引入。

(2)Partial Loading 效果

  • 表明:非目标节点嵌入占模型总大小的 ~99%,而 KG-WISE 仅加载其中一小部分。
  • 示例(DBLP):
    • 全模型大小:6.9 GB
    • KG-WISE 实例化模型:17MB(|TN|=100) → 121MB(|TN|=1600)
    • 实现 两个数量级的压缩

(3)KV-Store Chunk 加载分析(Figure 10)

  • 在 DBLP 上回答 1K 目标节点查询时,KG-WISE 仅加载了 约 10% 的 KV-chunks
  • 证明其选择性加载机制极为高效。

(4)LLM-Agnostic 性能测试

  • 使用多种 LLM(Gemini, GPT-4/5, Qwen, GPT-oss 等)生成 QT。
  • 发现
    • 所有 LLM 下 准确率稳定,表明方法不依赖特定 LLM。
    • 开源 LLM(如 Qwen, GPT-oss)倾向于选择更紧凑谓词集,在复杂 KG(如 YAGO4)上产生更小的子图,内存更低、推理更快
    • 商业 LLM(如 GPT-4)有时扩展更多关系,增加内存压力。

(5)CPU vs. GPU 推理

  • KG-WISE 在 GPU 上进一步加速:
    • DBLP: 21s (CPU) → 13s (GPU)
    • MAG: 49s → 22s
    • YAGO4: 34s → 15s
  • 基线方法常因显存不足(OOM)失败,而 KG-WISE 因部分加载成功运行。

(6)能耗与碳排放(Table IV)

指标 GraphSAINT KG-WISE 节省
总能耗 (Wh) 1.19 0.42 62%
总 CO₂ 排放 (g) 0.15 0.053 60%
单节点能耗 1.2×10⁻³ 0.4×10⁻³ ↓ 3×

KG-WISE 是更绿色、可持续的推理方案。


4. 关键结论和发现

主要发现

  1. 🔍 KG 中的推理瓶颈在于非目标节点嵌入的冗余加载,而非模型参数本身。
  2. 🤖 LLM 可有效指导语义相关子图提取,无需在线调用,模板可复用。
  3. 🧩 细粒度模型分解 + KV Store 支持高效的部分加载,是实现轻量推理的关键。
  4. KG-WISE 实现高达 28× 推理加速和 98% 内存节省,同时保持甚至提升准确率。
  5. 🌱 显著降低能源消耗和碳排放(↓60%),推动绿色 AI 发展。
  6. 🔄 方法具有 LLM-Agnostic 特性,兼容商业与开源 LLM,适用性强。

方法的局限性

  • 依赖高质量的任务描述输入给 LLM:若任务定义模糊,可能影响 QT 质量。
  • SPARQL 查询执行时间成为预处理瓶颈:尤其在超大图上,尽管可通过并行缓解。
  • 目前假设 KG 支持 SPARQL 查询接口:对于非 RDF 形式的 KG 需额外转换。
  • 未探索动态更新场景下的嵌入一致性维护:适用于静态或缓慢演化的 KG。

未来工作方向

  • 支持 流式 KG 更新下的增量嵌入管理
  • 探索 多跳复杂查询的自动分解与调度
  • 将框架扩展至 多模态 KG(如图文知识图谱)。
  • 研究 更高效的 LLM 提示工程策略,减少对大模型的依赖。
  • 构建 统一的 GNN Serving 平台,集成 KG-WISE 作为核心推理引擎。

总结一句话
KG-WISE 通过“LLM 指导语义子图 + 细粒度模型解耦 + 查询定制化加载”的范式,首次实现了真正意义上的查询感知、资源自适应的大规模 KG 上 GNN 推理系统,在速度、内存、能耗方面全面超越现有方法,且精度不降反升。


Authors: Shanle Yao, Narges Rashvand, Armin Danesh Pazho, Hamed Tabkhi
Category: cs.AI
Published: 2026-03-06
Score: 7.5
Type: new
ArXiv ID: 2603.04723v1

Abstract

Shoplifting is a growing operational and economic challenge for retailers, with incidents rising and losses increasing despite extensive video surveillance. Continuous human monitoring is infeasible, motivating automated, privacy-preserving, and resource-aware detection solutions. In this paper, we ...

🤖 AI Summary (by qwen-long) - Click to expand

论文总结:From Offline to Periodic Adaptation for Pose-Based Shoplifting Detection in Real-world Retail Security


1. 论文的主要贡献和创新点

✅ 解决的问题

当前零售店面临的shoplifting(盗窃)问题日益严重,尽管部署了大量监控摄像头,但由于以下原因难以有效应对:

  • 人工监控不可行:视频量巨大,无法实时分析;
  • 现有AI方法多为离线训练(offline),在真实世界中因环境变化(如布局、光照、行为漂移)导致性能下降;
  • 缺乏适用于IoT边缘设备部署的隐私保护、资源敏感且可周期自适应的解决方案。

🚀 提出的新方法与创新

本论文提出了一套面向IoT环境的周期性自适应(periodic adaptation)框架,用于基于姿态(pose-based)的无监督异常检测,其核心创新包括:

(1)端到端的周期性自适应流水线

设计了一个可在边缘设备上运行的三阶段流程:

  • Filtering(过滤):使用预训练模型对视频流进行实时异常评分,并通过固定阈值筛选低分“正常”帧;
  • Collection(收集):跨摄像头时间切片聚合这些伪标签正常的帧,形成训练缓冲区;
  • Training(训练):定期用缓冲数据微调模型权重,实现持续适应。

🔁 特点:固定推理阈值 + 动态更新模型权重,符合边缘-IoT系统的稳定性需求。

(2)引入 RetailS 数据集

发布一个全新的大规模真实世界 shoplifting 数据集 RetailS,具有以下特点:

  • 包含 近2000万帧正常购物行为真实+模拟的盗窃事件
  • 多日、多摄像头(6个视角)、真实零售场景采集;
  • 同时包含 staged(可控模拟)real-world(真实发生) 的盗窃样本;
  • 所有数据以 2D pose序列形式表示,保障隐私并支持轻量化处理。

(3)优化阈值选择机制:HpRs Score

提出使用 HpRs(harmonic mean of Precision, Recall, Specificity) 作为阈值选择标准,相比传统 F1 更能控制误报率(FPR),更适合实际部署中的操作成本考量。

⚖️ 相比现有方法的优势

维度 传统方法 本文方法
部署模式 离线训练,静态模型 支持周期性在线适应
数据依赖 小规模/实验室数据 发布大规模真实数据集 RetailS
隐私保护 基于RGB像素,泄露外观信息 使用匿名化pose序列,保护身份隐私
资源效率 计算密集,难部署于边缘 轻量级pose输入 + 边缘可承受训练时间(<30分钟)
实用性 忽视false alarm影响 引入 HpRs 显式控制误报警告

2. 核心实验方法和设置

📚 使用的数据集

RetailS(本文提出)

  • 训练集:19,971,589 帧正常购物行为(来自6个摄像头,10天)
  • 测试集
    • Real-world Test Set:1,933 帧真实盗窃 + 2,432 正常帧(53起事件)
    • Staged Test Set:20,335 帧模拟盗窃 + 20,578 正常帧(898起事件,涵盖5类藏匿方式)

对比数据集:PoseLift [3] —— 当前主流pose-based shoplifting数据集,但规模小、多样性不足。

数据集 正常帧数 盗窃帧数 摄像头数 场景真实性
PoseLift ~53k 1,500 6 实验室风格
RetailS(ours) ~20M ~39k 6 真实营业环境

⚙️ 实验设置

模型选择

评估三种先进的 pose-based VAD 模型:

  • STG-NF [21]
  • SPARTA [22]
  • TSGAD [43]

两种训练范式对比

类型 描述
Offline Baseline 在正常数据上一次性训练,不再更新
Periodic Adaptation 定期使用伪标注的“低异常分”帧进行增量再训练

更新频率

  • 半天窗口(~6小时)→ 共20次更新
  • 全天窗口(~12小时)→ 共10次更新

评估指标

指标 说明
AUC-ROC 衡量整体排序能力
AUC-PR 更关注稀有事件(盗窃)的检测效果,在类别不平衡下更可靠
F1@thrf1 固定F1最优阈值下的F1分数
HpRs@thrHpRs 固定HpRs最优阈值下的综合性能(强调precision & specificity)

部署模拟配置

  • 推理端(edge)保持固定阈值不变
  • 后端(cloud/edge-server)负责周期性训练与模型推送
  • 所有实验使用相同随机种子确保可复现性

3. 主要实验结果和性能指标

📈 性能提升显著:周期性适应优于离线模型

91.6% 的评估中,周期性适应方法在 AUC-ROC 和 AUC-PR 上均超越离线基线

示例:STG-NF 在 Real-world Test Set 上的表现(AUC-ROC)

设置 Offline(PoseLift训练) Offline(RetailS训练) Periodic Adaptation
结果 61.35 63.22 ↑ 至更高水平(趋势上升)

👉 表明:更大的真实数据 + 周期性适应 = 更强泛化能力


🔍 不同阈值策略比较:HpRs > F1

  • 12项评估中有9项,使用 thrHpRs 的表现优于 thrF1;
  • 尤其在控制误报率方面更稳定,避免频繁警报干扰运营;
  • 支持论文主张:应优先考虑部署实用性而非单纯高召回

⏱️ 训练耗时合理(适合边缘部署)

Model Half-day 更新平均耗时 One-day 更新平均耗时
SPARTA [22] 2.05 分钟 3.2 分钟
STG-NF [21] 3.5 分钟 7.3 分钟
TSGAD [43] 26.8 分钟 >60 分钟

SPARTA 和 STG-NF 可轻松满足每半天一次的更新节奏 ❌ TSGAD 过重,不适合高频adaptation


🔬 消融实验与部署洞察(Ablation & Insights)

(1)固定阈值 vs 自适应阈值

  • 虽然动态调整阈值能带来约1–2%的AUC提升,
  • 但会导致误报率剧烈波动,不利于系统稳定性; ➡️ 推荐:固定阈值(offline校准),仅更新模型权重

(2)更新频率影响

  • 半日更新 > 日更新:更短周期能更好捕捉行为漂移
  • 但在资源受限时,每日更新仍可行

(3)模型选择建议

  • 轻量模型(如 SPARTA)更适合边缘部署
  • 权衡精度与延迟:SPARTA虽略低于STG-NF,但速度快10倍以上

(4)跨摄像头均衡采样重要

  • 若不采用cross-camera collection,高流量区域会主导训练分布;
  • 导致模型在冷门区域表现差 → 必须做空间平衡

4. 关键结论和发现

✅ 主要发现

  1. Offline训练不足以支撑真实零售安防部署

    • 环境变化(camera placement, shopper behavior, lighting)导致模型快速退化;
    • 必须引入持续学习机制来应对 domain drift。
  2. 周期性自适应显著提升检测性能

    • 在91.6%的评估中优于离线模型;
    • 无需人工标注,利用“低异常分”帧即可构建高质量pseudo-normal数据。
  3. HpRs 是比 F1 更实用的阈值选择准则

    • 显式控制 specificity(即降低 false positives),减少运维负担;
    • 更贴近真实场景中“不能天天响警报”的需求。
  4. 轻量级 pose-based 模型 + 边缘训练完全可行

    • SPARTA 等模型可在 <10 分钟内完成更新,适配IoT硬件;
    • 支持分布式、低延迟、可扩展的智能零售安全网络。
  5. RetailS 数据集填补了现实世界评估空白

    • 规模大、多样性高、同时包含真实与模拟事件;
    • 成为未来研究 shoplifting detection 的新基准。

⚠️ 局限性

  1. 依赖高质量 pose extraction pipeline

    • 若原始视频存在严重遮挡或低分辨率,可能导致关键点丢失;
    • 当前框架假设 pose extractor 已稳定运行。
  2. 未覆盖所有类型的 shoplifting 行为

    • 如团伙作案、 distraction tactics 等复杂策略尚未充分建模。
  3. 模型更新仍需一定计算资源

    • 尽管轻量模型快,但仍需至少一台具备GPU能力的边缘服务器支持训练任务。
  4. 缺乏长期部署反馈闭环验证

    • 实验基于回放数据模拟adaptation,尚未接入真实商店的实时反馈链路。

🔮 未来工作方向

  1. 探索 fully online continual learning

    • 从 periodic adaptation 进一步迈向真正的 online/streaming learning;
    • 支持单样本或小批量即时更新。
  2. 集成多模态信号(如音频、货架传感器)

    • 结合重量变化、声音等辅助信息增强检测鲁棒性。
  3. 开发更高效的 pose-based 架构

    • 设计专为边缘adaptation优化的小模型,进一步压缩训练时间和内存占用。
  4. 建立真实世界的 closed-loop 测试平台

    • 与零售商合作部署原型系统,收集真实反馈并迭代改进。
  5. 研究对抗性攻击下的鲁棒性

    • 防止窃贼故意规避 pose-based detection(如特殊姿势伪装)。

💡 一句话总结
本文推动 shoplifting detection 从“实验室benchmark竞赛”走向“真实世界可持续部署”,提出基于pose的周期性自适应框架 + 大规模真实数据集RetailS,证明了在资源受限的IoT零售环境中实现高效、隐私友好、可进化的异常检测是可行且必要的。


Authors: Jinwen Chen (Beijing Advanced Innovation Center for Future Blockchain and Privacy Computing, School of Artificial Intelligence, Beihang University, China), Shuai Gong (Beijing Advanced Innovation Center for Future Blockchain and Privacy Computing, School of Artificial Intelligence, Beihang University, China), Shiwen Zhang (Beijing Advanced Innovation Center for Future Blockchain and Privacy Computing, School of Artificial Intelligence, Beihang University, China), Zheng Zhang (Beijing Advanced Innovation Center for Future Blockchain and Privacy Computing, School of Artificial Intelligence, Beihang University, China), Yachao Zhao (Beijing Advanced Innovation Center for Future Blockchain and Privacy Computing, School of Artificial Intelligence, Beihang University, China), Lingxiang Wang (Beijing Advanced Innovation Center for Future Blockchain and Privacy Computing, School of Artificial Intelligence, Beihang University, China), Haibo Zhou (Beijing Advanced Innovation Center for Future Blockchain and Privacy Computing, School of Artificial Intelligence, Beihang University, China), Yuan Zhan (Beijing Advanced Innovation Center for Future Blockchain and Privacy Computing, School of Artificial Intelligence, Beihang University, China), Wei Lin (Beijing Advanced Innovation Center for Future Blockchain and Privacy Computing, School of Artificial Intelligence, Beihang University, China), Hainan Zhang (Beijing Advanced Innovation Center for Future Blockchain and Privacy Computing, School of Artificial Intelligence, Beihang University, China)
Category: cs.CL
Published: 2026-03-06
Score: 7.5
Type: new
ArXiv ID: 2603.04946v1

Abstract

In local-life service platforms, the query suggestion module plays a crucial role in enhancing user experience by generating candidate queries based on user input prefixes, thus reducing user effort and accelerating search. Traditional multi-stage cascading systems rely heavily on historical top que...

🤖 AI Summary (by qwen-long) - Click to expand

论文总结:LocalSUG: Geography-Aware LLM for Query Suggestion in Local-Life Services


1. 论文的主要贡献和创新点

解决的问题

在本地生活服务(Local-Life Services)平台中,传统的查询建议(Query Suggestion)系统依赖多阶段级联架构(Multi-stage Cascading Architecture),严重受限于历史高频查询,难以满足长尾、组合性或新兴意图的需求。虽然大型语言模型(LLMs)具备强大的语义泛化能力,但在实际部署中面临三大挑战:

  1. 缺乏地理定位能力(Lack of Geographic Grounding):相同前缀在不同城市应推荐不同的本地服务(如“pizza”在北京推荐“Domino’s”,在澳门则应为“Pizza Hut”)。
  2. 偏好优化中的曝光偏差(Exposure Bias):训练时采用序列级优化(如DPO),而推理时使用列表级束搜索(beam search),导致训练-推理不一致。
  3. 在线推理延迟高:大模型推理成本高,难以满足工业级低延迟要求。

提出的新方法与创新思路

作者提出了 LocalSUG —— 一个专为本地生活服务设计的端到端生成式查询建议框架,其核心创新如下:

  • 城市感知候选挖掘策略(City-Aware Candidate Mining)
    基于词项共现统计构建城市特定与全局候选池,优先使用城市内高频共现查询作为上下文输入,实现显式的地理感知生成

  • 束搜索驱动的GRPO算法(Beam-Search-Driven GRPO)
    在训练阶段模拟推理时的束搜索行为,通过分组相对奖励机制(Group Relative Policy Optimization)对多个候选输出进行排序学习,有效缓解训练-推理不一致性问题,并引入多目标奖励函数优化相关性与业务指标。

  • 质量感知加速技术(Quality-Aware Acceleration)
    包括:

    • 质量感知加速束搜索(QA-BS):动态剪枝低概率路径并提前终止。
    • 词汇表剪枝(Vocabulary Pruning):保留最常出现的30,000个token,显著降低计算开销。

相比现有方法的优势

维度 LocalSUG优势
地理适应性 显式注入城市感知,避免跨地区无效推荐
训练-推理一致性 GRPO桥接束搜索训练与推理,提升排名稳定性
推理效率 首次成功部署0.6B参数LLM于高并发工业环境
长尾覆盖 超越基于检索的传统系统,支持零样本/组合查询生成

2. 核心实验方法和设置

使用的数据集

  • 数据来源:真实本地生活服务平台连续8天的曝光与点击日志。
  • 划分方式:
    • 训练集:前7天(350万样本)
    • 测试集:第8天(5万样本),进一步划分为三个子集用于细粒度评估:
      • MIX:随机采样10,000条
      • CLICK:含用户点击的10,000条
      • ORDER:最终促成交易的全部实例

实验设置

  • 主干模型Qwen3-0.6B(平衡语义能力与延迟约束)
  • 训练流程
    1. 先进行标准监督微调(SFT)获得初始模型
    2. 使用 Beam-Search-Driven GRPO 进行偏好优化
  • 推理配置
    • 束宽 $ K = 12 $
    • 最大生成长度 $ T = 15 $
    • 使用 QA-BS 和词汇剪枝加速

评估指标

指标 定义
HR@K(HitRate@K) 正确查询出现在Top-K中的比例
MRR(Mean Reciprocal Rank) 第一个正确答案的倒数排名均值
DIV(Diversity) 生成查询中唯一字符串的比例
QUA(Quality) 无格式错误且无重复的Top-K列表占比(严格惩罚乱码、重复等)
CTR(Click-Through Rate) 在线AB测试中的会话与页面点击率
Few/No-Result Rate 用户输入后返回结果极少或为空的比例

基线方法对比

方法 类型 描述
MCA 工业界标准 多阶段级联架构(BGE检索 + DIN排序)
SFT 生成式基线 主干模型仅做监督微调
OneSug SOTA生成框架 当前最先进的端到端生成方法(Guo et al., 2025)
OneSugrule 改进版OneSug 引入本文的共现规则候选池
LocalSUG variants 消融变体 如替换为DPO、Llama backbone、不同采样策略等

3. 主要实验结果和性能指标

关键性能数据(离线)

Table 1,在 CLICK 子集上的表现:

方法 HR@12 MRR DIV QUA
MCA 74.24% 40.62% 62.85% 99.94%
SFT 96.07% 79.36% 63.67% 90.43%
OneSug 73.19% 54.83% 72.18% 99.50%
OneSugrule 96.47% 80.69% 68.62% 96.17%
LocalSUG 96.36% 81.13% 71.49% 98.55%

🔍 结论:LocalSUG在推荐准确性(HR/MRR)上优于所有基线,在多样性(DIV)上显著领先传统方法,同时保持接近最优的质量(QUA)。

与基线对比结果

  • 相比 MCA:HR@12 提升超过 22个百分点,MRR 提升近 40个百分点,说明生成式方法极大增强了语义理解与长尾覆盖能力。
  • 相比 OneSug:得益于城市感知候选池,HR@12 提升超 23个百分点,验证了高质量先验信息的重要性。
  • 相比 SFT:GRPO训练带来明显增益,证明训练-推理对齐的有效性。

消融实验结果(Ablation Study)

Table 2,移除各奖励项的影响:

变体 HR@12 ↓ MRR ↓ 分析
-W/O T_rank 96.58% → 96.36% 80.00% → 81.13% 移除排名奖励反而略升HR?但MRR下降明显,说明影响排序质量
-W/O r_fmt 96.03% → 96.36% 79.32% → 81.13% 格式惩罚至关重要,否则模型易生成非法token
-W/O w_order 96.32% → 96.36% 81.11% → 81.13% 对ORDER子集性能下降显著,表明转化权重重要

📌 关键发现r_fmt(格式惩罚)和 w_order(订单感知加权)是保障生成质量与商业价值的关键组件。


4. 关键结论和发现

主要发现

  1. 地理感知可通过共现统计有效注入生成过程,无需复杂外部知识图谱即可实现城市自适应推荐。
  2. 训练-推理解码方式必须对齐:使用束搜索生成训练样本(而非随机采样)可大幅提升MRR与DIV。
  3. 多目标奖励机制能有效平衡相关性、多样性与业务目标,尤其格式约束对工业落地至关重要。
  4. 轻量级加速技术(QA-BS + 词汇剪枝)可在几乎无损性能下大幅降低延迟,实测速度提升达 2.28倍($K=6$ vs $K=12$),为大规模部署铺平道路。
  5. 首次将0.6B规模LLM成功应用于高并发本地生活服务场景,推动生成式推荐工业化进程。

在线A/B测试结果

指标 相对变化
Few/No-Result Rate -2.56%
PV CTR +0.35%
Session CTR +0.25% ↑
Unique Item Exposure +7.50%
Avg. SUG Input Length -0.75%

💡 表明用户能更快找到所需内容,搜索效率提升,长尾探索增强。

局限性

  1. 依赖历史日志进行候选挖掘:可能无法捕捉真正“零样本”的新兴需求(如新开业商家)。
  2. 手动设计奖励权重:当前多目标奖励系数需人工调节,缺乏自动化Pareto优化机制。
  3. 未整合外部知识源:如地图API、商户营业状态等实时信息尚未融合。

未来工作方向

  • 探索结合 语义密集检索外部知识库 以应对冷启动问题。
  • 设计 自动化的动态奖励权重调整机制,实现更鲁棒的多任务平衡。
  • 尝试更大规模模型(>1B)的在线部署,进一步释放LLM潜力。

🏁 总结一句话
LocalSUG 是首个将地理感知、训练-推理对齐与高效推理相结合的大模型查询建议系统,在真实工业环境中实现了 CTR 提升与长尾需求挖掘的双重突破。


Authors: Rongzhi Li, Hitomi Yanaka
Category: cs.CL
Published: 2026-03-06
Score: 7.5
Type: new
ArXiv ID: 2603.05046v1

Abstract

Extending large language models to low-resource languages is essential for global accessibility, but training separate models per language is prohibitively expensive. Mixture-of-Experts (MoE) architectures address this by adding sparse language-specific parameters, but determining how many experts e...

🤖 AI Summary (by qwen-long) - Click to expand

论文总结:NeuronMoE: Neuron-Guided Mixture-of-Experts for Efficient Multilingual LLM Extension


1. 论文的主要贡献和创新点

解决了什么问题

  • 扩展大型语言模型(LLM)以支持低资源语言是实现全球可访问性的关键,但为每种语言单独训练模型成本过高。
  • 现有的 Mixture-of-Experts (MoE) 架构通过稀疏激活专家来实现高效扩展,但如何决定每一层需要多少个专家仍是一个开放问题。
  • 当前主流方法(如 LayerMoE)基于层间跨语言相似性进行专家分配,忽略了更细粒度的语言处理机制,并且仅考虑 Attention 层,而忽视了占参数总量三分之二的 MLP 层。

提出了什么新方法或新思路

提出 NeuronMoE ——一种基于神经元级语言特异性分析指导 MoE 专家分配的新方法:

  • 分析所有 Transformer 组件(Attention 和 MLP 层)中的 language-specific neurons,量化每层在跨语言任务中的实际专业化需求。
  • 定义“跨语言神经元多样性”(cross-lingual neuron diversity)作为每层所需容量的直接信号,据此动态分配专家数量。
  • 在 MoE-LPR 框架基础上,将原本依赖 attention-layer similarity 的分配策略替换为基于实证测量的 neuron-level specialization。

相比现有方法的优势

  • 更高的参数效率:相比 LayerMoE 实现约 40–50% 的参数减少,同时保持相近甚至更好的性能。
  • 更精细的建模能力:利用 neuron-level 信号而非间接的 layer similarity,能更准确识别高专业化需求的层。
  • 更强的泛化性:该策略在不同架构(Llama、Qwen)和不同类型语言家族(Indo-European, Turkic, Uralic)上均有效。
  • 揭示通用架构原则:发现目标语言专家会独立发展出与源语言相似的神经元分布模式,集中在 early 和 late layers,暗示多语言模型中存在普遍的功能组织规律。

2. 核心实验方法和设置

使用的数据集

  • 训练数据
    • 每个目标语言使用来自 CulturaX 的 2B tokens 数据。
    • 包括三种低资源语言:Greek (EL)Turkish (TR)Hungarian (HU),分别代表 Indo-European、Turkic 和 Uralic 语系。
  • 评估数据
    • 多语言版本的多个基准测试,由 Okapi 翻译:
      • ARC Challenge(常识推理)
      • MMLU(多任务理解)
      • HellaSwag(阅读理解)
      • Belebele(多语言阅读理解)
  • 路由训练阶段补充数据
    • 英文:SlimPajama
    • 中文:SkyPile-150B
    • 西班牙语:CulturaX

实验设置和评估指标

  • 主干模型
    • 主要模型:Llama-3.2-3B(28 layers)
    • 跨架构验证:Qwen-1.5-1.8B(24 layers)
  • 训练流程:采用两阶段 MoE-LPR 框架
    1. Stage 1 (Expert Initialization):冻结原始模型,添加新专家并用目标语言数据训练。
    2. Stage 2 (Router Training):使用少量回放数据训练 router,恢复源语言能力。
  • 评估方式
    • 5-shot for MMLU
    • 25-shot for ARC Challenge
    • 0-shot for HellaSwag 和 Belebele
    • 所有结果为单次运行评估(single-run)

基线方法对比

方法 描述
Dense 不使用 MoE 的全密集模型
LayerMoE 基于 attention-layer 相似性的 layer-wise 专家分配(Zhang et al., 2025),Llama 使用 84 个专家
NeuronMoE 本文提出的方法,基于跨语言神经元多样性分配专家(Llama 使用 49~50 个专家)
NeuronMoE-EN 消融实验变体,仅基于英文神经元分布分配专家

3. 主要实验结果和性能指标

关键性能数据

希腊语扩展(Llama-3.2-3B)

Model #Experts ARC (EN/EL) Belebele (EN/EL) HellaSwag (EN/EL) MMLU (EN/EL)
Dense 51.11 / 31.93 74.11 / 65.22 76.33 / 43.38 56.45 / 41.17
LayerMoE 84 49.32 / 37.50 74.78 / 67.33 76.50 / 52.41 55.79 / 44.06
NeuronMoE 49 (-42%) 50.17 / 35.02 75.11 / 64.56 76.53 / 50.53 56.48 / 43.66
  • 参数减少 41.7%(84 → 49),英语性能接近 Dense,希腊语略低于 LayerMoE(约 -2.5%),但仍显著优于 Dense。
  • 在 Belebele、HellaSwag 上差距较小(< 3%),说明语言理解任务受影响较小。

跨架构验证(Qwen-1.5-1.8B)

Model #Experts ARC (EN/EL)
LayerMoE-S1 72 37.29 / 25.26
NeuronMoE-S1 36 (-50%) 37.88 / 23.80
  • 参数减半,英文性能提升,希腊语略有下降(-1.46%),显示 neuron-guided 策略具有良好的跨架构泛化能力。

跨语言泛化(Turkish & Hungarian)

Language Model #Experts ARC (Target) Reduction
Turkish LayerMoE 84 36.55
Turkish NeuronMoE 50 34.50 -40%
Hungarian LayerMoE 84 39.73
Hungarian NeuronMoE 47 37.67 -44%
  • 在两种类型差异较大的语言上均实现 ~40–44% 参数缩减,性能略降但远超 Dense 基线。

消融实验结果

🔍 NeuronMoE-EN(仅用英语神经元分布)

  • 使用 37 个专家(进一步压缩)
  • 英语 ARC 达到 49.15%,表现良好
  • 但希腊语性能降至 33.13%(vs. 全量 NeuronMoE 的 34.16%)
  • 结论:必须分析目标语言的神经元分布才能实现最优分配,不能仅依赖源语言。

4. 关键结论和发现

主要发现

  1. Neuron-level specialization 是比 layer similarity 更有效的专家分配依据

    • 直接测量语言特定神经元的数量可以更精准地反映各层的实际容量需求。
    • Middle layers 几乎没有语言特异性神经元,因此只需一个 expert 即可;而 early 和 late layers 需要更多专家。
  2. 语言特异性神经元呈异质分布(heterogeneous distribution)

    • 集中在 early layers(输入编码)和 late layers(输出生成)
    • 中间层(middle layers)主要用于抽象、语言无关的推理,适合共享参数。
  3. 目标语言专家会自发形成类似源语言的神经元模式

    • 尽管语言类型不同(如 Turkish vs English),其专家仍会在 early/late layers 发展出高度专业化的神经元集群。
    • 表明多语言 LLM 存在通用功能架构原则(universal architectural principles)。
  4. 分配策略比总专家数更重要

    • 实验表明,即使专家总数更少,只要分配得当(集中在关键层),就能维持高性能。
    • 支持“质量 > 数量”的稀疏化设计哲学。

方法的局限性

  • 当前实验覆盖的语言家族有限(Indo-European, Turkic, Uralic),尚未涵盖 Sino-Tibetan、Niger-Congo 或 Afro-Asiatic 等。
  • 超参数 $E_{\text{min}}$$E_{\text{max}}$ 对最终性能有一定影响,需进一步敏感性分析。
  • Neuron analysis 需要一次性的预处理开销(约 6 分钟/GPU/语言),虽可摊销但仍构成门槛。
  • 评估集中于 multiple-choice QA 任务,未验证在生成、翻译等任务上的泛化性。

未来工作方向

  • 将 neuron-guided allocation 扩展至更多语言家族,探索其普适边界。
  • 探索自动化确定 $E_{\text{min}}$, $E_{\text{max}}$ 的方法,提升易用性。
  • 结合 neuron analysis 与在线学习,在训练过程中动态调整专家分配。
  • 将该思想应用于其他模块化架构(如 Adapter、LoRA)的设计优化中。

📌 代码开源地址https://github.com/ynklab/NeuronMoE


Authors: Ted Zadouri, Markus Hoehnerbach, Jay Shah, Timmy Liu, Vijay Thakkar, Tri Dao
Category: cs.CL
Published: 2026-03-06
Score: 7.5
Type: new
ArXiv ID: 2603.05451v1

Abstract

Attention, as a core layer of the ubiquitous Transformer architecture, is the bottleneck for large language models and long-context applications. While FlashAttention-3 optimized attention for Hopper GPUs through asynchronous execution and warp specialization, it primarily targets the H100 architect...

🤖 AI Summary (by qwen-long) - Click to expand

FlashAttention-4: Algorithm and Kernel Pipelining Co-Design for Asymmetric Hardware Scaling 总结


1. 论文的主要贡献和创新点

解决了什么问题

随着 AI 加速器硬件的演进,硬件单元的扩展呈现不对称性(asymmetric hardware scaling)

  • Tensor Core 的计算吞吐量(如 MMA FLOPs)在新一代 GPU(如 NVIDIA Blackwell B200)上翻倍;
  • 但其他功能单元(如 Shared Memory 带宽Exponential Unit (MUFU) 吞吐)增长缓慢甚至不变。

这导致传统优化的注意力内核(如 FlashAttention-3 针对 Hopper H100 设计)在 Blackwell 架构上出现新的瓶颈——不再是矩阵乘法(MMA),而是 Shared Memory 访问Softmax 中的指数运算

因此,FlashAttention-3 在 B200 上无法运行或性能不佳,亟需针对 Blackwell 特性重新设计算法与内核。


提出了什么新方法或新思路

作者提出 FlashAttention-4,通过 算法与内核的协同设计(co-design) 应对 Blackwell 的非对称扩展挑战,主要创新如下:

1. 重构流水线以最大化异步重叠(Redesigned Pipeline for Maximum Overlap)

  • 利用 Blackwell 支持的 完全异步 MMA 操作(输出直接写入 Tensor Memory, TMEM);
  • 设计新的软件流水线,在前向传播中并行执行 MMA 与 Softmax 计算;
  • 使用更大的 tile size(128×128 vs Hopper 的 64×128),提升并行度和资源利用率。

2. 缓解指数单元瓶颈(Exponential Unit Bottleneck Mitigation)

  • 软件模拟指数函数:使用 FMA 单元进行多项式逼近(polynomial approximation)实现 2^x,绕过低吞吐的 MUFU;
  • 引入 条件 Softmax 重缩放(conditional softmax rescaling):仅当最大值变化超过阈值时才执行 rescaling,减少冗余操作。

3. 减少共享内存流量(Shared Memory Traffic Reduction)

  • 充分利用新增的 Tensor Memory (TMEM, 256KB/SM) 存储中间结果,避免频繁读写 SMEM;
  • 采用 2-CTA MMA 模式:两个 CTA 协同执行一个 MMA,每个只加载一半的 B 矩阵,显著降低 SMEM 流量;
  • 在反向传播中,利用 DSMEM(Distributed Shared Memory)交换 dS 数据,重构 dQ 步骤,将全局原子加(atomic add)次数减半。

4. 改进调度与资源分配

  • 设计新的 CTA 调度策略,适配 Blackwell 更大的 tile 和资源限制;
  • 实现 确定性执行模式(deterministic mode),用于可复现训练(如强化学习场景),性能开销极小。

5. 全栈使用 CuTe-DSL 编程框架

  • 整个 FlashAttention-4 完全用 CuTe-DSL(嵌入 Python) 实现,无需 CUDA C++;
  • 相比传统的 C++ 模板元编程,编译速度提升 20–30×
  • 提供高表达力的同时极大提升开发效率和可维护性。

相比现有方法的优势

方面 FlashAttention-4 的优势
性能 在 B200 上达到最高 1613 TFLOPs/s(理论峰值的 71%),显著优于 cuDNN 和 Triton
兼容性 专为 Blackwell 设计,充分利用其新特性(TMEM、2-CTA MMA、异步 MMA)
灵活性 基于 CuTe-DSL 的模块化设计,易于扩展至 FlexAttention、Block-Sparse 等变体
开发效率 编译时间从数十秒降至 1–3 秒,支持快速迭代与调试

2. 核心实验方法和设置

使用的平台与库版本

  • 硬件:NVIDIA B200 GPU(180GB SXM6)
  • CUDA:13.1
  • 库版本
    • FlashAttention-2: 2.8.3
    • Triton: 3.6
    • PyTorch: 2.10.0
    • CuTe-DSL: 4.4.1
    • cuDNN: 9.13 与最新版 9.19.1.2(后者已集成部分 FA4 技术)

实验设置

  • 输入类型:BF16(Brain Float 16)
  • 序列长度:1k 到 32k
  • Batch Size:固定总 token 数为 32k
  • Head Dimension:64, 128, 或 (192, 128)(用于 DeepSeek-V3 架构)
  • 任务类型
    • 前向传播(Forward Pass)
    • 反向传播(Backward Pass)
    • 因果掩码(causal=True)与非因果(causal=False)两种情况

评估指标

  • TFLOPs/s:每秒浮点运算数,衡量实际计算效率
  • Speedup:相对于基线方法的速度提升倍数
  • Compile Time:单个 kernel 的编译耗时
  • Deterministic Mode Performance:确定性反向传播的性能损失

基线方法对比

基线方法 描述
PyTorch 标准 torch.nn.functional.scaled_dot_product_attention
FlashAttention-2 (FA2) 前代开源高效实现
Triton 使用 B200 特定指令的手写 kernel
Gluon 更底层的 GPU 编程语言,控制粒度更细
cuDNN NVIDIA 官方高度优化库(9.13 与 9.19.1.2)

⚠️ 注意:FlashAttention-3 不支持 B200,因 Hopper MMA 指令不向前兼容。


3. 主要实验结果和性能指标

关键性能数据

指标 结果
最高前向 TFLOPs/s 1613 TFLOPs/s(约理论峰值 2250 TFLOPs/s 的 71%
相比 cuDNN 9.13 的加速比 最高 1.3×
相比 Triton 的加速比 最高 2.7×
编译时间(前向) 2.5 秒(FA3 需 55 秒,提速 22×
编译时间(反向) 1.4 秒(FA3 需 45 秒,提速 32×

与基线方法的对比结果

✅ 前向传播(图 4、5)

  • 在所有序列长度(≥4k)和 head dim 设置下,FA4 显著优于所有基线
  • 在因果注意力中增益更大(1.3× cuDNN, 2.7× Triton),归功于 LPT 调度器;
  • 新版 cuDNN 9.19.1.2 接近 FA4 性能,说明其已吸收 FA4 的关键技术。

✅ 反向传播(图 6)

  • FA4 在长序列下持续领先,尤其在因果设置中表现优异;
  • 得益于 2-CTA MMA 和优化的流水线设计,有效隐藏 SMEM 延迟。

✅ 确定性反向传播(图 7、8)

  • 引入锁机制实现 determinism,但仍保持高性能;
  • 经过 CTA swizzling 和 SPT/LPT 调度优化后,确定性版本可达非确定性版本的 75% 性能
  • 显著优于“naive”调度方式(提升可达 2×)。

消融实验结果

虽然文中未明确列出“ablation study”章节,但从多个图表可看出以下关键设计的影响:

技术 影响
2-CTA MMA 模式 减少 SMEM 流量约 30%,降低 dQ 原子操作次数 50%
LPT/SPT 调度 在因果和变长场景下提升负载均衡,带来 4–14% FLOPs 增益
软件模拟指数函数 提升 exponential 吞吐,缓解 MUFU 成为瓶颈的问题
条件 rescaling 大幅减少不必要的向量乘法操作,提升效率
CuTe-DSL 实现 编译时间下降 20–30×,无性能损失

4. 关键结论和发现

主要发现

  1. 现代 GPU 的瓶颈已从 MMA 转移至非矩阵运算单元

    • 在 Blackwell 上,Shared Memory 带宽Exponential Unit 成为主要瓶颈;
    • 单纯优化 MMA 已不足以提升整体性能。
  2. 必须进行算法与硬件的协同设计

    • 利用 TMEM、2-CTA MMA、异步操作等新特性,才能充分发挥 Blackwell 性能;
    • FlashAttention-4 通过系统级重构实现了接近峰值利用率(71%)。
  3. 软件层面创新同样重要

    • 条件 rescaling、多项式拟合指数函数等技巧显著减少非 MMA 开销;
    • 调度优化(LPT/SPT)对负载不均场景至关重要。
  4. 编程模型影响开发效率与生态扩展

    • CuTe-DSL + Python 的组合大幅降低开发门槛;
    • 支持快速构建 FlexAttention、稀疏注意力等衍生架构。

方法的局限性

局限性 说明
Blackwell 特定优化 当前实现高度依赖 B200 新特性(如 TMEM、2-CTA),难以直接移植到旧架构(如 Ampere/Hopper)
BF16/F16 聚焦 主要针对 BF16/BF16 MMA,对更低精度(如 FP8/INT4)的支持由 SageAttention 系列覆盖
确定性模式仍有开销 尽管优化良好,但全局锁仍引入一定延迟,不适合极致性能场景

未来工作方向

  1. 扩展至更多注意力变体

    • 将 FA4 框架应用于 Grouped Query Attention (GQA)Multi-Query Attention (MQA)Sliding Window Attention 等;
    • 支持 variable-length sequences (varlen) 的自动调度优化。
  2. 跨架构泛化

    • 探索如何将 Blackwell 上的经验迁移到其他加速器(如 AMD Instinct、Google TPU);
    • 设计自适应调度器,根据硬件特征动态选择最优策略。
  3. 进一步降低确定性开销

    • 探索无锁 reduction 或 warp-level synchronization 替代方案;
    • 结合硬件事务内存(HTM)等新技术。
  4. 集成进主流框架

    • 推动 FA4 被 PyTorch、TensorFlow、TensorRT-LLM 等采纳;
    • 成为下一代大模型训练的标准注意力实现。

🔗 代码开源地址https://github.com/Dao-AILab/flash-attention/tree/main/flash_attn/cute
📄 论文链接https://arxiv.org/abs/2603.05451


Authors: Haoyu Zhou, Ping Xue, Hao Zhang, Tianfan Fu
Category: cs.LG
Published: 2026-03-06
Score: 7.5
Type: new
ArXiv ID: 2603.05343v1

Abstract

Equivariant Graph Neural Networks (GNNs) are essential for physically consistent molecular simulations but suffer from high computational costs and memory bottlenecks, especially with high-order representations. While low-bit quantization offers a solution, applying it naively to rotation-sensitive ...

🤖 AI Summary (by qwen-long) - Click to expand

论文总结:Preserving Continuous Symmetry in Discrete Spaces: Geometric-Aware Quantization for SO(3)-Equivariant GNNs


1. 论文的主要贡献和创新点

✅ 解决的问题

  • 低比特量化破坏 SO(3)-equivariance:传统低比特量化(如 INT8)在 SO(3)-Equivariant GNNs 上直接应用时,会因对向量特征进行笛卡尔坐标系下的均匀量化,破坏其旋转等变性(SO(3)-equivariance),导致物理守恒律(如角动量、能量)被违反。
  • 离散计算与连续对称性的冲突:神经网络运行于离散数值系统中,而分子动力学依赖连续的几何对称性(如旋转不变性)。如何在压缩模型的同时保持这种“物理一致性”是核心挑战。

🚀 提出的新方法:Geometric-Aware Quantization (GAQ)

提出了一套几何感知的量化框架,从表示、训练到注意力机制全面保留 SO(3) 对称性:

(1)Magnitude-Direction Decoupled Quantization (MDDQ)

  • 将每个 $ l=1 $ 向量 $ \mathbf{v} \in \mathbb{R}^3 $ 分解为:
    • 不变量大小(magnitude):$ m = |\mathbf{v}| $
    • 等变量方向(direction):$ \mathbf{u} = \mathbf{v}/|\mathbf{v}| \in S^2 $
  • 分别量化:
    • 大小使用标准线性量化器 $ Q_m $
    • 方向使用定义在单位球面 $ S^2 $ 上的球形码本(spherical codebook) $ Q_d $
  • 重构:$ Q(\mathbf{v}) = Q_m(m) \cdot Q_d(\mathbf{u}) $

优势:确保旋转操作主要影响方向部分,且码本设计可逼近旋转共变性(bounded approximate equivariance)。

(2)Branch-Separated Quantization-Aware Training (QAT)

  • 区分处理两类通道:
    • Invariant (scalar) branches:使用常规对称线性量化
    • Equivariant (vector/tensor) branches:采用 MDDQ + 几何感知梯度估计
  • 引入渐进式训练策略
    • 前期冻结向量分支量化,让标量路径先学习几何结构
    • 后期再联合优化,避免非凸球面优化陷入局部极小

优势:适配不同特征类型的统计分布和优化动态,提升稳定性。

(3)Robust Attention Normalization

  • 在 self-attention 中引入:
    • 查询/键值的 L2 归一化(cosine attention)
    • 温度缩放 $ T $ 控制 softmax 尖锐程度
  • 修改注意力得分计算: $$ a_{ij} = \frac{\exp(T \cdot \mathbf{q}_i^\top \mathbf{k}_j)}{\sum_k \exp(T \cdot \mathbf{q}_i^\top \mathbf{k}_k)} $$

优势:限制点积范围在 $[-1,1]$,防止低精度下因幅值扰动导致注意力权重剧烈变化,增强鲁棒性。

(4)Equivariance-Preserving Loss (LEE Regularization)

  • 定义 Local Equivariance Error (LEE) 作为正则项: $$ \text{LEE}(f; G, R) = | f(R \cdot G) - \rho_{\text{out}}(R) f(G) |_2 $$
  • 在训练中随机采样旋转 $ R \in SO(3) $,加入损失函数以显式抑制对称性破坏。

优势:提供端到端的监督信号,强制量化后模型仍满足近似等变性。


2. 核心实验方法和设置

📊 数据集

  • rMD17:修正版的分子动力学轨迹数据集,用于测试力场预测与长期模拟稳定性。
    • 主要关注 Azobenzene (C₁₂H₁₀N₂),因其具有复杂的扭转势能面和光异构化特性,是对称性保持的严苛考验。
  • 辅助验证在 QM9 上进行分子性质预测。

⚙️ 实验设置

  • 基础架构:基于 So3krates 的 SO(3)-equivariant Transformer 架构。
  • 量化配置
    • W4A8:权重 4-bit,激活 8-bit(尤其针对 equivariant branch)
    • 标量通道保留 8-bit
  • 训练协议
    • 从收敛的 FP32 检查点开始微调(finetune-only)
    • QAT 训练 80 轮,前 10 轮冻结向量量化(warm-up)
    • 使用 Adam 优化器,逐步衰减学习率与量化范围

📈 评估指标

指标 描述
Energy MAE 能量预测平均绝对误差(meV)
Force MAE 力预测平均绝对误差(meV/Å)
LEE (Local Equivariance Error) 衡量输入旋转前后输出差异,越小越好(meV/Å)
Memory I/O / Latency 推理延迟分解,重点看内存加载时间
End-to-end Speedup 总推理加速比
NVE Simulation Stability 在 1ns 长时间 NVE 模拟中的能量漂移情况

🔁 基线方法对比

方法 类型 特点
FP32 Baseline 全精度模型 So3krates 原始实现
Naive INT8 后训练量化 对所有特征统一 min-max 量化,忽略几何结构
SVQ-KMeans 球面矢量量化 K-Means 聚类方向,硬分配,无梯度传播
Degree-Quant [22] 图结构感知量化 根据节点度调整量化粒度,但仍忽略方向性
LSQ / QDrop 先进 PTQ 方法 用于消融分析,验证几何意识的重要性

3. 主要实验结果和性能指标

📊 关键性能数据(Azobenzene, rMD17)

表1:力场预测性能对比

Method Bits (W/A) E-MAE (meV) F-MAE (meV/Å) Stability
FP32 Baseline 32/32 23.20 21.20 Stable
Naive INT8 8/8 118.20 102.39 Degraded
Degree-Quant 8/8 63.20 58.90 Stable
Ours (GAQ, W4A8) 4/8 9.31 22.60 Stable

💡 发现

  • GAQ 不仅恢复精度,甚至能量预测优于 FP32 基线(9.31 vs 23.20 meV),作者推测低比特约束起到了结构正则化作用,滤除了 DFT 数据中的高频噪声。
  • Naive INT8 性能崩溃,证明盲目量化严重损害物理一致性。

表2:对称性保持能力(LEE)

Method LEE (meV/Å) Remark
FP32 Baseline ~0.0 完美等变
Naive INT8 5.23 显著对称性破坏
Degree-Quant 2.10 部分缓解
Ours (W4A8) 0.15 近乎完美保留

结论:GAQ 将 LEE 降低 超过 30 倍,表明其有效维持了 SO(3)-equivariance。

表3:效率提升(RTX 4090, batch=1)

Operation FP32 (μs) Ours (W4A8) (μs) Speedup
Memory I/O (Weights) 120.5 30.1 4.0×
Compute (GEMM) 45.0 25.0 1.8×
Quant Overhead 5.2
Attention 15.2 15.2 1.0×
Total Latency 180.7 75.5 2.39×

结论

  • 内存带宽成为主导瓶颈,GAQ 实现 4× 权重存储压缩2.39× 端到端推理加速
  • 加速主要来自内存访问减少,符合“memory wall”假设

🧪 消融实验与关键观察

  • MDDQ 必不可少:去除方向分解会导致 LEE 急剧上升,验证其对几何保真度的关键作用。
  • Geometric STE 至关重要:普通 STE 引入径向噪声,导致训练不稳定;Geometric STE 投影梯度至切空间,显著改善收敛。
  • Attention Normalization 提升鲁棒性:未归一化的注意力在低比特下产生错误聚焦,归一化后 FP32 与 INT8 注意力分布高度一致。
  • W4A8 可行性验证:即使在极端压缩下(4-bit 权重),只要结构得当,仍能保持高精度与稳定性。

4. 关键结论和发现

✅ 主要发现

  1. 量化不仅是压缩工具,更是物理正则化手段

    • 适当的低比特约束可以迫使模型学习更平滑、更符合物理规律的能量表面,反而提升泛化性能(如 E-MAE 下降)。
  2. 必须将群论结构嵌入量化过程

    • 传统的“geometry-agnostic”量化方法无法处理 SO(3) 等变表示的本质——方向性与幅值分离。
    • MDDQ 是一种符合表示理论的设计,实现了在离散空间中逼近连续对称性。
  3. 长期物理模拟的稳定性取决于对称性保持

    • 如图3所示,Naive INT8 在 100ps 内即发生能量爆炸(non-conservative forces),而 GAQ 模型在整个 1ns NVE 模拟中保持稳定,能量漂移率仅为 <0.15 meV/atom/ps,媲美 FP32。
  4. 成功打破“memory wall”

    • 通过 4× 内存压缩和 2.39× 推理加速,使大规模、长时间分子模拟可在消费级硬件上高效运行。

⚠️ 局限性

  • 当前方法主要适用于 $ l=1 $ 向量表示(3D vectors),尚未扩展至更高阶 irreps ($ l \geq 2 $) 的张量量化。
  • 球面码本需要预训练或在线学习,增加了实现复杂性。
  • 极端低位宽(如 W2A4)仍未验证,可能存在表达能力极限。

🔮 未来工作方向

  1. 推广至高阶 irreducible representations($ l \geq 2 $):开发适用于高阶球谐函数的空间解耦量化方案。
  2. 结合几何积分器(geometric integrators):构建 end-to-end 的 symplectic 或 energy-conserving 神经ODE求解器。
  3. 探索无监督码本学习:利用对比学习或自编码器自动发现最优 spherical codebook。
  4. 部署到边缘设备:利用 GAQ 实现手机或嵌入式平台上的实时分子动力学仿真。

总结

该论文提出了首个严格保持 SO(3)-equivariance 的低比特量化框架 GAQ,通过 MDDQ、branch-separated QAT、robust attention normalization 和 LEE 正则化 四大技术,在不牺牲物理一致性的前提下实现高达 4× 内存压缩2.39× 推理加速。实验证明其不仅恢复精度,甚至超越全精度模型,并支持纳秒级稳定分子动力学模拟。这标志着量化从“工程技巧”迈向“科学可信基础设施” 的重要一步。


Authors: Sicheng Fan, Qingyun Shi, Shengze Xu, Shengbo Cai, Tieyong Zeng, Li Ling, Yanyi Shang, Dehan Kong
Category: cs.AI
Published: 2026-03-06
Score: 7.0
Type: new
ArXiv ID: 2603.05044v1

Abstract

Current paradigms for training GUI agents are fundamentally limited by a reliance on either unsafe, non-reproducible live web interactions or costly, scarce human-crafted data and environments. We argue this focus on data volume overlooks a more critical factor: the efficiency of compressing a large...

🤖 AI Summary (by qwen-long) - Click to expand

论文《WebFactory: Automated Compression of Foundational Language Intelligence into Grounded Web Agents》核心总结


1. 论文的主要贡献和创新点

解决的问题

当前 GUI Agent 的训练范式面临两大瓶颈:

  • 依赖人工标注数据:成本高昂、难以扩展,且存在主观偏差;
  • 依赖真实网页环境:非确定性、安全风险高、不可复现,阻碍了可扩展和可控的研究。

这些限制导致难以高效地将大语言模型(LLM)中蕴含的“互联网规模智能”(internet-scale intelligence)转化为可靠、可泛化的具身化行为(grounded actions)。

提出的新方法与新思路

作者提出 WebFactory —— 一个全自动、闭环的强化学习(RL)流水线,旨在系统性地将 LLM 的隐性知识压缩为高效的 Web Agent 行为。其核心思想是 “智能压缩工厂”(Intelligence Compression Factory),通过以下流程实现从描述性知识到行动性能力的转化:

  1. 高保真离线环境构建(High-Fidelity Offline Environment)
  2. 知识感知的任务生成(Knowledge-Aware Task Generation)
  3. 基于强 LLM 的轨迹生成(LLM-Powered Trajectory Collection)
  4. 分解奖励的 RL 训练(Decomposed Reward RL Training)
  5. 系统性评估协议(Systematic Evaluation)

该框架强调 “智能压缩效率”(intelligence compression efficiency)和 “具身潜力”(embodiment potential)作为衡量 LLM 能力的新维度。

相比现有方法的优势

维度 WebFactory 传统方法
数据来源 完全自动化合成,无需人工标注 依赖昂贵的人工轨迹或不可控的 live web
环境控制 全可观测、可重现、无噪声 非确定性、反爬虫干扰、布局漂移
任务质量 可验证、可执行、无歧义答案 存在不可达页面、模糊指令等问题
训练效率 极高的数据利用效率 需要海量数据才能收敛
泛化能力 在未见过的真实网站上表现优异 泛化性差,过拟合严重

此外,WebFactory 是完全开源的工具链,涵盖环境、任务生成器、训练管道和评估工具,支持社区复现与扩展。


2. 核心实验方法和设置

使用的数据集

  • 自建离线网站套件(Offline Website Suite):共10个高保真模拟网站,覆盖电商、餐饮、旅行、租房、邮件等主流场景(如 Shopping、Mealdash、Flights、Staybnb 等)。所有站点具备:

    • 预认证登录状态
    • 版本化静态数据(Data.js
    • 明确的知识图谱(navigation graph, affordances)
    • 可重现的渲染结果
  • 三大类评估基准

    1. 内部离线基准(Internal Offline Benchmark):100个任务,分布在上述10个网站,分简单/中/复杂三级。
    2. 离线到在线迁移测试(Offline-to-Online Transfer):在 Amazon、Airbnb、Booking.com 上各设30个真实任务,用于检验泛化能力。
    3. 公共 GUI 基准
      • GUI-Act-Web
      • OmniAct-Desktop
      • GUI-Odyssey

实验设置与评估指标

评估指标

指标 描述
TCR(Task Completion Rate) 成功完成任务的比例
Action Accuracy 分解为:
- Type:动作类型正确率
- GR(Grounding Recall):点击位置/输入文本匹配度
- SR(Success Rate):子步骤成功率
Step Efficiency 执行步数 / 最优路径长度,越高越好
F1 Score 信息检索任务的答案精确匹配程度(标准化后计算)

基线方法对比

模型 类型 备注
QwenVL2.5-3B 通用多模态 LLM 未微调,zero-shot 推理
GPT-4o 强大多模态模型 zero-shot 能力强
GUI-R1-3B 基于人类标注数据训练的 Web Agent 当前 SOTA 方法之一,用大量 human-annotated data 训练

3. 主要实验结果和性能指标

关键性能数据

✅ 内部离线基准(Table 3)

Model Operational TCR (%) Info Retrieval TCR (%) F1 Score
QwenVL2.5-3B 18.3 15.7 0.28
GPT-4o 26.7 22.3 0.35
GUI-R1-3B 68.2 64.6 0.76
WebFactory-3B 71.8 67.3 0.79

💡 结论:仅使用10个合成网站上的合成数据,WebFactory-3B 性能已超越基于大规模人工数据训练的 GUI-R1-3B

✅ 离线到在线迁移(Table 4)

Model Avg. TCR (%)
QwenVL2.5-3B 20.4
GPT-4o 39.5
GUI-R1-3B 37.0
WebFactory-3B 53.4

🔺 相对提升

  • 比 Qwen 提升 162%
  • 比 GUI-R1 提升 44%

📊 统计显著性:95% 置信区间无重叠(WebFactory 下限 43.0% > 基线下限上限 30.0%),说明提升具有统计意义。

✅ 公共 GUI 基准(Table 5)

Benchmark Model SR (%)
GUI-Act-Web WebFactory-3B 84.2
GUI-R1-3B 76.3
GPT-4o 41.8
GUI-Odyssey WebFactory-3B 40.9
GUI-R1-3B 41.3
WebFactory-3B 在 Type Accuracy 达到 66.0%,远超其他模型(第二名为 54.8%)

🚀 亮点:尽管只在合成环境中训练,WebFactory 展现出卓越的跨域泛化能力,尤其在复杂交互任务中表现突出。

消融实验结果(Ablation Studies)

(1)任务生成质量对比(Table 1)

配置 Executability (%) Validity (%) Complex Task Ratio (%)
No Knowledge/Data 31.3 42.3 8.2
Data-Only 56.3 68.7 15.6
Knowledge-Only 62.5 71.2 22.3
Knowledge+Data 86.3 92.6 35.7

发现:结合知识图谱与数据驱动的方法显著提升了任务的可执行性、有效性及复杂度。

(2)轨迹生成质量(Table 2)

方法 SR (%) Steps Valid Data (%)
Without Knowledge 42.6 15.7 58.3
With Knowledge 84.3 9.8 89.6

发现:知识引导使轨迹更成功、更高效、更可靠。

(3)不同 Foundation Model 的“具身潜力”比较(Figure 3)

使用 GPT-5、Claude Opus 4.1、Claude Sonnet 4 作为上游 LLM 生成数据,训练后的 Agent 表现如下:

  • GPT-5:全面领先,在 Type Accuracy 和 Step SR 上均最高
  • Claude Opus 4.1:稳定但略低
  • Claude Sonnet 4:波动较大,泛化不稳定

🔍 关键洞察基础模型本身的“具身潜力”决定了最终 Agent 的上限,这是评估 LLM 的新维度。


4. 关键结论和发现

主要发现

  1. 智能压缩优于数据堆砌
    将 LLM 的知识高效压缩为具身行为,比单纯增加数据量更能提升 Agent 性能。WebFactory 证明了小规模高质量合成数据 > 大规模人工数据

  2. 环境可控性至关重要
    高保真、全可观测、可重现的离线环境是实现稳定训练与公平评估的前提,解决了 live web 的不确定性问题。

  3. LLM 不只是组件,更是“建筑师”
    LLM 可以作为整个训练流程的设计者:生成环境、设计任务、执行轨迹,形成自我增强的闭环。

  4. 提出“具身潜力”新评价轴
    不同 LLM 在相同框架下产出的 Agent 性能差异显著,表明应将“能否有效转化为具身智能”作为新的模型评估标准。

  5. 离线训练可有效迁移到线上
    在合成环境中训练的 Agent 能在真实、嘈杂的 Amazon/Airbnb/Booking 上取得优异表现,验证了该范式的实用性。

方法的局限性

  1. 未对奖励机制进行充分消融
    当前使用的分解奖励(decomposed reward)尚未与其他形式(如 LLM-generated reward)深入对比。

  2. GUI 范式泛化待验证
    当前主要针对浏览器内网页交互,是否适用于游戏引擎、创意软件等特殊 GUI 范式仍需进一步研究。

  3. 依赖高质量的初始 LLM
    整个系统的性能受限于所选 foundation model 的“具身潜力”,若 LLM 本身推理或空间理解弱,则难以生成优质轨迹。

未来工作方向

  • 闭环自进化能力:让系统自动识别 Agent 缺陷,并动态生成针对性训练环境进行补强。
  • 探索更复杂的奖励函数:引入 LLM-based reward modeling 或 preference learning 进一步优化策略。
  • 向物理世界延伸:将此“智能压缩”范式推广至机器人控制、自动驾驶等更复杂的具身环境。
  • 建立“Embodiment Ranking”榜单:推动学界关注 LLM 的具身化能力而非仅文本生成能力。

🏁 总结一句话
WebFactory 开辟了一条“以智能压缩为核心”的新路径,实现了从被动知识到主动行为的高效转化,标志着通用交互式 Agent 向规模化、低成本、可复现时代迈进的关键一步。


Authors: Lu Yu, Zheng Chang, Ying-Chang Liang
Category: cs.LG
Published: 2026-03-06
Score: 7.0
Type: new
ArXiv ID: 2603.04936v1

Abstract

Vehicular edge intelligence (VEI) is vital for future intelligent transportation systems. However, traditional centralized learning in dynamic vehicular networks faces significant communication overhead and privacy risks. Split federated learning (SFL) offers a distributed solution but is often hind...

🤖 AI Summary (by qwen-long) - Click to expand

论文总结:Semantic Communication-Enhanced Split Federated Learning for Vehicular Networks: Architecture, Challenges, and Case Study


1. 论文的主要贡献和创新点

✅ 解决的问题

本论文针对Vehicular Edge Intelligence (VEI) 中传统分布式学习框架面临的两大核心挑战:

  • 通信瓶颈:Split Federated Learning (SFL) 虽然降低了客户端计算负担,但频繁传输高维中间特征("smashed data")导致严重的通信开销。
  • 标签隐私风险:在标准 SFL 架构中,若损失函数在服务器端计算,则需上传标签信息,存在敏感数据泄露风险。

此外,传统 bit-level 通信协议对所有数据一视同仁,无法区分任务相关与无关信息,在动态、资源受限的车载网络中效率低下。


🚀 提出的新方法与创新思路

作者提出了一种新型框架:SC-USFL(Semantic Communication-enhanced U-Shaped Split Federated Learning),其核心创新包括:

(1)融合语义通信的 U-Shaped SFL 架构

  • 采用 U-SFL 结构,将模型分为三部分:
    • HeadTail 部署于 Vehicular Users (VUs)
    • Body 部署于 Edge Server (ES)
  • 优势:Tail 模块本地化执行 loss 计算,天然保护 label privacy。

(2)引入 Deep JSCC-based Semantic Communication Module (SCM)

  • 在上行链路(从 VU 到 ES)部署基于 Deep Joint Source-Channel Coding (Deep JSCC) 的语义编解码器。
  • 只传输对下游任务(如分类)有意义的“语义特征”,大幅压缩数据体积。
  • SCM 模块预训练且参数冻结,避免额外梯度传输开销,提升稳定性。

(3)自适应机制:Network Status Monitor (NSM)

  • 实时监测无线信道状态(如 SNR、衰落特性)。
  • 动态调整语义压缩率(Compression Ratio, CR),实现通信效率与任务性能之间的动态权衡。

🔍 总体思想:通过 task-oriented semantic communication 替代传统 bit-perfect transmission,实现高效、鲁棒、低延迟的协作学习。


⚖️ 相比现有方法的优势

方法 缺陷 SC-USFL 改进
Centralized Learning (CL) 数据集中上传,隐私差、通信开销大 分布式训练,不共享原始数据
Federated Learning (FL) 客户端计算重,模型更新大 减轻客户端负载,仅传中间特征
Standard SFL / SL 中间特征维度高,通信压力大;潜在 label 泄露 U-shaped 设计保障 label privacy;语义压缩降低带宽需求
传统通信方案 不区分语义重要性,抗干扰能力弱 专注任务相关语义,更强健,更高效

2. 核心实验方法和设置

📊 使用的数据集

  • CIFAR-10:用于图像分类任务,模拟车载感知场景中的视觉数据处理。

⚙️ 实验设置

  • 模型架构
    • VU 端:ResNet-50 作为 Head,附加一个轻量级 Classification Tail
    • ES 端:ViT-B/16 作为 Body 模块
  • SCM 设计
    • 基于 Deep JSCC 自编码器结构,预训练于 AWGN 信道下
    • 参数冻结后嵌入 SC-USFL 流程
  • 训练配置
    • 总共 200 个 communication rounds
    • 每轮 3 个 local epoch
    • Batch size = 64,优化器为 Adam (lr = 0.0001)
  • 压缩率(CR)选项:{1/3, 1/6, 1/8, 1/12}
  • 信道模型
    • Additive White Gaussian Noise (AWGN)
    • Rayleigh Fading Channel(用于评估鲁棒性)

🎯 评估指标

指标 描述
Test Accuracy 全局模型最终分类准确率
Training Loss 模型收敛情况
Per-Round Latency 单轮通信+计算总延迟
Task Success Probability 成功完成任务的概率(综合性能体现)
PSNR 重建特征的质量(衡量语义失真程度)

🔁 基线方法对比

  • Centralized Training:理想上限
  • Local Training:无协作下限
  • FL:标准联邦学习
  • SFL:通用 Split Federated Learning
  • USFL:U-Shaped SFL(无语义通信)
  • SC-USFL:本文提出的方法(不同 CR 设置)

3. 主要实验结果和性能指标

📈 关键性能表现(见 Fig. 4 与 Fig. 5)

(1)测试准确率 vs. 通信延迟(Fig. 4)

  • 准确性方面
    • SC-USFL 在 AWGN 信道下达到接近 USFL 和 SFL 的精度(约 78%~80%),显著优于 FL 和 Local Training。
  • 延迟方面
    • 当车辆数量增加时,SFL 和 USFL 因传输未压缩特征而出现急剧上升的延迟
    • SC-USFL(尤其是 CR=1/12)实现了极低延迟,即使在多车并发情况下仍保持稳定。
    • 结论:以微小精度损失换取巨大通信效率增益。

(2)语义压缩率与任务性能权衡(Fig. 5)

  • 更强压缩(更低 CR)带来更高语义失真:
    • CR=1/12 时 PSNR 较低,task loss 略高
    • CR=1/3 时重建质量更好,但节省带宽有限
  • 所有 CR 设置在不同 SNR 下均表现出良好趋势一致性
  • 在 Rayleigh 衰落信道中依然稳健,验证了 Deep JSCC 的抗干扰能力

(3)消融分析(隐含在设计选择中)

  • SCM 参数冻结:有效防止因信道噪声引起的梯度波动,提高训练稳定性。
  • NSM 自适应反馈机制:支持实时切换 CR,应对动态信道变化,提升系统弹性。

4. 关键结论和发现

✅ 主要结论

  1. SC-USFL 成功平衡了通信效率、隐私保护与学习性能

    • 通过 U-shaped 架构保障 label privacy;
    • 利用 semantic communication 显著减少上行链路负载;
    • 借助 NSM 实现动态自适应,增强鲁棒性。
  2. 语义通信是解决 SFL 通信瓶颈的有效路径

    • 从“传比特”转向“传意义”,契合 AI 任务本质;
    • Deep JSCC 架构能联合优化信源与信道编码,适合无线边缘环境。
  3. 预训练 + 冻结 SCM 是实用化关键设计

    • 避免额外通信开销,简化部署流程;
    • 提升系统可扩展性和训练稳定性。

⚠️ 局限性

  1. NSM 的动作空间离散

    • 当前仅支持固定 CR 集合,缺乏连续速率调节能力,可能导致量化损失。
  2. 依赖完美 CSI(Channel State Information)假设

    • 实际车载高速移动场景中 CSI 存在老化与估计误差,可能影响 NSM 决策精度。
  3. 模态单一

    • 当前仅验证视觉数据(图像分类),尚未拓展至 LiDAR、雷达等多模态融合场景。
  4. SCM 泛化能力待验证

    • 当前 SCM 针特定任务训练,跨任务迁移能力不足,需探索 foundation model-based 通用语义编码器。

🔮 未来研究方向(来自 Section V Open Research Directions)

方向 具体建议
Generalizability Across Tasks and Modalities 探索基于大模型(如 pre-trained Transformers)的通用语义提取器;发展跨模态注意力机制处理 RGB + LiDAR 融合
Security and Privacy in Semantic Communication 引入 semantic differential privacy;防御 model inversion attack;量化互信息隐私边界
Semantic Knowledge Management 构建分布式 semantic knowledge graph(使用 GNN);实现 context-aware 通信(发送“语义残差”)
Information Freshness and Value 定义 Semantic Age of Information (SAoI)Value of Semantic Information (VoSI),指导重要性感知调度

✅ 总结

该论文提出了 SC-USFL 框架,首次将 semantic communication 深度集成到 privacy-preserving U-SFL 架构中,为车载网络中的分布式智能提供了一个高效、安全、鲁棒的解决方案。实验证明其在保持高任务性能的同时,显著降低通信延迟,并具备良好的信道适应能力。尽管存在 CSI 依赖和模态局限等问题,但它为未来 semantic-aware edge intelligence 的发展指明了重要方向。


Authors: Guilin Zhang, Wei Jiang, Xiejiashan Wang, Aisha Behr, Kai Zhao, Jeffrey Friedman, Xu Chu, Amine Anoun
Category: cs.AI
Published: 2026-03-06
Score: 6.5
Type: new
ArXiv ID: 2603.04549v1

Abstract

LLM-based agents increasingly rely on long-term memory to support multi-session reasoning and interaction, yet current systems provide little control over what information is retained. In practice, agents either accumulate large volumes of conversational content, including hallucinated or obsolete f...

🤖 AI Summary (by qwen-long) - Click to expand

《Adaptive Memory Admission Control for LLM Agents》核心总结

1. 论文的主要贡献和创新点

解决的问题

当前基于 LLM Agents 的系统在长期记忆管理方面存在显著缺陷:

  • Heuristic-based 方法(如 MemGPT、MemoryBank)依赖手工规则,无法有效防止 hallucinated content 进入记忆;
  • LLM-native 方法(如 A-mem、Mem0)虽然召回率高,但计算开销大、缺乏可解释性,难以审计和调试;
  • 缺乏对“哪些信息应被保留”这一关键决策过程的显式建模。

因此,memory admission 成为一个未被充分规范且控制薄弱的关键组件。


提出的新方法:A-MAC

作者提出 Adaptive Memory Admission Control (A-MAC),将 memory admission 视为一个结构化的决策问题,其核心思想是:

在信息进入长期记忆前,通过多维度、可解释的信号进行显式评估,并由学习得到的策略决定是否接纳。

创新设计:

  • 将 memory value 分解为五个互补且可解释的维度

    1. Utility (U):未来任务中的潜在有用性(LLM-assisted)
    2. Confidence (C):是否被对话历史支持(抗幻觉)
    3. Novelty (N):与已有记忆的语义差异(防冗余)
    4. Recency (R):时间衰减效应
    5. Type Prior (T):内容类型的持久性偏好(如偏好 > 情绪状态)
  • 采用混合架构(hybrid design)

    • 轻量级规则提取 C/N/R/T 四个特征(高效、可审计)
    • 仅用一次 LLM 推理评估 Utility(保持语义表达力)
    • 学习线性加权策略 $ S(m) = \sum w_i \cdot f_i(m) $ 并设定阈值判断是否 admission
  • 政策通过 cross-validated optimization 自动学习权重和阈值,实现领域自适应。


相比现有方法的优势

维度 A-MAC 现有方法
精度-召回平衡 更优的 F1 表现 多数偏向极端(高召回低精 / 高精低召)
效率 比 A-mem 快 31% A-mem 需多次 LLM 调用
可解释性 权重直接反映各因素重要性 黑箱模型难审计
抗幻觉能力 显式 Confidence 机制 多数无专门防护

2. 核心实验方法和设置

数据集

  • 使用 LoCoMo benchmark(Maharana et al., 2024),包含:
    • 30 场真实场景对话(共约 1,500 个候选记忆)
    • 覆盖三大场景:personal assistant、technical support、research collaboration
    • 每条对话标注了 memory-dependent tasks 和 ground-truth admission 标签
  • 数据划分:70% 训练、15% 验证、15% 测试

实验设置与评估指标

  • 评估任务:memory admission 决策(二分类:admit/reject)
  • 主指标
    • Precision, Recall, F1 Score
    • Latency (ms):每 candidate 处理延迟
  • 模型配置
    • 使用 Sentence-BERT 提取 embedding(用于 Novelty)
    • 使用 ROUGE-L 计算 Confidence
    • 使用本地部署的 Qwen 2.5 进行 Utility 评分(temperature=0,保证确定性输出)
  • 政策学习:5-fold cross-validation + grid search 优化权重和阈值

基线方法对比

方法 类型 特点
Random 下界基准 30% 概率随机 admit
MemGPT Heuristic-based 基于 recency + LLM-judged importance
MemoryBank Heuristic-based 手工线性组合 recency, relevance, importance
Equal Weights 控制组 五维等权平均
A-mem LLM-native SOTA 多次 LLM 调用生成结构化属性,代表当前最优

3. 主要实验结果和性能指标

性能对比(LoCoMo 测试集,N=225)

Method Prec. Recall F1 Lat. (ms)
Random 0.278 0.278 0.278 <1
MemGPT 0.316 0.333 0.324 2765T
MemoryBank 0.368 0.583 0.452 2843T
Equal Weights 0.362 0.694 0.476 2916T
A-mem (SOTA) 0.371 1.000 0.541 3831T
A-MAC (Ours) 0.417 0.972 0.583 2644T

关键结果

  • F1 提升 7.8%(0.583 vs 0.541),相对提升显著;
  • 精度最高(0.417) among all LLM-based methods;
  • 接近完美召回(0.972),仅略低于 A-mem;
  • 延迟降低 31%(2644ms vs 3831ms),得益于单次 LLM 调用设计。

消融实验结果(Ablation Study)

Feature Removed F1 ΔF1
Full Model 0.583
Type Prior (T) 0.476 -0.107
Novelty (N) 0.555 -0.028
Utility (U) 0.560 -0.023
Confidence (C) 0.568 -0.015
Recency (R) 0.570 -0.013

🔍 发现

  • Type Prior 是最关键的因素,移除后性能退化至接近 “Equal Weights” 水平;
  • 表明区分“稳定信息”(如身份、偏好)与“临时状态”(如情绪)是 memory admission 的最强启发式;
  • 其他四个维度提供增量式改进,共同构成完整价值体系。

效率分析(Latency Breakdown)

Component Latency (ms) % of Total
Utility U (LLM) 2580 97.6%
Confidence C 18 0.7%
Novelty N 32 1.2%
Recency R <1 <0.1%
Type Prior T 14 0.5%
Total (A-MAC) 2644 100%

⚙️ 设计启示:LLM 推理主导耗时,因此最小化 LLM 调用次数至关重要 —— A-MAC 的 hybrid 架构优势明显。


4. 关键结论和发现

主要结论

  1. Memory admission 应作为一级控制机制:不应是生成的副产品,而需显式建模。
  2. 可解释性 + 高效性可以兼得:通过 hybrid design(rule-based + minimal LLM),A-MAC 实现了精度、效率、透明性的统一。
  3. Content Type Prior 是最有效的 admission signal:领域知识先验(如偏好比情绪更持久)比纯语义或时间信号更具判别力。
  4. 单一 LLM 调用足以支撑高质量决策:无需全量 LLM-native 架构即可超越 SOTA。

局限性

  • 当前特征设计仍以通用对话为主,在高度专业化领域(如医学、法律)可能需要定制化 Type Prior 规则;
  • 所有特征映射到 [0,1] 区间并线性加权,可能忽略非线性交互关系;
  • 实验集中在英文对话,跨语言泛化尚未验证。

未来工作方向

  • 引入动态更新机制:让 Type Prior 或权重随用户行为在线调整;
  • 扩展至多模态 memory admission(文本+图像+音频);
  • 结合 retrieval-augmented generation(RAG)框架,在 admission 和 retrieval 之间建立闭环反馈;
  • 探索轻量化 LLM 替代 full-scale LLM 进行 Utility 评估,进一步压缩成本。

💡 一句话总结
A-MAC 证明了——通过结构化、可解释的设计,我们可以在不牺牲性能的前提下,大幅提升 LLM Agents 记忆系统的可靠性、效率与可控性。代码已开源:GitHub


Authors: Zhiming Xue, Yujue Wang
Category: cs.AI
Published: 2026-03-06
Score: 6.5
Type: new
ArXiv ID: 2603.04818v1

Abstract

Port congestion at major maritime hubs disrupts global supply chains, yet existing prediction systems typically prioritize forecasting accuracy without providing operationally interpretable explanations. This paper proposes AIS-TGNN, an evidence-grounded framework that jointly performs congestion-es...

🤖 AI Summary (by qwen-long) - Click to expand

论文总结:LLM-Grounded Explainability for Port Congestion Prediction via Temporal Graph Attention Networks


1. 论文的主要贡献和创新点

✅ 解决的问题

当前港口拥堵预测系统普遍存在“可解释性鸿沟”(explainability gap):

  • 多数模型专注于提升预测准确率(如 AUC、F1),但缺乏对非技术利益相关者(如港口运营人员、物流规划师)友好的操作级可解释输出
  • 现有事后解释方法(如 GNNExplainer、SHAP)提供的是数值型归因,抽象且难以直接用于风险报告。

本研究旨在构建一个既能高精度预测港口拥堵升级事件,又能生成基于模型内部证据的自然语言风险解释的统一框架。


🚀 提出的新方法与创新思路

提出 AIS-TGNN 框架,融合 Temporal Graph Attention Network (TGAT)Large Language Model (LLM) 的协同推理机制:

  1. 端到端证据驱动的可解释AI架构
    首次将图神经网络中的注意力权重(attention weights)和特征重要性(z-scores)转化为结构化提示(structured prompts),约束 LLM 仅基于模型内部可验证证据生成解释,确保解释的忠实性(faithfulness)。

  2. 时空图建模 + 注意力证据提取

    • 利用 AIS 数据构建每日时空图快照(spatiotemporal graph snapshots),节点为 0.1°×0.1° 网格单元。
    • 使用 TGAT 捕捉动态空间依赖关系,并通过 attention proxy weights 提取关键邻居影响路径。
  3. 六段式结构化解说生成 设计强制 JSON 输出格式的 prompt schema,要求 LLM 输出六个标准化部分:

    • 特征驱动因素
    • 邻居影响
    • 风险摘要
    • 反事实建议
    • 置信度与不确定性
    • 局限性说明
  4. 方向一致性验证协议(Directional-Consistency Validation) 定量评估生成文本是否在风险方向上与输入证据一致(如 z-score 符号与 point-biserial correlation 方向匹配),实现解释质量的自动化审计。


🔍 相比现有方法的优势

维度 传统方法 AIS-TGNN
预测能力 LR / GCN 等静态或简单图模型 引入时间序列状态传递的 TGAT,捕捉动态演化模式
可解释性 数值型归因(SHAP/GNNExplainer) 自然语言报告 + 结构化证据锚定
解释可靠性 易受幻觉影响,脱离模型实际输出 通过定向一致性达 99.6%,保证解释忠于模型证据
实用性 专家才能解读 可直接用于操作决策支持系统(dashboard 渲染)

2. 核心实验方法和设置

📊 数据集

  • 来源:NOAA Marine Cadastre 提供的 AIS 广播数据
  • 时间范围:2023年1月–6月(共6个月)
  • 地理区域:美国西海岸洛杉矶港与长滩港周边(San Pedro Bay),覆盖 32°N–35°N, 121°W–117°W
  • 预处理后形式
    • 构建 89 个按日排序的图快照(daily graph snapshots)
    • 节点:0.1°×0.1° 网格单元(约 11km×11km)
    • 边:KNN(k=8)基于欧氏距离
    • 总样本量:约 3.02×10⁴ 个 node-day 样本
    • 正类比例(拥堵升级):13.5%(高度不平衡)

⚙️ 实验设置

模型架构

  • 主干模型:Temporal Graph Attention Network (TGAT)
    • 两层 TransformerConv
    • 隐藏维度 h=128,注意力头数 H=4
    • 时间上下文通过前序嵌入拼接实现(无需RNN)
  • 损失函数:加权 Binary Cross-Entropy(正类权重 = 6.74)
  • 优化器:Adam,学习率 1e-3,weight decay 1e-4

训练策略

  • 严格时序划分(chronological split)防止数据泄露:
    • 训练集:前70%(snapshot 1–62)
    • 验证集:中间15%(63–75)
    • 测试集:最后15%(76–89)
  • 最佳模型选择依据:验证集 AUC 最高 checkpoint

LLM 解释模块

  • 模型:GPT-4o-mini(via OpenAI API)
  • 输入:结构化证据记录(top-5 特征 z-score + correlation;top-2 邻居 attention 权重 + 主导特征)
  • 输出格式:强制 JSON schema,含六部分内容
  • 系统角色设定:“海运风险分析师”,禁止引入外部知识

📈 评估指标

类别 指标
预测性能 AUC, AP (Average Precision), F1, Recall
解释质量 Directional Consistency Rate(方向一致性率)
对比基线 Logistic Regression (LR), Graph Convolutional Network (GCN)

注:未报告 Accuracy,因数据严重不平衡(86.5%负类),Accuracy 无意义。


3. 主要实验结果和性能指标

📊 关键性能数据(测试集)

Model AUC AP F1 Recall
LR (no graph) 0.713 0.300 0.375 0.480
GCN (static graph) 0.759 0.326 0.383 0.445
TGAT (proposed) 0.761 0.344 0.398 0.504

TGAT 在所有四项指标上均取得最优表现


🔍 与基线方法对比分析

对比维度 发现
AUC 提升有限(+0.002 vs GCN) 因 AUC 在极度不平衡数据中敏感度低,不能完全反映实际优势
AP 提升显著(+5.5%) 表明在高召回区域,TGAT 的 precision 更稳定,更适合稀有事件检测任务
Recall 提升达 +13.2% 运营最关键指标!意味着每 100 次真实拥堵升级中多识别出约 6 次,大幅降低漏报成本
F1 得分最高 综合精度与召回的最佳平衡

💡 结论:尽管 AUC 改进微小,但在实际部署场景下,Recall 和 AP 的提升具有重大操作价值


🔪 消融实验与特征分析(隐含消融思想)

虽然未明确列出消融表,但文中进行了深入分析,等效于功能模块分析:

分析项 发现
注意力机制的作用 GCN 使用固定 sum-aggregation,混淆高/低风险邻居;而 TGAT 学习 attention weights 可区分关键邻域影响,从而提高 recall
特征重要性一致性检验 Top-2 特征中,“Mean SOG” 和 “Slow-speed ratio” 出现频率超 60%,与其强相关性(r = -0.204, +0.190)一致,证明模型未过拟合噪声特征
Tanker ratio 排名靠后 其 dataset-level correlation 极弱(r = -0.017),也极少出现在 top-5 特征中,说明模型合理忽略无关变量

✅ 解释模块性能

  • Directional Consistency Rate99.6%(500 条判断中 498 条正确)
  • 单一不一致案例源于近零相关特征(tanker ratio, r≈-0.017),LLM 使用模糊表达导致解析失败
  • 表明:结构化提示能有效抑制 LLM 幻觉,使解释忠于模型证据

4. 关键结论和发现

✅ 主要发现

  1. TGAT 显著优于 LR 与 GCN,尤其在 Recall 和 AP 上提升明显,适合港口这类以避免漏警为核心的高风险场景。
  2. 注意力机制是关键:learnable attention 能有效识别最具影响力的邻近网格,克服 GCN 中邻居信息混叠问题。
  3. LLM 可被可靠引导生成解释:通过结构化证据注入与输出格式约束,可实现接近完美的方向一致性(99.6%),为 XAI 提供可审计路径。
  4. 预测与解释无需权衡:该框架在不牺牲预测性能的前提下实现了高质量解释,打破“accuracy vs. interpretability” trade-off 的迷思。

⚠️ 方法的局限性

局限 描述
标签噪声 拥堵升级标签基于“slow ratio 是否上升”,单条异常 AIS 报告即可翻转标签,可能引入误标
仅依赖运动学特征 未整合天气、潮汐、泊位调度等外生变量,限制了预测上限
图结构静态化 KNN 图虽固定,但实际船舶流动可能存在动态连接模式
LLM 成本与延迟 当前需调用 GPT-4o-mini,大规模实时应用存在成本与响应延迟挑战

🔮 未来工作方向

  1. 引入多模态输入

    • 加入气象数据、潮汐状态、船舶预定靠泊计划等 exogenous covariates 以进一步提升 recall。
  2. 多步预测扩展

    • 通过递归 temporal unrolling 实现 48 小时或更长期预测。
  3. 多方法归因融合

    • 结合 gradient-based 方法(如 SHAP)或子图解释器(GNNExplainer)进行交叉验证,增强解释鲁棒性。
  4. 轻量化本地部署

    • 探索小型化 LLM 或本地微调模型(如 Llama3-Beluga)替代云端 API,降低成本并保障隐私。
  5. 实时操作仪表盘集成

    • 将 AIS-TGNN 部署为实时监控系统,为港口管理者提供动态风险地图与自动预警报告。

✅ 总结一句话

本文提出的 AIS-TGNN 框架首次实现了 基于 TGAT 的港口拥堵升级预测由 LLM 生成的、证据锚定的自然语言解释 的深度融合,在保持优异预测性能的同时达到 99.6% 的解释方向一致性,为可信赖、可操作的海运 AI 决策支持系统提供了实用范式。


Authors: Jiawei Chen, Tianzhuo Yang, Guoxi Zhang, Jiaming Ji, Yaodong Yang, Juntao Dai
Category: cs.AI
Published: 2026-03-06
Score: 6.5
Type: new
ArXiv ID: 2603.04822v1

Abstract

Aligning Large Language Models (LLMs) with nuanced human values remains a critical challenge, as existing methods like Reinforcement Learning from Human Feedback (RLHF) often handle only coarse-grained attributes. In practice, fine-tuning LLMs on task-specific datasets to optimize value alignment in...


Authors: Ruiqi Zhang, Lingxiang Wang, Hainan Zhang, Zhiming Zheng, Yanyan Lan
Category: cs.CL
Published: 2026-03-06
Score: 6.5
Type: new
ArXiv ID: 2603.04828v1

Abstract

Pre-training data detection for LLMs is essential for addressing copyright concerns and mitigating benchmark contamination. Existing methods mainly focus on the likelihood-based statistical features or heuristic signals before and after fine-tuning, but the former are susceptible to word frequency b...


Authors: Mengze Hong, Yi Gu, Di Jiang, Hanlin Gu, Chen Jason Zhang, Lu Wang, Zhiyang Su
Category: cs.CL
Published: 2026-03-06
Score: 6.5
Type: new
ArXiv ID: 2603.04945v1

Abstract

Training automatic speech recognition (ASR) models increasingly relies on decentralized federated learning to ensure data privacy and accessibility, producing multiple local models that require effective merging. In hybrid ASR systems, while acoustic models can be merged using established methods, t...


Authors: Felipe de Jesus Felix Arredondo, Alejandro Ucan-Puc, Carlos Astengo Noguez
Category: cs.LG
Published: 2026-03-06
Score: 6.5
Type: new
ArXiv ID: 2603.04625v1

Abstract

This work establishes a rigorous variational and gradient-based equivalence between the classical K-Means algorithm and differentiable Radial Basis Function (RBF) neural networks with smooth responsibilities. By reparameterizing the K-Means objective and embedding its distortion functional into a sm...


Authors: Peihao Wang, Ruisi Cai, Zhen Wang, Hongyuan Mei, Qiang Liu, Pan Li, Zhangyang Wang
Category: cs.LG
Published: 2026-03-06
Score: 6.5
Type: new
ArXiv ID: 2603.04948v1

Abstract

Scaling inference-time compute for Large Language Models (LLMs) has unlocked unprecedented reasoning capabilities. However, existing inference-time scaling methods typically rely on inefficient and suboptimal discrete search algorithms or trial-and-error prompting to improve the online policy. In th...


Authors: Deming Chen, Jason Cong, Azalia Mirhoseini, Christos Kozyrakis, Subhasish Mitra, Jinjun Xiong, Cliff Young, Anima Anandkumar, Michael Littman, Aron Kirschen, Sophia Shao, Serge Leef, Naresh Shanbhag, Dejan Milojicic, Michael Schulte, Gert Cauwenberghs, Jerry M. Chow, Tri Dao, Kailash Gopalakrishnan, Richard Ho, Hoshik Kim, Kunle Olukotun, David Z. Pan, Mark Ren, Dan Roth, Aarti Singh, Yizhou Sun, Yusu Wang, Yann LeCun, Ruchir Puri
Category: cs.AI
Published: 2026-03-06
Score: 6.0
Type: new
ArXiv ID: 2603.05225v1

Abstract

Artificial intelligence (AI) and hardware (HW) are advancing at unprecedented rates, yet their trajectories have become inseparably intertwined. The global research community lacks a cohesive, long-term vision to strategically coordinate the development of AI and HW. This fragmentation constrains pr...


Authors: Mahmoud Abusaqer, Jamil Saquer
Category: cs.CL
Published: 2026-03-06
Score: 6.0
Type: new
ArXiv ID: 2603.04414v1

Abstract

Multiclass hate speech detection across demographic categories remains computationally challenging due to implicit targeting strategies and linguistic variability in social media content. Existing approaches rely solely on learned representations from training data, without explicitly incorporating ...


Authors: Alexander Strack, Hartmut Kaiser, Dirk Pfl"uger
Category: cs.DC
Published: 2026-03-06
Score: 6.0
Type: new
ArXiv ID: 2603.05366v1

Abstract

Writing efficient distributed code remains a labor-intensive and complex endeavor. To simplify application development, the Flexible Computational Science Infrastructure (FleCSI) framework offers a user-oriented, high-level programming interface that is built upon a task-based runtime model. Interna...


Authors: L. E. Garcia-Marrero, G. Petrone, E. Monmasson
Category: cs.LG
Published: 2026-03-06
Score: 6.0
Type: new
ArXiv ID: 2603.04998v1

Abstract

Non-Intrusive Load Monitoring (NILM) aims to estimate appliance-level consumption from aggregate electrical signals recorded at a single measurement point. In recent years, the field has increasingly adopted deep learning approaches; however, cross-domain generalization remains a persistent challeng...


Authors: Yuhao Xu, Xiaoda Wang, Yi Wu, Wei Jin, Xiao Hu, Carl Yang
Category: cs.AI
Published: 2026-03-06
Score: 5.5
Type: new
ArXiv ID: 2603.04589v1

Abstract

Electrocardiography (ECG) analysis is crucial for cardiac diagnosis, yet existing foundation models often fail to capture the periodicity and diverse features required for varied clinical tasks. We propose ECG-MoE, a hybrid architecture that integrates multi-model temporal features with a cardiac pe...


Authors: Jonathan D. Chang, Andrew Drozdov, Shubham Toshniwal, Owen Oertell, Alexander Trott, Jacob Portes, Abhay Gupta, Pallavi Koppol, Ashutosh Baheti, Sean Kulinski, Ivan Zhou, Irene Dea, Krista Opsahl-Ong, Simon Favreau-Lessard, Sean Owen, Jose Javier Gonzalez Ortiz, Arnav Singhvi, Xabi Andrade, Cindy Wang, Kartik Sreenivasan, Sam Havens, Jialu Liu, Peyton DeNiro, Wen Sun, Michael Bendersky, Jonathan Frankle
Category: cs.AI
Published: 2026-03-06
Score: 5.5
Type: new
ArXiv ID: 2603.05218v1

Abstract

We present a system for training enterprise search agents via reinforcement learning that achieves state-of-the-art performance across a diverse suite of hard-to-verify agentic search tasks. Our work makes four core contributions. First, we introduce KARLBench, a multi-capability evaluation suite sp...


Authors: Zirong Chen, Hongchao Zhang, Meiyi Ma
Category: cs.AI
Published: 2026-03-06
Score: 5.5
Type: new
ArXiv ID: 2603.05361v1

Abstract

9-1-1 call-taking training requires mastery of over a thousand interdependent skills, covering diverse incident types and protocol-specific nuances. A nationwide labor shortage is already straining training capacity, but effective instruction still demands that trainers tailor objectives to each tra...


Authors: Sara Candussio, Gabriele Sarti, Gaia Saveri, Luca Bortolussi
Category: cs.CL
Published: 2026-03-06
Score: 5.5
Type: new
ArXiv ID: 2603.05198v1

Abstract

We introduce a framework for learning continuous neural representations of formal specifications by distilling the geometry of their semantics into a latent space. Existing approaches rely either on symbolic kernels -- which preserve behavioural semantics but are computationally prohibitive, anchor-...


Authors: Karame Mohammadiporshokooh, Panagiotis Syskakis, Andrew Lumsdaine, Hartmut Kaiser
Category: cs.DC
Published: 2026-03-06
Score: 5.5
Type: new
ArXiv ID: 2603.04583v1

Abstract

Graph processing at scale presents many challenges, including the irregular structure of graphs, the latency-bound nature of graph algorithms, and the overhead associated with distributed execution. While existing frameworks such as Spark GraphX and the Parallel Boost Graph Library (PBGL) have intro...


Authors: Akash Sharma, Pranjal Naman, Roopkatha Banerjee, Priyanshu Pansari, Sankalp Gawali, Mayank Arya, Sharath Chandra, Arun Josephraj, Rakshit Ramesh, Punit Rathore, Anirban Chakraborty, Raghu Krishnapuram, Vijay Kovvali, Yogesh Simmhan
Category: cs.DC
Published: 2026-03-06
Score: 5.5
Type: new
ArXiv ID: 2603.05217v1

Abstract

Real-time city-scale traffic analytics requires processing 100s-1000s of CCTV streams under strict latency, bandwidth, and compute limits. We present a scalable AI-driven Intelligent Transportation System (AIITS) designed to address multi-dimensional scaling on an edge-cloud fabric. Our platform tra...


🔧 Configuration

This bot is configured to look for papers containing the following keywords:

  • LLM, RL, RLHF, Inference, Training, Attention, Pipeline, MOE, Sparse, Quantization, Speculative, Efficient, Efficiency, Framework, Parallel, Distributed, Kernel, Decode, Decoding, Prefill, Throughput, Fast, Network, Hardware, Cluster, FP8, FP4, Optimization, Scalable, Communication

📅 Schedule

The bot runs daily at 12:00 UTC via GitHub Actions to fetch the latest papers.

🚀 How to Use

  1. Fork this repository to your GitHub account
  2. Customize the configuration by editing config.json:
    • Add/remove arXiv categories (e.g., cs.AI, cs.LG, cs.CL)
    • Modify keywords to match your research interests
    • Adjust max_papers and days_back settings
  3. Enable GitHub Actions in your repository settings
  4. The bot will automatically run daily and update the README.md

📝 Customization

arXiv Categories

Common categories include:

  • cs.AI - Artificial Intelligence
  • cs.LG - Machine Learning
  • cs.CL - Computation and Language
  • cs.CV - Computer Vision
  • cs.NE - Neural and Evolutionary Computing
  • stat.ML - Machine Learning (Statistics)

Keywords

Add keywords that match your research interests. The bot will search for these terms in paper titles and abstracts.

Exclude Keywords

Add terms to exclude certain types of papers (e.g., "survey", "review", "tutorial").

🔍 Manual Trigger

You can manually trigger the bot by:

  1. Going to the "Actions" tab in your repository
  2. Selecting "arXiv Bot Daily Update"
  3. Clicking "Run workflow"

Generated automatically by arXiv Bot

About

This repository automatically fetches and displays relevant papers from arXiv based on configured criteria.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors