Skip to content

Latest commit

 

History

History
168 lines (103 loc) · 3.9 KB

chap0.md

File metadata and controls

168 lines (103 loc) · 3.9 KB

模型应用流程图

image-20240104203242711

书生·浦语开放体系

image-20240104203434678

数据

概述

  • 共2TB
  • 文本数据:1TB+,50亿文档
  • 图像-文本数据集:140GB,2200万+文件
  • 视频数据:900GB,1000+文件
  • 多模态数据(各个领域)
  • 精细化处理
    • 语言筛选、文本提取、格式标准化、数据过滤和清洗(基于规则和模型)、多尺度去重和数据质量评估等
  • OpenDataLab:数据集下载网站

预训练

  • 可8卡到千卡训练
  • 兼容HuggingFace等技术生态和轻量化技术

微调

  • LLM下游应用使用微调方式
    • 增量续训练
    • 有监督微调
  • 全量和部分参数微调
  • LoRA、QLoRA

增量续训

  • 场景:基座模型学习到一些新知识,如某个垂类领域知识
    • 垂类领域知识:某一特定行业或学科中深入、专业且垂直细分的知识内容。相对于通用知识而言,垂类领域知识更具有针对性和专业化特点,它聚焦于一个具体的分支或方向,在这个范围内进行深度研究、积累经验和形成独特的专业知识体系。(大领域的细分领域)
  • 训练数据:文章、书籍、代码等

有监督微调

  • 场景:模型学会和遵循各种指令,或者注入少量领域知识
  • 训练数据:高质量对话,QA数据(数据量少)

XTuner

  • 微调算法:有多种微调策略和算法,覆盖各类SFT场景
  • 兼容HuggingFace、ModelScope模型或数据集
  • 最低8G显存微调7B模型
    • 20系以上显卡

评测

image-20240104205213808

OpenCompass

体系
  • 学科考试
  • 语言
  • 知识问答
  • 理解
  • 推理
  • 安全
评测平台架构

image-20240104205517448

部署

LLM特点

内存开销大
  • 参数量庞大
  • 自回归生成token,需要缓存k/v
动态shape
  • 请求数不固定
  • token逐个生成,数量不固定
模型结构简单
  • transformer结构
    • 大部分是decoder-only

技术challenge

设备
  • 低存储设备部署
    • 消费级显卡、移动端
推理
  • token生成速度
  • 解决动态shape,推理不间断
  • 有效管理和利用内存
服务
  • 提升系统整体吞吐量
  • 降低请求的平均响应时间

部署方案

技术点

  • 模型并行
  • 低比特量化
    • 模型压缩与加速技术,减少神经网络模型的计算和存储开销
    • 高精度的数值转换为更低比特数(如8位、4位、1位)的整数或定点数进行存储和计算
  • attention优化
  • 计算和访存优化
  • Continuous Batching(持续批量处理)
    • 结合了批量处理和流式处理特点的数据处理方法
    • 将批处理任务分解为一系列小的、连续运行的批次,这样可以在保持一定频率的情况下近乎实时地更新结果,同时又能利用批处理高效处理大量数据的优势。将批处理任务分解为一系列小的、连续运行的批次,这样可以在保持一定频率的情况下近乎实时地更新结果,同时又能利用批处理高效处理大量数据的优势。

LMDeploy

接口
  • Python、gRPC、RESTful
推理引擎
  • turbomind、pytorch
服务
  • openai-server、gradio、triton inference server
轻量化
  • 4 bit 权重
  • 8 bit k/v

应用

Agent

  • 智能体

image-20240104210738661

智能体类型

image-20240104210830743

AgentLego

  • 多模态智能体工具箱
  • 提供大量视觉、多模态相关领域算法和工具
  • 支持多个主流智能体系统
    • LangChain、Transformers Agent、Lagent
  • 支持各类输入输出格式工具函数(多模态工具调用接口)
  • 远程部署