Skip to content

Commit

Permalink
Final report, good luck!
Browse files Browse the repository at this point in the history
  • Loading branch information
AyiStar committed Jul 31, 2024
1 parent d63ab6c commit ba90785
Showing 1 changed file with 3 additions and 3 deletions.
6 changes: 3 additions & 3 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -9,14 +9,14 @@


> **UPDATE**决赛第一赛段更新内容提要
> **UPDATE**决赛阶段更新内容提要
>
> 1. 扩展量化格式:除Q4_0外,增加对Q2_K、Q4_1、Q5_0、Q5_1、Q8_0五种量化格式的推理加速支持;
> 2. 测试多种模型:除7B和13B参数模型外,增加对1B、30B两种不同参数数量模型的测试;
> 3. 工程优化:为支持以上扩展,对代码进行重构优化,并引入自动化test/benchmark;
> 4. 报告更新:以下报告正文内容已与上述内容同步进行更新。
>
> 具体修改内容可直接通过git diff或Web UI与commit `95c67b74d1c0426b785e762502ea98f44553b60c`进行对比。
> 具体修改内容可直接通过 git diff 或 Web UI 与 commit `95c67b74d1c0426b785e762502ea98f44553b60c` 进行对比。


Expand All @@ -25,7 +25,7 @@
## 摘要

* **项目目标**:将llama.cpp移植至龙芯处理器3A6000,并进行软硬件协同优化,加速模型的CPU推理速度,使得以Meta LLaMA为代表的流行的大语言模型能够以可接受的速度运行于龙芯平台;
* **完成情况**:本项目的规划和进展情况可见[dev.md](dev.md)。截至本阶段,实现了从2bit到32bit共七种数据格式的推理优化加速,并在从1B到30B共四种参数规模的LLaMA模型上进行标准测试。较于未经优化的代码,在矩阵乘法和模型推理两项标准任务上均实现可观的性能加速。
* **完成情况**:本项目的规划和进展情况可见[dev.md](dev.md)。截至本阶段,实现了从2bit到32bit共**7种**数据格式的推理优化加速,并在从1B到30B共**7种**参数规模的LLaMA模型上进行标准测试。较于未经优化的代码,在矩阵乘法和模型推理两项标准任务上均实现可观的性能加速。
* **主要创新**:定位和分析了大语言模型推理的主要性能瓶颈;针对龙芯平台进行了**SIMD****Cache**两个方向的计算优化;同时支持**浮点**参数和**量化**参数的运算加速;在3A6000处理器上进行了正确性和性能的标准测试。

本技术报告是对本项目的阶段性总结,也希望为后续工作及其他相关工作提供一些启发,具体包含以下章节:
Expand Down

0 comments on commit ba90785

Please sign in to comment.