SakuraLLMServer

运行 SakuraLLM 轻小说翻译模型的服务器端一键包
可作为 AiNiee、GalTransl、轻小说翻译机器人等翻译器的服务器端使用
结合本页中的设置指南，可以得到最优化的性能，相较于默认设置可提升 3-5 倍

要求

至少 8G 显存的 Nvidia 独立显卡
确保安装了 最新版本 的显卡驱动程序

步骤

从发布页下载最新版本的 SakuraLLMServer 并解压缩
根据显存大小下载适合的模型并放入 SakuraLLMServer 文件夹

显存大小	模型规模	下载链接
8G/10G	7B	GalTransl-7B-v2.6-IQ4_XS.gguf
11G/12G/16G	14B	sakura-14b-qwen2.5-v1.0-iq4xs.gguf
24G	14B	sakura-14b-qwen2.5-v1.0-q6k.gguf

启动

现在你的文件结构应该类似于：

  SakuraLLMServer\llama\...
                    \00_Core.bat
                    \01_1280_NP16.bat
                    \sakura-14b-qwen2.5-v1.0-iq4xs.gguf
                    \...

根据 你的显存和模型的搭配组合 选择对应的启动脚本，双击启动即可

显存大小	模型规模	启动脚本
8G	7B	01_1280_NP4_KVQ8.bat
10G	7B	01_1280_NP8_KVQ8.bat
11G	14B	01_1280_NP4.bat
12G	14B	01_1280_NP6.bat
16G/24G	14B	01_1280_NP16.bat

设置 AiNiee

确保安装了 最新版本（版本号 >= 5.0） 的 AiNiee 应用
启动应用，并根据 显存大小 设置以下选项：

选项	设置
接口管理 - SakuraLLM - 编辑接口 - 接口地址	http://127.0.0.1:8080
接口管理 - SakuraLLM - 编辑接口 - 模型名称（8G/10G）	Sakura-v0.9
接口管理 - SakuraLLM - 编辑接口 - 模型名称（11G/12G/16G/24G）	Sakura-v1.0
基础设置 - 翻译任务切分模式	Token 模式
基础设置 - 翻译任务的最大 Tokens 数	384
基础设置 - 每个翻译任务携带的参考上文行数（翻译 `小说` 或 `GalGame` 时）	3
基础设置 - 每个翻译任务携带的参考上文行数（翻译 `其他内容` 时）	0
基础设置 - 同时执行的翻译任务数量	启动脚本名称中 NP 后的数字
基础设置 - 错误重试的最大次数	0
基础设置 - 翻译流程的最大轮次	20
高级设置 - 保留句内换行符	启用
高级设置 - 保留首尾非字符文本	启用

设置 GalTransl（TODO）

设置轻小说翻译机器人（绿站）

本地翻译
- 打开 Sakura 工作区页面
- 在左侧 翻译器 区域
  - 点击 添加翻译器，添加若干个翻译器
  - 翻译器的数量一般应等于 脚本名称中 NP 后的数字
  - 翻译器名字随意，链接为 http://127.0.0.1:8080，其他保持默认
- 在右侧 本地翻译设置 区域，将任务均分数设置为翻译器的数量
- 在右侧 本地小说 区域，添加要翻译的日文文本文件
- 依次点击所有 翻译器 后的启动按钮即可开始 多线程翻译
- 翻译完毕后，在右侧 本地小说 区域点击 阅读 按钮开始阅读
在线翻译（8G/10G 配置暂时无法使用在线翻译上传作品）
- 打开 Sakura 工作区页面
  - 在左侧 翻译器 区域
  - 点击 添加翻译器，添加若干个翻译器
  - 翻译器的数量一般应等于 脚本名称中 NP 后的数字
  - 翻译器名字随意，链接为 http://127.0.0.1:8080，其他保持默认
- 打开你想要翻译的小说页面
  - 在页面中部的 范围 区域，将任务均分数设置为翻译器的数量，点击 排队 Sakura 按钮
- 打开 Sakura 工作区页面，依次点击所有 翻译器 后的启动按钮即可开始 多线程翻译

常见问题

什么是 爆显存，会导致什么问题？
- 系统需求的显存超过了显卡实际的物理显存大小，称之为 爆显存
- 爆显存 时，翻译的速度和结果都会出现异常，基本丧失可用性，所以要避免这种情况
如何判断是否 爆显存
- 如果爆的比较厉害，程序会直接报错或者退出
- 爆了一点又没有完全爆比较难判断
- 一个可参考的方式是通过第三方软件监测显卡功耗
- 满载执行任务时，显卡实际功耗应为最大功耗的 70%-80% 或者更高
- 如果显存接近用完，但是显卡实际功耗很低，则大概率是爆显存了
如何避免 爆显存
- 在模型启动后，模型占用的显存大小是固定的，不会变化，但是系统中的其他应用也会占用显存
- 本项目中的脚本都预留了一定的冗余空间，但如果开启过多应用，依然可能导致显存消耗完
- 所以在使用时，应尽量减少开启其他消耗显存的应用
- 比如 浏览器、动态壁纸、视频播放器 或 QQNT、VSCODE 等基于浏览器内核的应用

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

SakuraLLMServer

要求

步骤

启动

设置 AiNiee

设置 GalTransl（TODO）

设置轻小说翻译机器人（绿站）

常见问题

Files

README.md

Latest commit

History

README.md

File metadata and controls

SakuraLLMServer

要求

步骤

启动

设置 AiNiee

设置 GalTransl（TODO）

设置 轻小说翻译机器人（绿站）

常见问题

设置轻小说翻译机器人（绿站）