Skip to content

LLM Inference

现在这部分内容已经单独成站点,前往 LLM Inference 查看最新内容

该站点主要记录在大模型推理方面的学习和实践,内容包括但不限于:

Text Only
- 大模型推理基础知识,如 Transformer、Attention 机制等;
- 大模型推理优化技术,如量化、剪枝、蒸馏等;
- 大模型推理框架和工具,如 Hugging Face Transformers、DeepSpeed、LLM.int8() 等;
- 大模型推理应用,如聊天机器人、文本生成、代码生成等。

本部分内容(除特别声明外)采用 [**署名-非商业性使用-保持一致 4.0 国际 (CC BY-NC-SA 4.0)**](https://creativecommons.org/licenses/by-nc-sa/4.0/) 许可协议进行许可。