Skip to content

Blogs ✍

Note

个人博客文章汇总,按时间倒序排列

Archives

如果寻找不方便的话,不妨试试搜索或者前往 Tags 页面

torch.compile 原理和实践
torch.compile 原理和实践

介绍 torch.compile 的原理和在大模型推理中的实践应用

12/12/25, 2:33 PM
从 GEMM 实践 CUDA 优化
从 GEMM 实践 CUDA 优化

本文将从最 naive 的 GEMM 实现开始,使用 nsight compute 工具进行性能分析寻找瓶颈并一步步进行优化。通过这种方式来实践 CUDA 中的各种优化技巧,包括 Tiling、Free Bank Conflict、Double Buffer、wmma 指令优化等。

12/10/25, 8:19 AM
C++ 异步方案演进
C++ 异步方案演进

C++ 的异步执行方案历史演进,从标准库的 Future 和 Promise,到 Folly 的扩展封装,再到 C++26 中的 std::execution 和协程的结合,详细介绍了各个方案的原理和使用方法。

12/2/25, 8:15 AM
CS144-TCP协议简单实现
CS144-TCP协议简单实现

介绍CS144课程中对TCP协议的简单实现,涵盖IP包和TCP报文的构建、数据格式以及TCP工作流程等内容。

12/2/25, 8:15 AM
FlashAttention
FlashAttention

本文详细介绍 FlashAttention 的原理及其 v1 和 v2 版本的改进点,涵盖 Online Softmax、分块计算以及并行化优化等关键技术。

12/2/25, 8:15 AM
并发组件实现浅析
并发组件实现浅析

并发组件的内部实现浅析

12/2/25, 8:15 AM
PageAttention
PageAttention

本文深入探讨 Page Attention 的实现细节,涵盖 GPU Tiling、矢量化访问、分层计算结构以及注意力内核的具体实现过程,帮助读者理解其高效计算注意力机制的原理。

12/2/25, 8:15 AM
Bison Debug 指北

本文介绍如何在使用 Bison 进行语法分析时进行冲突查看和调试,帮助开发者更好地理解和解决语法规则中的问题。

12/2/25, 8:15 AM
Bustub 通关指北
Bustub 通关指北

Bustub 通关指北,带你快速了解 Bustub 的核心组件和实现细节,包括 Parser、Planner、Optimizer、Executor 以及 Storage 模块的工作原理。

12/2/25, 8:15 AM
上篇:初识 Nebula Graph —— 向量类型支持
上篇:初识 Nebula Graph —— 向量类型支持

本篇文章介绍了 Nebula Graph 向量类型的设计与实现,涵盖向量数据类型的定义、序列化与反序列化方法,以及向量属性的存储结构和存储引擎的改动。

12/2/25, 8:15 AM
下篇:向量索引与相似度搜索 —— Nebula Graph 的 ANN 实现之路
下篇:向量索引与相似度搜索 —— Nebula Graph 的 ANN 实现之路

本篇主要介绍如何支持 Ann 索引和 Ann Search。

12/2/25, 8:15 AM
中篇:Vector 类型的 DDL & DML 适配
中篇:Vector 类型的 DDL & DML 适配

本篇主要介绍如何支持向量属性的 DDL 和 DML 语句,涵盖在 Nebula Graph 中添加 Vector 类型属性的实现细节。

12/2/25, 8:15 AM
GPU 内存系统演进:最大化带宽利用与延迟隐藏的技术路径

本文探讨了 GPU 内存系统的演进路径,重点介绍了如何通过提升带宽利用率和隐藏延迟来优化 GPU 性能。涵盖了 Little's Law、ILP/DLP 并行扩展、异步内存加载以及启动延迟优化等关键技术。

12/2/25, 8:15 AM
Vector Add Optimization Example
Vector Add Optimization Example

本文将通过一个简单的 CUDA Vector Add 例子,介绍如何使用 Nsight Compute 工具进行性能分析,并一步步进行优化。

12/2/25, 8:15 AM
CUDA Optimization for LLM Inference
CUDA Optimization for LLM Inference

在大规模语言模型(LLM)推理中,优化 CUDA 代码对于提升性能和效率至关重要。本文档介绍了一些关键的 CUDA 优化技术,帮助开发者更好地利用 GPU 资源进行 LLM 推理。

12/2/25, 8:15 AM
Introduction for LLM Inference

本文介绍了不同神经网络架构(如 MLP、CNN、RNN 和 Transformer)对计算模式的影响,探讨了这些模式如何映射到计算机系统资源,包括内存访问模式、计算特性、数据移动和资源利用。

12/2/25, 8:15 AM
Parallelization in LLM Inference
Parallelization in LLM Inference

本文介绍了在基于 Transformer 的大规模语言模型(LLM)中常用的并行化技术,包括数据并行(DP)、张量并行(TP)、流水线并行(PP)、专家并行(EP)以及序列并行(SP)和上下文并行(CP)。通过 deepseek-V3 来进行具体分析这些并行化技术在训练和推理中的应用。

12/2/25, 8:15 AM
Attention & Transformers
Attention & Transformers

介绍注意力机制(Attention)及其在 Transformer 架构中的应用,涵盖传统 self-attention、Multi-Head Attention、Multi-Query Attention 以及 Group-Query Attention 的原理和区别,并详细解析 Transformer 的结构和工作流程。

12/2/25, 8:15 AM
Parallelizatoin Concepts
Parallelizatoin Concepts

本节主要介绍大模型训练中的并行化技术,涵盖数据并行、模型并行、流水线并行和张量并行等方法。我们将从 Transformer 的参数量、Flops 以及训练占用显存入手,分析为什么需要并行化技术,并介绍这些技术的基本原理。

12/2/25, 8:15 AM
Transformer-Based LLM Architecture
Transformer-Based LLM Architecture

本章介绍基于 Transformer 架构的大规模语言模型(LLM),涵盖其核心组件如位置编码、注意力机制、归一化方法和前馈网络。

12/2/25, 8:15 AM
Data Parallelism in Attention in SGLang

本文介绍 SGLang 中 Attention 层的数据并行(DP Attention)机制,涵盖其设计理念、实现细节及执行流程,旨在提升模型推理的效率和性能。

12/2/25, 8:15 AM
RadixAttention 你需要知道的细节
RadixAttention 你需要知道的细节

本文深入探讨 SGLang 中 RadixAttention 的实现细节,涵盖 Radix Tree 结构、前缀匹配、内存管理与驱逐策略,以及 Cache-Aware Scheduling 的工作原理。

12/2/25, 8:15 AM
SGLang Schedular 技术变迁
SGLang Schedular 技术变迁

本文将结合代码分析 SGLang Scheduler 的技术演进,介绍其核心数据结构和工作流程,帮助读者深入理解调度器的实现细节。

12/2/25, 8:15 AM
SGLang 中的 TP + PP 流程浅析(以 Qwen2 为例)

这里我们以 Qwen2 模型为例,开启 PP + TP 分析一下 SGLang 是如何实现模型推理的并行的

12/2/25, 8:15 AM
SGlang 中的 Sepeculative Decoding
SGlang 中的 Sepeculative Decoding

介绍 SGLang 中 Speculative Decoding 的原理及其实现

12/2/25, 8:15 AM
一条 Request 在 SGLang 的前世今生
一条 Request 在 SGLang 的前世今生

本文将介绍在 SGLang 中,一条请求从到达系统到最终完成的全过程,涵盖请求的接收、调度、执行以及结果返回等关键环节。

12/2/25, 8:15 AM
从代码看 SGLang 的 KV Cache
从代码看 SGLang 的 KV Cache

本文将深入解析 SGLang 的 KV Cache 实现细节,介绍其组件结构、工作原理以及在模型推理中的应用。

12/2/25, 8:15 AM
大模型推理服务中的 Batching
大模型推理服务中的 Batching

现在的大模型推理的框架基本都实现了 Continuous Batching,本文将从大模型推理服务为什么需要 Batching 开始,逐步讲解该领域的技术演进,包含调度层和计算层的相关优化技术。

12/2/25, 8:15 AM
1 2 3
Total 28 posts.