极限内存管理

前置知识：了解分块帧缓冲和两遍渲染的基本概念（第 9 章），对 ESP32-C3 的硬件规格有基本印象（第 1 章）。 本章目标：从全局视角理解 CrossPoint Reader 如何在 380KB RAM 中运行一个功能完整的电子书阅读器，掌握六大内存优化策略背后的设计思想。

10.1 380KB RAM 意味着什么

让我们先建立一个直觉——380KB 到底有多小。一张 800x480 的黑白位图（帧缓冲区）就要 48KB。还没画一个字，内存就用掉了八分之一。但真正的大头不是你的应用代码。ESP32-C3 一开机，操作系统和底层框架就已经吃掉了大块内存：

ESP32-C3 RAM 总量:           ~380KB
FreeRTOS + WiFi + Arduino:   ~150KB
帧缓冲区:                    ~48KB
字体缓存:                    ~30KB
FreeRTOS 任务栈:             ~20KB (主任务 + 渲染任务)
SD 卡缓冲:                   ~8KB
应用可用:                    ~120KB（要跑完整的 EPUB 解析器！）

120KB。这是留给 CrossPoint Reader 的全部应用层内存——用来解析 ZIP 文件、处理 XML/HTML、排版文本、管理书库、运行 WiFi Web 服务器。作为对比，你正在用来阅读本书的设备（手机或电脑），光是打开一个空白浏览器标签页就要消耗 50-100MB 的内存——是 CrossPoint Reader 全部 RAM 的 100 多倍。

类比：如果把电脑的 8GB 内存比作一个游泳池，那么 ESP32-C3 的 380KB 就是一个洗脸盆。你不仅要在洗脸盆里洗脸，还要在里面洗菜、泡茶，甚至养一条小金鱼——每一滴水都得精打细算。

10.2 堆碎片化——内存的”瑞士奶酪”

碎片化是怎么产生的

在嵌入式系统中，动态内存分配（malloc / free）是一把双刃剑。每次 malloc 从堆中切出一块内存，free 归还。反复操作后，堆就变成了下面这样：

初始状态：
[                       空闲 120KB                        ]

分配几块后：
[用][    空闲    ][用][  空闲  ][用][用][    空闲    ][用]

释放一些后：
[  空  ][ 空闲  ][ 空 ][  空闲  ][用][  空  ][  空闲  ][用]

总空闲：50KB   最大连续块：可能只有 8KB

空闲内存加起来有 50KB，但它们被”占用块”切割成了一个个小碎片——就像瑞士奶酪上的洞。你想分配 48KB 给帧缓冲区？抱歉，没有哪个”洞”有那么大。

为什么电脑上感觉不到碎片化

你的电脑也在不停地 malloc / free，为什么很少遇到碎片化问题？因为电脑有虚拟内存和内存页管理。操作系统把物理内存划分成 4KB 的”页”，通过一张映射表把物理上不连续的页”假装”成连续的虚拟地址。应用程序看到的是连续的内存空间，但实际上数据可能散落在物理内存的各处。 ESP32-C3 没有 MMU（内存管理单元），没有虚拟内存，没有页表。malloc 返回的就是真实的物理地址。碎片化是实实在在的物理限制，没有任何魔法可以绕过。 这就是嵌入式内存管理的残酷现实：你必须自己和碎片化作斗争。

10.3 六大内存优化策略

接下来我们逐一看 CrossPoint Reader 采用的六种策略。前两种已经在第 9 章详细介绍过，这里做简要回顾。

策略 1：分块帧缓冲

核心思想：把大块分配拆成小块分配，绕开碎片化。 48KB 帧缓冲区被拆成 8KB 的小块分散分配（详见 9.2 节）。访问时通过简单的除法和取余定位到具体的块和块内偏移。代价是一点点额外的计算，换来的是在碎片化内存中也能正常工作的可靠性。

策略 2：两遍字体渲染

核心思想：先扫描需要什么，再集中加载，避免内存峰值过高。第一遍只记录文本内容，第二遍才真正渲染（详见 9.7 节）。批量解压避免了重复解压同一个压缩分组的浪费，字形缓存上限 512 个确保了内存使用可预测。

策略 3：流式处理——不在 RAM 中完整展开

核心思想：数据像水流一样经过 RAM，而不是像水池一样存在 RAM 里。这是贯穿 CrossPoint Reader 最重要的设计哲学之一。我们用三个例子来说明。

例子 1：ZIP 流式解压

EPUB 文件本质上是一个 ZIP 包。一本书的 ZIP 文件可能有几 MB，完全解压需要更多空间。CrossPoint Reader 不会把整个 ZIP 解压到内存，而是用流式解压：

// lib/InflateReader/InflateReader.h
class InflateReader {
  bool init(bool streaming);  // streaming=true 使用 32KB 环形缓冲
  void setReadCallback(uzlib_read_cb_t callback);  // 从 SD 卡按需读取
  bool read(uint8_t* dest, size_t size);  // 解压指定长度
};

streaming=true 启用 32KB 的环形缓冲区（环形缓冲区是一种首尾相连的缓冲区，写满后从头覆盖旧数据）
setReadCallback 设置一个回调函数，当解压器需要更多压缩数据时，从 SD 卡按需读取
read 每次只解压请求的长度

这样，不管 ZIP 文件有多大，内存占用始终只有 32KB 左右。

类比：这就像看一场直播——你不需要先把整部电影下载到手机里，而是边看边加载，看过的部分就丢弃了。

例子 2：XML 增量解析

EPUB 里的内容文件是 XHTML（一种 XML）。CrossPoint Reader 不会把整个 XML 文件读入内存再解析，而是用 1KB 缓冲区逐块处理——每次从 SD 卡读 1KB 数据，解析出其中的标签和文本，处理完就丢弃，再读下一块。

例子 3：图片行扫描

一张书籍封面图可能有几百 KB。CrossPoint Reader 不会把整张图加载到内存，而是逐行解码——每次只在内存中保存一行像素的数据，画完这一行就释放，再解码下一行。这三种流式处理有一个共同的模式：数据经过 RAM 而不是停留在 RAM 里。用有限的缓冲区处理无限大的数据。

策略 4：FNV-1a 哈希替代字符串

核心思想：用 8 字节的数字替代几十字节的字符串。 EPUB 文件是一个 ZIP 包，里面可能有几十上百个文件。每个文件都有一个路径名，比如 OEBPS/Text/chapter01.xhtml——这一个路径就是 30 多字节。如果把所有路径都当字符串存在内存里，几十个文件就要几 KB。 CrossPoint Reader 的做法是：只存路径的哈希值。

// lib/ZipFile/ZipFile.h
static constexpr uint64_t FNV_OFFSET = 14695981039346656037ULL;
static constexpr uint64_t FNV_PRIME = 1099511628211ULL;

uint64_t fnv1a(const char* data, size_t len) {
  uint64_t hash = FNV_OFFSET;
  for (size_t i = 0; i < len; i++) {
    hash ^= static_cast<uint8_t>(data[i]);
    hash *= FNV_PRIME;
  }
  return hash;
}

FNV-1a 是一种非加密哈希算法，特点是计算极快、分布均匀。它的工作原理很简单：

从一个固定的”种子”值 FNV_OFFSET 出发
对输入的每个字节：先做异或（XOR），再乘以一个大质数 FNV_PRIME
最终得到一个 64 位的哈希值

用 8 字节的哈希值替代 50-100 字节的文件路径字符串，好处是双重的：

节省内存：100 个文件路径可能省下几 KB
加速查找：比较两个 64 位整数只需要一条 CPU 指令；比较两个字符串需要逐字符对比，最坏情况要比较几十次

查找复杂度从 O(n x m) 的字符串比较（n 个文件，每个路径 m 字节）变成了 O(n) 的整数比较。

你可能会问：两个不同的字符串会不会算出相同的哈希值（哈希冲突）？理论上会，但 64 位哈希的冲突概率极低——在几百个文件的规模下，发生冲突的概率大约是千万亿分之一。对于一个电子书阅读器来说，这个风险完全可以忽略。

策略 5：二进制缓存——用 SD 卡空间换 RAM

核心思想：把”算过一次的结果”存到 SD 卡上，下次直接读取，不再重新计算。解析一本 EPUB 的元数据、排版每一页的文字位置，这些操作既耗时又耗内存。CrossPoint Reader 把这些中间结果以紧凑的二进制格式缓存到 SD 卡：

缓存文件	存储内容	避免了什么
`book.bin`	书籍元数据（书名、作者、章节列表等）	每次打开书都重新解析 OPF/NCX XML
`section.bin`	页面布局数据（每页从哪个字符开始、到哪个字符结束）	每次翻页重新排版整章
`index.bin`	TXT 文件的页面偏移索引	纯文本文件的逐字节扫描分页
`.pxc`	图片像素缓存（2bpp 格式）	每次显示图片都从原格式解码

二进制格式比 XML 或 JSON 紧凑得多——没有标签名、没有引号、没有缩进，每个字节都是有用数据。读取时也不需要”解析”，直接把字节映射到结构体就行。

缓存版本号校验

用户可能会改变字体大小、行距等设置，这些变化会影响排版结果。CrossPoint Reader 在缓存文件头部存储了一个版本号，其中编码了影响排版的参数。如果版本号不匹配，就丢弃缓存、重新生成。

缓存文件结构：
[版本号 4 字节][数据...]

打开缓存时：
  读取版本号 → 和当前参数计算出的版本号比较
    匹配 → 使用缓存
    不匹配 → 删除缓存，重新生成

这种机制保证了缓存永远和当前设置一致，不会出现”改了字号但显示没变”的诡异 bug。

策略 6：固定大小栈分配——断字引擎

核心思想：能用栈分配的就不用堆分配。 CrossPoint Reader 实现了 Liang 断字算法（TeX 排版系统使用的那个），用于在合适的位置断开英文单词以实现两端对齐。这个算法需要为每个单词创建临时的工作空间。一种朴素的做法是用 std::vector——但每处理一个单词就做一次堆分配。一段英文文本可能有几百个单词，就意味着几百次 malloc / free，不仅慢，还会加剧碎片化。 CrossPoint Reader 的做法是使用固定大小的栈分配：

// lib/Epub/Epub/hyphenation/LiangHyphenation.cpp
static constexpr size_t MAX_WORD_BYTES = 160;
static constexpr size_t MAX_WORD_CHARS = 70;

struct AugmentedWord {
  uint8_t bytes[MAX_WORD_BYTES];
  size_t charByteOffsets[MAX_WORD_CHARS];
  size_t byteLen = 0;
};

这个结构体被声明为局部变量，分配在栈上而不是堆上。栈分配和堆分配的区别是什么？

堆分配（malloc / new）：
  - 从"公共池"中申请，需要搜索空闲块
  - 用完后必须手动释放（free / delete）
  - 反复分配释放会导致碎片化
  - 忘记释放 → 内存泄漏

栈分配（局部变量）：
  - 自动在函数的栈帧上分配，速度极快（只是移动栈指针）
  - 函数返回时自动释放，不可能泄漏
  - 不会导致碎片化（栈是后进先出的）
  - 大小必须在编译时确定

MAX_WORD_BYTES = 160 意味着最长支持 160 字节的单词。现实中英文单词很少超过这个长度（最长的常用英语单词 “antidisestablishmentarianism” 也只有 28 字节），所以这个上限完全够用。

类比：堆分配像是去银行开保险柜——要排队、登记、领钥匙、用完还钥匙。栈分配像是用自己口袋里的零钱——掏出来就能用，用完放回去，不需要任何手续。

10.4 图片内存优化

图片是内存消耗的另一个大户。一张 400x300 的灰度图片，如果按 8bpp（每像素 1 字节）存储需要 120KB——比整个应用可用内存还大。 CrossPoint Reader 用两个技术来解决这个问题。

2bpp 像素缓存

墨水屏只能显示有限的灰度级别。CrossPoint Reader 把图片量化到 4 级灰度（2bpp）——每个像素只需要 2 个 bit，4 个像素压缩到 1 个字节：

原始 8bpp：  [像素1: 8bit][像素2: 8bit][像素3: 8bit][像素4: 8bit] = 4 字节
2bpp 缓存：  [像素1: 2bit | 像素2: 2bit | 像素3: 2bit | 像素4: 2bit] = 1 字节

同样一张 400x300 的图片，从 120KB 缩减到 30KB——只有原来的四分之一。这些缓存以 .pxc 格式存储在 SD 卡上。

行扫描渲染

即使缩减到 30KB，对于大图来说仍然不小。CrossPoint Reader 更进一步——渲染图片时不把整张图加载到内存，而是逐行读取、逐行渲染：

// 行扫描渲染
const int bytesPerRow = (cachedWidth + 3) / 4;  // 2bpp，每行的字节数
uint8_t* rowBuffer = (uint8_t*)malloc(bytesPerRow);  // 只分配一行
for (int row = 0; row < cachedHeight; row++) {
  cacheFile.read(rowBuffer, bytesPerRow);  // 从 SD 卡读一行
  for (int col = 0; col < cachedWidth; col++) {
    // 解码像素并绘制
  }
}
free(rowBuffer);

逐行看：

(cachedWidth + 3) / 4——计算每行需要多少字节。2bpp 意味着 4 个像素 1 个字节，+3 是为了向上取整
只分配一行的缓冲区——400 像素宽的图片只需要 100 字节
从 SD 卡一行一行地读取像素数据
读一行、画一行、覆盖缓冲区、读下一行

这样，不管图片多大，内存占用始终只有一行像素的大小。一张 400 像素宽的图片只需要 100 字节的 RAM。代价是更频繁的 SD 卡读取，但 SD 卡的顺序读取速度很快（几 MB/s），这个代价完全可以接受。

10.5 六大策略的协同

这六种策略不是孤立的，它们形成了一套完整的内存管理体系：

               输入数据（EPUB/TXT/图片）
                       |
        +--------------+--------------+
        |              |              |
   流式解压(3)    哈希索引(4)    二进制缓存(5)
   32KB 环形缓冲   8字节哈希      SD 卡存储
        |              |              |
        +--------------+--------------+
                       |
                 应用处理层
                       |
        +--------------+--------------+
        |              |              |
  两遍渲染(2)     栈分配(6)     分块帧缓冲(1)
  按需解压字形    零碎片断字    8KB 分块
        |              |              |
        +--------------+--------------+
                       |
                   帧缓冲区
                       |
                    墨水屏

每个策略解决一个特定的问题：

策略	解决的问题	核心思想
分块帧缓冲	大块连续内存分配失败	化大为小
两遍字体渲染	字形缓存内存峰值过高	先规划再执行
流式处理	大文件不能整体加载	数据流过而非停留
FNV-1a 哈希	字符串存储和比较开销	用数字代替文字
二进制缓存	重复计算浪费内存和 CPU	空间换时间（SD 卡换 RAM）
栈分配	频繁堆分配导致碎片化	能不用堆就不用堆

它们背后有一个共同的原则：不把数据”持有”在 RAM 里，而是让数据”流过” RAM。 需要的时候从 Flash 或 SD 卡加载，用完就释放或覆盖。RAM 不是仓库，而是车间——材料进来、加工、出去，车间始终保持整洁。

10.6 给嵌入式开发者的内存管理建议

从 CrossPoint Reader 的实践中，我们可以提炼出几条通用的嵌入式内存管理原则： 1. 先算账，再写代码。 在动手编码之前，先估算你的系统有多少可用内存，每个功能模块需要多少。如果总需求超过可用量，在架构层面就要做出取舍——不要等到运行时才发现内存不够。 2. 避免大块连续分配。 如果必须使用大缓冲区，考虑分块分配方案。小块分配更不容易被碎片化阻挡。 3. 流式处理是默认思维。 处理文件、网络数据、图片时，默认用流式方式——读一块、处理一块、丢一块。只有在确实需要随机访问时才考虑全部加载。 4. 优先使用栈分配。 如果数据的生命周期局限于一个函数调用，且大小在编译时可确定（或有合理的上限），就用栈分配。它不会碎片化，速度更快，也不可能内存泄漏。 5. 利用外部存储做缓存。 SD 卡、Flash 的空间比 RAM 大得多（16MB vs 380KB）。把计算结果缓存到外部存储，用”读取”替代”重新计算”，是用廉价资源（存储空间）换取稀缺资源（RAM + CPU 时间）的典型策略。 6. 减少字符串操作。 在嵌入式系统中，字符串是隐形的内存杀手。一个 std::string 看似无害，但它背后是堆分配、可能的内存拷贝、碎片化。能用整数 ID 或哈希值替代的地方就替代。

本章要点

ESP32-C3 的 380KB RAM 中，FreeRTOS + WiFi + Arduino 框架占用约 150KB，留给应用的只有约 120KB。
堆碎片化是嵌入式内存管理的核心挑战。没有虚拟内存的保护，碎片化会导致”总空闲足够但无法分配”的问题。
分块帧缓冲把大块分配拆成小块，绕开碎片化限制。
两遍字体渲染通过”先扫描再解压”控制内存峰值。
流式处理让数据”流过”RAM 而非”停留”在 RAM 中，用有限的缓冲区处理无限大的数据。ZIP 解压、XML 解析、图片渲染都采用了这一思想。
FNV-1a 哈希用 8 字节整数替代几十字节的字符串，同时节省内存和加速查找。
二进制缓存把计算结果存储到 SD 卡，用外部存储空间换取 RAM 和 CPU 时间。版本号机制保证缓存的正确性。
栈分配避免了堆碎片化，适用于生命周期短且大小可预测的数据。
这六大策略遵循一个共同原则：RAM 不是仓库，而是车间——让数据流过，而非堆积。

下一章预告：第 11 章将深入电子书阅读的核心——EPUB 文件是怎么被拆解的？ZIP 文件如何流式解压？XML 怎么用 1KB 缓冲区增量解析？自定义二进制缓存格式长什么样？这些内存管理策略将在真实的文件处理场景中得到淋漓尽致的展现。

开始

第一部分：基础篇

第二部分：驱动篇

第三部分：系统篇

第四部分：应用篇

第五部分：工程篇

附录

10.1 380KB RAM 意味着什么

10.2 堆碎片化——内存的”瑞士奶酪”

碎片化是怎么产生的

为什么电脑上感觉不到碎片化

10.3 六大内存优化策略

策略 1：分块帧缓冲

策略 2：两遍字体渲染

策略 3：流式处理——不在 RAM 中完整展开

例子 1：ZIP 流式解压

例子 2：XML 增量解析

例子 3：图片行扫描

策略 4：FNV-1a 哈希替代字符串

策略 5：二进制缓存——用 SD 卡空间换 RAM

缓存版本号校验

策略 6：固定大小栈分配——断字引擎

10.4 图片内存优化

2bpp 像素缓存

行扫描渲染

10.5 六大策略的协同

10.6 给嵌入式开发者的内存管理建议

本章要点

开始

第一部分：基础篇

第二部分：驱动篇

第三部分：系统篇

第四部分：应用篇

第五部分：工程篇

附录

​10.1 380KB RAM 意味着什么

​10.2 堆碎片化——内存的”瑞士奶酪”

​碎片化是怎么产生的

​为什么电脑上感觉不到碎片化

​10.3 六大内存优化策略

​策略 1：分块帧缓冲

​策略 2：两遍字体渲染

​策略 3：流式处理——不在 RAM 中完整展开

​例子 1：ZIP 流式解压

​例子 2：XML 增量解析

​例子 3：图片行扫描

​策略 4：FNV-1a 哈希替代字符串

​策略 5：二进制缓存——用 SD 卡空间换 RAM

​缓存版本号校验

​策略 6：固定大小栈分配——断字引擎

​10.4 图片内存优化

​2bpp 像素缓存

​行扫描渲染

​10.5 六大策略的协同

​10.6 给嵌入式开发者的内存管理建议

​本章要点

10.1 380KB RAM 意味着什么

10.2 堆碎片化——内存的”瑞士奶酪”

碎片化是怎么产生的

为什么电脑上感觉不到碎片化

10.3 六大内存优化策略

策略 1：分块帧缓冲

策略 2：两遍字体渲染

策略 3：流式处理——不在 RAM 中完整展开

例子 1：ZIP 流式解压

例子 2：XML 增量解析

例子 3：图片行扫描

策略 4：FNV-1a 哈希替代字符串

策略 5：二进制缓存——用 SD 卡空间换 RAM

缓存版本号校验

策略 6：固定大小栈分配——断字引擎

10.4 图片内存优化

2bpp 像素缓存

行扫描渲染

10.5 六大策略的协同

10.6 给嵌入式开发者的内存管理建议

本章要点