OS02 | 0kr's Blog

本篇讲解计算机存储结构与CPU缓存相关内容。

了解了CPU的基本工作原理后，我们需要研究计算机如何存储和管理数据。为什么计算机需要多种不同的存储设备？为什么不直接使用一种快速的存储介质？这是因为在速度、容量和成本之间存在权衡，理解这种权衡对于理解计算机系统至关重要。

1. 存储器的层次结构

计算机的存储层次结构从上到下依次为：

寄存器：CPU内部，速度最快，容量最小
CPU缓存（L1、L2、L3缓存）：CPU内部或附近，速度快，容量较小
内存（RAM）：主板上，速度较快，容量中等
固态硬盘（SSD）：速度中等，容量较大
机械硬盘（HDD）：速度慢，容量大
网络存储/磁带/光盘等：速度最慢，容量最大

2. 存储器之间的实际价格和性能差距

磁盘比内存慢几万倍？是的，从访问速度来看：

寄存器访问时间：<1纳秒
L1缓存访问时间：约1-2纳秒
L2缓存访问时间：约3-10纳秒
L3缓存访问时间：约10-20纳秒
内存访问时间：约60-100纳秒
SSD访问时间：约25-100微秒（是内存的250-1000倍）
HDD访问时间：约5-10毫秒（是内存的50,000-100,000倍）

从价格角度看，层次越高，每GB的成本越高：

CPU缓存：数百美元/GB
内存：约5-10美元/GB
SSD：约0.1-0.3美元/GB
HDD：约0.02-0.05美元/GB

3. CPU访问存储器、CPU缓存、内存、磁盘的速度差异

CPU访问不同存储介质的速度差异主要体现在：

访问寄存器：几个时钟周期
访问L1缓存：约3-4个时钟周期
访问L2缓存：约10-12个时钟周期
访问L3缓存：约30-40个时钟周期
访问内存：约100-300个时钟周期
访问SSD：约25,000个时钟周期
访问HDD：约1,000,000个时钟周期

这就是为什么缓存对CPU性能至关重要，因为它极大地减少了CPU等待数据的时间。

四、CPU缓存

我们已经看到CPU和内存之间存在巨大的速度差距，这个差距还在不断扩大。为什么我们需要CPU缓存？因为如果CPU每次都直接从内存读取数据，将会浪费大量时间在等待上，使得CPU的计算能力无法充分发挥。CPU缓存就是为了解决这一”存储器墙”（Memory Wall）问题而设计的。

1. CPU缓存的作用

CPU缓存的作用：

缩小CPU与内存之间的速度差距
提高数据访问速度
减少内存访问次数
提高处理器利用率

2. CPU Cache有多快？

CPU缓存的速度体现在：

L1缓存：约1-2纳秒，带宽约700-1500GB/s
L2缓存：约3-10纳秒，带宽约200-500GB/s
L3缓存：约10-20纳秒，带宽约100-200GB/s

相比之下，内存访问时间约60-100纳秒，带宽约20-60GB/s。

3. CPU缓存的数据结构和读取过程

CPU缓存的数据结构和读取过程是怎样的？

缓存由多个缓存行（Cache Line）组成，每行通常为64字节
缓存通常采用组相联（Set-associative）结构
当CPU需要访问内存时，会先检查数据是否在缓存中
如果在缓存中（缓存命中），直接从缓存获取数据
如果不在缓存中（缓存未命中），则从内存加载数据到缓存，同时返回给CPU
缓存使用特定的替换策略（如LRU、FIFO等）决定哪些数据在缓存满时被替换出去

4. 如何写出让CPU跑得更快的代码？

既然CPU缓存对性能如此重要，作为程序员，我们如何编写代码来充分利用缓存机制呢？以下是一些优化原则，它们可以显著提高程序的运行效率。

编写高效代码的原则：

空间局部性优化：将相关数据放在一起
时间局部性优化：重复使用最近访问的数据
避免缓存抖动

：
- 遍历数组时按内存布局顺序访问
- 避免在热点代码中频繁跨越大内存
减少内存访问

：
- 使用局部变量
- 避免不必要的指针间接访问
数据对齐：按照缓存行大小对齐数据结构
循环优化

：
- 循环展开
- 循环分块（Loop Tiling）

这些优化技术为什么有效？因为它们都基于一个共同目标：提高缓存命中率，减少CPU等待数据的时间。

5. 如何提升数据缓存的命中率？

为什么提高缓存命中率如此重要？每当发生缓存未命中，CPU必须等待数据从更慢的内存中加载，这会导致数百个时钟周期的延迟。在性能关键的应用中，这可能成为主要瓶颈。以下是提高数据缓存命中率的方法：

提高数据缓存命中率的方法：

合理组织数据结构：
- 使用连续的内存布局
- 避免过度使用指针
数据预取：
- 使用预取指令
- 在数据需要之前将其加载到缓存
避免缓存行共享：
- 防止不同线程频繁修改同一缓存行中的数据
分块处理：
- 将大型数据集分解为适合缓存大小的块
优化访问模式：
- 按照内存中的存储顺序访问数据
- 避免随机访问大型数据结构

6. 如何提升指令缓存的命中率？

提高指令缓存命中率的方法：

函数排列优化：
- 将相关函数放在一起
- 使用链接器属性控制函数的排列顺序
避免过度使用虚函数和间接调用
内联小函数减少函数调用开销
减少代码分支和条件判断
优化热点函数的大小，使其适合指令缓存

7. 如何提升多核CPU的缓存命中率？

提高多核CPU缓存命中率的方法：

避免伪共享（False Sharing）：
- 确保线程私有数据在不同的缓存行
- 使用缓存行填充（padding）分隔频繁访问的变量
数据分区：
- 为每个核心分配独立的数据区域
亲和性调度：
- 将相关任务调度到同一核心或同一处理器
减少线程间通信和同步
使用适当的锁粒度，避免全局锁

五、CPU缓存一致性

随着多核处理器的普及，出现了新的挑战：如何确保多个核心的缓存中的数据保持一致？为什么这是一个问题？因为当多个核心同时缓存同一块内存数据，并且其中一个核心修改了数据，其他核心可能仍在使用旧数据，导致程序错误。这就是缓存一致性问题，下面我们将探讨它的原因和解决方案。

1. CPU缓存一致性

缓存一致性是指在多处理器系统中，确保多个处理器缓存中对应同一内存位置的数据保持一致的机制。

2. 缓存一致性问题的产生

在多核CPU环境中，当多个核心同时拥有同一内存地址的缓存副本时，如果其中一个核心修改了缓存数据，其他核心的缓存副本将变得无效，造成数据不一致。

3. MESI协议是什么？

MESI协议是什么？ MESI协议是一种广泛使用的缓存一致性协议，名称来源于缓存行可能的四种状态的首字母：

**M (Modified)**：缓存行已被修改，与内存不一致，其他处理器缓存中没有该行的副本
**E (Exclusive)**：缓存行未被修改，与内存一致，其他处理器缓存中没有该行的副本
**S (Shared)**：缓存行未被修改，与内存一致，其他处理器缓存中可能有该行的副本
**I (Invalid)**：缓存行无效，必须从内存或其他处理器的缓存获取最新数据

4. 如何解决多核CPU场景下的缓存一致性问题？

解决多核CPU缓存一致性问题的方法：

使用缓存一致性协议（如MESI协议）
总线嗅探（Bus Snooping）：
- 每个处理器监听总线上的内存操作
- 当检测到其他处理器修改了自己缓存中的数据时，将该缓存行标记为无效
目录协议（Directory Protocol）：
- 在大型多处理器系统中使用
- 使用中央目录跟踪每个缓存行的状态和位置
软件层面的解决方案：
- 内存屏障（Memory Barrier）
- 原子操作
- 锁机制

六、CPU任务执行与共享

理解了CPU的基本工作原理和缓存机制后，我们需要思考：在现代多任务操作系统中，CPU如何在多个程序之间切换？多个程序如何共享CPU资源？这些问题关系到操作系统的核心功能：进程管理和调度。

1. CPU是如何执行任务的？

CPU执行任务的机制：

时间片轮转：操作系统将CPU时间分割成小片段（时间片），轮流分配给不同进程
进程调度：操作系统基于优先级、等待时间等因素，决定哪个进程获得CPU资源
中断处理：CPU通过中断机制响应外部事件，临时挂起当前任务
上下文切换：保存当前任务的状态，恢复另一个任务的状态

2. 什么是CPU共享的问题？

CPU共享的主要问题包括：

资源竞争：多个进程/线程争用CPU资源
优先级反转：低优先级任务占用高优先级任务所需的资源
饥饿：某些进程/线程长时间无法获取CPU资源
死锁：两个或多个进程互相等待对方持有的资源
缓存一致性问题：多核环境下缓存数据的同步开销

3. 如何解决CPU共享的问题？

解决CPU共享问题的方法：

优化调度算法：
- 多级反馈队列
- 公平调度
- 实时调度
进程优先级管理
使用适当的同步原语：
- 互斥锁（Mutex）
- 读写锁（Read-Write Lock）
- 无锁数据结构
减少上下文切换：
- 批处理相关任务
- 使用协程或用户级线程
进程/线程亲和性：将相关任务绑定到同一CPU核心

4. 实际案例分析

示例：多线程程序中的计数器问题

问题：多个线程同时增加一个共享计数器的值

// 不安全的实现
int counter = 0;
void increment() {
    counter++; // 这实际上是读取-修改-写入操作，在多线程环境中不是原子的
}

// 安全的实现
int counter = 0;
pthread_mutex_t mutex = PTHREAD_MUTEX_INITIALIZER;

void safe_increment() {
    pthread_mutex_lock(&mutex);
    counter++;
    pthread_mutex_unlock(&mutex);
}

// 更高效的实现（使用原子操作）
#include <stdatomic.h>
atomic_int counter = 0;

void atomic_increment() {
    atomic_fetch_add(&counter, 1);
}