WHATWG Streams API 深度实战：从 ReadableStream 到 LLM 流式响应

你每天都在用 Streams API，只是可能没意识到。当你用 fetch() 拿到一个 Response 对象、当 ChatGPT 逐字输出回答、当 SSE 推送实时消息——底层全是 WHATWG Streams API 在驱动。根据 HTTP Archive 2025 年的数据，超过 78% 的网站在使用至少一种依赖 Streams API 的现代 Web API，但真正理解其内部机制的开发者不到 5%。这篇文章将带你从原理到实战，彻底掌握这个被严重低估的 Web 平台基石。

🔍 一、WHATWG Streams API 核心概念

WHATWG Streams API 是一套标准化的流处理抽象，定义了三种核心流类型：ReadableStream（可读流）、WritableStream（可写流）和 TransformStream（转换流）。它不同于 Node.js 的 stream 模块——WHATWG Streams 是浏览器原生标准，也在 Deno、Bun 和 Node.js 18+ 中得到支持。

1.1 为什么需要 Streams？

传统的数据处理方式是「全部加载到内存，然后处理」。当你处理一个 500MB 的 JSON 文件或接收一个 LLM 的长回复时，这种方式有两个致命问题：

内存爆炸：整个数据块必须驻留内存
延迟堆积：用户必须等到全部数据就绪才能看到任何内容

Streams 的核心思想是分块处理（Chunk-by-Chunk）——数据一到达就立即处理，无需等待完整内容。

// ❌ 错误写法：一次性加载全部响应到内存
const response = await fetch('/api/large-data');
const text = await response.text(); // 等待全部数据到达，内存峰值高
console.log(text);

// ✅ 正确写法：流式读取，逐块处理
const response = await fetch('/api/large-data');
const reader = response.body.getReader();
while (true) {
  const { done, value } = await reader.read();
  if (done) break;
  console.log(`收到 ${value.length} 字节`);
}

1.2 三种流类型一览

流类型	方向	核心用途	典型场景
ReadableStream	数据源 → 消费者	产生数据供消费	Fetch Response、File API、生成器
WritableStream	生产者 → 数据汇	接收并写入数据	文件写入、网络发送、IndexedDB
TransformStream	输入 → 转换 → 输出	中间转换处理	压缩/解压、加密/解密、JSON 解析

💡 **提示：**TransformStream 本质上是一个管道中间件，它同时拥有一个 ReadableStream（输出端）和一个 WritableStream（输入端），是构建流处理管道的关键组件。

1.3 背压（Backpressure）机制

这是 Streams API 最精妙的设计——背压。当生产者产生数据的速度超过消费者处理的速度时，流会自动减速，避免内存堆积。

// 演示背压机制：WritableStream 的 highWaterMark 控制缓冲区
const writable = new WritableStream({
  write(chunk) {
    return new Promise(resolve => {
      // 模拟慢速写入（每块 100ms）
      setTimeout(() => {
        console.log(`写入 ${chunk.length} 字节`);
        resolve();
      }, 100);
    });
  }
}, {
  highWaterMark: 1, // 缓冲区仅允许 1 个块
  size: () => 1
});

const writer = writable.getWriter();
for (let i = 0; i < 10; i++) {
  // 当缓冲区满时，write() 返回的 Promise 会挂起，自动触发背压
  await writer.write(new Uint8Array([i]));
  console.log(`已排队第 ${i} 块`);
}

⚠️ **警告：**忽略背压是 Streams API 最常见的错误。如果你不处理 writer.write() 返回的 Promise，数据会在内存中无限堆积，最终导致 OOM（Out of Memory）。

🚀 二、实战模式：从基础到高级

掌握核心概念后，来看几个真正有用的实战模式。

2.1 Fetch + ReadableStream：流式处理大文件

这是最常见的场景——下载一个大文件并实时显示进度。

// 流式下载文件并显示进度
async function downloadWithProgress(url, onProgress) {
  const response = await fetch(url);
  const contentLength = +response.headers.get('Content-Length');
  const reader = response.body.getReader();
  const chunks = [];
  let receivedLength = 0;

  while (true) {
    const { done, value } = await reader.read();
    if (done) break;

    chunks.push(value);
    receivedLength += value.length;

    // 实时回调进度
    if (onProgress && contentLength) {
      onProgress((receivedLength / contentLength * 100).toFixed(1));
    }
  }

  // 合并所有块为一个 Uint8Array
  const allChunks = new Uint8Array(receivedLength);
  let position = 0;
  for (const chunk of chunks) {
    allChunks.set(chunk, position);
    position += chunk.length;
  }

  return allChunks;
}

// 使用示例
downloadWithProgress('/files/report.pdf', (percent) => {
  console.log(`下载进度: ${percent}%`);
});

2.2 TransformStream：构建数据处理管道

TransformStream 是构建流处理管道的核心。以下是一个实用的 NDJSON（Newline-Delimited JSON）解析器——这在处理 LLM API 响应和大数据集时非常常见。

// NDJSON TransformStream：将文本流转换为 JSON 对象流
function createNDJSONParser() {
  let buffer = '';

  return new TransformStream({
    transform(chunk, controller) {
      buffer += chunk;
      const lines = buffer.split('\n');
      buffer = lines.pop(); // 保留最后不完整的行

      for (const line of lines) {
        const trimmed = line.trim();
        if (trimmed) {
          try {
            controller.enqueue(JSON.parse(trimmed));
          } catch (e) {
            console.warn('跳过无效 JSON 行:', trimmed);
          }
        }
      }
    },
    flush(controller) {
      // 处理缓冲区中剩余的最后一行
      if (buffer.trim()) {
        try {
          controller.enqueue(JSON.parse(buffer.trim()));
        } catch (e) {
          console.warn('跳过无效 JSON:', buffer.trim());
        }
      }
    }
  });
}

// 使用管道链（pipeThrough）处理 NDJSON 流
async function processNDJSONStream(url) {
  const response = await fetch(url);
  const jsonStream = response.body
    .pipeThrough(new TextDecoderStream())  // Uint8Array → 字符串
    .pipeThrough(createNDJSONParser());     // 字符串 → JSON 对象

  const reader = jsonStream.getReader();
  const results = [];

  while (true) {
    const { done, value } = await reader.read();
    if (done) break;
    results.push(value);
    console.log('解析到对象:', value);
  }

  return results;
}

📌 记住：pipeThrough() 用于连接 TransformStream（转换流），pipeTo() 用于连接 WritableStream（终结流）。两者的区别是 pipeThrough 返回新的 ReadableStream 可以继续链接，而 pipeTo 返回 Promise 表示管道完成。

2.3 并发控制：限制同时进行的请求数

在爬虫或批量 API 调用场景中，我们需要限制并发数。用 Streams 的背压机制可以优雅地实现。

// 基于 Streams 的并发控制器
function createConcurrencyLimiter(maxConcurrent) {
  let running = 0;
  const queue = [];

  return new TransformStream({
    async transform(url, controller) {
      // 等待并发槽位释放
      if (running >= maxConcurrent) {
        await new Promise(resolve => queue.push(resolve));
      }

      running++;
      try {
        const response = await fetch(url);
        const data = await response.json();
        controller.enqueue(data);
      } catch (error) {
        controller.enqueue({ error: error.message, url });
      } finally {
        running--;
        if (queue.length > 0) {
          queue.shift()(); // 释放下一个等待的任务
        }
      }
    }
  });
}

// 使用：最多 3 个并发请求
async function batchFetch(urls) {
  const readableStream = new ReadableStream({
    start(controller) {
      for (const url of urls) controller.enqueue(url);
      controller.close();
    }
  });

  const results = [];
  const limited = readableStream.pipeThrough(createConcurrencyLimiter(3));
  const reader = limited.getReader();

  while (true) {
    const { done, value } = await reader.read();
    if (done) break;
    results.push(value);
  }

  return results;
}

💬 三、Streams 在 LLM 应用中的关键角色

2026 年，几乎所有 LLM 应用都依赖 Streams API 来实现流式输出。理解底层机制能帮你排查 90% 的流式传输问题。

3.1 LLM 流式响应的标准模式

主流 LLM API（OpenAI、Anthropic、Google Gemini）都使用 SSE（Server-Sent Events）格式返回流式数据。以下是消费 LLM 流式响应的通用模式。

// 通用 LLM 流式响应消费器
async function* streamLLMResponse(apiUrl, body) {
  const response = await fetch(apiUrl, {
    method: 'POST',
    headers: { 'Content-Type': 'application/json' },
    body: JSON.stringify({ ...body, stream: true })
  });

  const reader = response.body
    .pipeThrough(new TextDecoderStream())
    .getReader();

  let buffer = '';

  while (true) {
    const { done, value } = await reader.read();
    if (done) break;

    buffer += value;
    const lines = buffer.split('\n');
    buffer = lines.pop(); // 保留不完整的行

    for (const line of lines) {
      if (line.startsWith('data: ')) {
        const data = line.slice(6).trim();
        if (data === '[DONE]') return;
        try {
          yield JSON.parse(data);
        } catch (e) {
          // 跳过非 JSON 行（如空行）
        }
      }
    }
  }
}

// 使用 Async Generator 消费流
async function renderLLMOutput() {
  const container = document.getElementById('output');

  for await (const chunk of streamLLMResponse('/api/chat', {
    model: 'gpt-4o',
    messages: [{ role: 'user', content: '解释 Streams API' }]
  })) {
    const delta = chunk.choices?.[0]?.delta?.content;
    if (delta) {
      container.textContent += delta; // 逐字渲染
    }
  }
}

3.2 流式 JSON 累积器：处理结构化 LLM 输出

当 LLM 输出结构化 JSON 时，需要累积不完整的 JSON 片段并尝试解析。这是生产环境中最常见的坑。

// 流式 JSON 累积器：处理 LLM 输出的不完整 JSON
class StreamingJSONAccumulator {
  constructor() {
    this.buffer = '';
    this.lastValidJSON = null;
  }

  // 尝试从累积的文本中解析 JSON
  feed(text) {
    this.buffer += text;

    // 尝试解析完整 JSON
    try {
      this.lastValidJSON = JSON.parse(this.buffer);
      return { complete: true, data: this.lastValidJSON };
    } catch {
      // JSON 尚不完整，尝试补全常见模式
      const closedAttempt = this._tryCloseBrackets(this.buffer);
      try {
        const partial = JSON.parse(closedAttempt);
        return { complete: false, partial };
      } catch {
        return { complete: false, partial: null };
      }
    }
  }

  // 尝试补全未闭合的括号
  _tryCloseBrackets(str) {
    const openBrackets = (str.match(/[\[{]/g) || []).length;
    const closeBrackets = (str.match(/[\]}]/g) || []).length;
    const diff = openBrackets - closeBrackets;
    if (diff > 0) {
      // 补全未闭合的括号（简化处理）
      let suffix = '';
      const stack = [];
      for (const ch of str) {
        if (ch === '{') stack.push('}');
        else if (ch === '[') stack.push(']');
        else if (ch === '}' || ch === ']') stack.pop();
      }
      return str + stack.reverse().join('');
    }
    return str;
  }
}

// 使用示例
const acc = new StreamingJSONAccumulator();
const chunks = ['{"name":', '"张三",', '"age":', '25}'];
for (const chunk of chunks) {
  const result = acc.feed(chunk);
  console.log(`输入: "${chunk}" → 完整: ${result.complete}`, result.partial || result.data);
}

⚠️ **警告：**在生产环境中，永远不要对 LLM 的流式输出做 JSON.parse() 时不做 try-catch。LLM 的输出可能包含 markdown 代码块标记（如 ```json），需要先清理再解析。

3.3 性能对比：流式 vs 批量处理

以下是流式处理与批量处理在不同场景下的性能对比。

场景	批量处理	流式处理	差距
首字节渲染时间	2.8s（等待完整响应）	120ms（首块即渲染）	23x 快
100MB 文件内存占用	~100MB	~64KB（缓冲区）	1500x 低
1000 条 API 并发请求	全部同时发出，可能被限流	背压控制，按消费速度发送	可控性好
用户感知等待时间	全有或全无	渐进式展示	体验提升显著

⚡ **关键结论：**流式处理的核心价值不仅是性能，更是用户体验。一个 3 秒的 LLM 响应，如果流式输出，用户在 200ms 内就开始看到内容，感知延迟降低了 93%。

🔧 四、高级技巧与避坑指南

4.1 可取消的流式请求

配合 AbortController，可以优雅地取消正在进行的流式传输。

// 可取消的流式读取
async function cancellableStream(url, signal) {
  const response = await fetch(url, { signal });
  const reader = response.body.getReader();

  try {
    while (true) {
      const { done, value } = await reader.read();
      if (done) break;
      processChunk(value);
    }
  } catch (e) {
    if (e.name === 'AbortError') {
      console.log('流已被用户取消');
    } else {
      throw e;
    }
  } finally {
    reader.releaseLock(); // 重要：释放 reader 锁
  }
}

// 使用：30 秒超时自动取消
const controller = new AbortController();
setTimeout(() => controller.abort(), 30000);
cancellableStream('/api/large-stream', controller.signal);

📌 **记住：**调用 reader.releaseLock() 是一个经常被遗忘但极其重要的操作。如果不释放锁，后续的 getReader() 调用会抛出 “ReadableStream is locked” 错误。

4.2 跨运行时兼容性

WHATWG Streams API 在不同运行时中的支持情况。

特性	Chrome 43+	Firefox 65+	Safari 14.1+	Node.js 18+	Deno	Bun
ReadableStream	✅	✅	✅	✅	✅	✅
WritableStream	✅	✅	✅	✅	✅	✅
TransformStream	✅	✅	✅	✅	✅	✅
pipeThrough/pipeTo	✅	✅	✅	✅	✅	✅
BYOB Reader	✅	✅	⚠️ 部分	✅	✅	✅

💡 **提示：**如果你需要支持 Safari 14.1 以下版本，可以使用 web-streams-polyfill 包。但 2026 年的浏览器覆盖率已经足够高，绝大多数场景无需 polyfill。

4.3 常见陷阱清单

❌ 忽略背压：不 await writer.write() 的返回值，导致内存无限增长
❌ 忘记 releaseLock()：流被锁定后无法重新获取 reader
❌ 不处理 cancel/abort：用户离开页面时流继续运行，浪费资源
❌ 在 transform 中抛异常未 catch：未捕获的异常会导致整个管道静默失败
✅ 始终使用 try/finally 确保资源释放
✅ 为长时间运行的流设置超时
✅ 使用 tee() 方法需要谨慎——它会复制所有数据到内存中

💡 五、总结与最佳实践

WHATWG Streams API 是现代 Web 开发的基础设施。从 Fetch API 到 LLM 流式输出，从文件处理到实时通信，Streams 无处不在。

核心要点回顾：

⚡ 流式优先：处理大数据时，始终优先考虑流式方案而非批量方案
🔧 善用 TransformStream：它是构建数据处理管道的最佳方式，比手动回调嵌套清晰得多
⚠️ 背压不可忽略：生产环境中，不处理背压是内存泄漏的头号原因
🎯 配合 AsyncGenerator：async function* + for await...of 是消费流的最优雅写法

推荐学习资源：

🔧 MDN Web Streams API 文档 — 最权威的 API 参考
🔧 Streams API 规范 — WHATWG 官方规范
🔧 web-streams-polyfill — 跨浏览器兼容方案
🔧 jsjson.com JSON 格式化工具 — 在线处理 JSON 数据