《智变时代 / 全面理解机器智能与生成式 AI 加速的新工业革命》文章笔记

原文链接：https://mp.weixin.qq.com/s/4LvcfLC6C-dZnS7f_IKw-g

一、模型 - 竞争、泛化与变革的本质

1.1 算力 + 数据

本质：算力 + 数据

第一方面是算力。按照依旧可行的规模理论（Scaling Law），足够多的算力和足够好的数据，就会有足够强大的模型！

所以只要算力足够，Google（Gemini）和 Meta（Llama）就能匹敌 OpenAI。而且 Llama 还是开源的，意味着只要有足够多的 GPU（截止 2024.6.14 NVIDIA H100 是最近一代 GPU，价格约 25w 人民币），理论上就能达到 GPT-4 级别的智能。

OpenAI 由于起步早，在收集数据方面处于领先地位。但是随着公开的用于训练的文本耗尽，所以目前越来越多的采用合成数据。但文本之外的图像和视频，需要更直接的接触消费者，才能拿到最新数据。Google 和 Meta 各自的产品线都覆盖了超过三十亿用户，在数据这方面是有优势的。

1.2 模型迭代

RNN & LSTM -> Transformer

Transformer 计算复杂度高，但是并行处理效率高，意味着只要增加算力和数据，就能训练出更好的模型。

如果说内燃机是工业革命范式的动力引擎，现在这个引擎就是 Transformer。模型与算力的组合，就像内燃机和石油的组合那样，成为了通用平台，你提供能源，我就能输出动力。

二、应用 - 智能代理、智能体与组织新形态

2.1 AI 应用现状

AI 应用还没有爆发，最顶流的 GPT 首月留存率 56%，也不如社交应用的中位数 63%。这意味着用户还没有在这些 AI 原生的产品中找每天使用它们的理由。

那些拥有庞大客户群的上一代的软件或服务公司，他们会有巨大的优势，把基础模型整合到自己的业务流程中，提供新界面，使工作流程更具粘性，输出效果更好。

考虑端到端解决客户需求。这里的核心是，我们如何看待和使用基础模型，而不是简单的封装它们，这些模型就是智能时代操作系统，需要在上面构建原生的应用程序。

类比操作系统

我们可以像操作系统一样使用大语言模型（多模态模型）。不同的地方在于电脑 CPU 接受十六进制汇编指令，LMM 接受自然语言。

LMM 中央处理器的速度就是每秒输出 Tokens 的数量，现在 GPT-4o 大约 50Hz tok/s，规模越小速度越快，当然推理能力也更差。

系统的内存就是 LMM 的上下文窗口（Context Window），一次推理运算最多能接受的 Tokens 数量，现在 Google Gemini 1.5 Pro 实验版已经把这个数字提升到了一千万，一次性输入二十本书和一个小时的电影。但充满挑战也就意味着机会无穷，前沿模型研发团队都力争做到吞吐量、速度还有准确度的最佳平衡。

这一年多以来，大模型应用领域最常用的方法就是 RAG（Retrieval Augmented Generation），这是一种检索增强生成的方法，让模型用大家自定义的数据生成结果，这样就能处理无尽的私有数据，把模型当成高效的推理机器来使用。

技术栈

这张图非常好，能帮助一名开发人员理解，在这场 AI 变革时代，我们这样有一些开发基础的人员所能做的一些工作。

1. Data 层

Data 层主要是对数据的处理层，收集数据进行一系列处理之后，降维存入向量数据库中，方便模型使用

1.1 Data Pipelines

解释：数据管道是指从原始数据到最终的模型输入数据。它涵盖了数据获取、清洗、预处理、特征工程、数据存储和分发等一系列步骤。
- 数据获取：从各种来源（如数据库、API、文件等）收集原始数据。
- 数据清洗：处理缺失值、异常值、重复数据等问题。
- 数据预处理：对数据进行标准化、归一化、编码等操作。
- 特征工程：提取和选择对模型有用的特征，包括生成新的特征。
- 数据分割：将数据分成训练集、验证集和测试集。
- 数据存储和分发：将处理后的数据存储在合适的存储系统中，并根据需要分发到模型训练或预测的不同节点。
代表应用：unstructured
- 将各种数据整合成 LLM 能使用的数据，比如很多企业数据是用 HTML、PDF、CSV、PNG、PPT 等难以使用的格式存在，因此这一部分是用来转换复杂数据的部分

1.2 Embedding models

解释：通过将复杂的高维数据表示为低维向量，使得在机器学习任务中处理和分析这些数据变得更加高效和准确。
- 降维：将高维数据映射到低维空间，减少计算复杂度。
- 表示学习：学习到的数据表示能够捕捉数据的语义和结构信息。
- 相似度计算：通过计算向量之间的距离或相似度来衡量数据点之间的关系。
与上面的不同是，Data Pipelines 输出的是经过处理和清洗的数据。Embedding models 输出的是低维向量表示。所以向量数据库会在 AI 中应用广泛。

1.3 Vector Database

解释：即向量数据库，用于存储上一步 Embedding models 转换成的相对低维的向量数据。
- 比如：单词 “king” 的向量表示可能是：[0.2, 0.5, 0.1, -0.3, …]

2. Prompt Few-shot examples

所以这部分，个人理解，即对外用户暴露的部分。也就是和用户直接交互的部分。

2.1 Playground

解释：Playground 是一个交互式环境，通常用于实验和测试不同的提示（prompts）和模型配置。在 Playground 中，用户可以方便地输入各种提示并观察模型的输出，从而找到最佳的提示策略。
- 交互测试：实时输入和修改提示，观察模型的反应。
- 调试和优化：快速尝试不同的提示和参数，找到最佳配置。
- 学习和探索：了解模型如何响应不同类型的输入，掌握提示工程的技巧。

2.2 Orchestration

解释：指的是管理和协调多个模型或组件，以实现更复杂和高级的任务。即逻辑编排组合工作流。

2.3 APIs/Plugin

解释：对于开发很容易理解，通过 API 和 Plugin，模型对外暴露服务和数据源。或者扩展等等。

3. Query & Output

这部分图上画了一个 App Hosting，看到 Vercel 之后就很容易理解了。即服务托管这部分，快速的进行部署等。

4. LLM 基础建设

4.1 LLM Cache

解释：看到 Redis 之后就很容易理解了，即为了提高模型推理速度和效率的缓存系统。

4.2 Logging/LLMops

解释：这部分对于开发也很容易理解，就是服务治理那一部分，比如性能监控，错误日志记录，操作日志等等。

4.3 Validation

解释：个人理解这部分和单元测试很像，保证模型训练和部署过程中评估模型性能。

5. LLMAPis and Hosting

这部分基本就是对外提供的和对内提供的 API，以及云服务相关，和上面的部分，个人理解有重合之处。

三、智变 - 廉价诱导需求、从中心到边缘算力、新工业革命

现代经济学中有一个简单的定义：当商品、服务或资源的供应或容量增加导致其消费增加时，就会发生诱导需求（Induced demand）。经济学家 George Gilder 在《Knowledge and Power》中最核心的观点就是经济增长的主要动力就是企业家的创新，产生供给端需求，俗称创造不存在的市场。

智能的供应取决于两方面的成本：训练与推理，除非若干年后我们有了全新的训练推理一体的自进化模型架构。OpenAI 的推理成本似乎在以每年约 86% 的速度下降，比训练成本降的更快，最新模型 GPT-4o 和去年同等智能水平的 GPT-4 相比，速度提升了五倍，价格下降了接近十倍，这只是在一年之内。

行业周期切换

虽然在 2010s 的描述并不是很符合个人认知。Mobile Internet 个人理解是和 Cloud / Saas 存在同一时代的，而且也并没有被 Cloud / Saas 替代。

现在正处于 AI 基础设施第二轮的升级浪潮之中：

AI 服务器的占比：9%
AI 在整个半导体行业的收入占比：10%
AI 数据中心电力消耗的占比（美国）：2+ %
AI 云计算收入的占比（Amazon & Microsoft）：～ 3%

从百分之九到百分之九十，AI 数据中心的升级才刚刚开始。因此，这次智能革命，会让芯片和数据中心业务最先受益，从 Nvidia 的股价就能看出；另外业务用量的提升，AI 云计算收入，其实主要是模型托管的收入，将成为云计算公司的主要收入。

能源

这里特别提到了能源， Coatue 预估按照现在的电力基础设施，到 2030 年全美国的电力供应将没法支撑 2500 万块数据中心 GPUs 的消耗，现在才 300 万块 GPUs；电力的产量提升并不如算力提升那么容易，Mark Zuckerberg 在最近一次与 Dwarkesh 的播客对谈中，特别吐槽了这一点，电力供应将成为 AI 发展的最大瓶颈！

四、演化 - 模型如何理解和进化、自主目标与自动化的 AGI

这一章更多的是对 AI 的一些预测

五、选择 - 职业变迁、自我提升与科技恒大

杰文斯悖论（Jevons Paradox），在劳动力市场上也一样，效率的提高会导致工作岗位的短期减少，但长期的需求激增会创造更多的工作岗位。Slow Venture 的合伙人 Sam Lessin 做过一个有趣的类比：“每个人都认为 AI 将会彻底改变法律行业。。这种想法是错误的；AI 将使生成和处理冗长的合同变得易如反掌，导致诉讼量激增十倍，法律业务将蓬勃发展，成为 GDP 的主要组成部分。。就像之前的金融行业一样！”

自动化技术提高了以前没法自动化任务的生产力，从而增加了对这些任务的需求。例如，白领在会计、销售、物流、交易和一些管理职位上，部分任务被专门软件和 AI 所取代，但这些技术也提高了生产力，从而增加了对这些任务的需求；但在制造业中却不同，自动化的加速导致了劳动需求的停滞，但新任务的创造速度在减慢，从而对劳动需求产生了负面影响。研究委婉的表达了制造业在全部制动化之后，就没人类工作者什么事儿了。

法律、医疗、工程、科学和教育这些处于“知识越多，工作也越多”的领域。将会是需求激增的受益行业，另外娱乐还有餐饮服务业一直处于增长趋势，在各行各业都自动化之后，唯有吃喝玩乐得人们亲自来，所以这将是智能富足社会的常青行业。