DeathWhispers

多模态大模型如何实现:从原理到架构的深度拆解

“多模态大模型”看起来很神奇:一边看图,一边理解问题,还能输出长文本推理。 但它的工程本质并不玄学,可以归结成一句话: 把不同模态(图像、视频、音频等)变成 LLM 能理解的 token/向量,再通过统一的解码器进行条件生成。 本文会从实现机制出发,深入拆解多模态模型的核心原理、主流架构范式和训练策略,并给出原理图和模型架构图。 1. 统一视角:多模态模型到底在做什么? 先看总流程...

AI 发展史系列导览:跟着讲解员穿越七十年智能革命

各位读者,欢迎来到“AI 发展史展馆”。 今天这篇不是某个单点技术教程,而是整个系列的“总导览”。你可以把它理解为展馆门口的大地图:先看全貌,再按兴趣进入具体展厅。 在这条时间轴里,我们会看到 AI 发展并不是线性上升,而是多次经历了: 理想高涨 工程受挫 方法突变 产业爆发 而每一轮“突变”,几乎都对应一次范式变化。 一、先看全景时间线 flowchart ...

AI 发展史大事件 01:1950 图灵测试,机器智能的起点问题

各位观众,欢迎来到 AI 历史展馆的第一展厅。 墙上写着一个看似简单的问题:机器会思考吗? 1950 年,艾伦·图灵在《Computing Machinery and Intelligence》中,没有陷入“思维定义学”的无穷争论,而是做了一次极具工程直觉的改写:把“机器是否会思考”替换为“机器在对话行为上能否与人类不可区分”。这就是后来被大众称为“图灵测试”的起点。 今天我们回看这件...

AI 发展史大事件 08:2017 Transformer,开启大模型时代底座

欢迎来到第八展厅。正中央的展板只有一行字:Attention Is All You Need(2017)。 在 AI 发展史里,这篇论文的地位非常独特。它既不是第一次做序列建模,也不是第一次做注意力机制,但它提供了一个极具扩展性的统一架构,让后续大模型时代具备了可规模化生长的“底座”。 如果说 AlexNet 点燃了深度学习工程化浪潮,Transformer 则像是把这股浪潮导入了更宽更...

AI 发展史大事件 03:1969 感知机之争与第一次 AI 冬天

欢迎来到第三展厅。和前两个展厅的“开创感”不同,这里充满了争论、失望与反思。 很多新读者会问:AI 为什么会有“冬天”?为什么一个看起来前景无限的领域,会突然降温? 如果要找第一次大规模降温的核心线索,1969 年关于感知机(Perceptron)的争论是绕不开的节点。它不只是一次学术辩论,更像一次“能力边界被集中公开”的历史时刻。 一、早期感知机为何曾被寄予厚望? 在 1950-1...

AI 发展史大事件 05:1997 Deep Blue 击败卡斯帕罗夫

欢迎来到第五展厅。正中央是一张历史照片:1997 年,IBM Deep Blue 战胜国际象棋世界冠军加里·卡斯帕罗夫。 这是 AI 历史上极具传播力的时刻之一。它像一声闷雷,让“机器智能”第一次在全球公共舆论中获得具体形象。很多人并不懂算法细节,但都能理解“机器赢了世界冠军”意味着什么。 不过,技术史的有趣之处在于:公众意义与技术意义不总是一回事。Deep Blue 的真正历史位置,恰...