DeathWhispers

白话 DeepSeek 06|简单而强大的 Transformer

全文总结于 Bilibili UP 主飞天闪客的一小时到 Transformer 系列视频! Transformer:抛弃顺序计算的注意力革命 Transformer模型自2017年横空出世,迅速成为自然语言处理(NLP)乃至整个AI领域的基石。它的出现,标志着机器对语言理解方式的一次根本性转变。 在此之前,循环神经网络(RNN)及其变体(如LSTM、GRU)虽然能处理序列数据,但却...

白话 DeepSeek 06|简单而强大的 Transformer

全文总结于 Bilibili UP 主飞天闪客的一小时到 Transformer 系列视频! Transformer:抛弃顺序计算的注意力革命 Transformer模型自2017年横空出世,迅速成为自然语言处理(NLP)乃至整个AI领域的基石。它的出现,标志着机器对语言理解方式的一次根本性转变。 在此之前,循环神经网络(RNN)及其变体(如LSTM、GRU)虽然能处理序列数据,但却...

白话 DeepSeek 05|从词嵌入到 RNN

全文总结于 Bilibili UP 主飞天闪客的一小时到 Transformer 系列视频! 循环神经网络 RNN(Recurrent Neural Network) 之前的卷积神经网络适合处理图片信息,那文字信息怎么办呢?首先要明白,对于计算机,或者说神经网络来说,文字都是要转换为数字之后再进行处理的。那么我们要面对的第一个问题就是:如何将文字转换为数字 有一种简单粗暴的方法:每一...

白话 DeepSeek 05|从词嵌入到 RNN

全文总结于 Bilibili UP 主飞天闪客的一小时到 Transformer 系列视频! 循环神经网络 RNN(Recurrent Neural Network) 之前的卷积神经网络适合处理图片信息,那文字信息怎么办呢?首先要明白,对于计算机,或者说神经网络来说,文字都是要转换为数字之后再进行处理的。那么我们要面对的第一个问题就是:如何将文字转换为数字 有一种简单粗暴的方法:每一...

白话 DeepSeek 04|从矩阵到 CNN

全文总结于 Bilibili UP 主飞天闪客的一小时到 Transformer 系列视频! 矩阵表示、卷积与 CNN:从“密集连接”到“局部共享”的直观演绎 本篇目标: 用矩阵语言把神经网络的前向计算讲清楚; 阐明全连接(fully-connected)在图像任务上的局限; 通过卷积的直观定义、数学表示与参数对比,说明 CNN 为什么更适合图像;...

白话 DeepSeek 04|从矩阵到 CNN

全文总结于 Bilibili UP 主飞天闪客的一小时到 Transformer 系列视频! 矩阵表示、卷积与 CNN:从“密集连接”到“局部共享”的直观演绎 本篇目标: 一、回到矩阵表示:把复杂式子变得简洁且可并行 当网络刚开始只有少量节点时,我们可以直接用元素级公式写出每个神经元的输出。但随着层数和每层节点数增长,逐个写式子既繁琐又不利于数学推导与实现。用矩阵把这些运算...

白话 DeepSeek 03|调教神经网络的方法

全文总结于 Bilibili UP 主飞天闪客的一小时到 Transformer 系列视频! 🧠 神经网络训练中的问题与解决方法 ——从过拟合到正则化的全面解析 “训练一个模型不难,难的是让它在没见过的数据上依然聪明。” 🌱 一、从成功到困惑:模型为何“记住”了数据? 假设我们用数千张图片训练了一个神经网络,训练损失迅速下降,准确率高得惊人。 然而,当我们在新图片上测试...

白话 DeepSeek 03|调教神经网络的方法

全文总结于 Bilibili UP 主飞天闪客的一小时到 Transformer 系列视频! 🧠 神经网络训练中的问题与解决方法 ——从过拟合到正则化的全面解析 “训练一个模型不难,难的是让它在没见过的数据上依然聪明。” 🌱 一、从成功到困惑:模型为何“记住”了数据? 假设我们用数千张图片训练了一个神经网络,训练损失迅速下降,准确率高得惊人。 然而,当我们在新图片上测试...