ai相关 – 我脑中的夕阳

仅以此文作为一个开始，一是记录下自己所学，二是尝试改正笔记别人看不懂的问题，三是不断要求自己对这些东西进行迭代。

在上世纪的一个会上，人们定义了什么是智能，即针对不同情形给出针对性的输出反应。那既有了这样的结论之后，就可以去尝试制造这样的智能，即当时的ai。

最开始的一派被称为符号主义，他们寄希望于根据规则通过已有信息做出预测，就如同早期编程一样，但这种方式的缺陷很明显，一是并非所有事物都能给出规则，且这样的智能能力的上限就是给出规则的专家水平。第二派则是机器学习，通过给机器以奖励或者惩罚的方式，让机器自主学习和调整，从而解决某一种任务，这样就不需要专家的知识人为搭建，但要造出具有学习能力的机器和数据。第三派被称为联结主义，即通过仿生的方式，模拟单个神经元的复杂功能以及神经元之间复杂的连接来创造这样的机器。

最开始的智能应该是感知机，可以从输出数据中识别不同的特征，调整不同的参数，进而理解感念。即给一个物体各种属性做出定义，符合则乘以1，不符合则乘以-1，最后将所有属性权重之和相加再做判断。这样的机器可作为最早的识别智能，但可以预想的，该函数并不能解决异或问题，即没有y=ax可以分别将（0，0）、（1，1）与（1，0）、（0，1）进行隔断。为解决此问题，后来的专家提出了多层感知机MLP模型，即用双函数去分别做判断再相加，即原始神经网络。理论上，只要有足够多的层级神经网络连接，可以拟合真实世界的所有函数。

由上可知，联结主义的早期其实和符号主义一脉相承，但这里神奇的地方在于与神经元的某种设计不谋而合，某种刺激达到一定的限度便会触发神经元传递信号。有了这样的模型雏形就可以去尝试做机器学习，这个机器学习的奖惩说到底还是去尽力使某个函数达到某个值。前文所谈到的感知机模型，使得属性符合表达式的函数被称为拟合函数。拟合函数做出的预测一定在某些地方与现实世界相悖，且现实世界并非是连续的，这就衍生出了损失函数和所谓的“黑盒”。损失函数是指通过一种定量的方式来度量一组系数所对应的多项式到底拟合得好不好，是衡量一个模型预测的和真实之间的偏差程度，这里简单理解为方差。通过找到这个方差最小的损失函数，我们就可以倒推得到一个最好的参数，再将参数代入到拟合的多项式中，就能得到最好的描述数据规律的黑箱。

但是由于拟合函数中间“不可知”的部分，使得损失函数的值也变得不可知，求参的过程便相对应的难度骤升。科学家们为解决这一问题，提出了梯度下降理论，这里简单理解为偏微分，梯度函数是求二位曲面的每个点上升最快的方向，那么梯度下降法只要反其道而行之，就能降低损失函数，进而得到最好的参数。

由此，神经网络的某种雏形便呼之欲出，但随之而来的便是这种函数的泛用能力，被称之为“泛化”过程，即通过趋势和规律来预测，从而获取“举一反三”的能力。这种泛化的趋势预测手段可以补足大部分难以言说的规律，但也对人类试图抵制的“对抗样本”造成了不小的阻碍，例如ai无法很好的解决“给我一段20字的文本”这样的语句。

Deepseek是于2023年4月成立，由国内顶级千亿私募量化基金“幻方量化”作为全资东家。在此前，该基金已跻身国内少量屯有“万卡”级别的公司，坐拥万卡连“云计算”之类的服务都未尝开通，足以见其决心之大，据说是全力冲击AGI。Deepseek目前火爆的原因是因为v3非常显性的把训练高性能大模型的价格打下来了，并在多项能力上远超“claude”和“GPT 4o”。

接下来尝试理解深度求索的技术架构。1）MoE架构，即混合专家模型，不再追求训练一个全知全能的大模型，而是拆分为不同领域的小模型，针对问题调用不同模型；2）MLA多层注意力架构，应该同属“transformer”架构的衍生，不再逐一关注每一个语素，多层统一处理；3）FP8混合精度训练框架，即现在模型多以16位或32位作为精度指标，但深度求索仅以8位精度开展演算，但是每计算128位数值便又交由32位精度模型进行统整复算；4）DualPipe跨节点通信，将数据传输和计算同时进行，加快模型间计算效率；5）无辅助损失的负载均衡策略，将模型计算量进行动态平衡，不使某一模型过载或空置；6）MTP，多token同时预测，将语素组合成的词纳入预测；7）蒸馏R1模型，提取了推理模式和解题策略，数据量大，参数量671B，且涵盖14.8万亿多样化和高质量tokens。

以下区分基础模型和DSR1-Zero，基础模型：SFT监督微调，输入大量实例供模型学习；过程奖励模型，对中间步骤进行打分；RL强化学习，优化模型推理链。而DSR1-Zero仅通过RL强化学习，不再对过程进行奖惩，便会出现“顿悟”时刻，这也在使用中可以体现，不再需要对输出结果做限制，而只要讲清目标即可。

2025.2.23——初稿

发送评论 编辑评论

推荐文章

发送评论编辑评论