Transformer共6篇
深入解析CNN、RNN、GAN、Transformer等神经网络架构-山海云端论坛

深入解析CNN、RNN、GAN、Transformer等神经网络架构

引言 本文将深入探讨深度学习领域中常用的神经网络架构,包括卷积神经网络(CNN)、循环神经网络(RNN)、生成对抗网络(GAN)、Transformer以及编码器-解码器架构。通过详细介绍每种架构的原理...
今年一定会發財的头像-山海云端论坛今年一定会發財1个月前
03115
理解Transformer模型中的自注意力机制-山海云端论坛

理解Transformer模型中的自注意力机制

引言 Transformer 模型及其自注意力机制是深度学习领域的重要进展之一,首次在自然语言处理(NLP)任务中被成功应用。本文将深入解析 Transformer 中的自注意力机制,探讨其基本原理、设计动机...
今年一定会發財的头像-山海云端论坛今年一定会發財1个月前
05211
国内可用ChatGPT4.0网站 | 内附链接-山海云端论坛

国内可用ChatGPT4.0网站 | 内附链接

chat:表示“聊天”。 GPT:则是Generative、Pre-trained、Transformer的缩写,表示“预训练语言模型”,可以理解成一个“会说话”的人工智能。 本质上是人工智能技术驱动的自然语言处理工具,...
子玺的头像-山海云端论坛子玺6个月前
08111
前缀语言模型与因果语言模型:性能差异与理论解释-山海云端论坛

前缀语言模型与因果语言模型:性能差异与理论解释

近期的研究结果表明,在上下文学习领域,基于Transformer结构的前缀语言模型(prefixLM)在表现上优于因果语言模型(causalLM)。然而,目前仍缺乏对这种性能差异的详细理论解释。本文通过理论...
凌风的头像-山海云端论坛钻石会员凌风10个月前
01145
微软发布性能超越GPT-3.5的轻量级代码生成模型-山海云端论坛

微软发布性能超越GPT-3.5的轻量级代码生成模型

微软AI研究人员发布了一款轻量级代码生成模型 phi-1,性能超越了背后拥有120亿参数的大型语言模型 GPT-3.5。据了解,这款基于Transformer的模型仅含13亿参数,而 Codex 则拥有120亿参数。微软的...
凌风的头像-山海云端论坛钻石会员凌风10个月前
0435
谷歌 DeepMind 发布 Robotic Transformer2(RT-2):突破视觉-语言-动作模型的新里程碑-山海云端论坛

谷歌 DeepMind 发布 Robotic Transformer2(RT-2):突破视觉-语言-动作模型的新里程碑

谷歌旗下的 DeepMind 公司近日发布了全新的视觉-语言-动作模型(VLA),命名为 Robotic Transformer2(RT-2)。该模型能够与机器人进行互动,通过学习网络和机器人数据,将知识转化为高效的指令...
凌风的头像-山海云端论坛钻石会员凌风10个月前
04713