Sorry, your browser cannot access this site
This page requires browser support (enable) JavaScript
Learn more >

本文通过将CNN引入ViT以提升ViT的效率

在图像识别任务中使用纯Transformer

为什么看深海可以共鸣

CoMER简介 该模块再Transformer的基础上引入了覆盖注意力机制,使得性能得到提升。 Transformer 多头注意力机制

Attention Is All You Need

深度学习常用循环神经网络(RNN)与Transformer(纯注意力编码解码网络)

摘要 发表于ECCV2022,针对现有基于Transformer的数学公式识别方法中存在的注意力覆盖不足的问题,提出一种新的注意力精炼模块(ARM),将RNN模型广泛采用的覆盖注意力机制巧妙地应用在Transformer中,在不影响并行性的前提下,利用过去的对齐信息精炼注意权重。另外本文还提出自覆盖和交叉覆盖两种模块,利用来自当前层和前一层的过去对齐信息,更好地利用覆盖信息。 背景 En...

摘要 处于encoder-decoder结构在许多不同的领域取得了很好的成效,而本文采用基于transformer的解码器代替基于RNN的解码器,使整个模型体系结构更简洁,并且引入新的训练策略来充分利用transformer在双向语言建模中的潜力。 改进 本文提出现存方法在不同程度上存在覆盖范围缺乏的问题,主要有两种方式: 过解析 欠解析 过解析意味着手写图像识别(HME)图像中的某...

常用卷积神经网络(CNN)

标题 STAR-Net: A SpaTial Attention Residue Network for Scene Text Recognition BMVC 2016 主要贡献 在网络中使用了位置注意力机制来消除自然图像中文本扭曲对识别的影响。 本文使用ResNet构造主干网络,结合空间注意力机制,构造了“目前最深”的端到端OCR网络 据作者所说,这是ResNet网络在场景文字识别...