画像認識アーキテクチャの進化大全: CNN・ViT・Mamba・MLPの比較

AI技術の急速な進歩により、画像認識は私たちの生活に深く浸透し、顔認証、自動運転、医療画像診断など、多岐にわたる分野で革新をもたらしています。この画像認識技術の発展を支えているのが、ディープラーニングにおけるモデルアーキテクチャの目覚ましい進化です。
本記事では、画像認識の歴史を彩る主要なアーキテクチャに焦点を当て、その進化の軌跡をたどります。畳み込みニューラルネットワーク(CNN)の登場から、Transformerの概念を画像領域に適用したVision Transformer(ViT)、そして近年注目を集めるMLP-MixerやMamba系アーキテクチャまで、それぞれの特徴と技術的革新を深掘りします。
各アーキテクチャについては、その核となるアイデアを分かりやすく解説し、さらにPyTorchを用いた簡単なサンプルコードを交えながら、実践的な理解を深めることを目指します。画像認識の最前線を理解し、ご自身のプロジェクトに活かすための第一歩として、ぜひ本記事をご活用ください。
畳み込みニューラルネットワーク
畳み込みニューラルネットワーク(CNN)は、画像認識分野に革命をもたらしたディープラーニングモデルの基盤です。画像の局所的な特徴を捉える畳み込み層と、特徴マップを圧縮するプーリング層を交互に重ねることで、画像から高レベルな特徴を効率的に抽出します。ここでは、主要なCNN系アーキテクチャとその進化を解説します。
AlexNet
AlexNetは、2012年に発表され、深層学習が画像認識タスクにおいて従来のSOTA(State-of-the-Art)手法を大きく上回る性能を示すことを証明し、「ImageNet革命」の始まりを告げました 。深層畳み込みネットワークの先駆けとして、ReLU活性化関数、Dropout、データ拡張といった技術を導入し、大規模データセットImageNetでの画像分類タスクで高い精度を達成しました 。これにより、深層学習が画像認識の主流となる道を切り開きました。
import torch from torchvision.models import alexnet batch_size, n_colors, width, height= (2, 3, 224, 224) inputs = torch.rand(batch_size, n_colors, width, height) model = alexnet(weights=None) outputs = model(inputs) print(outputs.shape)
VGGNet
VGGNetは2014年に発表され、3×3の小さな畳み込みフィルタを複数層にわたって積み重ねるというシンプルな構造が特徴です 。これにより、モデルを深くすることで表現能力を高めつつ、畳み込み層のパラメータ数を抑えることに成功しました。その単純な構造は実装が容易であり、他の多くのCNNモデルの設計に影響を与えましたが、巨大なモデルサイズとなる傾向がありました 。
import torch from torchvision.models import vgg16 batch_size, n_colors, width, height= (2, 3, 224, 224) inputs = torch.rand(batch_size, n_colors, width, height) model = vgg16(weights=None) outputs = model(inputs) print(outputs.shape)
GoogLeNet (Inception v1)
GoogLeNetは2014年に登場し、Inceptionモジュールと呼ばれるブロックを導入したことで知られています 。Inceptionモジュールは、異なるサイズの畳み込みフィルタ(1×1, 3×3, 5×5)やプーリング層を並列に配置し、それぞれの出力を結合することで、複数スケールの特徴を同時に捉えることを可能にしました 。また、1×1畳み込みを導入してパラメータ数を削減するなどの工夫により、高い精度と効率性を両立させました 。
import torch from torchvision.models import googlenet batch_size, n_colors, width, height= (2, 3, 224, 224) inputs = torch.rand(batch_size, n_colors, width, height) model = googlenet(weights=None) outputs = model(inputs) print(outputs.shape)
Inception v3
Inception v3は、GoogLeNetの改良版として2015年に発表されました 。Inceptionモジュールの設計をさらに洗練させ、大きな畳み込みフィルタを小さなフィルタに分解する「Factorized Conv」や、正則化手法である「Label Smoothing」を導入しました 。これにより、モデルの計算効率と精度がさらに向上し、高性能かつ軽量なモデルとして評価されています 。
import torch from torchvision.models import inception_v3 batch_size, n_colors, width, height= (2, 3, 299, 299) # Inception_v3 requires 299x299 input size inputs = torch.rand(batch_size, n_colors, width, height) # Inception_v3's auxiliary logits are typically used during training. # For inference, they are often disabled. model = inception_v3(weights=None, aux_logits=False) outputs = model(inputs) print(outputs.shape)
ResNet
ResNet (Residual Network) は、2015年に発表された画期的なアーキテクチャで、100層を超えるような「超深層」のネットワークでも安定して学習できる残差接続(スキップ接続)を導入しました 。このスキップ接続は、入力の一部をそのまま後段の層に伝えることで、勾配消失問題を緩和し、非常に深いネットワークの学習を可能にしました 。これにより、層を深くするほど精度が向上するという新たな道が開かれました。

import torch from torchvision.models import resnet50 batch_size, n_colors, width, height= (2, 3, 224, 224) inputs = torch.rand(batch_size, n_colors, width, height) model = resnet50(weights=None) outputs = model(inputs) print(outputs.shape)
ResNeXt
ResNeXtは、2016年にResNetを拡張したモデルとして提案されました 。ResNeXtの主な特徴は、「カーディナリティ(cardinality)」と呼ばれる概念の導入です。これは、並列に配置された複数の同じ形状の変換ブロックの数を指し、グループ畳み込みを用いて効率的に実装されます 。これにより、ResNetと同様の深さやパラメータ数で、より高い精度を実現し、実装の容易さと精度のバランスに優れています 。

import torch from torchvision.models import resnext50_32x4d batch_size, n_colors, width, height= (2, 3, 224, 224) inputs = torch.rand(batch_size, n_colors, width, height) model = resnext50_32x4d(weights=None) outputs = model(inputs) print(outputs.shape)
DenseNet
DenseNetは2016年に発表されたアーキテクチャで、各層をその後のすべての層と直接接続するという「密な接続」が特徴です 。これにより、特徴の再利用が促進され、勾配の伝播が改善されるため、少ないパラメータ数で高い効率と精度を実現します 。特に、従来のCNNが抱えていた勾配消失問題の緩和と、特徴の有効活用において大きな進歩をもたらしました。
import torch from torchvision.models import densenet121 batch_size, n_colors, width, height= (2, 3, 224, 224) inputs = torch.rand(batch_size, n_colors, width, height) model = densenet121(weights=None) outputs = model(inputs) print(outputs.shape)
ShuffleNet V2
ShuffleNet V2は2018年に発表された、モバイルデバイス向けの超軽量CNNモデルです 。効率的な設計を追求し、チャネルシャッフルやポイントワイズ分離畳み込みといった技術を導入することで、限られた計算資源下での高速な推論を可能にしました 。モバイルや組み込みデバイスでのAIアプリケーションにおいて、高い実用性を提供します 。

import torch from torchvision.models import shufflenet_v2_x1_0 batch_size, n_colors, width, height= (2, 3, 224, 224) inputs = torch.rand(batch_size, n_colors, width, height) model = shufflenet_v2_x1_0(weights=None) outputs = model(inputs) print(outputs.shape)
MobileNet V2
MobileNet V2も2018年に発表された軽量アーキテクチャの代表格であり、スマートフォンやエッジAIデバイス向けに広く利用されています 。Depthwise Separable Convolutionと、入力と出力の次元を保持する「Linear Bottleneck」構造を導入することで、高い精度を保ちながらも、大幅な計算コストとパラメータ数の削減を実現しました 。
import torch from torchvision.models import mobilenet_v2 batch_size, n_colors, width, height= (2, 3, 224, 224) inputs = torch.rand(batch_size, n_colors, width, height) model = mobilenet_v2(weights=None) outputs = model(inputs) print(outputs.shape)
EfficientNet
EfficientNetは2019年に発表され、精度と計算効率の両立を最適化するモデルです 。Compound Scalingという手法を導入し、ネットワークの深さ、幅、解像度の3つの要素をバランス良くスケーリングすることで、高い精度を維持しつつ、計算コストを大幅に削減します 。NAS (Neural Architecture Search) によって設計されたベースラインモデルを基盤とし、多様なタスクで優れた性能を発揮します 。

import torch from torchvision.models import efficientnet_b0 batch_size, n_colors, width, height= (2, 3, 224, 224) inputs = torch.rand(batch_size, n_colors, width, height) model = efficientnet_b0(weights=None) outputs = model(inputs) print(outputs.shape)
ConvNeXt
ConvNeXtは2022年に発表された、Vision Transformer(ViT)の設計思想をCNNに再考して取り入れた新しいアーキテクチャです 。LayerNorm、GELU活性化関数、Depthwise ConvolutionといったViTで効果が確認された要素をCNNに適用することで、従来のCNNの堅牢性を保ちつつ、ViTに匹敵する、あるいはそれを上回る高い精度を達成しました 。これはCNNの最新の再考版として注目されています 。
import torch from torchvision.models import convnext_tiny batch_size, n_colors, width, height= (2, 3, 224, 224) inputs = torch.rand(batch_size, n_colors, width, height) model = convnext_tiny(weights=None) outputs = model(inputs) print(outputs.shape)
CNNアーキテクチャ比較
モデル名 | 発表年 | 主な特徴 | 技術的革新 | パラメータ効率 | 備考 |
---|---|---|---|---|---|
AlexNet | 2012 | 深いCNNの先駆け | ReLU, Dropout, データ拡張 | △ | ImageNet革命の始まり |
VGGNet | 2014 | シンプルな構造(3×3 Convのみ) | 深い層を積み重ねた単純構造 | △(巨大モデル) | 実装容易だが冗長 |
GoogLeNet (Inception v1) | 2014 | Inceptionモジュールによる複数スケール処理 | 1×1 Conv, パラメータ削減 | ◎ | モジュール設計の先駆け |
Inception v3 | 2015 | モジュールの洗練化 | Factorized Conv, Label smoothing | ◎ | 高性能かつ軽量 |
ResNet | 2015 | 残差接続による超深層ネット | スキップ接続 | ○ | 深さ100層超でも学習可能 |
ResNeXt | 2016 | ResNetの拡張 | 分離可能な“cardinality”概念 | ○ | 実装・精度バランス良 |
DenseNet | 2016 | 各層を全結合的に接続 | フィーチャー再利用、勾配流の改善 | ◎ | 高効率・パラメータ少 |
ShuffleNet V2 | 2018 | モバイル向け超軽量CNN | チャネルシャッフル, ポイントワイズ分離Conv | ◎ | モバイル・組込み向け |
MobileNet V2 | 2018 | 軽量アーキテクチャの定番 | Depthwise Separable Conv, Linear Bottleneck | ◎ | スマホ・Edge AI向け |
EfficientNet | 2019 | 精度・効率の両立 | Compound Scaling, NAS設計 | ◎ | 精度/計算効率のトレードオフ最適化 |
ConvNeXt | 2022 | ViTに触発されたCNN再設計 | LayerNorm, GELU, Depthwise Conv | ○ | CNN最新再考版、精度高い |
Vision Transformer
Vision Transformer (ViT) は、自然言語処理分野で大きな成功を収めたTransformerモデルを画像認識タスクに適用した画期的なアーキテクチャです。画像をパッチに分割し、それぞれをトークンとして扱うことで、CNNとは異なるアプローチで画像の特徴を学習します。自己注意機構により、画像全体における各パッチ間の関係性を捉えることが可能となり、画像認識の新たな可能性を切り開きました。
ViT
ViT (Vision Transformer) は、2020年にGoogleによって発表された、Transformerベースの初の画像分類モデルです 。画像を固定サイズのパッチに分割し、それぞれのパッチを線形に埋め込んでトークンとして扱います 。これらのトークンに位置エンコーディングを加えてTransformerエンコーダに入力することで、画像全体の大域的な依存関係を学習します。ImageNetなどの大規模データセットでCNNに匹敵する性能を示し、Transformerが画像認識においても有効であることを証明しました 。
import torch from vit_pytorch import ViT v = ViT( image_size=256, patch_size=32, num_classes=1000, dim=1024, depth=6, heads=16, mlp_dim=2048, dropout=0.1, emb_dropout=0.1 ) img = torch.randn(1, 3, 256, 256) preds = v(img) print(preds.shape) # (1, 1000)
Token-to-Token ViT (T2T-ViT)
Token-to-Token ViT (T2T-ViT) は2021年に提案されたモデルで、ViTの初期の課題であった位置情報や局所性の保持を改善することを目的としています 。T2T-ViTは、トークンを段階的に統合する「soft split」と呼ばれる手法を用いることで、画像の局所的な情報をより適切に捉えることを可能にします 。これにより、ViTの性能向上に貢献しました 。
import torch from vit_pytorch.t2t import T2TViT v = T2TViT( dim = 512, image_size = 224, depth = 5, heads = 8, mlp_dim = 512, num_classes = 1000, t2t_layers = ((7, 4), (3, 2), (3, 2)) # tuples of the kernel size and stride of each consecutive layers of the initial token to token module ) img = torch.randn(1, 3, 224, 224) preds = v(img) # (1, 1000)
CrossViT
CrossViTは2021年に発表されたモデルで、異なる解像度のトークンを融合する特徴を持ちます 。これは、マルチスケールのトークン学習を可能にすることで、グローバルな情報とローカルな情報の両方を統合的に処理することを目指しています 。これにより、画像全体の大まかな構造と詳細なテクスチャの両方を効率的に捉え、認識精度を向上させることが期待されます 。
import torch from vit_pytorch.cross_vit import CrossViT v = CrossViT( image_size = 256, num_classes = 1000, depth = 4, # number of multi-scale encoding blocks sm_dim = 192, # high res dimension sm_patch_size = 16, # high res patch size (should be smaller than lg_patch_size) sm_enc_depth = 2, # high res depth sm_enc_heads = 8, # high res heads sm_enc_mlp_dim = 2048, # high res feedforward dimension lg_dim = 384, # low res dimension lg_patch_size = 64, # low res patch size lg_enc_depth = 3, # low res depth lg_enc_heads = 8, # low res heads lg_enc_mlp_dim = 2048, # low res feedforward dimensions cross_attn_depth = 2, # cross attention rounds cross_attn_heads = 8, # cross attention heads dropout = 0.1, emb_dropout = 0.1 ) img = torch.randn(1, 3, 256, 256) pred = v(img) # (1, 1000)
CaiT
CaiT (Class-attention in Image Transformers) は2021年に発表された、深層ViTに特化したモデルです 。このモデルは、特に深い層での訓練安定性を向上させるために、「クラスアテンション」と「LayerScale」という技術を導入しています 。これにより、従来のViTでは難しかった非常に深いTransformerネットワークの安定した訓練を可能にし、より高精度なモデルの実現に貢献しました 。

import torch from vit_pytorch.cait import CaiT v = CaiT( image_size = 256, patch_size = 32, num_classes = 1000, dim = 1024, depth = 12, # depth of transformer for patch to patch attention only cls_depth = 2, # depth of cross attention of CLS tokens to patch heads = 16, mlp_dim = 2048, dropout = 0.1, emb_dropout = 0.1, layer_dropout = 0.05 # randomly dropout 5% of the layers ) img = torch.randn(1, 3, 256, 256) preds = v(img) # (1, 1000)
PiT (Pooling-based Vision Transformer)
PIT (Pooling-based Vision Transformer) は2021年に提案された、CNNライクな階層構造を持つViTです 。トークンプーリングを導入することで、CNNの直感的な設計思想をViTに取り入れ、スケーラビリティを向上させています 。これにより、Transformerの柔軟性とCNNの効率性を組み合わせた、新しいアプローチを提示しました 。
import torch from vit_pytorch.pit import PiT v = PiT( image_size = 224, patch_size = 14, dim = 256, num_classes = 1000, depth = (3, 3, 3), # list of depths, indicating the number of rounds of each stage before a downsample heads = 16, mlp_dim = 2048, dropout = 0.1, emb_dropout = 0.1 ) # forward pass now returns predictions and the attention maps img = torch.randn(1, 3, 224, 224) preds = v(img) # (1, 1000)
LeViT
LeViTは2021年に発表された、高速かつ高精度なVision Transformerです 。CNNとViTのハイブリッド設計を採用し、モバイルデバイス向けに最適化されています 。軽量でありながらも高い推論速度と優れた精度を両立することで、スマートフォンやエッジデバイス上でのAIアプリケーションの展開を容易にします 。
import torch from vit_pytorch.levit import LeViT levit = LeViT( image_size = 224, num_classes = 1000, stages = 3, # number of stages dim = (256, 384, 512), # dimensions at each stage depth = 4, # transformer of depth 4 at each stage heads = (4, 6, 8), # heads at each stage mlp_mult = 2, dropout = 0.1 ) img = torch.randn(1, 3, 224, 224) levit(img) # (1, 1000)
ViTアーキテクチャ比較
モデル名 | 発表年 | 主な特徴 | 技術的革新 | 計算効率 | 備考 |
---|---|---|---|---|---|
ViT | 2020 | 初のTransformerベース画像分類モデル | パッチ分割 + ポジショナルエンコーディング | △(高データ依存) | ImageNetでCNNに匹敵する性能を示す |
Token-to-Token ViT (T2T-ViT) | 2021 | トークン精製による局所性保持 | トークンを段階的に統合(soft split) | ○ | ViTの初期欠点(位置・局所性)を改善 |
CrossViT | 2021 | 異なる解像度のトークンを融合 | マルチスケールのトークン学習 | ○ | グローバル・ローカル情報の統合 |
CaiT | 2021 | 深層ViTに特化 | クラスアテンション、LayerScale | △(重い) | 深い層でも安定に訓練可能 |
PiT (Pooling-based ViT) | 2021 | CNNライクな階層ViT | トークンプーリングによるスケーラビリティ | ○ | CNNの直感的設計を導入 |
LeViT | 2021 | 高速・高精度のViT | ハイブリッド設計(CNN+ViT), Mobile向け | ◎ | モバイルフレンドリーなViT |
MLP-Mixer / Mamba 系アーキテクチャ
近年、畳み込み層や自己注意機構に依存しない、新たなディープラーニングアーキテクチャが画像認識分野で注目を集めています。MLP-Mixerは多層パーセプトロン(MLP)のみで構成され、Vision Mambaは状態空間モデル(SSM)を基盤とするなど、これまでの常識を覆すモデルが登場し、画像認識の可能性をさらに広げています。
MLP-Mixer
MLP-Mixerは2021年にGoogleによって発表された、画像認識のための革新的なアーキテクチャです 。その最大の特徴は、畳み込み層も自己注意機構も用いず、多層パーセプトロン(MLP)のみで画像分類を可能にしている点です 。画像をパッチに分割し、これらのパッチに対してチャネル方向と空間方向(パッチ間)の2方向でMLPを適用することで、画像全体から特徴を抽出します 。このモデルは、Transformerのような複雑な構造を不要としながらも、競争力のある性能を示し、アーキテクチャ設計の新たな方向性を示しました 。ResMLPやgMLP、TokenMixer、CycleMLPなどがMLP-Mixerの派生アーキテクチャとして提案されています 。
import torch from mlp_mixer_pytorch import MLPMixer model = MLPMixer( image_size = 256, channels = 3, patch_size = 16, dim = 512, depth = 12, num_classes = 1000 ) img = torch.randn(1, 3, 256, 256) pred = model(img) print(pred.shape) # (1, 1000)
Vision Mamba
Vision Mambaは2024年に登場した、状態空間モデル(SSM)をベースとする視覚モデルです 。従来のTransformerが持つ二次的な計算コストや推論時のレイテンシといった課題に対し、Mambaブロックを導入することで、長距離依存性を高効率に処理することを可能にしています 。これにより、計算効率とスケーラビリティを両立させながら、ImageNetなどの画像認識タスクにおいて競争力のある性能を示しています 。MambaFormerやVSSM(Vision State Space Model)などがVision Mambaの派生アーキテクチャとして研究されています 。
import torch from vision_mamba import Vim # Forward pass x = torch.randn(1, 3, 224, 224) # Input tensor with shape (batch_size, channels, height, width) # Model model = Vim( dim=256, # Dimension of the transformer model heads=8, # Number of attention heads dt_rank=32, # Rank of the dynamic routing matrix dim_inner=256, # Inner dimension of the transformer model d_state=256, # Dimension of the state vector num_classes=1000, # Number of output classes image_size=224, # Size of the input image patch_size=16, # Size of each image patch channels=3, # Number of input channels dropout=0.1, # Dropout rate depth=12, # Depth of the transformer model ) # Forward pass out = model(x) # Output tensor from the model print(out.shape) # Print the shape of the output tensor print(out) # Print the output tensor
MLP-Mixer / Mamba 系アーキテクチャの比較
モデル名 | 発表年 | 主な特徴 | 技術的革新 | 計算効率 | 備考 |
---|---|---|---|---|---|
MLP-Mixer | 2021 | 全体をMLPのみで構成 | パッチ×チャネル軸にMLP適用(2方向) | △(データ依存) | Transformer不要な構造の提示 |
ResMLP | 2021 | 深層MLPベースモデル | チャネル間のMLP+残差接続 | △ | Vision Transformer代替の一環 |
gMLP | 2021 | 軽量かつ自己注意的MLP | Spatial Gating Unit(SGU)を導入 | ○ | MLPとゲート構造の融合 |
TokenMixer | 2022 | Token間の情報流動を強化 | 様々なMixer操作(avg, conv, self-attn) | ○ | 汎用性を追求したMixer設計 |
CycleMLP | 2021 | CNN風のMLP構造 | Local receptive field + cyclic shift | ○ | CNN的局所性を導入 |
Vision Mamba | 2024 | SSMベースの視覚モデル | Mambaブロック(長距離依存性の高効率処理) | ◎ | 計算効率・スケーラビリティ両立 |
MambaFormer | 2024 | Mamba + Transformerのハイブリッド | 遠近依存性を動的に切替 | ◎ | ImageNetでもSOTAに迫る性能 |
VSSM (Vision State Space Model) | 2024 | 完全SSMベースのモデル | State Spaceレイヤーを畳み込み的に適用 | ◎ | Transformer非依存の代替候補 |
おわりに
今回は、画像認識技術の進化を支える主要なディープラーニングアーキテクチャについて解説してきました。畳み込みニューラルネットワーク(CNN)が画像認識の夜明けを告げ 、AlexNet 、VGGNet 、ResNet といった画期的なモデルが次々と登場し、その性能を飛躍的に向上させました。その後、自然言語処理の分野で成功を収めたTransformerの概念が画像領域にも適用され、Vision Transformer(ViT) が新たな可能性を開拓しました。DeiT やSwin Transformer といった派生モデルも生まれ、効率性と汎用性を高めています。
さらに近年では、MLP-Mixer のようにMLPのみで構成されるモデルや、Mamba のような状態空間モデルを基盤としたアーキテクチャが登場し、従来の常識を打ち破る研究が進んでいます。これらの進化は、画像認識が多岐にわたる分野で応用される基盤となっており、今後もその発展から目が離せません。
More Information
- arXiv:1409.1556, Karen Simonyan et al., 「Very Deep Convolutional Networks for Large-Scale Image Recognition」, https://arxiv.org/abs/1409.1556
- arXiv:1409.4842, Christian Szegedy et al., 「Going Deeper with Convolutions」, https://arxiv.org/abs/1409.4842
- arXiv:1512.03385, Kaiming He et al., 「Deep Residual Learning for Image Recognition」, https://arxiv.org/abs/1512.03385
- arXiv:1611.05431, Saining Xie et al., 「Aggregated Residual Transformations for Deep Neural Networks」, https://arxiv.org/abs/1611.05431
- arXiv:1608.06993, Gao Huang et al., 「Densely Connected Convolutional Networks」, https://arxiv.org/abs/1608.06993
- arXiv:1807.11164, Ningning Ma et al., 「ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design」, https://arxiv.org/abs/1807.11164
- arXiv:1801.04381, Mark Sandler et al., 「MobileNetV2: Inverted Residuals and Linear Bottlenecks」, https://arxiv.org/abs/1801.04381
- arXiv:1905.11946, Mingxing Tan et al., 「EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks」, https://arxiv.org/abs/1905.11946
- arXiv:2010.11929, Alexey Dosovitskiy et al., 「An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale」, https://arxiv.org/abs/2010.11929
- arXiv:2101.11986, Li Yuan et al., 「Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet」, https://arxiv.org/abs/2101.11986
- arXiv:2103.14899, Chun-Fu Chen et al., 「CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image Classification」, https://arxiv.org/abs/2103.14899
- arXiv:2103.16302, Byeongho Heo et al., 「Rethinking Spatial Dimensions of Vision Transformers」, https://arxiv.org/abs/2103.16302
- arXiv:2103.17239, Hugo Touvron et al., 「Going deeper with Image Transformers」, https://arxiv.org/abs/2103.17239
- arXiv:2104.01136, Ben Graham et al., 「LeViT: a Vision Transformer in ConvNet’s Clothing for Faster Inference」, https://arxiv.org/abs/2104.01136
- arXiv:2105.01601, Ilya Tolstikhin et al., 「MLP-Mixer: An all-MLP Architecture for Vision」, https://arxiv.org/abs/2105.01601
- arXiv:2201.03545, Zhuang Liu et al., 「A ConvNet for the 2020s」, https://arxiv.org/abs/2201.03545
- arXiv:2401.09417, Lianghui Zhu et al., 「Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model」, https://arxiv.org/abs/2401.09417