はじめに: すべてを変えたアーキテクチャ
Il トランスフォーマー、論文「Attention Is All You Need」(Vaswani et al.、2017)で紹介されています。 RNN の再発を完全に排除することで、深層学習に革命をもたらしました。彼の代わりに、 のメカニズム 自意識 シーケンスの各要素を許可します。 他のすべての要素を直接「確認」し、長期的な依存関係を取得します。 消失勾配のボトルネック。
導入以来、Transformer は NLP だけでなく主要なアーキテクチャになりました (BERT、GPT、T5) だけでなく、コンピューター ビジョン (Vision Transformer)、オーディオ (Whisper)、 画像生成 (DALL-E、安定拡散)。このアーキテクチャを理解し、 現代の深層学習に取り組む人にとって不可欠です。
何を学ぶか
- 自己注意: シーケンス内の各トークンが他のトークンをどのように「見る」か
- クエリ、キー、値: 注意のメカニズム
- マルチヘッドアテンション: 異なるパターンを同時にキャプチャ
- 位置エンコーディング: Transformer がシーケンスの順序を知る方法
- 完全なエンコーダ/デコーダ アーキテクチャ
- BERT と GPT: エンコーダのみとデコーダのみ
- ハグフェイストランスフォーマーの実用化
セルフ・アテンション: トランスフォーマーの核心
Il 自意識 (またはイントラアテンション) はシーケンス内の各位置を許可します 他のすべてのポジションと比較した注目の重みを計算します。これは、次のことを意味します。 文中の「銀行」という単語を理解すると、モデルは文脈の中でそれを直接見ることができます 「川」(川岸)や「お金」(銀行機関)などの言葉があります。
このメカニズムは、トークンごとに計算された 3 つのベクトルに基づいています。
- クエリ (Q): 「何を探しているのか」 - 各トークンが他のトークンに尋ねる質問を表します。
- キー(K): 「私が提供するもの」を表します - 各トークンが提示されるラベル
- 値(V): 「私のコンテンツ」 - 伝えられる実際の情報を表します。
2 つのトークン間のアテンション スコア、および最初のトークンのクエリと 2 番目のトークンのキーの間のドット積、 サイズの平方根で正規化されます。ソフトマックスの後、これらのスコアは i に重み付けされます。 出力を生成する値。
import torch
import torch.nn as nn
import math
class ScaledDotProductAttention(nn.Module):
"""Scaled Dot-Product Attention: Attention(Q, K, V)"""
def __init__(self, d_k):
super().__init__()
self.scale = math.sqrt(d_k)
def forward(self, query, key, value, mask=None):
# query, key, value: (batch, seq_len, d_k)
scores = torch.matmul(query, key.transpose(-2, -1)) / self.scale
if mask is not None:
scores = scores.masked_fill(mask == 0, float('-inf'))
attention_weights = torch.softmax(scores, dim=-1)
output = torch.matmul(attention_weights, value)
return output, attention_weights
# Esempio
batch_size, seq_len, d_model = 2, 10, 64
Q = torch.randn(batch_size, seq_len, d_model)
K = torch.randn(batch_size, seq_len, d_model)
V = torch.randn(batch_size, seq_len, d_model)
attention = ScaledDotProductAttention(d_k=d_model)
output, weights = attention(Q, K, V)
print(f"Output: {output.shape}") # [2, 10, 64]
print(f"Weights: {weights.shape}") # [2, 10, 10]
マルチヘッドアテンション
単一のアテンション メカニズムは、トークン間の 1 種類の関係のみをキャプチャします。 そこには マルチヘッドアテンション いくつかの投影と並行して注意を実行します 線形 (ヘッド)、モデルが構文上の関係を同時にキャプチャできるようにします。 意味論的、位置的、および共参照。
各ヘッドは埋め込み空間のサブディメンションで動作します: d_model=512 の場合、次のようになります。 8 つのヘッド、各ヘッドは d_k=64 次元で動作します。結果は連結されて投影されます 最終的な線形変換を通じて。
class MultiHeadAttention(nn.Module):
def __init__(self, d_model, num_heads):
super().__init__()
assert d_model % num_heads == 0
self.d_model = d_model
self.num_heads = num_heads
self.d_k = d_model // num_heads
self.W_q = nn.Linear(d_model, d_model)
self.W_k = nn.Linear(d_model, d_model)
self.W_v = nn.Linear(d_model, d_model)
self.W_o = nn.Linear(d_model, d_model)
def forward(self, query, key, value, mask=None):
batch_size = query.size(0)
# Proiezioni lineari e split in heads
Q = self.W_q(query).view(batch_size, -1, self.num_heads, self.d_k).transpose(1, 2)
K = self.W_k(key).view(batch_size, -1, self.num_heads, self.d_k).transpose(1, 2)
V = self.W_v(value).view(batch_size, -1, self.num_heads, self.d_k).transpose(1, 2)
# Scaled dot-product attention
scores = torch.matmul(Q, K.transpose(-2, -1)) / math.sqrt(self.d_k)
if mask is not None:
scores = scores.masked_fill(mask == 0, float('-inf'))
attn = torch.softmax(scores, dim=-1)
context = torch.matmul(attn, V)
# Concatena heads e proiezione finale
context = context.transpose(1, 2).contiguous().view(batch_size, -1, self.d_model)
return self.W_o(context)
mha = MultiHeadAttention(d_model=512, num_heads=8)
x = torch.randn(4, 20, 512) # batch=4, seq=20, dim=512
output = mha(x, x, x)
print(f"MHA output: {output.shape}") # [4, 20, 512]
位置エンコーディング
トークンを順番に処理する RNN とは異なり、Transformer はすべてのトークンを処理します。 トークンを並行して使用します。位置情報がないと、モデルはシーケンスを 順序のないセット。の 位置エンコーディング 位置情報を追加する 埋め込み内の各トークンの。
元の論文では、次元ごとに異なる周波数を持つ正弦関数が使用されています。これ このスキームには、トレーニング中に見られるものよりも長いシーケンスに一般化できるという利点があります。 サイン関数とコサイン関数は周期的であるためです。
Transformer が RNN よりも優れている理由
3 つの主な利点: (1) 並列化 - すべてのトークンが処理されます 同時に GPU を最大限に活用します。 (2) 長期にわたる依存症 - 各トークンは、順次伝播することなく、他のトークンを直接「見る」ことができます。 (3) スケーラビリティ - アーキテクチャは数十億のパラメータに効果的に拡張できます (GPT-3: 175B、GPT-4: 推定約 1.8T)、これは RNN では不可能です。
エンコーダ/デコーダのアーキテクチャ
オリジナルの Transformer には次のようなアーキテクチャがあります。 エンコーダ-デコーダ:
- エンコーダ: 6 つの同一のレイヤー。それぞれにマルチヘッド セルフ アテンション + フィードフォワード ネットワークがあり、レイヤー正規化と残留接続によって分離されています。完全な入力を処理する
- デコーダ: マスクされたセルフアテンション (将来のトークンを見ないため)、クロスアテンション (エンコーダー出力を見るため)、およびフィードフォワード ネットワークを備えた 6 つの同一レイヤー。自動回帰的に出力を生成する
BERT と GPT: 2 つの哲学
BERT (エンコーダのみ)
バート (Transformers からの双方向エンコーダー表現) はエンコーダーのみを使用します。 事前トレーニング中に、トークンの 15% をランダムにマスクして予測します (マスクされた言語モデリング)。 双方向表現を学習します。理解タスクに優れています:分類、 NER、質疑応答。
GPT (デコーダのみ)
GPT (Generative Pre-trained Transformer) は、マスクされたアテンションを持つデコーダのみを使用します。 次のトークンを予測するように事前にトレーニングされており (因果言語モデリング)、生成に優れています。 テキストの。 GPT-3 と GPT-4 は、規模が拡大するにつれて新たな機能を実証しました。
from transformers import pipeline, AutoTokenizer, AutoModel
# Sentiment analysis con pipeline Hugging Face
classifier = pipeline("sentiment-analysis")
result = classifier("This movie was absolutely fantastic!")
print(result) # [{'label': 'POSITIVE', 'score': 0.9998}]
# Text generation con GPT-2
generator = pipeline("text-generation", model="gpt2")
text = generator("Deep learning is", max_length=50, num_return_sequences=1)
print(text[0]['generated_text'])
# BERT embeddings per downstream tasks
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
model = AutoModel.from_pretrained("bert-base-uncased")
inputs = tokenizer("The transformer architecture is revolutionary",
return_tensors="pt")
outputs = model(**inputs)
# outputs.last_hidden_state: (1, seq_len, 768)
cls_embedding = outputs.last_hidden_state[:, 0, :] # CLS token
print(f"CLS embedding: {cls_embedding.shape}") # [1, 768]
ビジョン トランスフォーマー (ViT) とその先へ
NLP におけるトランスフォーマーの成功は、他の分野でのトランスフォーマーの応用に影響を与えました。の ビジョントランスフォーマー (ViT) 画像をパッチ (通常は 16x16) に分割します。 はそれらをトークンとして扱い、標準の Transformer アーキテクチャを適用します。驚いたことに、ViT 大規模なデータセットで CNN と競合するパフォーマンスを達成し、事前トレーニングすると CNN を上回るパフォーマンスを発揮します 大規模なデータセット上で。
現在、Transformers は、言語モデル (GPT-4、Claude、Llama)、生成の基礎となっています。 画像 (DALL-E、安定拡散)、音声認識 (Whisper)、ロボット工学 (RT-2)、 マルチモード モデル (GPT-4V、Gemini)。アーキテクチャは、 普遍的な財団 現代の人工知能のために。
シリーズの次のステップ
- 次の記事では、 GAN (敵対的生成ネットワーク)
- 2 つの競合するネットワークがどのように現実的な合成データを生成するかを見ていきます。
- DCGAN、StyleGAN、および敵対的トレーニングの課題を分析します







