BERT アーカイブ - 新しいAI解説 +プラス

Transformerとは？自然言語処理を変えたアーキテクチャの仕組み

Transformerとは？自然言語処理を変えたアーキテクチャの仕組みAIを知りたいChatGPTやBERTのベースになっている「Transformer」って、どんな技術ですか？AIエンジニアTransformerは2017年にGoogle...

2026.03.13

深層学習言語モデル

転移学習とは？少ないデータで高精度モデルを構築する方法

転移学習とは？少ないデータで高精度モデルを構築する方法AIを知りたい「転移学習」を使えば少ないデータでも高精度なモデルが作れると聞いたのですが、本当ですか？AIエンジニアはい、本当です。転移学習は大量のデータで学習済みのモデルの知識を流用し...

2026.03.13

機械学習深層学習

画像認識の革新：Vision Transformer

これまでの画像認識の主流は、畳み込みニューラルネットワーク、略してＣＮＮと呼ばれる手法でした。このＣＮＮは、画像の一部分一部分の特徴を捉えることには長けています。例えば、画像の中にネコがいるとします。ＣＮＮはネコの耳や目、鼻といった細かなパーツの形や模様に着目して、それがネコだと判断します。まるでパズルのピースを組み合わせて全体像を把握するように、一つ一つの特徴を積み重ねて認識していくのです。しかし、ＣＮＮには弱点もあります。それは、画像全体の雰囲気や状況といった、より大きな文脈を理解するのが難しいということです。例えば、ネコがソファの上で寝ている写真と、木の上で鳥を追いかけている写真があるとします。ＣＮＮはネコのパーツを認識することに集中するため、ネコがリラックスしているのか、それとも狩りをしているのかといった状況の違いを理解することは不得意です。そこで登場するのが、Vision Transformerと呼ばれる新しい手法です。これは、もともと文章の理解で成果を上げていたTransformerというモデルを、画像認識に応用した画期的な方法です。Transformerの大きな特徴は、画像全体を一度に見渡すことができる点にあります。ＣＮＮのように一部分ずつ見ていくのではなく、画像全体の情報をまとめて捉えることで、より広い範囲の関連性を理解することができます。つまり、ネコがソファの上で寝ているのか、木の上で鳥を追いかけているのかといった状況判断も可能になるのです。これは画像認識における大きな前進であり、これまでの手法の限界を大きく超える可能性を秘めています。Vision Transformerによって、まるで人間のように画像を理解する機械の実現に、また一歩近づくことができるかもしれません。

2024.11.27

深層学習