CLIP | 新しいAI解説 +プラス

ＣＬＩＰ：画像と文章の革新的な関係

ＣＬＩＰ（対照的な言葉と絵の事前学習）は、二〇二一年にオープンエーアイが発表した、これまでのやり方とは大きく異なる新しい神経回路網です。これは、たくさんの絵とそれに合う言葉を学習することで、絵と言葉の関係を理解する能力を身につけます。これまでの絵を認識する仕組みは、特定のものを識別するために、あらかじめ名前付けされた学習データが必要でした。しかし、ＣＬＩＰはインターネット上にある様々なデータを学習に使うため、より柔軟で色々な用途に使える仕組みとなっています。具体的には、ＣＬＩＰは絵と言葉の組み合わせを入力として受け取り、それらがどのくらい関係しているかを予測します。この学習を通して、ＣＬＩＰは見たものと文字情報を共通の潜在空間に配置することを学び、絵と言葉の意味的な繋がりを捉えられるようになります。たとえば、「猫がソファに座っている」という文章と、猫がソファに座っている写真がセットで入力されると、ＣＬＩＰはこれらの関連性が高いと判断します。逆に、「犬がボールで遊んでいる」という文章と、猫がソファに座っている写真が入力された場合は、関連性が低いと判断します。この学習方法は、絵と言葉の意味を結びつけるだけでなく、言葉で表現されていない絵の特徴も捉えることができます。例えば、「ふわふわの猫」といった言葉がなくても、猫の毛並みの特徴を視覚的に捉え、他のふわふわした物体と関連付けることができます。このように、ＣＬＩＰは大量のデータから知識を獲得し、言葉で表現しにくい微妙なニュアンスや概念を理解することが可能です。この革新的な取り組みは、絵の検索、絵の作成、絵の分類など、様々な分野で大きな可能性を秘めています。例えば、言葉で欲しい絵を説明するだけで、ＣＬＩＰがそれに近い絵を探し出したり、新たに作り出したりすることができるようになります。また、ＣＬＩＰは絵の内容を理解することで、より高度な分類作業も可能になります。ＣＬＩＰの登場は、人工知能が人間の認識能力に近づくための大きな一歩と言えるでしょう。

2024.11.25

深層学習