Llama 3とは?Metaのオープンソース大規模言語モデルの全貌

AIを知りたい
先生、「Llama 3」ってMetaが出したオープンソースのAIですよね?ChatGPTみたいに使えるんですか?

AIエンジニア
そうだよ。Llama 3はMetaが無料で公開しているオープンソースのLLMで、性能的にはGPT-3.5 Turboを大幅に超え、GPT-4に迫るレベルなんだ。最大の魅力は、自分のパソコンやサーバーで動かせることだよ。つまり、データを外部に送る必要がないから、プライバシーを完全に守れるんだ。

AIを知りたい
自分の環境で動かせるのはいいですね!でも、高性能なパソコンが必要ですか?

AIエンジニア
パラメータ数によって必要なスペックが変わるよ。8Bモデルなら一般的なゲーミングPC(16GB VRAM)でも動かせる。70Bモデルだとさすがに高性能なGPUが必要だけど、量子化という技術を使えば必要メモリを大幅に削減できる。Ollamaというツールを使えば、コマンド一つで簡単にローカル環境にデプロイできるよ。
Llama 3とは。
人工知能に関わる言葉である「Llama 3」について説明します。Meta(旧Facebook)が開発・公開したオープンソースの大規模言語モデルで、商用利用も可能なライセンスで無料配布されています。8B・70B・405Bの3サイズが提供され、ローカル環境やプライベートクラウドでの運用が可能です。
Llama 3とは
Llama 3(ラマスリー)は、Meta(旧Facebook)が2024年4月に公開したオープンソースの大規模言語モデルです。「Llama」は「Large Language Model Meta AI」の略で、Meta AIの研究チームが開発しました。
Llama 3の最大の特徴は、高性能なモデルが無料でオープンに公開されている点です。商用利用も可能なライセンスで配布されており、企業や研究者が自由にダウンロード・カスタマイズ・デプロイできます。これにより、OpenAIやAnthropicのAPIに依存することなく、自社環境でAIを運用することが可能になりました。
Llama 3は8B、70B、405Bの3つのサイズで提供されています。8Bモデルは一般的なGPUで動作可能な軽量モデル、70Bモデルは多くのタスクでGPT-3.5 Turboを上回る性能を持つ中型モデル、405Bモデルは一部のベンチマークでGPT-4に迫る性能を持つ最大モデルです。15兆トークン以上のデータで学習されており、Llama 2と比較して大幅な性能向上を実現しています。
Llama 3の性能
Llama 3は、多数のベンチマークでクローズドソースモデルに匹敵する性能を示しています。
Llama 3 70Bモデルは、MMLUスコアで82.0%を達成し、GPT-3.5 Turboの70.0%を大幅に上回りました。HumanEval(コーディングテスト)では81.7%、MATH(数学テスト)では50.4%を記録し、オープンソースモデルとして最高水準の性能を示しています。
最大の405Bモデルでは、MMLUスコア88.6%、HumanEval 89.0%を達成し、GPT-4やClaude 3 Opusと同等の性能に到達しています。特に多言語性能が大幅に改善され、英語以外の言語でも高品質なテキスト生成が可能です。
8Bモデルは、そのサイズにもかかわらず、Llama 2 70B(前世代の最大モデル)に匹敵する性能を持っています。少ないリソースで高い性能を発揮できるため、エッジデバイスやローカル環境での利用に適しています。
| モデル | パラメータ | MMLU | HumanEval | 必要VRAM |
|---|---|---|---|---|
| Llama 3 8B | 80億 | 68.4% | 62.2% | 16GB(量子化時6GB) |
| Llama 3 70B | 700億 | 82.0% | 81.7% | 140GB(量子化時40GB) |
| Llama 3 405B | 4050億 | 88.6% | 89.0% | 810GB |
| GPT-4o | 非公開 | 87.2% | 90.2% | API利用 |
| GPT-3.5 Turbo | 非公開 | 70.0% | 48.1% | API利用 |
ローカル環境でのデプロイ
Llama 3の大きな魅力の一つが、自分の環境で動かせることです。データを外部のAPIに送信する必要がないため、機密情報やプライバシーを完全に保護できます。
最も簡単にLlama 3を動かす方法は、Ollamaというツールを使うことです。Ollamaは、LLMをローカル環境で簡単に実行するためのアプリケーションで、macOS、Linux、Windowsに対応しています。インストール後、コマンド一つでLlama 3をダウンロード・実行できます。
量子化技術を使えば、必要なメモリを大幅に削減できます。GGUF形式のQ4_K_M量子化を適用すると、8Bモデルは約5GBのメモリで動作し、一般的なノートパソコンでも実行可能です。70Bモデルでも量子化により約40GBのメモリで動作するため、RTX 4090(24GB VRAM)2枚で運用できます。
より本格的な環境では、vLLMやtext-generation-inference(TGI)といった推論サーバーを使用することで、高スループットなAPIサーバーとして運用できます。複数のリクエストを効率的に処理できるため、社内向けのLLMサービスとして活用するのに適しています。
ファインチューニングとカスタマイズ
オープンソースモデルの最大の利点は、自由にファインチューニング(追加学習)ができることです。APIで利用するクローズドソースモデルでは不可能な、モデル重みの直接的なカスタマイズが可能です。
Llama 3のファインチューニングでは、LoRA(Low-Rank Adaptation)やQLoRAが広く使われています。これらの手法を使えば、少ないGPUメモリでも効率的にファインチューニングが可能です。8Bモデルであれば、RTX 4090一枚で十分にファインチューニングできます。
企業での活用例としては、社内文書に基づくQ&Aモデルの構築、業界特化の文書生成、コードレビューの自動化、多言語カスタマーサポートなど、自社のデータとニーズに合わせたカスタムモデルを構築できます。学習データが外部に送信されないため、機密データを使ったファインチューニングも安全に行えます。
Llama 3のライセンスと利用制限
Llama 3は、Meta Llama 3 Community Licenseの下で公開されています。このライセンスは商用利用を含む幅広い利用を許可していますが、いくつかの注意点があります。
最も重要な制限は、月間アクティブユーザー7億人を超えるサービスでの利用にはMetaからの個別許可が必要という点です。これは、超大規模プラットフォーム(Google、Microsoft等)がMetaの技術を無制限に利用することを防ぐための措置と考えられています。一般的な企業にとってはこの制限に該当することはほぼありません。
また、Llama 3で生成された出力を使って、Llama 3以外のLLMを学習させることは制限されています。しかし、自社のアプリケーションやサービスにLlama 3を組み込んで商用利用することは自由に行えます。
まとめ
Llama 3は、高性能なAIをオープンに利用可能にした画期的なモデルです。405Bモデルは最先端のクローズドモデルに匹敵する性能を持ち、8Bモデルでも一般的なPCで実行可能な手軽さがあります。データプライバシーの保護、ファインチューニングの自由度、ランニングコストの削減など、APIベースのクローズドモデルにはない多くの利点を持っています。
OllamaやvLLMなどのツールにより、ローカルでのデプロイも容易になっています。プライバシーを重視する企業や、AIのカスタマイズが必要な用途において、Llama 3は最適な選択肢の一つです。
| 項目 | 説明 |
|---|---|
| 開発元 | Meta(旧Facebook) |
| ライセンス | Meta Llama 3 Community License(商用利用可) |
| モデルサイズ | 8B, 70B, 405B |
| 主な利用方法 | Ollama, vLLM, Hugging Face Transformers |
| 強み | オープンソース、プライバシー保護、カスタマイズ自由 |
