生成AIには大きく分けていくつかの「系統」と「得意分野」があります。以下に代表的な種類を整理します。
1. 対話・文章生成系(LLM)
自然言語処理を得意とするAIで、文章や会話、要約、翻訳などが可能です。
- ChatGPT(OpenAI):汎用型。規制あり。
- Claude(Anthropic):長文要約・整理に強い。倫理規制はChatGPT並みに厳格。
- Gemini(Google DeepMind):検索との連携が強み。マルチモーダル対応。
- LLaMA(Meta):オープンソース系。用途に応じたカスタムが可能。
- Mistral, Falcon:軽量かつ高速なオープンソースLLM。
2. 画像生成系
テキストからイラスト・写真風画像を生成。スタイル指定が得意。
- Stable Diffusion(Stability AI):オープンソース。制限が少なく、カスタマイズ可能。
- Midjourney:芸術性・イラストに強い。Web UI中心。規制あり(過激表現は不可)。
- DALL·E(OpenAI):自然な合成が得意。ChatGPTと統合。規制は比較的厳格。
3. 動画生成系
数秒〜数分の動画を生成可能。
- Runway Gen-2:テキストや画像から短い動画を生成。
- Pika Labs:アニメ調・映像表現に強い。
- Sora(OpenAI):長尺動画に対応予定。公開制限あり。
- Kaiber:音楽に合わせた映像生成などに対応。
4. 音声・歌声生成系
音声合成・変換を専門とするモデル。
- VALL-E(Microsoft):短いサンプルから声質を模倣可能。
- ElevenLabs:自然な読み上げ音声。日本語対応。
- RVC(Retrieval-based Voice Conversion):歌声変換が可能。
5. マルチモーダル(総合型)
文章・画像・音声・動画を横断的に扱う。
- GPT-4o(OpenAI):音声・画像・テキストをシームレスに扱える。
- Gemini Advanced:Google検索や画像認識と連動。
6. 要約・変換特化
動画や文章を整理・変換する用途に特化。
- Whisper(OpenAI):音声 → 文字起こし。
- AutoSub / WhisperX:動画字幕生成。
- Video to Doc系(例:Veed.io, Descript):動画をWordやPowerPoint風に要約。
- Otter.ai / Notta / Fireflies.ai:会議録音 → 要約。
7. 特殊分野向け
- 医学・研究系:PubMed GPT, BioGPT(医学論文対応)。
- プログラム生成:Code Llama, Copilot(GitHub)。
- NSFW/規制緩和モデル:NovelAI(イラスト・小説。規制緩め)、Stable Diffusionの派生モデル(例:Anything V5)。
✅ まとめ
- 文章中心:ChatGPT / Claude / Gemini
- イラスト:Stable Diffusion / Midjourney
- 動画:Runway / Pika / Sora
- 音声:ElevenLabs / VALL-E / RVC
- 要約・整理:Whisper / Otter.ai
- 規制緩和型:Stable Diffusion系派生、NovelAI