生成AIの種類

生成AIには大きく分けていくつかの「系統」と「得意分野」があります。以下に代表的な種類を整理します。

目次

1. 対話・文章生成系（LLM）
2. 画像生成系
3. 動画生成系
4. 音声・歌声生成系
5. マルチモーダル（総合型）
6. 要約・変換特化
7. 特殊分野向け

1. 対話・文章生成系（LLM）

自然言語処理を得意とするAIで、文章や会話、要約、翻訳などが可能です。

ChatGPT（OpenAI）：汎用型。規制あり。
Claude（Anthropic）：長文要約・整理に強い。倫理規制はChatGPT並みに厳格。
Gemini（Google DeepMind）：検索との連携が強み。マルチモーダル対応。
LLaMA（Meta）：オープンソース系。用途に応じたカスタムが可能。
Mistral, Falcon：軽量かつ高速なオープンソースLLM。

2. 画像生成系

テキストからイラスト・写真風画像を生成。スタイル指定が得意。

Stable Diffusion（Stability AI）：オープンソース。制限が少なく、カスタマイズ可能。
Midjourney：芸術性・イラストに強い。Web UI中心。規制あり（過激表現は不可）。
DALL·E（OpenAI）：自然な合成が得意。ChatGPTと統合。規制は比較的厳格。

3. 動画生成系

数秒〜数分の動画を生成可能。

Runway Gen-2：テキストや画像から短い動画を生成。
Pika Labs：アニメ調・映像表現に強い。
Sora（OpenAI）：長尺動画に対応予定。公開制限あり。
Kaiber：音楽に合わせた映像生成などに対応。

4. 音声・歌声生成系

音声合成・変換を専門とするモデル。

VALL-E（Microsoft）：短いサンプルから声質を模倣可能。
ElevenLabs：自然な読み上げ音声。日本語対応。
RVC（Retrieval-based Voice Conversion）：歌声変換が可能。

5. マルチモーダル（総合型）

文章・画像・音声・動画を横断的に扱う。

GPT-4o（OpenAI）：音声・画像・テキストをシームレスに扱える。
Gemini Advanced：Google検索や画像認識と連動。

6. 要約・変換特化

動画や文章を整理・変換する用途に特化。

Whisper（OpenAI）：音声 → 文字起こし。
AutoSub / WhisperX：動画字幕生成。
Video to Doc系（例：Veed.io, Descript）：動画をWordやPowerPoint風に要約。
Otter.ai / Notta / Fireflies.ai：会議録音 → 要約。

7. 特殊分野向け

医学・研究系：PubMed GPT, BioGPT（医学論文対応）。
プログラム生成：Code Llama, Copilot（GitHub）。
NSFW/規制緩和モデル：NovelAI（イラスト・小説。規制緩め）、Stable Diffusionの派生モデル（例：Anything V5）。

✅ まとめ

文章中心：ChatGPT / Claude / Gemini
イラスト：Stable Diffusion / Midjourney
動画：Runway / Pika / Sora
音声：ElevenLabs / VALL-E / RVC
要約・整理：Whisper / Otter.ai
規制緩和型：Stable Diffusion系派生、NovelAI