生成AIの種類

生成AIには大きく分けていくつかの「系統」と「得意分野」があります。以下に代表的な種類を整理します。


1. 対話・文章生成系(LLM)

自然言語処理を得意とするAIで、文章や会話、要約、翻訳などが可能です。

  • ChatGPT(OpenAI):汎用型。規制あり。
  • Claude(Anthropic):長文要約・整理に強い。倫理規制はChatGPT並みに厳格。
  • Gemini(Google DeepMind):検索との連携が強み。マルチモーダル対応。
  • LLaMA(Meta):オープンソース系。用途に応じたカスタムが可能。
  • Mistral, Falcon:軽量かつ高速なオープンソースLLM。

2. 画像生成系

テキストからイラスト・写真風画像を生成。スタイル指定が得意。

  • Stable Diffusion(Stability AI):オープンソース。制限が少なく、カスタマイズ可能。
  • Midjourney:芸術性・イラストに強い。Web UI中心。規制あり(過激表現は不可)。
  • DALL·E(OpenAI):自然な合成が得意。ChatGPTと統合。規制は比較的厳格。

3. 動画生成系

数秒〜数分の動画を生成可能。

  • Runway Gen-2:テキストや画像から短い動画を生成。
  • Pika Labs:アニメ調・映像表現に強い。
  • Sora(OpenAI):長尺動画に対応予定。公開制限あり。
  • Kaiber:音楽に合わせた映像生成などに対応。

4. 音声・歌声生成系

音声合成・変換を専門とするモデル。

  • VALL-E(Microsoft):短いサンプルから声質を模倣可能。
  • ElevenLabs:自然な読み上げ音声。日本語対応。
  • RVC(Retrieval-based Voice Conversion):歌声変換が可能。

5. マルチモーダル(総合型)

文章・画像・音声・動画を横断的に扱う。

  • GPT-4o(OpenAI):音声・画像・テキストをシームレスに扱える。
  • Gemini Advanced:Google検索や画像認識と連動。

6. 要約・変換特化

動画や文章を整理・変換する用途に特化。

  • Whisper(OpenAI):音声 → 文字起こし。
  • AutoSub / WhisperX:動画字幕生成。
  • Video to Doc系(例:Veed.io, Descript):動画をWordやPowerPoint風に要約。
  • Otter.ai / Notta / Fireflies.ai:会議録音 → 要約。

7. 特殊分野向け

  • 医学・研究系:PubMed GPT, BioGPT(医学論文対応)。
  • プログラム生成:Code Llama, Copilot(GitHub)。
  • NSFW/規制緩和モデル:NovelAI(イラスト・小説。規制緩め)、Stable Diffusionの派生モデル(例:Anything V5)。

まとめ

  • 文章中心:ChatGPT / Claude / Gemini
  • イラスト:Stable Diffusion / Midjourney
  • 動画:Runway / Pika / Sora
  • 音声:ElevenLabs / VALL-E / RVC
  • 要約・整理:Whisper / Otter.ai
  • 規制緩和型:Stable Diffusion系派生、NovelAI