生成AIって用語多くない?
使ってみたいけど、何を言ってるのかわからないなあ…
そんな人に向けて、この記事では生成AIに関する用語をわかりやすく解説しました
生成AIの用語だけでなく、関連するAIの基本用語についても解説しているので、ぜひ最後までご覧ください
- AIに興味がある人
- 生成AIを使ったことがない人
- AIの用語をまとめて知りたい人
-基礎編- まずはこの言葉から 5選
今までAIにふれたことがない人は、まずこちらの5つの言葉を確認しておきましょう
生成AI
文章や画像、音声などのコンテンツを生成してくれるAIのことです
ChatGPTは、代表的な生成AIです
従来のAIに比べ、専門知識がなくても簡単に利用できます
下記に、代表的な生成AIのサービスをまとめました
テキスト生成系 | 画像生成系 | 音楽生成系 | 動画生成系 |
---|---|---|---|
ChatGPT Claude Gemini | Stable Diffusion Midjourney SeaArt | Suno AI Music LM | Sora Runway |
上の表の言葉聞いたことあったけど
生成AIサービスの話をしてたんだね!
まずは、ぜひ生成したいコンテンツの生成AIを使ってみましょう!
プロンプト
AIや生成AIに与える指示文のことです
例えば、具体的には下記のような文です
- この文章を要約して
- この英語の文章を翻訳して
- テトリスのゲームが作りたいから、コードを書いて
生成AIをうまく使いこなせるかどうかは、プロンプトが全て左右していると言っても過言ではありません
プロンプトによって、出力の精度は大きく変わります
また、プロンプトを書く技術をプロンプトエンジニアリングといいます
名付けされていることからもプロンプトの重要性がうかがえます
プログラミングが難しいと感じる人は多いでしょう
でも、プロンプトはそのまま会話をするように日本語で書けます
プロンプトエンジニアリングはあなたにもできるのです!
チャットボット
テキストや音声でコミュニケーションしてくれる自動応答プログラムのことです
名前の通り、「チャット(会話)」と「ボット(ロボット)」を組み合わせた言葉ですね
AI非搭載型のものと、AI搭載型のものがあります
- AI非搭載型チャットボット
- シナリオ型・ルールベース型: 事前に設定されたシナリオやルールに基づいて応答する
- 機能:ユーザーが選択肢から選ぶ形式や、特定の質問に対してのみ自動的に回答する
- 特徴:学習能力がなく、複雑な質問には非対応
- 具体例:カスタマーサポートの窓口、LINEの公式アカウントなど
- AI搭載型チャットボット
- 機械学習型:過去の会話やデータから学習し、より柔軟で自然な応答ができる
- 機能:複雑な質問や多様な問い合わせに対応でき、ユーザーの自由な入力に対しても応答できる
- 特徴:利用頻度が増すほど精度が向上し、様々な表現や言い回しにも対応できるようになる
- 具体例:ChatGPT、Claude、Perplexityなど
多機能で柔軟な対応ができる搭載型の方がよくない?
運用コストや統一性、一貫性という面で非搭載型が適している場面も多いんだよ!
生成AI以外のところでも活用されていることを覚えておきましょう
ディープフェイク
AIを使って、本物そっくりの架空の画像や動画、音声をつくる技術のことです
ディープラーニング*とフェイクからきた造語になります
*ディープラーニングとは、大量のデータを学習する機械学習の名前です。人間の脳の神経細胞を模倣した技術で、人間の指示がなくてもAI自身が注目すべき特徴を見つけ出し、データを識別できるようになります
人の顔や声をかなりリアルに模倣することができます
ディープフェイクは、広告の映像や映画などの動画コンテンツ制作などで幅広く使われています
本物そっくり過ぎて虚偽情報の創出及び拡散や詐欺、名誉毀損、プライバシーの侵害などが問題視されています
あなたが見たことのある映像の人は本物ですか?
本当に存在していますか?
AIによる創作物かどうか見分けがつかなくなるような時代がもう来ています
ハルシネーション
AIが、事実に基づかない虚偽の情報をもっともらしく生成してしまう現象のことです
英語の幻覚(Hallucination)からきています
本来は「幻覚」や「幻聴」を意味する医学・心理学用語みたい!
特に会話型の生成AIでよくみられます
生成AIの回答内容は、しっかりチェックすることが大切といわれる理由です
ハルシネーションをあらかじめ防ぐためのプロンプトを見出すことも大切です
ハルシネーションについては、「ハルシネーション対策法」の記事でくわしく解説しています
-中級編- AIをさらに使いこなしたい人向け 5選
AIを使い始めると、ゆくゆくは気になってくる言葉たちです
AIをさらに知りたい人は、ぜひ確認しておきましょう
トークン
ChatGPTなどの生成AIに入力するテキストを一つの意味のあるまとまり(最小単位)に分けたものです
例えば、ChatGPTでは英語の場合、1単語≒1トークンといわれています
日本語の場合のトークン数は、ひらがなか漢字かによっても異なるようです
おおよそ1文字≒1~3トークンとされています
トークンは、生成AIの出入力できる文字数の指標として用いられているのをよく見かけます
下の画像は、Claude Pro(有料版)の処理できるトークンを示しています
マルチモーダル
AIシステムが複数の種類のデータ(モダリティ)を同時に処理し、統合的に理解・生成する能力のことです
テキスト、画像、音声、動画など異なる情報をインプットすることができます
- 医療診断:画像診断と患者の病歴データの統合
- 自動運転:視覚情報と音声情報の組み合わせ
- 生成AI:テキスト、コード、画像、動画、音声の入出力
より人間に近い形での情報処理能力を実現できる機能として注目されています
ナレッジ
AIが保持、活用する知識や情報のことです
英語の知識(Knowledge)からきています
AI以外のところでも、ビジネス用語などとして使われている言葉でもあります
生成AIにおいては、参考テキストの資料として読み込ませるPDFファイルなどをナレッジと呼んだりします
生成AIが読み込ませる形にすることをナレッジ化と言ったりもします
筆者は、Claudeでナレッジを読み込ませて使っているよ!
参考資料の文体や構成、文字量など参考にして記事や台本を書かせるといったことができます
LLM(大規模言語モデル)
LLM(Large Language Model)は、膨大なテキストデータと高度なディープラーニング技術で構築されたNLP*(自然言語処理)のモデルのことです
*NLP(Natural Language Processing)は、人間の言語をコンピュータが理解し処理できるようにする技術分野です
LLMは、ChatGPTを筆頭にほとんどの生成AIサービスに使われている技術です
何がなんだかわからなくなってきたよ…
NLPの分野のモデルがLLMで、
ChatGPTなどの生成AIにLLMが使われているよ!
LLMは大量のテキストデータを持ったAIのモデルなんだというくらいの認識で大丈夫だよ!
LLMには、大量の文章のパターンや言語の特徴がインプットされています
そのため、従来のモデルより計算量やデータ量、パラメータ数が大幅に増えているのが特徴です
人間とAIのコミュニケーションを大きく進歩させる技術として注目されています
ファインチューニング
すでに学習済みの AI モデルを、新しい特定のタスクや領域に合わせて調整する技術のことです
学習済みの生成AIのモデルに、新しいデータセットで再トレーニングさせます
そうすることで、モデル自体をある目的に特化したオリジナルにすることができます
- 少量のデータでも高い性能を得られる
- ゼロからのモデル構築が不要のため、コストとリソースを節約できる
- 特定の分野やタスクに対して、高い精度の回答が得られる
-上級編- AIを本格的に仕事や業務で使う人向け 5選
上級者向けの言葉です
アルファベットの羅列が多いので、最初は戸惑うかもしれません
初心者の方はこのような概念があるんだ
くらいの認識で大丈夫だよ!
LoRA
大規模な事前学習済みモデルを効率的にファインチューニングするための技術のことです
Low-Rank Adaptation(低ランク適応*)の略語です
*AIには、内部的な仕組みとして数学的な行列が使われています。そこに、低ランクの行列を追加することからきています
主に画像生成AIの分野で活用されています
画像生成AIサービスを利用すると、「LoRA」という欄を目にすることもあると思います
- 同じ見た目のキャラクターを違うポーズで生成
- 特定のアートスタイルの模倣
- チャットボットの応対を自社仕様にカスタマイズ
- コスト効率の向上:少ないリソースで大規模モデルを運用できる
- メモリ効率の向上:GPUメモリなどのメモリ使用量が大幅に削減される
- 柔軟な適応:特定のスタイルやタスクに特化させて対応できる
- 高速なトレーニング:学習するパラメータ数が少ないため、トレーニング時間が短い
- モデルの再利用性向上:モデル全体の再トレーニングが不要で、追加トレーニングだけで済む
RAG
RAG(Retrieval-Augmented Generation)とは、LLMによるテキスト生成する際に、外部情報を検索させることで回答精度の向上を図る技術のことです
日本語では、「検索拡張生成」、「取得拡張生成」のように表現されます
自社データを組み込み、自社のデータベースから情報を検索して回答させるといったこともできます
- 信頼性の向上:回答の正確性が上がる
- 最新情報の出力:モデルのトレーニングデータ以降の情報にもアクセスできる
- 虚偽情報生成の抑制:ハルシネーションのリスクが下がる
より高度で信頼性の高いAIシステムの構築ができる重要な技術として注目されています
GAN
GAN(Generative Adversarial Networks)とは、2種類のニューラルネットワークを競わせながらAIのデータ学習を進める機械学習の手法のことです
日本語では、敵対的生成ネットワークといいます
主に画像生成の分野で語られることが多い用語です
- Generator (生成器):偽のデータを生成
- Discriminator (識別器):本物のデータと偽のデータを識別
Generatorが偽のデータを生成し、Discriminatorがそれを本物か偽物か判断します
この2つが競争しながら学習し、結果的にはGeneratorが本物そっくりのデータを生成できるようになるのです
この関係性は、よく紙幣の偽造に例えられます
偽造者(Generator)は本物に近い偽札を作ろうとし、警官(Discriminator)は偽札を見分ける
すると偽造者は、より精巧な偽札を作り出すようになる
このイタチごっこを繰り返して、生成技術が向上していくんですね
- 画像生成
- 画像の高解像度化
- 映画やゲーム、バーチャルYoutuberのキャラ生成
- 写真をイラスト風に変換
- 人物の動きのシンクロ
結構身近なところで使われてる技術なんだね!
VAE
VAE(variational autoencoder)とは、データの特徴を効率的に学習し、似たようなデータを生成できる機械学習の手法のことです
日本語では、変分オートエンコーダといいます
GANと同様、主に画像生成の分野で語られることが多い用語です
- エンコーダ:学習する画像データを特徴的な部分に絞って圧縮
- デコーダ:圧縮されたデータから元のデータを再構築して新しい画像を生成
GANとどこが違うの?
GANとの主な違いを下記にまとめました
GAN (敵対的生成ネットワーク) | VAE (変分オートエンコーダ) | |
---|---|---|
仕組み | 2つのAIが競争しながら学習する | 1つのAIがデータを圧縮・再現する |
たとえると | 贋作者と鑑定士の勝負 | 要約と復元の練習 |
目標 | 本物そっくりの偽物を作る | データの特徴を学び、復元する |
得意なこと | リアルな画像や音声の生成 | データの圧縮や特徴の抽出 |
苦手なこと | 学習が不安定になりがち | 少しぼやけた結果になりがち |
主な使い道 | 新しい芸術作品の創造 現実的な顔画像の生成 | データの分析や異常検知 似た特徴を持つデータの生成 |
学習の様子 | 2つのAIが切磋琢磨して上達 | 1つのAIが試行錯誤しながら改善 |
結果の特徴 | 鮮明だが予測不可能 | 安定しているが少しぼやける |
- 画像生成
- 画像の高解像度化
- 画像の圧縮と復元
- データの異常・不正検知
- 音声合成
GANとVAEの活用例には重複している部分も多いです
それぞれメリットとデメリットがあり、より適した用途があります
また、GANとVAEを組み合わせた手法も開発されており、お互いの長所を活かした応用が進んでいます
プロンプトインジェクション
AIチャットボットやLLM(大規模言語モデル)に対する攻撃手法の一つです
AIに特殊な指示や質問を入力し、本来非公開の機密情報やデータを引き出すサイバー攻撃です
MicrosoftのBing Chatで、通常非公開の初期プロンプトが暴露されたような事例も存在します
2023年2月、米国の大学生がマイクロソフト社のBingチャットの内部情報(開発用コードネームや非公開の行動指針)を引き出すことに成功している
プロンプトインジェクションは、AIシステムの根本的な仕組みを利用した攻撃です
そのため、完全な防御が難しい課題となっています
AIの普及に伴い、この脆弱性への対策がかなり重要視されています
まとめ
AIは、これからの世界で間違いなく中心的な存在となります
インターネットが普及したときのような、もしくはそれ以上のゲームチェンジャーとなりうる存在です
用語や仕組みを理解しておくことで、周りよりも一歩リードした状態になれるでしょう
「AIに仕事が奪われる?AIのおかげで食べていけてるよ」
と自信満々に言えるよう、今から準備しておきましょう
コメント