用語説明(人工知能分野)
- 人工知能(AI)
人工知能(AI)は,コンピュータが人間のような知的能力を持つことを目指す技術である.AIは24時間365日稼働可能で大量データの高速処理や細かいパターンの検出,反復作業の効率化に優れている.AIは私たちの生活や仕事を大きく変革する可能性を持ち,多様な分野で活用されている.医療診断,創薬,金融のリスク分析,自動取引,製造の品質管理,AI農業など,幅広い応用がある.
- AIの応用分野
AIの応用例には,言語処理,画像認識,データ分析,自動化などがある.言語処理では対話AI(チャットボット)や自動翻訳サービスが実用化されている.画像認識は自動運転車の障害物検知やセキュリティシステムに利用される.データ分析では顧客行動予測などが可能となり,自動化では工場の最適化やスマートホームの実現に貢献している.
- 機械学習
機械学習は,コンピュータがデータを使用して学習することにより知的能力を向上させる技術である.データ内のパターンや関係性を自動で抽出し,人間が設定しなければならなかったルールを自動生成する能力を持つ.情報の抽出,簡潔さ,限界の超越が特徴である.訓練データを用いて学習し,その結果として知的能力が向上する.画像理解,自然言語処理,予測など多数の分野で応用されている.
- 訓練データ
訓練データは,機械学習において学習に使用される大量のデータセットである.例えば,画像分類タスクでは,多数の分類済み画像が訓練データとして使用される.訓練データの品質や量が,機械学習モデルの性能に大きな影響を与える.
- 教師なし学習
教師なし学習は,ラベル(正解データ)のないデータを使用して,パターン,構造,隠れた特徴や関係性を見つける機械学習の手法である.教師あり学習(正解データを用いて学習を行う手法)と異なり,ラベルなしに学習を行う.人間が気づいていない複雑なパターンを発見する可能性がある.例として,顧客の購買パターン分析や異常検知システムがある.
- ニューラルネットワーク
ニューラルネットワークは,生物の神経回路を模倣した情報処理モデルである.多数のニューロン(情報を処理する単位)が相互に結合し,データの受け取り,処理,伝達を行う構造を持つ.
- ディープニューラルネットワーク
ディープニューラルネットワークは,多層構造を持つ人工知能のモデルである.データから特徴を学習し,複雑なタスクを実行することができる.
- ディープラーニング
ディープラーニングは,多層のニューラルネットワークを使用する機械学習手法である.画像認識や自然言語処理など幅広い分野で高い性能を発揮し,層を深くすることで複雑なパターンの学習が可能である.
- 学習済みモデル
学習済みモデルは,大規模データセットで事前に学習された深層学習モデルである.コスト削減や高性能化が図れ,転移学習(既存の学習済みモデルを新しい課題に適用する手法)やファインチューニング(事前学習済みのモデルを特定の課題用に微調整すること)によって異なるタスクへの適用も可能である.
- 特徴抽出
特徴抽出は,生のデータから有用な情報や特徴を抽出する過程である.機械学習モデルの性能向上や効率的な学習を可能にする重要な前処理ステップである.
- パターン認識
パターン認識は,データ内の規則性や特徴的な構造を識別する技術である.機械学習において,画像認識,音声認識,自然言語処理などの分野で広く応用されている.
- 画像生成AI
画像生成AIは,教師なし学習の発展形であり,複雑なパターンの学習と生成を行う.主にVAE(変分オートエンコーダー:データの特徴を学習し新しいデータを生成できる機械学習モデル)やGANs(敵対的生成ネットワーク)を使用する.創造的なAI応用の基盤技術であり,アート(スタイル変換,新しい芸術作品の創造),ファッション(新しいデザインの生成),製薬(新薬候補分子の設計)など,様々な分野で応用されている.
- GAN(生成型敵対ネットワーク)
GANは,生成器と識別器という2つのニューラルネットワークが相互に競合しながら学習する構造である.生成器は実際には存在しないがリアルな画像を生成し,識別器はその画像が本物か偽物かを判別する.この相互作用により,両者の能力が向上していく仕組みである.
- 画像分類
画像分類は,画像内に何があるかを識別し,ラベルと確率として結果を出力する技術である.画像全体を評価して,存在する物体やシーンを特定のカテゴリに分類する.
- 物体検出
物体検出は,画像内の物体の種類を識別するとともに,その場所と大きさも特定する技術である.バウンディングボックス(検出した物体を囲む矩形)を用いて物体の位置と範囲を示し,各物体にラベルを付与する.
- 顔ランドマーク
顔ランドマークは,顔の重要な特徴点(目,鼻,口など)の位置を示すポイントである.68個のランドマークを使用して顔の特徴を詳細に記述することができる.
- 顔の数値化
顔の数値化は,顔の特徴を複数の数値(通常100以上)で表現する技術である.顔による本人確認や顔認識のための基礎データとして使用される.
- 感情認識
感情認識は,顔の表情から感情を推定する技術である.喜び,悲しみ,驚き,怒り,恐怖,嫌悪などの感情をディープラーニングと顔ランドマークを用いて判定する.
- 姿勢推定
姿勢推定は,人間の全身,頭部,およびその他のオブジェクトの位置と方向を推定する技術である.画像やビデオから特徴点を検出し,対象の姿勢を解析することで,監視,セキュリティ,エンターテイメント,医療など幅広い分野で活用されている.
- キーポイント
キーポイントは,姿勢推定において人体の特徴となる点のことである.YOLOv8-pose(高速な物体検出と姿勢推定が可能な深層学習モデル)では25個の点が定められており,これらの点の位置を特定し結びつけることで人間の全身の姿勢を推定する基礎となる.
- YOLOv8-pose
YOLOv8-pose(You Only Look Once version 8 pose)は,リアルタイムで人物の姿勢を検出し,主要な体の部位の位置(キーポイント)を抽出する深層学習モデルである.
- 動作認識
動作認識は,動画内の人物や物体の動きを分析し,特定のアクションや行動を識別する技術である.スポーツ分析,監視システム,ヒューマンコンピュータインタラクション(人間とコンピュータの相互作用)などに応用されている.
- COCOデータセット
COCOデータセット(Common Objects in Context)は,画像データ,人体のランドマーク,人体姿勢のデータである.ラベル付け済みの画像数は200,000以上であり,オブジェクトのクラス数は80,ランドマークには左目,鼻,右腰,右足首などの17のキーポイントがある.
- 自然言語処理
自然言語処理は,人間が日常的に使用する言語をコンピュータが理解し生成する技術である.情報検索,翻訳,要約,AIとの対話など幅広い応用がある.特に語の類似性を扱う課題に重点が置かれており,単語の意味的な関係性を数値的に表現することが重要である.
- チャットボット
チャットボットは,人間との対話形式でコミュニケーションを行うAIシステムである.翻訳,校正,リサーチ支援,要約,プログラミング支援など幅広い用途に活用され,24時間利用可能で即時対応が可能である.ただし,不正確な情報を提供する可能性があることに注意が必要である.
- 大規模言語モデル(LLM)
大規模言語モデル(Large Language Model)は,膨大なテキストデータ用いた学習を行い,自然言語処理の高い能力を目指すモデルである.例えば,人間のような自然な文章を扱うチャットボットを実現する.最近では,言語に限定せずマルチモーダル(テキスト,画像,音声など複数の形式のデータを扱える)な機能を持つLLMが登場している.
- プロンプト
プロンプトは,チャットボットへの質問や要求を明確かつ具体的に記述したものである.解決したい問題と必要な追加データを含め,AIからより適切な回答を得るために重要な役割を果たす.以前の対話に対する追加要求や明確化の要求なども,プロンプトとして与えることができる.
- プロンプトエンジニアリング
プロンプトエンジニアリングは,AIから望ましい出力を得るために,AIに与えるプロンプトを工夫・改善する技術である.
- LLMのAPI
LLMのAPI(Application Programming Interface:プログラム同士が情報をやり取りするための仕様や規約)は,大規模言語モデルの機能をプログラムから利用できるようにするインターフェースである.開発者はAPIを通じてLLMの機能を自分のアプリケーションに組み込むことができる.
- 文書合成
文書合成は,AIが人間の指示に基づいて文書を作成したり推敲したりする技術である.データ分析結果のレポート作成やプログラムのコード生成,文章の要約など,様々な種類の文書を生成することができる.人間の作業を効率化し,より質の高い文書作成を支援する.
- 画質改善
画質改善は,AIを使用して画像の品質を向上させる技術である.暗い画像を明るく調整したり,ノイズ(画像に含まれる不要な情報)を除去したりすることで,より見やすい画像に改善することができる.
- 画像編集
画像編集は,AIを使用して既存の画像を加工・修正する技術である.人物の髪型を変更したり,服の色を変更したりといった編集を,プロンプトによる指示で実行することができる.
- TTS(Text-to-Speech)
TTSは,テキストから音声を合成する技術である.自然な抑揚,個性を持った音声の音声合成が可能になっている.
- AIの正確性
AIの正確性について,チャットボットの回答は必ずしも正確ではないため,注意が必要である.提供される情報は参考にとどめ,他の信頼性の高い情報源で確認する必要がある.回答を鵜呑みにせず,根拠を確認することが重要である.
- AIコンテンツの権利
AIコンテンツの権利は,AI生成コンテンツの著作権や利用に関する考え方である.AIが作成したものでも,それを活用するのは人間であり,創作活動の補助ツールとしての位置づけが適切である.
- ChatGPT
ChatGPTは,大規模言語モデルを用いたAIツールである.
- Stable Diffusion 3.5
Stable Diffusion 3.5は,最新の画像生成AIサービスである.動画作成において,キャラクターの一貫性を保った映像生成が課題となっている.
- InsightFace
InsightFaceは,顔認識や表情認識を行うことができるPythonベース(プログラミング言語Pythonで開発された)の画像認識技術である.
- Canva
Canvaは,オンラインデザインツールである.生成したテキストとイラストを組み合わせて,PDF形式ファイルを作成することができる.
- YOLOv8-pose
AI姿勢推定モデルの一つである.姿勢推定を行うことができ、その結果はLLMを用いて解析することで指差しやじゃんけんなどの動作認識に活用できる。
- VREW
音声認識,字幕作成,音声合成が可能な動画編集ツールである.実用的な説明動画の作成に活用することができる.