2023年度 金子邦彦研究室 サポートページ

本ページは、金子邦彦研究室に所属する学生(情報工学演習II受講生および卒業研究生)を対象としたサポートページである。

対象科目

目次


共通事項

研究テーマ(プロジェクト)

AI、データサイエンス、3次元処理を軸に、実社会の課題解決を目指す。以下のテーマから、興味と適性に合わせて選ぶ。

  1. 斜め画像の画像理解とAI利用(ドライブレコーダー等の斜め画像の認識精度改善)
  2. 低品質ビデオの画像理解(手振れ・振動のある映像の補正と解析)
  3. 植生変化観測とAI利用(航空写真等を用いた変化量の数値化・定点観測)
  4. ネットワークカメラシステムと顔情報処理(エッジAIによる人流カウント・顔認証)
  5. 自動翻訳・音声翻訳システム(Whisper/ChatGPT APIを用いた対話システム構築)
  6. 3次元姿勢データベースとAI活用(ポーズ撮影とAI姿勢推定、Blenderによる再現)
  7. 3次元デジタルアーカイブ「福山の再現」(観光名所の3次元化と自動化プロセスの構築)

質問方法

対面またはメールで質問できる。

金子邦彦(かねこ くにひこ) email_icon

研究室関連資料


情報工学演習II(3年生向け)

演習の位置づけ

「情報工学演習II」は、4年次の卒業研究およびエンジニアとしてのキャリアを見据え、「与えられた問題を解く」段階から「自ら課題を見つけ、解決する」段階へシフトするためのトレーニング期間である。

活動の基本情報

Web資料(メインページ)

演習の資料は以下のWebサイトで公開している。ブックマークしておくこと。

URL: https://www.kkaneko.jp/a/2023.html

【アクセス制限について】

大学の無線LANからはアクセスできない。自宅などの学外ネットワーク、または学内の有線LAN接続PCからアクセスすること。

課題提出先(セレッソ)

課題は「金子邦彦研究室」のレポート機能で提出する。

URL: https://cerezo.fukuyama-u.ac.jp/ct/course_1001435_queryadm_examlist

実施概要

学習リソースと演習内容

本演習では、Google Colaboratory(ブラウザ上でPythonを実行できる環境)や各種ツールを使用する。以下のリンクから教材やコードにアクセスし、実際に手を動かして学ぶ。

【前半】AI・データサイエンス基礎(Google Colab)

環境構築不要でPythonとAIを動かす。

【中盤】セグメンテーション(画像認識の応用)

セグメンテーションとは、画像内の各ピクセルを分類し、物体の領域を特定する技術である。

【後半】3次元処理・CG制作(要インストール)

高性能なPC推奨。インストールや撮影は各自で行う。

【自主学習】Pythonプログラミング詳細資料

プログラミングの基礎を深く学びたい場合は、以下の資料を活用する。

https://www.kkaneko.jp/pro/po/index.html

成績評価(GPA基準)

定期試験は行わず、毎回の課題(小テスト・レポート)で評価する。課題に取り組むことで、専門スキルが身につき、就職活動でアピールできる実績となる。

締め切り: 原則1週間以内

今後のスケジュール(就職活動・進学準備)

3年次の2月・3月は、キャリア形成において重要な時期である。

就職・進学に向けた準備

本演習での経験を「ガクチカ(学生時代に力を入れたこと)」として語れるよう整理しておくこと。面接で具体的な実績を説明できることが、採用につながる。

到達目標

この演習を通して、以下の状態を目指す。


卒業研究(4年生向け)

受講準備

研究室のパソコンを使用する。

自身のパソコンで研究する場合は、下記のページを参考にセットアップする。興味のある学生は挑戦を推奨する。

https://www.kkaneko.jp/tools/win/tools.html

集合時間

火曜日の10時50分、木曜日の10時50分。

(学生のみの活動となる場合がある)

受講上の注意

  1. 中間発表(7月予定)、学会発表準備と発表(7月、10月、1〜2月)、卒論提出(12月予定)、卒論プレゼン(12月予定)を予定する。
  2. 課題:集合時に指示する。

    自主的な調査・学習と、実験手順・実験結果・考察を根拠やデータとともに説明する活動を重視する。

    集合してミーティング等を行った後、各自で自主活動を行う。活動時間は2〜3時間以上を目安とする。集合時間以外でも自主的に登校する場合がある。必要に応じて、集合時間以外の登校を求める場合がある。欠席した場合は自身で補うか、教員と相談のうえ補充する。卒業論文では公認欠席の考え方は採用しない。

  3. 出欠は、教員が様子を確認している。
  4. 進路指導や連絡のため、学生に電子メールで連絡することがある。
  5. 成績評価

    日頃の登校しての活動状況、中間発表、学会発表準備と発表、卒論提出、卒論プレゼンなどから判断する。

    卒業研究の評価は、他の授業とは異なる。研究を楽しみ、熱中し、自主的に取り組み、自立することが大切である。成長できたか、基本的なルール(卒業論文のプレゼンの制限時間、中間発表や卒業論文の分量、書き方、締め切り、内容についてのルール)を守ったかが評価の対象となる。

    GPAスコア(学業成績評価指標の一つ)2の目安

    登校してのグループ活動に問題がない。自主的に調査し、実験計画を立て、実験し、工夫を行っている。修得できた専門知識、使用している技術(アルゴリズムや仕組み)の説明、実験手順の説明、行った工夫について、他の教員に説明でき、質問に答えることができる。中間発表のポスターや卒業論文や卒業論文のプレゼンについては、分量や内容についてルールを守っている。卒業論文のプレゼンについては時間制限(4分50秒から5分10秒程度で発表を終えることを目安)を守ることができている。

    GPAスコア4の目安

    次の点で優れていること。

    • 専門知識:専門的な知識や技術を、自主的に学んでいる。仲間に教えたり、仲間から教わったりしている。
    • 調査・分析能力:直面した課題について、関連する情報を収集しながら、解決に取り組んでいる。困ったときは仲間や教員に相談している。
    • プログラミング:研究で使用するプログラムについて、工夫ができる。そのためにPython言語(汎用プログラミング言語)の理解と、実践能力の成長に意欲的である。
    • マネジメント:宿題などは早めに終えて余裕を持ち、時間を有効に活用している。締め切り前には確認したり、教員に前もって質問したりなどで、ミスを減らすように努力している。
    • コミュニケーション:仲間や教員に説明ができる。他の人とともに高めあうことができる。学会発表や、チーム内の意見交換(人の話を聞いたり、意見を言うことができる)に積極的である。
    • 問題解決能力:失敗してもあきらめずに、論理的に、実験結果や調査結果などを積み重ねながら、解決策を見つける。AI(人工知能)やデータベース(構造化された情報の集まり)の研究では、データのとり方を工夫したり、プログラム内の設定を工夫したり、プログラムのアルゴリズムを工夫したり、今までのやり方に固執せずに、別のやり方を試したりなどに、自律的に、意欲的に挑戦する。困ったときは、仲間や教員に助けてもらうことが大切である。研究で使っているプログラムについて、仕組みを理解しておくことも大切である。

授業計画

卒業研究の関連資料

フィードバック 10/11 の発表に対して

(10/18 については待っていてほしい)

学生の研究テーマは興味深く、多岐にわたる内容である。それぞれの研究がさらに進展することを期待する。

アドバイスは、研究力を高め、卒業研究の満足感を高めるためのものである。アドバイスの通りに研究する必要はなく、常に自身で考え行動し、楽しく研究することが大切である。研究の満足感を上げるためには、リサーチや実験を辛抱強く繰り返すことも大切である。

各自の発表のまとめも記載しているので、他の人の研究を知り参考にしたり、「自身の研究を分かりやすく発表したい」ときに活用すること。


毎回の活動記録

昨年の卒論ファイルのうち4名分:昨年の卒論ファイル(研究室のパソコンからアクセスできる)

Transformer(自然言語処理等で使われる深層学習モデル)を扱うプログラム:

https://colab.research.google.com/drive/1L9n5E0_BTRy1q0jE1I2xT3MTuSpceVSY?usp=sharing

1. 4/13 10:50- - 卒業研究開始とオリエンテーション

研究を開始する。卒業研究説明を行う。

【研究室の記事,資料】

【宿題の目的と注意点】

宿題】 1ヶ月間のテーマ選び

各自、テーマを選んで、メールで提出すること(締切: 火曜日まで)。

そして、次回の集まりで、自身で選んだテーマについて、他の仲間に説明すること(面白そう、やってみたいと思った理由。何の役に立ちそうか。なぜ、興味を持ったか)。

テーマ案

その他の重要事項

2. 4/18 10:50- - 研究テーマ選びとレポート作成

研究テーマ選びを考える。研究レポートの書き方。

チームワークの重要性: 各自がアウトプットする。チームワークが大切である。チーム内で、役割分担は行っても良い。そのために、チームメンバーの中で、スキル、得意分野などを把握し、活用することも考える。チーム内のコミュニケーション手段やツールも考える。

【各自のアウトプット】

テーマ選びと理由の明確化。アウトプットしやすい自身なりのやり方を自身で考察する。研究の意義や価値を意識する。

【今後1ヶ月間の活動のテーマ】

石原:「対話によるデータアクセス」、「3次元再構成」

小林:「画像理解」

曽根田:「3次元の福山市の再現」、「3次元再構成」

檀上:「未来予測、AI活用」

中村:「画像理解」

宮:「未来予測、変化要因の分析」

森井:「画像理解」

自身で選んだテーマについて、他の仲間に説明すること(面白そう、やってみたいと思った理由。何の役に立ちそうか。なぜ、興味を持ったか)。

【研究室の記事,資料】

宿題

3. 4/20 10:50- - 研究の基礎とPython活用

「研究」について知る。Python を活用する。

【各自のアウトプット】

研究テーマの調査について。次の資料のページ7から12の部分、PDFファイル, パワーポイントファイル(卒業研究のメリット、心構え)。

各自の研究テーマに関する調査を自身で行い、自身の興味関心を確認するという宿題であった。

各自、次の分野を踏まえ、口頭でアウトプットしてもらう。

各自の発表内容

石原:「対話によるデータアクセス」 チャットボット chatGPT を勉強してみたい。GPT-4(今年最新)。顧客からの問い合わせ対応や業務効率化。AI応用。福山大学の複雑な何かにこたえることができるチャットボットを作ってみたい。

小林:「画像理解」 画像理解。センシング。便利なのはいいが、AI の悪用が気になる。AI の誤作動を発生させるような攻撃があることを知り、AI の弱点を実験していきたい。

曽根田:「3次元の福山市の再現」、「3次元再構成」

檀上:「未来予測、AI活用」 未来予測。交通事故で役に立っている。自転車のヘルメットの義務化のニュースがあった、ヘルメットを要因として、事故の軽減の結果が得られる。世界のコンテストで交通事故関連のデータが公開されているらしいので、調べてみたい。面白そうである。

中村:「画像理解」 画像理解。画像の意味を理解する技術、物体検出(物体の位置や大きさを検出)、セグメンテーション(物体の境界や形)。画像理解は、周りの道路標識を理解するなどで、自動運転に役に立つ。自動運転について研究してみたい。

宮:「未来予測、変化要因の分析」 自身なりに考察、調査中である。

森井:「画像理解」 画像理解 画像分類、物体検出、セグメンテーションがある。CNN、Transformer などを利用。自動運転で活用されている。状況判断に利用。医療ではX線やMRIの解析に利用されている。まずは、画像理解の仕組みを知ること、画像のよる状況判断の仕組みを知ることから開始したい。

【研究室の記事,資料】

宿題

  1. この活動を受けて、各自、今後1ヶ月で何を行ってみたいかを考察する。音声認識、音声合成、AIの能力を知るか。物体検出してみるとき何を対象にするか。

    各自、いま、何を学び、何を作り上げてみたいか、何を体験してみたいのか、さらに詳しく話すことができるように準備(4月25日に各自、話してもらう)。各自のさらなる調査を希望する(1から2年以内の最新技術、関連する学問分野の知識、自身が体験してみたいこと、研究を通して社会に貢献する可能性について)。

  2. 研究室では、パソコンで Python プログラムを動かす(パソコンで動かす、Google Colaboratory など補助的に使う)という方針である。

    Python 実行スキルの習得

    研究室のパソコン利用を推奨する。(自身のパソコンで Python を動かすためにはインストールが必要である。興味のある人は質問すること)。

    1. python コマンドで python プログラムを実行する。コマンドプロンプトを開き、次のコマンドを実行する。
      python
      print(1 + 2)
      exit()
      
    2. jupyter qtconsole で python プログラムを実行する。コマンドプロンプトを開き、次のコマンドを実行する。
      python -m jupyter qtconsole
      

      次のプログラムを実行する。

      次のプログラムは、NumPy(Pythonの数値計算ライブラリ)と Matplotlib(Pythonのグラフ描画ライブラリ)を使用して、0から6までの範囲のsin関数のグラフを描画する。warnings モジュールを使用して Matplotlib の警告表示を抑制し、Matplotlib では、デフォルトのスタイルを使用する。

      import numpy as np
      %matplotlib inline
      import matplotlib.pyplot as plt
      import warnings
      warnings.filterwarnings('ignore')   # Suppress Matplotlib warnings
      
      x = np.linspace(0, 6, 100)
      plt.style.use('default')
      plt.plot(x, np.sin(x))
      

      実行で問題なかったかを確認(スキル習得の自己確認)。

    Python プログラミングの基礎に興味のある人は、次のページを活用するなどで、各自で補充すること。

    Pythonプログラミング講座:基礎から応用まで(全15回の教材)

4. 4/25 10:50- - 最新技術のインストールと体験

研究のためのより良い行動。各自の自己研鑽。研究室のパソコンに何がインストールされているか。

重要性: 最新技術をパソコンにインストールし、操作できる実力は、将来、自身で学び挑戦し成長する基礎になる。

【各自のアウトプット】

各自、いま、何を学び、何を作り上げてみたいか、何を体験してみたいのか、さらに詳しく話すことができるように準備(4月25日に各自、話してもらう。)という宿題であった。各自のさらなる調査を希望する(1から2年以内の最新技術、関連する学問分野の知識、自身が体験してみたいこと、研究を通して社会に貢献する可能性について)。

各自のテーマ

石原:「対話によるデータアクセス」、「3次元再構成」

小林:「画像理解」

曽根田:「3次元の福山市の再現」、「3次元再構成」

檀上:「未来予測、AI活用」

中村:「画像理解」

宮:「未来予測、変化要因の分析」

森井:「画像理解」

【研究室の記事,資料】

宿題

  1. まずは、研究室ホームページを参照する

    https://www.kkaneko.jp

    AI、3D技術、データベースの技術情報。

  2. 興味を持った技術をインストールして試してみる

    自身で探すこと自体も宿題である。最新技術を実践的に体験する。数は自由(多くても良いし、1つか2つをじっくりでも良い)。

  3. 既にインストール済みのソフト(前ページ)は、再インストールする必要はない
  4. オンラインデモのページも活用すること

    https://www.kkaneko.jp/ai/online/

  5. 4月27日,5月2日に口頭で、他の仲間に披露(パソコンを利用可)

5. 4/27 10:50- - 自主学習と活動報告

引き続き、自己研鑽力、パソコン活用スキルを目指す。

各自からのアウトプット:各自が学んだり、活動していること。

【研究室の記事,資料】

【外部ページ】

6. 5/2 10:50- - 自主学習と活動報告

引き続き、自己研鑽力、パソコン活用スキルを目指す。

【各自のアウトプット】

各自が学んだり、活動していること。

7. 5/7 10:50- - YOLOv7による物体検出実習

実験の実施(結果、考察、手順の説明を目指す)。ChatBot などの対話型AIの適切な活用、引き続き、自己研鑽力、パソコン活用スキル。Windowsパソコンでの物体検出 YOLOv7。

【研究室の記事,資料】

【外部ページ】

宿題

引き続き、次の資料のページ35から53。PDFファイル, パワーポイントファイル をよく読み、ChatGPT の活用、実験の実施、ICT スキルの自主的な取得を進めること。仲間の助けを積極的に求めること。

8. 5/9 10:50- - ChatGPTと質問応答システム

ChatGPT

【研究室の記事,資料】

【外部ページ】

宿題

引き続き、次の資料のページ35から53。PDFファイル, パワーポイントファイル をよく読み、ChatGPT の活用、実験の実施、ICT スキルの自主的な取得を進めること。仲間の助けを積極的に求めること。

補足説明

9. 5/16 10:50- - セマンティックセグメンテーション

セグメンテーション

セグメンテーションに関する説明など:sotu2023-05-16.pptx

次の資料の関係部分を説明する。PDFファイル, パワーポイントファイル をよく読み、

【研究室の記事,資料】

外部リンク:

OneFormer(統一的画像セグメンテーションAI): https://huggingface.co/spaces/shi-labs/OneFormer

10. 5/18 10:50- - 画像補正と線分検知

画像補正、線分検知

安否確認訓練の説明 説明資料

資料PDFファイル, パワーポイントファイル

【研究室の記事,資料】

11. 5/23 10:50- - 企業訪問と情報交換

某社人事教育担当者が訪問する。メーカーでの仕事内容、教育等を含め情報交換すること。

【研究室の記事,資料】

12. 5/25 10:50- - Unreal Engine 5の紹介

Unreal Engine 5 の紹介。3次元ビデオゲーム、3次元のアプリを制作するとき役立つ。

【研究室の記事,資料】

13. 5/29 10:50- - テキスト検出の実習

テキスト検出の回

研究の考え方: 卒業研究では、ICTの基本スキル、自主的活動、問題解決を行ってもらう。実験は「失敗した」と決めつけるのではなく、「うまく行った範囲で何の役に立つかを考え、実行してみる」か「成功するまで、辛抱強く継続する」かを考えてもらうもの。

【研究室の記事,資料】 Unified Scene Text Detection(統一的シーン文字検出AI)のインストールとテスト実行(テキスト検出)(Python,TensorFlow を使用)(Windows 上)

応用例: 看板の自動認識、文書のデジタル化など。

テキスト検出

テキスト検出

14. 5/31 10:50- - 消失点推定の実習

消失点推定の回

【研究室の記事,資料】 neurvps(消失点推定AIモデル)のインストールと動作確認(消失点推定)(Python,PyTorch を使用)(Windows 上)

応用例: 画像からの3次元復元、建築物の形状推定など。

宿題: 6月7日は、各自発表とする。

自身が楽しいと思えることについて発表する。

具体的な経験、体験を伝えてもらう。

今後やりたいこと、自身の研究が何の役に立ちそうか、自身で解いてみたい課題は何か。

15. 6/5 10:50- - 物体検出の実習

物体検出の回

【研究室の記事,資料】 物体検出の実行(UniDet(統一的物体検出モデル),PyTorch, Python を使用)(Windows 上)

16. 6/8 10:50- - 各自のアウトプット発表

発表形式: 問題、仮説、実験手順、結果、考察。引用文献。

意識すべきこと: 具体的に。わかりやすく伝える。失敗は気にしない。テーマは自身の興味を持つものを選ぶ。解決困難な課題や、すでに解決済みの課題を選んでしまっている場合は、自身で納得のいくまでやり抜いてから気づくというのも良いし、教員や仲間から事前にアドバイスを得るのも良い。解決可能な課題を見つけ、熱中して取り組むことが理想である。研究は何が終われば終了ということはなく、粘り強く活動を継続することになる。

各自のテーマ

石原:「対話によるデータアクセス」、「3次元再構成」

小林:「画像理解」

曽根田:「3次元の福山市の再現」、「3次元再構成」

檀上:「未来予測、AI活用」

中村:「画像理解」

宮:「未来予測、変化要因の分析」

森井:「画像理解」

17. 6/13 10:50- - プログラミングとAIの理解深化

プログラミングとAIについて理解を深め、自信を高める。作業の自動化、実験などでも役に立つ。自己アピール、自身に自信を持つことも大切である。

[PDF], [パワーポイント]

18. 6/15 10:50- - 自主学習日(Dlib表情推定)

自由参加である。金子は欠席する。

19. 6/20 10:50- - 3次元データ生成とゼロショット物体検出

20. 6/22 10:50- - InsightFaceによる顔分析

顔検出、年齢と性別の推定、顔識別、人体検出: 別ページ »で説明

応用例: セキュリティシステム、顧客分析、アプリケーションの個人化など。

21. 6/27 10:50- - FastSAMの紹介(自主学習日)

6月27日(火曜日)は金子は欠席する。自由参加とする。

SAM (segment anything)は、自由なプロンプトを英語で指定して、セグメンテーションを行う技術である。

そのうち、FastSAM(高速化されたSAM)について、FastSAM のインストールと動作確認(セグメンテーション)(PyTorch を使用)(Windows 上)を、別ページ »で説明する。

全体のセグメンテーション

「the yellow dog」というプロンプトを指定してセグメンテーション

22. 6/29 10:50- - 自主学習日

6月29日(火曜日)は金子は最初2から3分だけ出席する。自由参加とする。

来週には、各自発表の計画がある。

23. 7/11 10:50- - Blosm for Blenderのインストールと中間発表の準備

Blosm for Blenderのインストール手順

OpenStreetMap(自由編集可能な世界地図データ)福山大学周辺。一部の建物、道路、地形、水域を確認できる。

中間発表の案内

https://cerezo.fukuyama-u.ac.jp/ct/course_342000_news_1361123?action=status

教員とのコミュニケーションが必要である。

24. 7/13 10:50- - Google Tile APIとBlosmの活用

Blosm for Blender(Blender用OSMデータ連携アドオン)で Google Tile API(Google Mapsの地図タイルAPI)のデータをダウンロード。福山市の3次元データをパソコンの Blender で表示。

注意: 基本は全世界ダウンロード可能。サービスは登録が必要で所定の料金が必要である。

Google Tile API, 福山市中心街、最高品質でダウンロード

以上の画像についての表示: Map data ©2023 Google

その根拠: sample/lab/fukuyamacity.blend

25. 7/18 10:50- - 画像生成AIの実験

26. 7/20 10:50- - 日本語大規模言語モデルの紹介

日本語の大規模言語モデルについて追加説明した。現時点の技術に不足があるように感じたとしても、各自「課題解決」、「技術理解」、「根拠提供」をポスター準備で考えてほしいと伝えた。来週、再来週も全員活動し、各自で工夫を進めていくことにより、課題解決力、自主性、挑戦力を発揮してもらう。

7月25日は各自ポスターを読み上げて説明する。他の仲間に伝えることを行ってもらう。ポスターファイルは、このページで公開していく。

27. 7/25 10:50- - ポスター発表とグループワーク

28. 7/27 10:50- - ポスターフィードバック

ポスターに関するフィードバックを実施した。

29. 8/1 10:50- - ポスター提出と学会原稿作成

30. 8/3 10:50- - 画像拡張(Data Augmentation)の重要性

31. 8/8 10:50- - 学会発表準備と中間発表への対応

重要事項

1. 中間発表への質問回答は8月10日が締め切りである。

2. 学会発表の準備を各自にお願いしている。

学会発表準備の手順

①「課題解決」、「技術理解」、「根拠提供」を進める
・自身が何を工夫したか、工夫前後の変化をデータやスクリーンショットで示す
・研究を楽しむこと

②原稿作成
著者: 本人、金子邦彦の2名
次のページの「Word版」を使用: https://rentai-chugoku.org/guideline.html

③ワードファイルを金子あてに送付
確認に2から3日かかる場合がある。共同執筆する。

④オンライン申し込み
https://rentai-chugoku.org/apply.html
締切: 8月24日昼頃まで
注意: メールアドレスの入力ミスに注意

【申込時の記入事項】
・申込者氏名: 本人の氏名
・E-mail: 大学のメールアドレス(重要な連絡が届く)
・発表部門:
 AI(ニューラルネット)を研究で使っている人
  第一希望: 26. 計算機応用
  第二希望: 24. ニューラルネット
 それ以外の人
  第一希望: 26. 計算機応用
  第二希望: 25. 情報処理
・著者数: 2
・著者1: 本人の氏名,福山大学,工学部,大学のメールアドレス
・著者2: 金子 邦彦,福山大学,工学部,kaneko@fukuyama-u.ac.jp
・講演者(発表者): 著者1(本人)
・学会選択: 電子情報通信学会
・状態: 手続き中
・学生/一般: 学生
・連絡責任著者: 著者2(金子)
・役職: 教授
・郵便番号: 7290292
・住所: 広島県福山市東村町字三蔵985-1福山大学工学部情報工学科

⑤8月24日10時50分の集合時に困っていることを確認

⑥追加実験(8月下旬)
「課題解決」「技術理解」「根拠提供」を進めるため、追加実験を依頼する場合がある。
プレゼンと卒論で活用する。

⑦プレゼン発表
日時: 10月28日(土)9:00 - 17:15
形式: ZOOM + パワーポイント
推奨: 学校に来て発表(機材準備が容易)、スーツ着用
発表時間: 8分
注意: 急用の場合は連絡すること(代理発表可能)

プレゼン能力は12月予定の卒論発表会でも役立つ。

32. 8/10 10:50- - YOLOv8による物体検出と転移学習

物体検出、セグメンテーション、画像分類、物体検出の再学習と転移学習(既存モデル知識を新タスクに応用)(YOLOv8(YOLOの最新版の一つ),PyTorch,Python を使用)(Windows 上)

重要性: 転移学習により、少ないデータで高精度なモデルを構築できる。実用的なAIシステム開発に不可欠な技術である。

33. 8/24 10:50- - Fooocusによる画像生成

34. 8/29 10:50- - 表情推定技術の比較検証

複数の表情推定技術を比較検証した。表情推定は、ビデオ会議での感情理解や、顧客満足度分析などに応用できる。

35. 8/31 10:50- - MOT(Multiple Object Tracking)の復習

MOT は、動画での物体検出やセグメンテーションにおいて、異なるフレームでの結果に対して、同一オブジェクトには同一番号を与える仕組みである。

yolo_tracking のインストールと使用法

https://www.kkaneko.jp/ai/labo/yolov11pose.html

yolo_tracking でのトラッキング・ビジョンの実行結果



36. 9/5 10:50- - ゼロショットビデオオブジェクトセグメンテーション

ゼロショットのビデオオブジェクトセグメンテーション技術を検証した。事前学習なしで動画内の物体を検出・分割できる。

動画を与えると物体検出、インスタンスセグメンテーションが行われる。

実行結果の動画:cutlerwebcam.mp4

Windows 上のインストールと実行

教師なし学習による物体検出とインスタンスセグメンテーション(CutLER(動画の教師なし物体検出AI),VideoCutLER,Detectron2(物体検出などのためのAIライブラリ), PyTorch, Python を使用)(Windows 上)

公式の Google Colaboratory 上のデモページ: https://colab.research.google.com/drive/18nIqkBr68TkK8dHdarxTco6svHUJGggY?usp=sharing#scrollTo=RyXr0xsZB897

37. 9/7 10:50- - 質問応答システムとファクトチェック

38. 9/12 10:50- - Open Interpreterの活用

ChatGPT へのコマンドや Python プログラムからのアクセス(Open Interpreter(自然言語でPC操作するAIツール),Python を使用)(Windows 上)別ページ »で説明

メリット: 自然言語での指示により、プログラミング作業を効率化できる。

39. 9/14 10:50- - MOT(Multiple Object Tracking)の理解と実装

MOT は、動画での物体検出やセグメンテーションにおいて、異なるフレームでの結果に対して、同一オブジェクトには同一番号を与える仕組みである。これにより、動画全体を通じて各物体を一貫して追跡できる。

40. 9/19 (1回目) 10:50- - 画像復元技術の検証

画像復元(劣化した画像の品質を改善する技術)の検証を行った。古い写真の修復や、低解像度画像の高解像度化に活用できる。

元画像処理結果

画像復元(DiffBIR(拡散モデルを用いた画像復元AI),Python,PyTorch を使用)(Windows 上): 別ページ »で説明

41. 9/19 (2回目) 10:50- - ポイントトラッキングの実装

ポイントトラッキング(動画内の特定点を追跡する技術)を実装した。動画内の任意の点を指定すると、その点の動きを追跡できる。スポーツ解析や動作分析に応用可能である。

ポイント・トラッキング(co-tracker(ポイント追跡AIモデル),Python を使用)(Windows 上)別ページ »で説明

42. 9/25 10:50- - ゼロショットセグメンテーションの実験

ゼロショットのセグメンテーション技術を実験した。この技術は、事前学習なしで画像中の物体を分割できるため、新しい対象物に対しても柔軟に対応できる利点がある。医療画像解析や製造業での品質検査など、多様な応用が期待される。

ゼロショットのセグメンテーション(HQ-SAM(高品質なSAMの改良版),Python,PyTorch を使用)(Windows 上): 別ページ »で説明

43. 9/26 10:50- - 複数オブジェクトトラッキング(MOT)の実装

複数オブジェクトのトラッキング(MOT)(動画内で複数の対象を追跡する技術)を実装した。この技術により、動画内の複数の物体を同時に追跡し、それぞれに固有のIDを付与できる。応用例として、混雑した場所での人流解析や、交通監視システムでの車両追跡などがある。

結果を保存した動画ファイル:trackanything.mp4

オブジェクト・トラッキングとセグメンテーション(Track Anything(汎用的な物体追跡・セグメンテーションAI),Python,PyTorch を使用)(Windows 上): 別ページ »で説明

44. 10/3 10:50- - Image-to-3Dと研究姿勢

写真からの立体データの生成(Image-to-3D(画像から3Dモデル生成技術))

写真1枚から、テクスチャ付きの立体データを生成する。

DreamGaussian(高速3D生成AIモデル) の Image-to-3D の公式のオンラインデモ(Google Colaboratory): https://colab.research.google.com/drive/1sLpYmmLS209-e5eHgcuqdryFRRO6ZhFS?usp=sharing

写真1枚から、テクスチャ付きの立体データを生成する。

元画像の例

中間結果

最終結果

スクリーンショット

処理結果(3次元データ): b.obj, b.mtl, b_albedo.png

処理結果のスクリーンショット(動画):

b.mp4

使い方のヒント

研究を進める中で、先行研究や、教員や仲間のアドバイスに基づいて行動することは良いことである。しかし大切なことは、先行研究や他の人のアドバイスがすべてではないということである。もし先行研究や他の人のアドバイスでうまくいかなかったとしても、それで終わりではない。そこで「終わり」にするのは、成長や可能性をそこで閉ざしてしまうことになる。学びの過程では、自身で考察し、さまざまな方法を試すことが大切である。そのとき、失敗は避けることができない。失敗から学ぶことが大切だと思ってほしい。失敗から、次に生かす知識やスキルが増えていく。研究では、まだ解明されていない謎に挑戦するものである。もし先行研究や他の人のアドバイスでうまくいかなかったことを、次の行動に生かしてほしい。そのような態度は、研究の成功と満足感につながる。自己アピールや自信をつけるためにも大切である。

プレッシャーに負けないように、小さなゴールを立てて、成長を実感すること。

登校して個人ワークに取り組むことは、気分転換、環境変化にもなり、やる気アップにつながる。規則正しい生活、趣味の没頭などのリフレッシュも大切である。

「少しだけやってみる」という考え方も大切である。それだけで、勉強や課題を継続できるきっかけをつかむことができる場合も多い。

いろいろな方法を試すこと。

面談

全員と面談する。進路関係。

面談用のシート: sheet2.docx

データベース研究室 課題

実験を通じて、技術の理解を深め、卒業研究や就職活動でアピールできる実績を作る。

45. 10/4 10:50- - Text-to-3D

AI に関するオンラインデモのリンク集: https://www.kkaneko.jp/ai/online/index.html

Text-to-3D(テキストから3Dモデル生成技術)の公式のオンラインデモ(Google Colaboratory): https://colab.research.google.com/github/camenduru/dreamgaussian-colab/blob/main/dreamgaussian_colab.ipynb

Google Colaboratory なので、各自で修正して実行可能である。処理結果(3次元データ)は、簡単な操作でダウンロードできる。

処理結果(3次元データ): icecream_mesh.obj, icecream_mesh.mtl, icecream_mesh_albedo.png, icecream_model.ply

処理結果のスクリーンショット(動画)(リンクが切れていたので修正した): icecream.mp4

46. 10/10 10:50- - 日本語対応LLMと個人発表

日本語対応のLLM、チャットボット(ELYZA-japanese-Llama-2-7b(日本語対応大規模言語モデル)、transformer、Python、PyTorch を使用)(Windows 上): 別ページ »で説明

卒業研究のメリット、心構え: [PDF], [パワーポイント]

個人発表

47. 10/10 10:50- - 研究の進め方アドバイス

行動を開始するためのアドバイス

行動を持続するためのアドバイス

発表についてのアドバイス

実験結果の報告

フィードバックの受け取り

自立的に前進する

資料作成のアドバイス

48. 10/11 10:50- - ゼロショットのセグメンテーション

SAM (ゼロショットセグメンテーション(事前学習なし特定対象の領域分割))のオンラインデモ

https://segment-anything.com/demo#

「Upload an image」により、画像のアップロードが可能である。

49. 10/18 10:50- - 画像分類と学会発表準備

timm(PyTorch画像モデルライブラリ)、Python を使用。画像分類に使用するモデルをプログラム内で簡単に選択可能である。下は、最近のモデルである eva02 を使用。

説明ページ: 画像分類の実行(timm のインストールと動作確認)(Python、PyTorch を使用)(Windows 上)

案内

案内

2023年度(第74回)電気・情報関連学会中国支部連合大会

発表10分、質疑3分

https://rentai-chugoku.org/cfp.html

パワーポイントファイルのテンプレート template.pptx (卒業論文発表でこのファイルを使用しても問題ない)

プレゼンテーションの構成の例

発表の構成を整理しておくことで、聴衆に伝わりやすくなり、質疑応答にも自信を持って対応できる。

  1. イントロダクション (1分)
    • 最初のページで、氏名と「福山大学工学部」を言う。
    • 研究の背景と重要性。
    • 全体の流れの概要を予告する。
  2. 目的 (2分)
    • 実験を行う目的。
    • 解明したい問題点。
    • 期待する成果や影響。
  3. 実験方法 (2分)
    • 使用したAI技術とその選定理由。
    • 実験設計。
    • データ収集方法。
  4. データ (3分)
    • 得られた数値や観察点。
    • グラフやチャートでの可視化。
    • 重要な発見。
  5. 解釈、結論、考察、次の行動 (2分)
    • データから何が読み取れるか。
    • 何がうまくいき、何がうまくいかなかったのか。
    • 結果に対する考えや解釈。
    • 結果から学び取るべきこと。
    • 次に取るべきステップや改善点(ただし、自身が行う次の行動に限って説明すること)。

なお、スライドの各ページのタイトルは、上を気にすることなく、自由につけてよい。内容を表すタイトルが良い。

書き方で気をつけること

プレゼンテーションでは、文章の書き方に気をつけて、準備に十分な時間をかける。具体的でわかりやすい説明を心がけることで、聴衆の理解が深まり、質疑応答もスムーズになる。

  1. 目的の説明
    • 良くない例: "本研究では深層学習の画像認識についての研究である。"

      曖昧で、具体性が欠けている。

    • 良い例: "本研究の目的は、深層学習を用いて画像認識の精度を5%向上させることである。"

      具体的な数値や目標が明示されている。

  2. 実験方法の説明
    • 良くない例: "自身でインターネットで顔のデータを集めた。"

      何をどうしたのかが不明である。

    • 良い例: "データ収集のために、URL ●● から、オープンソースの画像データセット ○○ 枚を用いた。"

      方法が明確で、説得力がある。

  3. データの解説
    • 良くない例: "うまくいく場合とうまくいかない場合があった。撮影の仕方が影響していた。"

      何がどれほど良好なのかが不明瞭である。

    • 良い例: "撮影のときに正面から撮影する場合5枚と、斜めから撮影する場合5枚で比較すると、画像認識の精度が平均で4.8%向上した。"

      結果が具体的な数値で示されている。

  4. 次の行動
    • 良くない例: "実験で使うデータを増やす必要がある。"

      具体的な行動計画が見えない。

    • 良い例: "11月までに、●●のデータを●個増やし、同じ方法で再実験して確認する。その結果を用いて ○○ を確認する。"

一般的な注意点

項目ごとの注意点

プレゼンテーション当日

マナー

50. 10/24 10:50- - ビデオオブジェクトセグメンテーション

Cutie のビデオオブジェクトセグメンテーションのデモ(Google Colaboratory のページ)

公式の Google Colaboratory 上のデモページ: https://colab.research.google.com/drive/1yo43XTbjxuWA7XgCUO9qxAi7wBI6HzvP?usp=sharing#scrollTo=qYv3kbaQT2w4

URL: https://hkchengrex.github.io/Cutie

案内

1. 進路について

2. 明日のリハーサルについて

下に(10/18 の回のところ)注意事項を記載しているので、繰り返し、読んでおくこと。

51. 10/25 10:50- - 発表リハーサル

全員により発表リハーサルを実施した。

52. 10/31 10:50- - 発声動画の生成

発声動画の生成

音声と画像ファイルから発声動画を生成するなど

左が元画像、右が生成された動画

使用した音声

1.m4a

サイト内の関連ページ

関連する外部ページ

53. 11/1 10:50- - 発声動画の生成

プロンプトからの動画生成

次のサイトは Stable Diffusion を使用して、プロンプトから2秒程度の動画を生成する。

https://huggingface.co/spaces/guoyww/AnimateDiff (AnimateDiff: テキストから動画を生成するAI)

https://openxlab.org.cn/apps/detail/Masbfca/AnimateDiff

54. 11/7 10:50- - ビジュアルな質問応答

55. 11/8 10:50- - テキスト生成モデルとチャットモデル

テキスト生成モデルとチャットモデルの基本概念とChatGPT(対話型AIモデル)の特徴を紹介する。テキスト生成モデルは任意の入力から新たなテキストを生成し、チャットモデルは人間との対話を目的としてリアルタイムの応答を生成する。ChatGPTはチャットモデルの一種であり、テキスト生成モデルの能力も持ち、対話から学習し応答を改善する能力を持つ。また、OpenAI API(OpenAIのAIモデル利用インターフェース)キーを取得することで、OpenAIのモデルにアクセスできる。ChatGPTとLangChain(言語モデルアプリ開発フレームワーク)を利用したいくつかのプログラムの実行手順も説明している。まず、ライブラリのインストールや環境設定ファイルの作成を行う。プログラムは、LangChainの公式サイトのものを一部変更して使用している。メモリを用いたチャットモデルや検索拡張生成(RAG)(外部情報検索と連携する文章生成)を利用する方法も説明している。

説明資料: 2023-11-08.pdf, 2023-11-08.pptx

56. 11/16 10:50- - 顔情報処理

オンラインデモ。実行のためにカメラ付きのパソコンを準備すること。

https://visagetechnologies.com/demo/

説明資料: [PDF], [パワーポイント]

ミヨシ電子株式会社からのメッセージがあった。情報工学の人材を求めているとのことである。https://www.miyoshi.elec.co.jp/information/business/business_top.html

卒業研究についての情報工学科からの案内を、各自、再度読んでおくこと。

https://cerezo.fukuyama-u.ac.jp/ct/course_342000_news_1430607

57. 11/21 10:50- - 人体の姿勢推定

動画: 動画

資料

[PDF], [パワーポイント]

サイト内の関連ページ

人体の3次元位置推定(MHFormer(人体の3次元姿勢推定AIモデル)、Python、PyTorch を使用)(Windows 上): 別ページ »で説明

58. 11/22 10:50- - 対話AI

資料[PDF]

関連する外部ページ

WebLangChain(ウェブ情報利用の言語モデル連携): https://weblangchain.vercel.app/

59. 11/28 10:50- - Concept Sliders

概要

「Concept Sliders」(拡散モデルの精密制御技術)は、拡散モデルを用いた画像生成において、テキストプロンプトの変更だけでは難しい属性の精密な制御を可能にする新技術である。従来の方法では、画像の全体的な構造が大きく変わることが問題であったが、Concept Slidersは特定の概念に対応するパラメータ方向を学習し、画像の特定の属性を増減させることで、視覚的な内容の変更、現実感の向上、手の歪みの修正などの応用が可能になる。この技術により、画像生成の制御が容易になり、複数のSlidersを組み合わせることで、複雑な制御が実現できる。

資料[PDF], [パワーポイント]

文献

Rohit Gandikota, Joanna Materzynska, Tingrui Zhou, Antonio Torralba, David Bau, Concept Sliders: LoRA(大規模モデルの低負荷チューニング)Adaptors for Precise Control in Diffusion Models, arXiv:2311.12092v1, 2023.

関連する外部ページ

60. 11/29 10:50- - 動作認識

MMAction2(動作認識のためのAIツールキット)は動作検出、動作認識の機能を持つ。

サイト内の関連ページ

次のページでは、Kinetics-400(動作認識用大規模データセット)で学習済みのモデルを用いた動作認識のプログラムを示している。

動作認識を行う Python プログラム(MMAction、Python、PyTorch を使用)(Windows 上): 別ページ »で説明

実行結果の例

上の実行結果を得た動画ファイル

demo.mp4

61. 12/5 10:50- - LLaVA

LLaVAは、多モーダルな大規模言語モデル(Large Language Model)に特化しており、視覚と言語の両方のデータを効率的に処理できるように設計されている。このフレームワークは、既存の多モーダルモデルをさらに強化するための改良が施されている。LLaVAは二つの主要な特長を持つ。一つ目は、多層パーセプトロン(multilayer perceptron; MLP)(基本的なニューラル網構造)を使用した視覚-言語クロスモーダルコネクタである。これにより、視覚と言語のデータが効率的に統合される。二つ目は、視覚的質問応答(Visual Question Answering; VQA)(画像内容に関する質問に答えるAI)データの追加である。これにより、モデルは視覚的な情報に基づいて質問に答える能力が向上する。

論文

Liu, Haotian and Li, Chunyuan and Li, Yuheng and Lee, Yong Jae, Improved Baselines with Visual Instruction Tuning, arXiv:2310.03744, 2023.

Liu, Haotian and Li, Chunyuan and Wu, Qingyang and Lee, Yong Jae, Visual Instruction Tuning, arXiv:2304.08485, 2023.

62. 12/6 10:50- - モノクロ画像からの深度推定 (Depth Estimation)

AdelaiDepth(単眼画像からの深度推定手法)

【概要】
単一の画像からの深度推定(単眼深度推定)と、3次元シーンの再構成に関する一手法である。従来の単眼深度推定では、未知の深度シフト (depth shift) と、未知のカメラ焦点距離により、正確な結果が得られないとしている。本手法では、この問題の解決のために、単眼深度推定ののち、3次元点群エンコーダを使用して深度シフトとカメラ焦点距離を推定する二段階フレームワークを提案している。仕組みとしては、深度予測モジュールと点群再構築モジュールから構成されている。深度予測モジュールは畳み込みニューラルネットワークを利用して、単眼深度推定を行う。点群再構築モジュールは、ポイントクラウドエンコーダネットワークを活用して、深度シフトとカメラ焦点距離の調整係数を推定する。実験結果からは、ポイントクラウド再構築モジュールが単一の画像から正確な3D形状を回復できること、および深度予測モジュールが良好な推定結果を得ることが確認された。

デモページで画像をアップロードして試すことができる。

AdelaiDepth の Google Colaboratory のデモページ(AdelaiDepth ResNet101): https://colab.research.google.com/drive/1rDLZBtiUgsFJrrL-xOgTVWxj6PMK9swq?usp=sharing

AdelaiDepth の GitHub のページ: https://github.com/aim-uofa/AdelaiDepth

63. 12/12 10:50- - 高解像度の画像生成AI

DemoFusion(高解像度画像生成フレームワーク)

DemoFusion: Democratising High-Resolution Image Generation With No $$$, Ruoyi Du, Dongliang Chang, Timothy Hospedales, Yi-Zhe Song, Zhanyu Ma, arXiv:2311.16973v1, 2023.

https://arxiv.org/pdf/2311.16973v1.pdf

DemoFusionは、潜在拡散モデル(LDM)(高品質な画像生成AI手法)を活用し、高解像度画像の生成を目指す新しいフレームワークである。この論文では、プログレッシブアップスケーリング(段階的に解像度を上げる手法)、スキップ残差、拡張サンプリングを用いて、高解像度画像を生成するDemoFusionを提案している。実験結果からは、追加の学習を必要とせずに、高解像度画像生成の品質を向上させることが可能であることが示されている。DemoFusion を用いることにより、ユーザーは初期段階で低解像度の画像をプレビューし、レイアウトやスタイルに満足した後、高解像度へと進むことができる。

次のデモのページでは、画像と、画像を正しく具体的に説明する「プロンプト」を与えることにより、高解像度化を行う。

https://huggingface.co/spaces/radames/Enhance-This-DemoFusion-SDXL

64. 12/13 10:50- - 深度推定

Marigold Depth Estimation(単眼画像からの奥行き推定AI)

65. 12/13 10:50- - Alpha-CLIP

Alpha-CLIP(特定領域に注目するCLIP改良版)

Zeyi Sun, Ye Fang, Tong Wu, Pan Zhang, Yuhang Zang, Shu Kong, Yuanjun Xiong, Dahua Lin, Jiaqi Wang, Alpha-CLIP: A CLIP Model Focusing on Wherever You Want, arXiv:2312.03818v1, 2023.

CLIP(画像とテキストを関連付けるAI)は、画像とテキストからセマンティックな特徴を抽出するモデルである。これは、テキストと画像の内容を関連付けることで、画像内のオブジェクトやシーンを理解するのに役立つ。Alpha-CLIPは、CLIPの改良版で、特に画像の特定の関心領域(Interest Region)に焦点を当てることができる。これにより、画像全体ではなく、特定の部分の詳細な理解や、その部分に対する精密な制御が可能になる。Alpha-CLIPは、追加のアルファチャンネルを通じて関心領域を指定し、これらの領域に関連するテキストとペアになった大量のデータで微調整される。これにより、モデルは特定の領域に焦点を合わせながらも、画像全体のコンテキストを維持することができる。実験では、Alpha-CLIPは画像認識、マルチモーダル大規模言語モデル、2D生成、3Dコンピュータグラフィックス(3DCG:3次元空間の画像を生成する技術)生成などのタスクで、従来のCLIPモデルを上回る性能を示した。Alpha-CLIPをDiffusionモデルと組み合わせることで、画像の変化タスクにおいて、制御可能なコンテンツ生成が可能になる。これは、従来のCLIPモデルでは困難だった、複雑な画像からの主題抽出や、特定の領域に焦点を当てた画像生成を可能にする。

https://arxiv.org/pdf/2312.03818v1.pdf

HuggingFace のデモページ: https://huggingface.co/spaces/Zery/Alpha_CLIP_ImgVar

66. 12/20 10:50- - Segment Anything

EdgeSAM

文献
Segment Anything Model(SAM)(汎用画像セグメンテーションモデル)は、スマートフォンなどのエッジデバイスで効率的に動作することを目的としている。SAMにおける画像エンコーダはVision Transformer(ViT)(画像認識用Transformer)を基にしていたが、エッジデバイスに適した畳み込みニューラルネットワーク(CNN)(画像処理に強いニューラル網)ベースのものに変更された。この変更においても、SAMのエンコーダ・デコーダアーキテクチャは保持されている。さらに、プロンプトエンコーダとマスクデコーダの両方を蒸留(distillation)(機械学習で知識を小型モデルに継承)プロセスに含めることで、プロンプトとマスク生成の間の複雑な相互作用を効果的に扱う工夫が行われている。実験では、EdgeSAMはSAMよりも高速であり、元のSAMと匹敵する精度を実現していることを示している。

文献

Chong Zhou, Xiangtai Li, Chen Change Loy, Bo Dai, EdgeSAM: Prompt-In-the-Loop Distillation for On-Device Deployment of SAM, arXiv:2312.06660v1, 2023.

https://arxiv.org/pdf/2312.06660v1.pdf

関連する外部ページ