虎の穴開発室ブログ

虎の穴ラボ株式会社所属のエンジニアが書く技術ブログです

MENU

GPT-4Vを用いた業務活用例 #虎の穴ラボ Advent Calendar 2023

本記事は 虎の穴ラボ Advent Calendar 2023 17日目の記事です。

  • 本記事のテーマは「GPT-4Vを用いた業務活用例」です!
  • 前回はH.Yさんによる「Github ActionsでのCypressを並列実行して早く終わらせた。」でした。
  • 次回はMさんによる「AIファーストのコードエディタ Cursor 使ってみた」です。ご期待ください!

こんにちは。虎の穴ラボ株式会社Fantia開発チームの中村です。

はじめに

2022年11月にOpenAI社のChatGPTがリリースされて以降世界中から注目を集めておりますが、2023年9月に新機能であるGPT-4V(GPT-4 with vision)が追加されました。 こちらの機能追加により、今まではテキストによる情報のインプットに限られていたものが画像情報をもとに内容の解析・回答を行えるようになりました。

今回の記事では、こちらの機能を用いて業務上どのような活用ができるか検証したものをご紹介できればと思います。

目次

GPT-4Vとは

https://platform.openai.com/docs/guides/vision

あらためてGPT-4Vについておさらいをしたいと思います。

従来はテキストによる入力に限られたおりましたが、GPT-4Vの登場によって画像で入力したものに対してテキストで返答することができるようになりました。

残念ながらGPT-4Vに関しては無料では利用することができず、「ChatGPT plus」もしくは企業プランの契約が必要となっております。 画像の入力に関しては画像URLもしくはBase64形式での画像データ連携が可能となっておりますが、トークン数(コスト)削減の観点で画像URLでの連携が推奨されております。

また、制限事項も存在しCTスキャン画像を用いた医療目的での利用やCAPTCHA画像の解析などは不可となっておりますのでご注意ください。

活用例1:画像キャプション作成

それでは実際に活用例に入っていきたいと思います。

まずはシンプルに画像キャプションの作成の用途で活用できると考えております。

例えば、上記画像に対して以下の質問を投げてみました。

この画像のキャプションを生成してください。

こちらに対しては以下の回答が得られました。

夏の日差しの中でリラックスしながらラップトップを操作しているアニメーションの女の子。

長すぎず要点は押さえシンプルにまとまっております。

業務上で大量の画像を扱うケースなどでは毎回キャプションを手作業で付与するのが大変かと思うので業務効率化に役立ちそうですね。 また、あらかじめ自動的にキャプションを生成しておけば、目的の画像ファイルを探す際にも「画像ファイルを開いて確認して〜」といった手間を省き文字ベースで探すことができるため便利になりそうです。

活用例2:画像タグ情報作成

続いてはタグ情報の作成となります。

上記画像に対して以下の質問を行いました。

この画像に存在する要素から適切なタグ情報を教えてください。回答はタグ情報のみでマークダウン形式で回答してください。

得られた回答は以下です。

- ビジネスカジュアル
- ピザ
- ミーティング
- オフィス
- 飲み物
- 食べ物
- 社交イベント

こちらに関しても適切に画像の要素を抽出して回答が得られている印象です。

アップロードされた画像に対して自動的にタグを付与して管理する、などを行えれば画像検索や素材管理などの面で役立ちそうですね。

活用例3:アウトプットレビュー

3点目はアウトプットのレビュー用途となります。

試しに上記Rubyのコード画像に対して以下質問を行いました。

この画像のコードから不具合を発見してください。

得られた内容は以下です。

画像に示されたコードはRuby言語で書かれたクイズプログラムの一部です。このコードには構文上の不具合は見当たりませんが、いくつかの改善点があります。

1. `check_answer`メソッド内の条件`if user_answer = @answer`ですが、これは恐らく`if user_answer == @answer`の間違いではないかと思われます。`=`は代入を行う演算子で、`==`が等価比較を行う演算子です。
2. `check_answer`メソッドは`true`または`false`を返しますが、Rubyでは最後に評価された式の結果がメソッドの戻り値となるため、`return`キーワードは不要です。簡潔に書くと以下のようになります:
def check_answer(user_answer)
  user_answer == @answer
end

上記の点を除いて、コードは期待どおりに動作すると見られます。

画像データのコードに関しても適切に解析、問題点の発見が行われているように見受けられます。

今回のサンプルのコードに関しては従来のChatGPTやGitHubCopilotでも代用が可能ですが、GPT-4Vの場合は他にも作成したインフラ構成図のレビューであったり、IT分野に留まらず画像データに存在する問題点や故障箇所の指摘といったことも可能な模様です。

これらの内容を踏まえ、画像データをもとにGPT-4Vにレビュー依頼を行うといった活用もできそうですね。

活用例4:未来予測

4点目は画像データをもとに未来予測を行うといった内容です。

ためしに上記のようなグラフデータを用意し以下質問を行いました。

この画像はとあるサービスの国内(青色)と国外(赤色)のユーザー数の推移を示したグラフです。この内容から傾向と今後の予測について教えてください。

得られた内容は以下です。

画像に表示されているのは、あるサービスの国内(青色)と国外(赤色)のユーザー数を2012年から2019年までの期間にわたって示した棒グラフです。このグラフから以下の傾向を読み取ることができます。

1. 国外ユーザー数(赤色)は、ややゆるやかながらも一貫して成長しています。特に2015年から2016年にかけての増加が顕著です。
2. 国内ユーザー数(青色)も増加傾向にありますが、その成長はより顕著で2015年以降の伸びが著しいです。
3. 全体的にみると、国外ユーザー数の増加率が国内ユーザー数の増加率よりも高いようです。
4. 2019年時点では、国外ユーザー数が国内ユーザー数を大きく上回っており、サービスのグローバルな受け入れが拡大していることを示唆しています。

今後の予測については、過去のデータだけでは正確な予測は難しいですが、以下のようなことが考えられます。

- 国外市場での成長動向が続く場合、国外ユーザー数は今後も増加し続ける可能性が高いです。
- 国内市場において飽和状態に達していなければ、国内ユーザー数も緩やかに成長する可能性があります。
- このサービスが新たな機能やマーケティング戦略を展開することで、さらに成長を促進できるかもしれません。
- しかし経済情勢や競合他社の動向、サービス自体の変化など外部環境の変化によって、予測が変わる可能性があることを考慮する必要があります。

詳しい分析や将来の予測には、この情報だけでなく市場の状況、競合分析、ユーザー行動の変化など、より多面的なデータ分析が必要となります。

年数部分の伸びの判定は若干の怪しさはありますが全体の分析としては大筋あっているのではないかと思います。

今回は簡易的なグラフで検証しましたが、他にも時系列順に並んだ画像データ(例:雨雲画像など)から今後の予測をする、といったことも可能なことを確認しております。

より詳細なグラフや画像を用意することで様々な分析を行わせることができそうですね。

活用例5:専門外知識の習得

5点目は自身の専門外領域の画像データを解説してもらい、習得するといった内容になります。

例えば上記のようなP/L報告書のサンプルがあった際、人によっては馴染みがなかったり、どのように読み解けばいいのか分からなかったりするかと思います。

その際に以下のような質問を行ってみました。

この画像はある企業のP/L報告書です。この内容について簡単に解説してください。

得られた回答は以下です。

こちらは企業の損益計算書(P/L報告書)です。この報告書は企業の一定期間における収益と費用を記録し、最終的にその期間の純利益または純損失を表示するものです。表は日本語で書かれていますが、それぞれの項目を解説します。

画像の左側には、「売上高」「売上原価」「売上総利益」「販売費及び一般管理費」「営業利益」「営業外収益」「営業外費用」「経常利益」「特別利益」「特別損失」「税引前当期純利益」「法人税・住民税および事業税」「当期純利益」という項目があります。
右側にはそれぞれの金額が記載されており、「売上高」が1,000,000千円、「売上原価」が500,000千円で、「売上総利益」はこれらの差額である500,000千円です。それ以降の金額もそれぞれ計算されており、「当期純利益」が最終的な利益で、この例では822,000千円となっています。

損益計算書は企業の財務状態を把握するための重要な資料であり、事業の効率性や収益性を評価するために株主や投資家、経営者などに利用されます。

内容のとっかかりを理解するには十分な回答が返ってきましたね。

このように自身の理解が浅い分野に関しても、GPT-4Vを通じて理解の手助けを得ることができるため専門外知識の習得に役立てそうです。

まとめ

今回は、GPT-4Vを使って業務活用できそうな例をご紹介させていただきました!

ただ、本記事の内容はその効果を保証するものではない点をご了承ください。 また、画像データやテキスト情報を扱う際には社外秘情報などに十分ご注意の上、取り扱いいただければと思います。

この記事を読んで気になっていただけたら、ぜひGPT-4Vを使って検証いただけると幸いです。

採用情報

虎の穴では一緒に働く仲間を募集中です!

この記事を読んで、興味を持っていただけた方はぜひ弊社の採用情報をご覧下さい。

カジュアル面談やエンジニア向けイベントも随時開催中です。ぜひチェックしてみてください。 toranoana-lab.co.jp