記事一覧

ChatGPTの新機能Visionを試す!画像認識と問題作成

ChatGPTに機能追加がいくつかありました。
そのうちの一つ、Vision(画像認識機能)を使って見ましょう。

はじめに

2023年9月25日にOpenAIから音声と画像を扱うことができる「マルチモーダル」機能を追加とのアナウンスが有り、2週間以内に更新されるとのことでしたが、私の手元のバージョンでも動くようになりました。今回はそのうちの画像認識機能を試したいと思います。

ChatGPT超進化「見て」「聞いて」「話せる」ように

Visionの基本操作

条件:ChatGPT-4(有料版)、モバイルアプリ、Web版とも稼働。
ただしプラグインや他の機能との併用は不可。

Web版での使い方

Web版はInput Boxの左にイメージのアイコンがあるのでそこをクリックするとアップロードできる。以下にWeb版の画面を示します。

モバイルアプリでの使い方

モバイルアプリはInput Boxの左にカメラ、イメージ、フォルダーのアイコンがあるのでそこをクリックするとアップロードできる。以下にモバイル版の画面を示します。

画像認識機能: 大相撲の写真分析

今年の5月に撮った大相撲の写真を認識させてみましょう。以下がその時のスナップショットです。

プロンプトこの写真を説明してください。
ChatGPT

この写真は、伝統的な相撲の取組が行われている様子を捉えています。中央には2人の力士が土俵上で対峙しており、彼らの背後には審判や裁定員がいます。土俵の上部には、特有の屋根が設置されており、これは神々の座る場所を象徴しています。観客席にはたくさんの人々が座っており、試合に集中している様子が伝わってきます。背景には個室やボックス席も見受けられます。全体的に、熱心な観客たちと力士たちの真剣な表情から、大きな興奮や緊張が感じられる場面です。

状況を認識していて十分な説明ですね。

認識結果からの英語問題作成

この写真から英語の設問を作ってみましょう。問題のレベルを初級よりちょっと上のA2としてみます。

プロンプト:この写真からわかることを問う、英語のCEFR A2の4択問題を3つ作ってください。設問ごとに回答と解説を日本語でお願いします。
ChatGPT:

問題1: What event is taking place in the photo?
A) A basketball game B) A classical concert C) A sumo wrestling match D) A theatre play

回答: C) A sumo wrestling match
解説: 写真には相撲のリング、相撲取り、そして観客が写っているため、このイベントは相撲の試合です。

問題2: What is the shape of the roof structure in the center of the photo?
A) Circular B) Square C) Triangular D) Hexagonal

回答: C) Triangular
解説: 中央の屋根の構造は三角形をしています。

問題3: What are the majority of the people in the photo doing?
A) Dancing B) Eating C) Watching D) Running

回答: C) Watching
解説: 写真のほとんどの人々は相撲の試合を見ている様子です。

以下がその時のスナップショットです。

なかなか簡単に問題ができましたね。これから複雑な問題へ展開していくのもありで、興味深いです。

終わりに:Visionを活用する際の注意点と結論

ChatGPTの新たな画像認識機能を使用することで、単なるテキストの説明だけでなく、具体的なシチュエーションや状況を理解して説明したり、問題を作成したりすることができることを確認しました。特に教育や学習の現場では、視覚的な情報から質問を作成するといった活用方法が考えられ、その可能性は非常に大きいと感じます。

しかし、ChatGPTの提供する情報や解析結果には、必ずしも100%の正確性が保証されているわけではありません。特に重要な文書や教材を作成する際には、その内容をきちんと確認し、必要な修正や検証を行うことが不可欠です。この点を十分に留意し、新しい技術を有効に活用していきましょう。