ChatGPTに機能追加がいくつかありました。
そのうちの一つ、Vision(画像認識機能)を使って見ましょう。
はじめに
2023年9月25日にOpenAIから音声と画像を扱うことができる「マルチモーダル」機能を追加とのアナウンスが有り、2週間以内に更新されるとのことでしたが、私の手元のバージョンでも動くようになりました。今回はそのうちの画像認識機能を試したいと思います。
Visionの基本操作
条件:ChatGPT-4(有料版)、モバイルアプリ、Web版とも稼働。
ただしプラグインや他の機能との併用は不可。
Web版での使い方
Web版はInput Boxの左にイメージのアイコンがあるのでそこをクリックするとアップロードできる。以下にWeb版の画面を示します。
モバイルアプリでの使い方
モバイルアプリはInput Boxの左にカメラ、イメージ、フォルダーのアイコンがあるのでそこをクリックするとアップロードできる。以下にモバイル版の画面を示します。
画像認識機能: 大相撲の写真分析
今年の5月に撮った大相撲の写真を認識させてみましょう。以下がその時のスナップショットです。
プロンプト:この写真を説明してください。 |
ChatGPT:
この写真は、伝統的な相撲の取組が行われている様子を捉えています。中央には2人の力士が土俵上で対峙しており、彼らの背後には審判や裁定員がいます。土俵の上部には、特有の屋根が設置されており、これは神々の座る場所を象徴しています。観客席にはたくさんの人々が座っており、試合に集中している様子が伝わってきます。背景には個室やボックス席も見受けられます。全体的に、熱心な観客たちと力士たちの真剣な表情から、大きな興奮や緊張が感じられる場面です。 |
状況を認識していて十分な説明ですね。
認識結果からの英語問題作成
この写真から英語の設問を作ってみましょう。問題のレベルを初級よりちょっと上のA2としてみます。
プロンプト:この写真からわかることを問う、英語のCEFR A2の4択問題を3つ作ってください。設問ごとに回答と解説を日本語でお願いします。 |
ChatGPT:
問題1: What event is taking place in the photo? 回答: C) A sumo wrestling match 問題2: What is the shape of the roof structure in the center of the photo? 回答: C) Triangular 問題3: What are the majority of the people in the photo doing? 回答: C) Watching |
以下がその時のスナップショットです。
なかなか簡単に問題ができましたね。これから複雑な問題へ展開していくのもありで、興味深いです。
終わりに:Visionを活用する際の注意点と結論
ChatGPTの新たな画像認識機能を使用することで、単なるテキストの説明だけでなく、具体的なシチュエーションや状況を理解して説明したり、問題を作成したりすることができることを確認しました。特に教育や学習の現場では、視覚的な情報から質問を作成するといった活用方法が考えられ、その可能性は非常に大きいと感じます。
しかし、ChatGPTの提供する情報や解析結果には、必ずしも100%の正確性が保証されているわけではありません。特に重要な文書や教材を作成する際には、その内容をきちんと確認し、必要な修正や検証を行うことが不可欠です。この点を十分に留意し、新しい技術を有効に活用していきましょう。