ChatGPTが新たに「アップロードされた画像の認識」と「GPTとの音声会話」が可能に　今後2週間　有料プラン向け

ChatGPT運営会社のOpenAIは9月25日、ChatGPTに新たな2つの機能を追加することを発表しました。

このアップデートは、今後2週間でPlusユーザーとEnterpriseユーザーに順次展開されます。

目次閉じる

アップロードされた画像を認識してチャット。ChatGPTが画像を見られるように
- デモ動画
音声でChatGPTを会話できるように
- デモ動画
得意なのは英語
今後2週間かけて段階的にリリース

アップロードされた画像を認識してチャット。ChatGPTが画像を見られるように

この機能を使用すると、ユーザーはPCやスマートフォンからChatGPTに写真やスクリーンショット、テキストと画像を含むドキュメントを送信できます。

例えば、グリルが起動しない原因の診断や、冷蔵庫の中身からお勧めのレシピを提案させたり、複雑なグラフを含むビジネスデータを解析させることができます。

また、ユーザーは複数の画像を送信することもでき、さらに特定の部分を丸で囲んでChatGPTに画像の中のどの部分に焦点を当てたいか指示することもできます。これにより、ChatGPTとの対話内容をより具体的に示すことができます。

この機能は、マルチモーダル（※）に対応したGPT-3.5およびGPT-4によって可能になっています。

以前はマルチモーダルはGPT-4のみという情報がありましたが、GPT-3.5でも対応できるようです。

※マルチモーダルとは

「マルチモーダル」は、複数の異なるタイプのデータの入出力を意味します。

具体的には、マルチモーダルなAIモデルはテキスト情報だけでなく、画像や音声情報も同時に解析し、これら複数のモードのデータを組み合わせて理解や反応を行います。

ChatGPTはこれまで「テキスト」での会話だけでしたが、今後はマルチモーダルに対応するため「画像」「音声」にも対応できるということです。

デモ動画

ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms). https://t.co/uNZjgbR5Bm pic.twitter.com/paG0hMshXb
— OpenAI (@OpenAI) September 25, 2023