ChatGPTが新たに「アップロードされた画像の認識」と「GPTとの音声会話」が可能に 今後2週間 有料プラン向け

ChatGPT運営会社のOpenAIは9月25日、ChatGPTに新たな2つの機能を追加することを発表しました。

このアップデートは、今後2週間でPlusユーザーとEnterpriseユーザーに順次展開されます。

アップロードされた画像を認識してチャット。ChatGPTが画像を見られるように

この機能を使用すると、ユーザーはPCやスマートフォンからChatGPTに写真やスクリーンショット、テキストと画像を含むドキュメントを送信できます。

例えば、グリルが起動しない原因の診断や、冷蔵庫の中身からお勧めのレシピを提案させたり、複雑なグラフを含むビジネスデータを解析させることができます。

また、ユーザーは複数の画像を送信することもでき、さらに特定の部分を丸で囲んでChatGPTに画像の中のどの部分に焦点を当てたいか指示することもできます。これにより、ChatGPTとの対話内容をより具体的に示すことができます。

この機能は、マルチモーダル(※)に対応したGPT-3.5およびGPT-4によって可能になっています。

以前はマルチモーダルはGPT-4のみという情報がありましたが、GPT-3.5でも対応できるようです。

※マルチモーダルとは

「マルチモーダル」は、複数の異なるタイプのデータの入出力を意味します。

具体的には、マルチモーダルなAIモデルはテキスト情報だけでなく、画像や音声情報も同時に解析し、これら複数のモードのデータを組み合わせて理解や反応を行います。

ChatGPTはこれまで「テキスト」での会話だけでしたが、今後はマルチモーダルに対応するため「画像」「音声」にも対応できるということです。

デモ動画

例として、自転車のサドルの調整方法についてChatGPTに質問するデモがあります。

「これがレバーですか?」という画像付きの質問に対し、ChatGPTは丸で囲われた部分を正確に認識し、適切な回答を提供しています。

音声でChatGPTを会話できるように

音声機能については、iOSとAndroidの両方で利用可能です。OpenAIの「Whisper」という音声認識システムを使用し、スマートフォンアプリの「Settings」から「New Features」を選び、音声会話機能を有効にすることでアクセスできます。

この機能では、5つの異なる音声から選択可能で、新しいtext-to-speechモデルを採用しています。このモデルは、テキストと数秒のサンプル音声のみで、人間のような自然な声を生成できます。

また、声の開発には、プロの声優と協力して行われました。この音声合成技術は米Spotifyでも音声翻訳機能として試験運用されています。

デモ動画

https://twitter.com/OpenAI/status/1706280635055353929?s=20

音声でChatGPTと会話している動画です。英語ではありますが、きちんと会話できているのが分かります。

また、これに付随する機能として、今後音声の翻訳にも対応するとのことです。

得意なのは英語

これらの新機能が得意とするのは英語としています。これまでも当然そうでしたが、今回の機能でも改めて念を押しています。

英語以外の利用において、研究のように情報の正確さが重要である場合には特に気をつけて利用するようにしてほしいということです。

今後2週間かけて段階的にリリース

いつものように、これらの新しい機能は段階的にユーザーに提供されていきます。

参考:ChatGPT can now see, hear, and speak

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です