Llama 2が出た時はDeepLをかませると良いという話を聞いたのですが、今回のLlama 3が出てもあまり試している人がいなかったので、やってみます。
何をしようとしているのかというと、
通常のGPT-4を使う時には、
- ユーザーがプロンプトを送信する
- GPT-4がプロンプトを受け取り、応答を生成して返す
という流れで良かったのですが、Llama 3でこれを行うと文法が破綻した日本語が返ってくるくらいレベルの低い応答になってしまいます。
そのため、以下の流れを考えました。
- ユーザーがプロンプトを送信する
- DeepLがプロンプトを受け取り、英語に翻訳したプロンプトをLlama 3に渡す
- Llama 3が翻訳後プロンプトを受け取り、応答を生成してDeepLに渡す
- DeepLが応答を受け取り、日本語に翻訳してユーザーに返す
という流れならば、Llama 3 は英語でのやり取りのみになるため、本来のGPT-4レベルの生成ができるだろうと考えました。
なんでそんなことしたいのか
GPT-4が高いから!
Llama 3 は安く使えるから!
懸念
ただし、この手法はDeepLの翻訳精度に深く依存します。
DeepLの英訳が微妙だとユーザーのプロンプトがLlama 3に上手く伝わらないですし、
逆に日本語訳が微妙だとせっかく良い生成をおこなったLlama 3の応答が悪く変換されてユーザーに返されてしまいます。
つまり、今回の検証はDeepLがどれくらい良い仕事をしてくれるか、にかかっています。
それでは、以下より検証結果を発表していきます。
※この検証は
結果
結論、まあまあ良い感じでした!多分!
LLMによる自動評価
LLMによるLLM自動評価(LLM as a Judge)もおこなってみました。とはいえこの分野は詳しくないので初歩的な方法を実行したまでです。おかしな点があればご指摘いただけると嬉しいです。
同じプロンプトで、
- GPT-4の応答
- Llama 3の応答
- Llama 3 with DeepLの応答
主観的評価
100個の応答を比較して私が「極めて主観的ですが」評価した結果、