与 Portkey 比较 Top10 LMSYS 模型

LMSYS 聊天机器人竞技场拥有超过 1,000,000 次人类比较，是评估 LLM 性能的黄金标准。

但是，测试多个 LLM 是一项痛苦的工作，需要你同时处理不同的 API，这些 API 的工作方式各不相同，且具有不同的身份验证和依赖关系。

引入 Portkey： 一个统一的开源 API，用于访问超过 200 个 LLM。Portkey 使得调用 LMSYS 排行榜上的模型变得轻而易举 - 无需设置。

在这个笔记本中，你将看到 Portkey 如何简化 Top 10 LMSYS 模型 的 LLM 评估，为你提供有关成本、性能和准确性指标的宝贵见解。

让我们深入了解吧！

视频指南

该笔记本附带一个视频指南，你可以跟随进行操作

设置 Portkey

要开始使用，请安装必要的包：

!pip install -qU portkey-ai openai

接下来，在 https://app.portkey.ai/ 注册一个 Portkey API 密钥。导航到“设置” -> “API 密钥”，并创建一个具有适当范围的 API 密钥。

定义 Top 10 LMSYS 模型

让我们定义 Top 10 LMSYS 模型及其相应的提供者列表。

top_10_models = [
    ["gpt-4o-2024-05-13", "openai"],
    ["gemini-1.5-pro-latest", "google"],
##  ["gemini-advanced-0514","google"],             # 此模型在公共 API 上不可用
    ["gpt-4-turbo-2024-04-09", "openai"],
    ["gpt-4-1106-preview","openai"],
    ["claude-3-opus-20240229", "anthropic"],
    ["gpt-4-0125-preview","openai"],
##  ["yi-large-preview","01-ai"],                  # 此模型在公共 API 上不可用
    ["gemini-1.5-flash-latest", "google"],
    ["gemini-1.0-pro", "google"],
    ["meta-llama/Llama-3-70b-chat-hf", "together"],
    ["claude-3-sonnet-20240229", "anthropic"],
    ["reka-core-20240501","reka-ai"],
    ["command-r-plus", "cohere"],
    ["gpt-4-0314", "openai"],
    ["glm-4","zhipu"],
##  ["qwen-max-0428","qwen"]                       # 此模型在中国以外不可用
]

将提供者 API 密钥添加到 Portkey Vault

上述所有提供者都与 Portkey 集成 - 这意味着你可以将它们的 API 密钥添加到 Portkey vault，并获得相应的 虚拟密钥，以简化 API 密钥管理。

提供者

获取 API 密钥的链接

付款方式

openai

https://platform.openai.com/

钱包充值

anthropic

https://console.anthropic.com/

钱包充值

google

https://aistudio.google.com/

💰 免费使用

cohere

https://dashboard.cohere.com/

💰 免费积分

together-ai

https://api.together.ai/

💰 免费积分

reka-ai

https://platform.reka.ai/

钱包充值

zhipu

https://open.bigmodel.cn/

💰 免费使用

## 将下面的虚拟密钥替换为你自己的

virtual_keys = {
    "openai": "openai-new-c99d32",
    "anthropic": "anthropic-key-a0b3d7",
    "google": "google-66c0ed",
    "cohere": "cohere-ab97e4",
    "together": "together-ai-dada4c",
    "reka-ai":"reka-54f5b5",
    "zhipu":"chatglm-ba1096"
}

使用 Portkey 运行模型

现在，让我们创建一个函数，通过 Portkey 网关使用 OpenAI SDK 运行 Top 10 LMSYS 模型：

from openai import OpenAI
from portkey_ai import PORTKEY_GATEWAY_URL, createHeaders

def run_top10_lmsys_models(prompt):
    outputs = {}

    for model, provider in top_10_models:
        portkey = OpenAI(
            api_key = "dummy_key",
            base_url = PORTKEY_GATEWAY_URL,
            default_headers = createHeaders(
                api_key="YOUR_PORTKEY_API_KEY",                 # 从 https://app.portkey.ai/ 获取
                virtual_key = virtual_keys[provider],
                trace_id="COMPARING_LMSYS_MODELS"
            )
        )

        response = portkey.chat.completions.create(
            messages=[{"role": "user", "content": prompt}],
            model=model,
            max_tokens=256
        )

        outputs[model] = response.choices[0].message.content

    return outputs

比较模型输出

为了以表格格式显示模型输出以便于比较，我们定义了 print_model_outputs 函数：

from tabulate import tabulate

def print_model_outputs(prompt):
    outputs = run_top10_lmsys_models(prompt)

    table_data = []
    for model, output in outputs.items():
        table_data.append([model, output.strip()])

    headers = ["模型", "输出"]
    table = tabulate(table_data, headers, tablefmt="grid")
    print(table)
    print()

示例：评估特定任务的 LLM

让我们使用特定的提示运行笔记本，以展示不同 LLM 的响应差异：

在 Portkey 上，你将能够看到所有模型的日志：

prompt = "如果 20 件衬衫需要 5 小时才能干，100 件衬衫需要多长时间才能干？"

print_model_outputs(prompt)

结论

通过最小的设置和代码修改，Portkey 使你能够简化 LLM 评估过程，并轻松调用 200 多个 LLM，以寻找最适合你特定用例的模型。

进一步探索 Portkey，并将其集成到你自己的项目中。访问 Portkey 文档 https://docs.portkey.ai/ 以获取有关如何在工作流程中利用 Portkey 功能的更多信息。

Previous从 SDXL 回退到 Dall-e-3 Next联系我们

Last updated 1 year ago

hashtag视频指南

hashtag设置 Portkey

hashtag定义 Top 10 LMSYS 模型

hashtag将提供者 API 密钥添加到 Portkey Vault

hashtag使用 Portkey 运行模型

hashtag比较模型输出

hashtag示例：评估特定任务的 LLM

hashtag结论

视频指南

设置 Portkey

定义 Top 10 LMSYS 模型

将提供者 API 密钥添加到 Portkey Vault

使用 Portkey 运行模型

比较模型输出

示例：评估特定任务的 LLM

结论