GPT-4o 介绍

这个笔记本来自 OpenAI Cookbooks，增强了 Portkey 可观察性和功能

GPT-4o 模型

GPT-4o（“o”代表“全能”）旨在处理文本、音频和视频输入的组合，并能够生成文本、音频和图像格式的输出。

当前能力

目前，该API仅支持{text, image}输入，输出为{text}，与gpt-4-turbo相同的模态。其他模态，包括音频，将会很快推出。

本指南将帮助您开始使用GPT-4o进行文本、图像和视频理解。

开始使用

安装 OpenAI SDK for Python

pip install --upgrade --quiet openai portkey-ai

配置 OpenAI 客户端

首先，在这里获取您的 OpenAI API 密钥。现在，让我们开始进行第一次请求，输入一个简单的 {text} 到模型中。我们将使用 system 和 user 消息进行第一次请求，并将从 assistant 角色接收响应。

from openai import OpenAI
from portkey_ai import PORTKEY_GATEWAY_URL, createHeaders

import os

## 设置 API 密钥和模型名称
MODEL="gpt-4o"
client = OpenAI(
    api_key=os.environ.get("OPENAI_API_KEY", "<如果未设置为环境变量，请输入您的 OpenAI API 密钥>"),
    base_url=PORTKEY_GATEWAY_URL,
    default_headers=createHeaders(
        provider="openai",
        api_key="PORTKEY_API_KEY" # 默认为 os.environ.get("PORTKEY_API_KEY")
    )
  )

completion = client.chat.completions.create(
  model=MODEL,
  messages=[
    {"role": "system", "content": "You are a helpful assistant. Help me with my math homework!"}, # <-- This is the system message that provides context to the model
    {"role": "user", "content": "Hello! Could you solve 2+2?"}  # <-- This is the user message for which the model will generate a response
  ]
)

print("Assistant: " + completion.choices[0].message.content)

图像处理

GPT-4o 可以直接处理图像，并根据图像采取智能行动。我们可以提供两种格式的图像：

Base64 编码
URL

首先让我们查看将要使用的图像，然后尝试将此图像作为 Base64 和 URL 链接发送给 API。

from IPython.display import Image, display, Audio, Markdown
import base64

IMAGE_PATH = "data/triangle.png"

# Preview image for context
display(Image(IMAGE_PATH))

Base64 图像处理

# Open the image file and encode it as a base64 string
def encode_image(image_path):
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode("utf-8")

base64_image = encode_image(IMAGE_PATH)

response = client.chat.completions.create(
    model=MODEL,
    messages=[
        {"role": "system", "content": "You are a helpful assistant that responds in Markdown. Help me with my math homework!"},
        {"role": "user", "content": [
            {"type": "text", "text": "What's the area of the triangle?"},
            {"type": "image_url", "image_url": {
                "url": f"data:image/png;base64,{base64_image}"}
            }
        ]}
    ],
    temperature=0.0,
)

print(response.choices[0].message.content)

URL 图像处理

response = client.chat.completions.create(
    model=MODEL,
    messages=[
        {"role": "system", "content": "You are a helpful assistant that responds in Markdown. Help me with my math homework!"},
        {"role": "user", "content": [
            {"type": "text", "text": "What's the area of the triangle?"},
            {"type": "image_url", "image_url": {
                "url": "https://upload.wikimedia.org/wikipedia/commons/e/e2/The_Algebra_of_Mohammed_Ben_Musa_-_page_82b.png"}
            }
        ]}
    ],
    temperature=0.0,
)

print(response.choices[0].message.content)

视频处理

虽然无法直接将视频发送到API，但GPT-4o可以理解视频，如果您提取帧并将其作为图像提供。它在这项任务上的表现优于GPT-4 Turbo。

由于截至2024年5月，API中的GPT-4o尚不支持音频输入，我们将结合使用GPT-4o和Whisper来处理提供的视频的音频和视觉部分，并展示两个用例：

摘要
问答

视频处理设置

我们将使用两个用于视频处理的Python包 - opencv-python和moviepy。

这些包需要ffmpeg，因此请确保提前安装。根据你的操作系统，你可能需要运行brew install ffmpeg或sudo apt install ffmpeg

pip install opencv-python --quiet
pip install moviepy --quiet

将视频处理为两个组件：帧和音频

import cv2
from moviepy.editor import VideoFileClip
import time
import base64

# 我们将使用 OpenAI DevDay 主题演讲视频。您可以在这里查看视频：https://www.youtube.com/watch?v=h02ti0Bl6zk
VIDEO_PATH = "data/keynote_recap.mp4"

def process_video(video_path, seconds_per_frame=2):
    base64Frames = []
    base_video_path, _ = os.path.splitext(video_path)

    video = cv2.VideoCapture(video_path)
    total_frames = int(video.get(cv2.CAP_PROP_FRAME_COUNT))
    fps = video.get(cv2.CAP_PROP_FPS)
    frames_to_skip = int(fps * seconds_per_frame)
    curr_frame=0

    # 循环遍历视频并按指定采样率提取帧
    while curr_frame < total_frames - 1:
        video.set(cv2.CAP_PROP_POS_FRAMES, curr_frame)
        success, frame = video.read()
        if not success:
            break
        _, buffer = cv2.imencode(".jpg", frame)
        base64Frames.append(base64.b64encode(buffer).decode("utf-8"))
        curr_frame += frames_to_skip
    video.release()

    # 从视频中提取音频
    audio_path = f"{base_video_path}.mp3"
    clip = VideoFileClip(video_path)
    clip.audio.write_audiofile(audio_path, bitrate="32k")
    clip.audio.close()
    clip.close()

    print(f"提取了 {len(base64Frames)} 帧")
    print(f"音频已提取到 {audio_path}")
    return base64Frames, audio_path

# 每秒提取 1 帧。您可以调整 `seconds_per_frame` 参数以更改采样率
base64Frames, audio_path = process_video(VIDEO_PATH, seconds_per_frame=1)

## 显示帧和音频以提供上下文
display_handle = display(None, display_id=True)
for img in base64Frames:
    display_handle.update(Image(data=base64.b64decode(img.encode("utf-8")), width=600))
    time.sleep(0.025)

Audio(audio_path)

示例 1：摘要

现在我们已经拥有视频帧和音频，让我们进行一些不同的测试，以生成视频摘要，以比较使用不同模态的模型的结果。我们应该预期到，使用视觉和音频输入的上下文生成的摘要将是最准确的，因为模型能够使用视频的全部上下文。

视觉摘要
音频摘要
视觉 + 音频摘要

视觉摘要

视觉摘要是通过仅向模型发送视频帧生成的。仅凭帧，模型可能会捕捉到视觉方面，但会错过演讲者讨论的任何细节。

response = client.chat.completions.create(
    model=MODEL,
    messages=[
    {"role": "system", "content": "You are generating a video summary. Please provide a summary of the video. Respond in Markdown."},
    {"role": "user", "content": [
        "These are the frames from the video.",
        *map(lambda x: {"type": "image_url",
                        "image_url": {"url": f'data:image/jpg;base64,{x}', "detail": "low"}}, base64Frames)
        ],
    }
    ],
    temperature=0,
)
print(response.choices[0].message.content)

模型能够捕捉视频视觉的高层次方面，但错过了演讲中提供的细节。

音频摘要

音频摘要是通过向模型发送音频转录生成的。仅凭音频，模型可能会偏向于音频内容，并且会错过演示和视觉提供的上下文。

{audio} 输入对于 GPT-4o 目前不可用，但很快就会推出！目前，我们使用现有的 whisper-1 模型来处理音频。

# 转录音频
transcription = client.audio.transcriptions.create(
    model="whisper-1",
    file=open(audio_path, "rb"),
)
## 可选：取消注释以下行以打印转录文本
#print("Transcript: ", transcription.text + "\n\n")

response = client.chat.completions.create(
    model=MODEL,
    messages=[
    {"role": "system", "content":"""You are generating a transcript summary. Create a summary of the provided transcription. Respond in Markdown."""},
    {"role": "user", "content": [
        {"type": "text", "text": f"The audio transcription is: {transcription.text}"}
        ],
    }
    ],
    temperature=0,
)
print(response.choices[0].message.content)

音频摘要可能会偏向于演讲中讨论的内容，但结构远不如视频摘要。

音频 + 视觉摘要

音频 + 视觉摘要是通过同时向模型发送视频的视觉和音频生成的。当同时发送这两者时，模型预计能够更好地总结，因为它可以一次性感知整个视频。

## 生成视觉和音频的摘要
response = client.chat.completions.create(
    model=MODEL,
    messages=[
    {"role": "system", "content":"""You are generating a video summary. Create a summary of the provided video and its transcript. Respond in Markdown"""},
    {"role": "user", "content": [
        "These are the frames from the video.",
        *map(lambda x: {"type": "image_url",
                        "image_url": {"url": f'data:image/jpg;base64,{x}', "detail": "low"}}, base64Frames),
        {"type": "text", "text": f"The audio transcription is: {transcription.text}"}
        ],
    }
],
    temperature=0,
)
print(response.choices[0].message.content)

在结合视频和音频后，您将能够获得一个更详细和全面的事件摘要，该摘要使用了来自视频的视觉和音频元素的信息。

示例 2：问答

对于问答，我们将使用与之前相同的概念，针对我们处理过的视频提出问题，同时进行相同的 3 项测试，以展示结合输入模态的好处：

视觉问答
音频问答
视觉 + 音频问答

QUESTION = "问题：Sam Altman 为什么举了一个关于打开窗户和打开收音机的例子？"

qa_visual_response = client.chat.completions.create(
    model=MODEL,
    messages=[
    {"role": "system", "content": "使用视频回答所提供的问题。以 Markdown 格式回复。"},
    {"role": "user", "content": [
        "这些是视频中的帧。",
        *map(lambda x: {"type": "image_url", "image_url": {"url": f'data:image/jpg;base64,{x}', "detail": "low"}}, base64Frames),
        QUESTION
        ],
    }
    ],
    temperature=0,
)
print("视觉问答:\n" + qa_visual_response.choices[0].message.content)

视觉问答： 
Sam Altman 使用了关于打开窗户和打开收音机的例子来演示 GPT-4 Turbo 的函数调用能力。这个例子说明了模型如何以更结构化和高效的方式解释和执行多个命令。“之前”和“之后”的比较展示了模型现在如何能够根据自然语言指令直接调用像 `raise_windows()` 和 `radio_on()` 这样的函数，展示了其改进的控制能力和功能。

qa_audio_response = client.chat.completions.create(
    model=MODEL,
    messages=[
    {"role": "system", "content":"""使用转录文本回答所提供的问题。以 Markdown 格式回复."""},
    {"role": "user", "content": f"音频转录文本为：{transcription.text}。\n\n {QUESTION}"},
    ],
    temperature=0,
)
print("音频问答:\n" + qa_audio_response.choices[0].message.content)

音频问答：
提供的转录文本中没有提到 Sam Altman 或关于打开窗户和打开收音机的例子。因此，我无法根据给定的转录文本提供答案。

qa_both_response = client.chat.completions.create(
    model=MODEL,
    messages=[
    {"role": "system", "content":"""使用视频和转录文本回答所提供的问题."""},
    {"role": "user", "content": [
        "这些是视频中的帧。",
        *map(lambda x: {"type": "image_url",
                        "image_url": {"url": f'data:image/jpg;base64,{x}', "detail": "low"}}, base64Frames),
                        {"type": "text", "text": f"音频转录文本为：{transcription.text}"},
        QUESTION
        ],
    }
    ],
    temperature=0,
)
print("综合问答:\n" + qa_both_response.choices[0].message.content)

综合问答：
Sam Altman 使用了打开窗户和打开收音机的例子来演示 GPT-4 Turbo 的改进函数调用能力。这个例子说明了模型现在如何更有效地处理多个函数调用，并更好地遵循指令。在“之前”的场景中，模型必须为每个操作单独提示，而在“之后”的场景中，模型能够在单个提示中处理两个操作，展示了其同时管理和执行多个任务的增强能力。

比较这三种回答，最准确的答案是通过同时使用音频和视频生成的。Sam Altman 在主题演讲中并没有讨论打开窗户或收音机，而是提到了模型在单个请求中执行多个功能的能力改进，同时这些例子在他身后展示。

结论

集成音频、视觉和文本等多种输入模式，显著提升了模型在多样化任务上的表现。这种多模态方法允许更全面的理解和互动，更加贴近人类感知和处理信息的方式。

Previous在 Portkey + Together AI 上使用 Llama 3 NextAnyscale

Last updated 1 year ago

hashtagGPT-4o 模型

hashtag当前能力

hashtag开始使用

hashtag安装 OpenAI SDK for Python

hashtag配置 OpenAI 客户端

hashtag图像处理

hashtagBase64 图像处理

hashtagURL 图像处理

hashtag视频处理

hashtag视频处理设置

hashtag将视频处理为两个组件：帧和音频

hashtag示例 1：摘要

hashtag视觉摘要

hashtag音频摘要

hashtag音频 + 视觉摘要

hashtag示例 2：问答

hashtag结论