指定されたチャット会話に対するモデルレスポンスのリクエストを送信します。ストリーミングモードと非ストリーミングモードの両方に対応しています。OpenAI Chat Completions APIフォーマットと互換性があります。
Bearerトークン。APIキーをAuthorizationヘッダーのBearerトークンとして使用してください。Format: Bearer <SUNRA_KEY>
リクエスト
このエンドポイントはJSONオブジェクトを受け付けます。
会話のメッセージリスト。
メッセージ作成者のロール。サポートされている値: system, user, assistant, tool。
メッセージの内容。文字列またはマルチモーダル入力用のコンテンツパーツの配列を指定できます。
参加者のオプション名。同じロールの参加者を区別するための情報をモデルに提供します。
関数呼び出しなど、モデルによって生成されたツール呼び出し。assistantメッセージにのみ存在します。
このメッセージが応答するツール呼び出し。toolメッセージにのみ存在します。
trueに設定すると、部分的なメッセージデルタがサーバー送信イベント(SSE)として送信されます。
補完で生成するトークンの最大数。入力トークンと生成トークンの合計はモデルのコンテキスト長によって制限されます。
0から2の間のサンプリング温度。0.8のような高い値は出力をよりランダムにし、0.2のような低い値はより集中的で決定論的にします。
核サンプリングパラメータ(0-1)。temperatureサンプリングの代替として、モデルがtop_pの確率質量を持つトークンを考慮します。
-2.0から2.0の間の数値。正の値は、テキスト中の既存の頻度に基づいて新しいトークンにペナルティを課し、モデルが同じ行をそのまま繰り返す可能性を低下させます。
-2.0から2.0の間の数値。正の値は、テキスト中に既に出現しているかどうかに基づいて新しいトークンにペナルティを課し、モデルが新しいトピックについて話す可能性を高めます。
APIがそれ以上トークンを生成するのを停止する最大4つのシーケンス。
各入力メッセージに対して生成するチャット補完の選択肢の数。
出力トークンの対数確率を返すかどうか。trueの場合、メッセージのコンテンツに返される各出力トークンの対数確率を返します。
各トークン位置で返す最も可能性の高いトークンの数を指定する0から20の整数。このパラメータを使用する場合は、logprobsをtrueに設定する必要があります。
モデルが出力する必要があるフォーマットを指定するオブジェクト。
レスポンスフォーマットのタイプ。サポートされている値: text, json_object, json_schema。
JSONスキーマオブジェクト。typeがjson_schemaの場合に必須です。
指定した場合、システムは決定論的にサンプリングするよう最善を尽くします。同じseedとパラメータを使用した繰り返しのリクエストは同じ結果を返すはずです。
モデルが呼び出す可能性のあるツールのリスト。現在、ツールとしてサポートされているのは関数のみです。
ツールのタイプ。現在、functionのみサポートされています。
関数の定義。
関数が受け入れるパラメータ。JSONスキーマオブジェクトとして記述されます。
モデルがどのツールを呼び出すかを制御します。noneはモデルがツールを呼び出さないことを意味します。autoはモデルがメッセージ生成とツール呼び出しのいずれかを選択できることを意味します。requiredはモデルが1つ以上のツールを呼び出す必要があることを意味します。{"type": "function", "function": {"name": "my_function"}}のように特定の関数を指定することもできます。
ツール使用時に並列関数呼び出しを有効にするかどうか。
エンドユーザーを表す一意の識別子。不正使用の監視と検出に役立ちます。
レスポンス
チャット補完の成功レスポンス。
オブジェクトタイプ。常にchat.completion。
チャット補完が作成された時のUnixタイムスタンプ(秒単位)。
チャット補完の選択肢リスト。nが1より大きい場合、複数になることがあります。
モデルによって生成されたチャット補完メッセージ。
このメッセージの作成者のロール。常にassistant。
関数呼び出しなど、モデルによって生成されたツール呼び出し。
ツールのタイプ。現在、functionのみサポートされています。
モデルが呼び出した関数。
モデルによってJSON形式で生成された、関数を呼び出すための引数。
モデルがトークン生成を停止した理由。stop、length、tool_calls、またはcontent_filter。
補完リクエストの使用統計。
使用されたトークンの合計数(プロンプト + 補完)。
モデルが実行されるバックエンド構成を表すフィンガープリント。seedパラメータと共に使用して、バックエンドの変更がいつ行われたかを把握できます。
curl -X POST https://api-llm.sunra.ai/v1/chat/completions \
-H "Authorization: Bearer <SUNRA_KEY>" \
-H "Content-Type: application/json" \
-d '{
"model": "openai/gpt-4o",
"messages": [
{
"role": "system",
"content": "You are a helpful assistant."
},
{
"role": "user",
"content": "What is the capital of France?"
}
]
}'
{
"id": "chatcmpl-abc123",
"object": "chat.completion",
"created": 1677652288,
"model": "openai/gpt-4o",
"choices": [
{
"index": 0,
"message": {
"role": "assistant",
"content": "The capital of France is Paris."
},
"finish_reason": "stop",
"logprobs": null
}
],
"system_fingerprint": "fp_44709d6fcb",
"usage": {
"prompt_tokens": 25,
"completion_tokens": 8,
"total_tokens": 33
}
}