Crea una respuesta en streaming o no-streaming utilizando el formato de la API OpenAI Responses.
Autenticación
Token Bearer. Use su clave API como token Bearer en el encabezado Authorization. Formato: Bearer <SUNRA_KEY>
Solicitud
Este endpoint espera un objeto.
ID del modelo utilizado para generar la respuesta. Explore los modelos disponibles en sunra.ai/models .
Entrada para la solicitud de respuesta. Puede ser una cadena de texto o un array de elementos de entrada. Mostrar propiedades (para array)
El tipo de elemento de entrada. Valores admitidos: message, item_reference.
El rol del autor del mensaje. Valores admitidos: user, assistant, system.
El contenido del mensaje de entrada. Puede ser una cadena de texto o un array de partes de contenido.
El ID del elemento. Requerido para mensajes assistant en el historial de conversación.
El estado del elemento. Requerido para mensajes assistant en el historial de conversación.
Inserta un mensaje de sistema (o desarrollador) como primer elemento en el contexto del modelo. Cuando se usa con input, las instrucciones se insertan al inicio de la entrada.
stream
boolean
predeterminado: false
Si se establece en true, la respuesta se transmitirá en streaming mediante eventos server-sent (SSE).
Un límite superior para el número de tokens de salida, incluyendo tokens de salida visibles y tokens de razonamiento.
Temperatura de muestreo entre 0 y 2. Valores más altos aumentan la aleatoriedad.
Parámetro de muestreo por núcleo. Una alternativa al muestreo por temperatura.
Número entre -2.0 y 2.0. Los valores positivos penalizan los nuevos tokens según su frecuencia existente en el texto.
Número entre -2.0 y 2.0. Los valores positivos penalizan los nuevos tokens según si ya aparecen en el texto.
Un array de herramientas que el modelo puede llamar. El tipo de herramienta. Valores admitidos: function, web_search_preview.
El nombre de la función. Requerido cuando el tipo es function.
Una descripción de la función.
Un objeto JSON Schema que define los parámetros de la función.
strict
boolean
predeterminado: false
Indica si la adherencia estricta al esquema está habilitada.
Controla el comportamiento de selección de herramientas. Valores de cadena admitidos: none, auto, required. También puede especificar una función particular.
parallel_tool_calls
boolean
predeterminado: true
Indica si se debe permitir que el modelo ejecute llamadas a herramientas en paralelo.
Configuración para el formato de respuesta de texto. La configuración del formato de texto. El tipo de formato. Valores admitidos: text, json_object, json_schema.
El nombre del formato de respuesta. Requerido cuando el tipo es json_schema.
El esquema JSON. Requerido cuando el tipo es json_schema.
Indica si la adherencia estricta al esquema está habilitada.
Configuración para la salida de razonamiento. Restringe el esfuerzo de razonamiento. Valores admitidos: low, medium, high.
store
boolean
predeterminado: true
Indica si la respuesta generada debe almacenarse para su recuperación posterior.
Conjunto de 16 pares clave-valor que se pueden adjuntar a la respuesta. Las claves son cadenas de máximo 64 caracteres. Los valores son cadenas de máximo 512 caracteres.
Un identificador único que representa a su usuario final. Máximo de 128 caracteres.
Respuesta
Objeto de respuesta exitoso.
Identificador único de la respuesta.
El tipo de objeto. Siempre response.
Marca de tiempo Unix (en segundos) de cuándo se creó la respuesta.
El estado de la respuesta. Valores posibles: completed, failed, in_progress, cancelled.
El modelo utilizado para generar la respuesta.
Un array de elementos de contenido generados por el modelo. El tipo de elemento de salida. Por ejemplo, message.
El ID único del elemento de salida.
El rol. Siempre assistant.
El estado del mensaje. Por ejemplo, completed.
El contenido del mensaje de salida. Tipo de contenido. Por ejemplo, output_text.
El contenido de texto generado.
Anotaciones para el contenido (por ejemplo, citas de búsqueda web).
Estadísticas de uso de tokens para la respuesta. El número de tokens de entrada.
El número de tokens de salida.
El número total de tokens.
Desglose de los tokens de entrada. El número de tokens en caché.
Desglose de los tokens de salida. El número de tokens de razonamiento.
La temperatura de muestreo utilizada.
El valor de muestreo por núcleo utilizado.
La configuración de tokens de salida máximos utilizada.
Un objeto de error si la generación falló.
curl -X POST https://api-llm.sunra.ai/v1/responses \
-H "Authorization: Bearer <SUNRA_KEY>" \
-H "Content-Type: application/json" \
-d '{
"model": "openai/gpt-4o",
"input": [
{
"type": "message",
"role": "user",
"content": "Hello, how are you?"
}
]
}'
{
"id" : "resp-abc123" ,
"object" : "response" ,
"created_at" : 1704067200 ,
"status" : "completed" ,
"model" : "openai/gpt-4o" ,
"output" : [
{
"type" : "message" ,
"id" : "msg_abc123" ,
"role" : "assistant" ,
"status" : "completed" ,
"content" : [
{
"type" : "output_text" ,
"text" : "Hello! I'm doing well, thank you for asking. How can I help you today?" ,
"annotations" : []
}
]
}
],
"temperature" : 1.0 ,
"top_p" : 1.0 ,
"max_output_tokens" : null ,
"usage" : {
"input_tokens" : 15 ,
"output_tokens" : 18 ,
"total_tokens" : 33 ,
"input_tokens_details" : {
"cached_tokens" : 0
},
"output_tokens_details" : {
"reasoning_tokens" : 0
}
},
"error" : null
}