Cria uma mensagem usando o formato da API Anthropic Messages. Suporta texto, imagens, PDFs, ferramentas e pensamento estendido.
Autenticação
Token Bearer. Use sua chave de API como token Bearer no cabeçalho Authorization. Formato: Bearer <SUNRA_KEY>
Requisição
Este endpoint espera um objeto.
O modelo que completará seu prompt. Navegue pelos modelos disponíveis em sunra.ai/models .
Mensagens de entrada. Cada mensagem de entrada tem um role e content. O papel do autor da mensagem. Valores suportados: user, assistant.
content
string | object[]
obrigatório
O conteúdo da mensagem. Pode ser uma string simples ou um array de blocos de conteúdo. Mostrar tipos de blocos de conteúdo
O tipo de bloco de conteúdo. Valores suportados: text, image, tool_use, tool_result.
Conteúdo de texto. Usado quando o tipo é text.
Fonte da imagem. Usado quando o tipo é image. O tipo de fonte. Valores suportados: base64, url.
O tipo de mídia da imagem. Por exemplo, image/jpeg, image/png, image/gif, image/webp.
Dados de imagem codificados em base64. Obrigatório quando o tipo de fonte é base64.
URL da imagem. Obrigatório quando o tipo de fonte é url.
O número máximo de tokens a gerar antes de parar. Note que o modelo pode parar antes de atingir este máximo.
Prompt do sistema. Um prompt do sistema é uma forma de fornecer contexto e instruções ao modelo. Pode ser uma string ou um array de blocos de conteúdo.
Indica se a resposta deve ser transmitida de forma incremental usando eventos server-sent (SSE).
Quantidade de aleatoriedade injetada na resposta. Varia de 0.0 a 1.0. Use temperature mais próxima de 0.0 para tarefas analíticas/de múltipla escolha, e mais próxima de 1.0 para tarefas criativas e generativas.
Usa amostragem por núcleo. Na amostragem por núcleo, calculamos a distribuição cumulativa sobre todas as opções para cada token seguinte em ordem decrescente de probabilidade e a cortamos quando atinge uma probabilidade particular especificada por top_p.
Amostra apenas entre as K melhores opções para cada token seguinte. Usado para remover respostas de baixa probabilidade da “cauda longa”. Recomendado apenas para casos de uso avançados.
Sequências de texto personalizadas que farão o modelo parar de gerar. O texto retornado não conterá a sequência de parada.
Definições de ferramentas que o modelo pode usar. Descrição do que esta ferramenta faz.
Esquema JSON para a entrada desta ferramenta. Isso define a forma do input que sua ferramenta aceita.
Como o modelo deve usar as ferramentas fornecidas. Valores suportados: auto (padrão, o modelo decide), any (o modelo deve usar uma ferramenta), tool (o modelo deve usar uma ferramenta específica).
O nome da ferramenta a usar. Obrigatório quando o tipo é tool.
Um objeto descrevendo os metadados da requisição. Um identificador externo para o usuário associado à requisição.
Configuração para o pensamento estendido. Quando habilitado, o modelo pensará antes de responder. O número máximo de tokens a usar para o pensamento. Deve ser maior ou igual a 1024.
Resposta
Resposta de mensagem bem-sucedida.
Identificador único da mensagem, por exemplo msg_01XFDUDYJgAACzvnptvVoYEL.
Tipo de objeto. Sempre message.
Papel conversacional da mensagem gerada. Sempre assistant.
Conteúdo gerado pelo modelo. Este é um array de blocos de conteúdo. O tipo de bloco de conteúdo. Pode ser text, tool_use ou thinking.
O texto gerado. Presente quando o tipo é text.
O ID do bloco de uso de ferramenta. Presente quando o tipo é tool_use.
O nome da ferramenta. Presente quando o tipo é tool_use.
A entrada da ferramenta. Presente quando o tipo é tool_use.
O conteúdo do pensamento. Presente quando o tipo é thinking.
O modelo que processou a requisição.
A razão pela qual o modelo parou de gerar. Pode ser end_turn (o modelo atingiu um ponto de parada natural), max_tokens (excedeu max_tokens ou o máximo do modelo), stop_sequence (uma de suas sequências de parada personalizadas foi gerada) ou tool_use (o modelo invocou uma ou mais ferramentas).
Qual sequência de parada personalizada foi gerada, se alguma.
Uso para faturamento e limites de taxa. O número de tokens de entrada utilizados.
O número de tokens de saída utilizados.
cache_creation_input_tokens
O número de tokens de entrada usados para criar a entrada de cache.
O número de tokens de entrada lidos do cache.
curl -X POST https://api-llm.sunra.ai/v1/messages \
-H "Authorization: Bearer <SUNRA_KEY>" \
-H "Content-Type: application/json" \
-d '{
"model": "anthropic/claude-sonnet-4-20250514",
"max_tokens": 1024,
"messages": [
{
"role": "user",
"content": "Hello, how are you?"
}
]
}'
{
"id" : "msg_01XFDUDYJgAACzvnptvVoYEL" ,
"type" : "message" ,
"role" : "assistant" ,
"content" : [
{
"type" : "text" ,
"text" : "Hello! I'm doing well, thank you for asking. How can I help you today?"
}
],
"model" : "anthropic/claude-sonnet-4-20250514" ,
"stop_reason" : "end_turn" ,
"stop_sequence" : null ,
"usage" : {
"input_tokens" : 12 ,
"output_tokens" : 19
}
}