Streaming Responses

For real-time token generation, set stream: true in your request. The response will be delivered as Server-Sent Events (SSE).

Request:

{
  "model": "text-prime",
  "messages": [{"role": "user", "content": "Hello!"}],
  "stream": true
}

Response Format:

Each SSE event contains a data: field with a JSON chunk:

data: {"id":"chatcmpl-abc","object":"chat.completion.chunk","created":1677858242,"model":"text-prime","choices":[{"index":0,"delta":{"role":"assistant"},"finish_reason":null}]}

data: {"id":"chatcmpl-abc","object":"chat.completion.chunk","created":1677858242,"model":"text-prime","choices":[{"index":0,"delta":{"content":"Hello"},"finish_reason":null}]}

data: {"id":"chatcmpl-abc","object":"chat.completion.chunk","created":1677858242,"model":"text-prime","choices":[{"index":0,"delta":{"content":"!"},"finish_reason":null}]}

data: {"id":"chatcmpl-abc","object":"chat.completion.chunk","created":1677858242,"model":"text-prime","choices":[{"index":0,"delta":{},"finish_reason":"stop"}]}

data: [DONE]

Parsing tips:

Each chunk is prefixed with data:
The stream ends with data: [DONE]
Collect delta.content from each chunk to build the full response
Check finish_reason to detect completion (stop, length, tool_calls)

import requests

response = requests.post(
    'https://api.thegrid.ai/v1/chat/completions',
    headers={
        'Authorization': 'Bearer YOUR_API_KEY',
        'Content-Type': 'application/json'
    },
    json={
        'model': 'text-prime',
        'messages': [{'role': 'user', 'content': 'Hello!'}],
        'stream': True
    },
    stream=True
)

for line in response.iter_lines():
    if line:
        line = line.decode('utf-8')
        if line.startswith('data: ') and line != 'data: [DONE]':
            import json
            chunk = json.loads(line[6:])
            content = chunk['choices'][0]['delta'].get('content', '')
            print(content, end='', flush=True)

const response = await fetch('https://api.thegrid.ai/v1/chat/completions', {
  method: 'POST',
  headers: {
    'Authorization': 'Bearer YOUR_API_KEY',
    'Content-Type': 'application/json'
  },
  body: JSON.stringify({
    model: 'text-prime',
    messages: [{ role: 'user', content: 'Hello!' }],
    stream: true
  })
});

const reader = response.body.getReader();
const decoder = new TextDecoder();

while (true) {
  const { done, value } = await reader.read();
  if (done) break;
  
  const chunk = decoder.decode(value);
  const lines = chunk.split('\n').filter(line => line.startsWith('data: '));
  
  for (const line of lines) {
    if (line === 'data: [DONE]') continue;
    const data = JSON.parse(line.slice(6));
    const content = data.choices[0]?.delta?.content || '';
    process.stdout.write(content);
  }
}

from openai import OpenAI

client = OpenAI(
    api_key='YOUR_API_KEY',
    base_url='https://api.thegrid.ai/v1'
)

stream = client.chat.completions.create(
    model='text-prime',
    messages=[{'role': 'user', 'content': 'Hello!'}],
    stream=True
)

for chunk in stream:
    content = chunk.choices[0].delta.content or ''
    print(content, end='', flush=True)

PreviousResponse Format NextRate Limits

Last updated 5 days ago

Was this helpful?