> ## Documentation Index
> Fetch the complete documentation index at: https://docs.primeintellect.ai/llms.txt
> Use this file to discover all available pages before exploring further.

# Advanced Usage

> Streaming, advanced parameters, and usage patterns

## Basic Chat Completion

```python theme={null}
response = client.chat.completions.create(
    model="meta-llama/llama-3.1-70b-instruct",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Explain quantum computing in simple terms."}
    ],
    max_tokens=500,
    temperature=0.7
)
```

## Streaming Responses

For real-time applications, use streaming to receive responses as they're generated:

<CodeGroup>
  ```python Python theme={null}
  stream = client.chat.completions.create(
      model="meta-llama/llama-3.1-70b-instruct",
      messages=[
          {"role": "user", "content": "Write a short story about a robot."}
      ],
      stream=True
  )

  for chunk in stream:
      if chunk.choices[0].delta.content is not None:
          print(chunk.choices[0].delta.content, end="")
  ```

  ```bash cURL theme={null}
  curl -X POST https://api.pinference.ai/api/v1/chat/completions \
    -H "Authorization: Bearer $PRIME_API_KEY" \
    -H "Content-Type: application/json" \
    -d '{
      "model": "meta-llama/llama-3.1-70b-instruct",
      "messages": [{"role": "user", "content": "Tell me a story"}],
      "stream": true
    }'
  ```

  ```javascript JavaScript theme={null}
  const response = await fetch('https://api.pinference.ai/api/v1/chat/completions', {
    method: 'POST',
    headers: {
      'Authorization': `Bearer ${process.env.PRIME_API_KEY}`,
      'Content-Type': 'application/json'
    },
    body: JSON.stringify({
      model: 'meta-llama/llama-3.1-70b-instruct',
      messages: [{ role: 'user', content: 'Tell me a story' }],
      stream: true
    })
  });

  const reader = response.body.getReader();
  const decoder = new TextDecoder();

  while (true) {
    const { done, value } = await reader.read();
    if (done) break;

    const chunk = decoder.decode(value);
    process.stdout.write(chunk);
  }
  ```
</CodeGroup>

## Usage Metadata

Include `"usage": {"include": true}` to get token counts and cost:

```python theme={null}
response = client.chat.completions.create(
    model="meta-llama/llama-3.1-70b-instruct",
    messages=[{"role": "user", "content": "Hello"}],
    extra_body={"usage": {"include": True}}
)
```

Response includes:

```json theme={null}
{
  "usage": {
    "prompt_tokens": 10,
    "completion_tokens": 25,
    "total_tokens": 35,
    "input_tokens": 10,
    "output_tokens": 25,
    "cost": 0.000123
  }
}
```

## Advanced Parameters

Prime Inference supports all standard OpenAI API parameters:

```python theme={null}
response = client.chat.completions.create(
    model="meta-llama/llama-3.1-70b-instruct",
    messages=[{"role": "user", "content": "Your prompt here"}],

    # Generation parameters
    max_tokens=1000,
    temperature=0.8,
    top_p=0.9,
    frequency_penalty=0.1,
    presence_penalty=0.1,

    # Advanced options
    stream=False,
    stop=["END", "\n\n"],
    logprobs=True,
    top_logprobs=3
)
```

## Next Steps

<CardGroup cols={2}>
  <Card title="Team Accounts" icon="users" href="/inference/team-accounts">
    Using inference with team accounts
  </Card>

  <Card title="API Reference" icon="book" href="/api-reference/inference-chat-completions">
    Complete API documentation
  </Card>
</CardGroup>