服务使用

whisper使用示例

whisper使用示例 #

whisper 模型接口说明 #


该接口基于 Whisper 模型实现语音转文本功能,支持常见音频格式。

基础概念 #


  • Whisper模型: OpenAI 开源的语音识别模型,支持多语言转写

  • 音频格式: 支持 mp3、wav、m4a 等常见格式

接口地址 #


POST https://api.whatai.cc/v1/audio/transcriptions

请求参数 #


参数名 类型 必填 说明
model string 固定值 “whisper-1”
file file 要转写的音频文件

请求头 #


Authorization: Bearer sk- **** **** **** **** **** * # 替换为你的 API 令牌

Python 调用示例 #


import json
import requests

def voice_to_text(file_path):
    """
    语音转文本功能
    
    参数:
        file_path: 音频文件路径
        
    返回:
        识别出的文本内容
    """
    url = "https://api.whatai.cc/v1/audio/transcriptions"
    
    # 构造请求参数
    payload = {"model": "whisper-1"}
    files = {"file": ("audio.mp3", open(file_path, "rb"))}
    
    # 设置请求头(请替换为你的API密钥)
    headers = {"Authorization": "Bearer sk-***************************"} # 替换为你的 API 令牌
    
    # 发送POST请求
    response = requests.post(url, headers=headers, data=payload, files=files)
    
    # 解析响应数据
    data = json.loads(response.text)
    
    # 返回识别结果
    return data.get("text", "")

# 使用示例
print(voice_to_text("audio.mp3"))  # 替换为你的音频文件路径

响应示例 #


成功响应:

gpt-tts

gpt-tts #

接口说明 #


提供基于 gpt-4o-mini-tts TTS 模型的文本转语音服务,支持多种音色选择。

基础概念 #


  • TTS(Text-to-Speech): 将文本转换为自然语音的技术

  • 音色(Voice): 合成语音的声音特征,本API支持多种预设音色

请求地址 #


POST https://api.whatai.cc/v1/audio/speech

请求头 #


headers = {
    "Authorization": "Bearer ******",  # 替换为您的API密钥
    "Content-Type": "application/json"
}

请求参数 #


参数名 类型 必填 说明
model string 固定值 “gpt-4o-mini-tts”
input string 需要转换为语音的文本内容
voice string 音色类型,如 “alloy”

Python 调用示例 #


import requests
import json

url = "https://api.whatai.cc/v1/audio/speech"
api_key = "******"  # 替换为您的API密钥

payload = {
    "model": "gpt-4o-mini-tts",
    "input": "我是API,欢迎使用语音合成服务",
    "voice": "alloy"
}

try:
    # 发送POST请求
    response = requests.post(url, 
                           headers={"Authorization": f"Bearer {api_key}"},
                           json=payload)
    
    # 检查响应状态
    response.raise_for_status()
    
    # 处理音频响应
    if response.headers["Content-Type"] in ("audio/mpeg", "audio/mp3"):
        with open("output.mp3", "wb") as f:
            f.write(response.content)  # 写入音频文件
        print("语音合成成功,已保存为output.mp3")
    else:
        print("错误响应:", response.text)

except Exception as e:
    print(f"请求出错: {e}")

响应说明 #


  • 成功: 返回MP3格式的音频流,Content-Type为audio/mpeg

gpt文生图

gpt文生图 #

概念介绍 #


文生图(Text-to-Image)是一种通过自然语言描述生成对应图像的技术。本API基于OpenAI的GPT模型实现,支持多种图像生成模型和尺寸规格。

基础信息 #


  • 请求方式: POST

  • Base URL: https://api.whatai.cc

  • 接口路径: /v1/images/generations

  • 认证方式: Bearer Token

请求参数 #


参数名 类型 必填 说明
prompt string 图像描述文本
n int 生成图片数量(默认1)
model string 模型选择(默认gpt-image-1)
aspect_ratio string 宽高比(如"16:9")
size string 图像尺寸(如"1024x1536")
seed int 随机种子(-1表示随机)

支持的模型 #


  • gpt-image-1: 基础模型(支持1024x1024,1024x1536,1536x1024)

  • seedream-3.0: 国内最强,豆包团队开发,即梦3 AI绘图大模型。

  • gpt-image-1: Openai GPT 的画图模型,文本理解与图像生成深度融合,适合文字驱动型创作

  • imagen4: 谷歌的绘图模型,对标 gpt-image

  • flux-kontext-max: Black Forest Labs推出商业级精度的图像生成,满足专业设计需求

gpt图生图

gpt图生图 #

概念介绍 #


本API提供图像编辑功能,支持:

  • 单图修改:基于提示词对单张图片进行内容修改

  • 多图合并:将多张图片按提示词要求合并处理

基础信息 #


  • 请求方式:POST

  • Base URL:https://api.whatai.cc/v1/images/edits

  • 认证方式:Bearer Token

单图修改示例


Python代码示例 #

import base64
import json
import requests

# API配置
url = "https://api.whatai.cc/v1/images/edits"
api_key = "sk-******"  # 替换为你的API密钥

headers = {
    "Authorization": f"Bearer {api_key}"
}

# 请求参数
payload = {
    "prompt": "给哪吒带上一个红色的鸭舌帽,风格保持不变",  # 编辑指令
    # "size": "1024x1024"  # 可选输出尺寸
}

# 准备图片文件
files = [
    ("image",  # 固定参数名
        ("nezha.png",  # 文件名
         open("/path/to/nezha.png", "rb"),  # 文件路径
         "image/png")  # 文件类型
    )
]

# 发送请求
response = requests.post(url, headers=headers, data=payload, files=files)

# 处理响应
if response.status_code == 200:
    try:
        data = response.json()
        
        # 提取base64编码的图片数据
        if data.get("data") and isinstance(data["data"], list):
            image_b64 = data["data"][0].get("b64_json")
            
            if image_b64:
                # 解码并保存图片
                with open("output.png", "wb") as f:
                    f.write(base64.b64decode(image_b64))
                print("图片保存成功")
            else:
                print("未获取到有效图片数据")
        else:
            print("响应数据结构异常")
    except json.JSONDecodeError:
        print("JSON解析失败")
else:
    print(f"请求失败: {response.status_code}")

参数说明 #


参数名 必选 类型 说明
image file 要编辑的图片文件
prompt string 编辑指令描述
size string 输出图片尺寸,如"1024x1024"

响应格式 #


成功响应示例: