El pasado 1 de octubre de 2024, OpenAI lanzó su nueva herramienta, Realtime API, que permite integrar asistentes de voz en cualquier aplicación de terceros. Esta API simplifica la creación de asistentes de voz similares al Advanced Voice Mode de ChatGPT, brindando una experiencia más fluida y con baja latencia.
Anteriormente, los desarrolladores tenían que realizar un proceso complejo para crear asistentes de voz. Este proceso implicaba transcribir el audio con un sistema de reconocimiento de voz, procesar el texto para obtener una respuesta y luego sintetizar esa respuesta en voz. Este método resultaba en una pérdida de naturalidad, ya que no lograba captar elementos como emociones, acentos y énfasis. Realtime API mejora considerablemente este flujo al transmitir las entradas y salidas de audio directamente, facilitando interacciones mucho más naturales.
Uno de los aspectos más innovadores de esta API es su integración con la funcionalidad de function calling, lo que permite a los desarrolladores disparar acciones dentro de una app mediante comandos de voz. Esto es especialmente útil en sectores como el servicio al cliente y la educación, donde una respuesta rápida y eficiente es clave. Un ejemplo destacado de esta integración es Speak, una aplicación de aprendizaje de idiomas que utiliza Realtime API para hacer correcciones de pronunciación en tiempo real.
Realtime API también se distingue por su flexibilidad, ya que permite a los desarrolladores seleccionar entre múltiples tipos de voces, y su capacidad para interrumpir respuestas sin perder el hilo de la conversación. Todo esto bajo un marco de seguridad y privacidad que OpenAI ha adaptado del Advanced Voice Mode de ChatGPT, prohibiendo el uso de la tecnología para engañar a personas o con fines de spam.
El uso de Realtime API, que ya está disponible en beta pública para los desarrolladores en los niveles de pago, tiene un costo basado en el número de tokens procesados. Los tokens de texto tienen un costo de 5 dólares por cada millón de tokens de entrada y 20 dólares por cada millón de tokens de salida, mientras que los tokens de audio son más costosos: 100 dólares por cada millón de tokens de entrada y 200 dólares por cada millón de tokens de salida.
Te ayudamos a llevar tu negocio a la era de la IA
Si eres desarrollador y buscas implementar esta avanzada tecnología de asistentes de voz en tu aplicación, es el momento perfecto para explorar las capacidades de Realtime API. Y si además buscas mejorar la presencia de tu aplicación o sitio web, te invitamos a conocer nuestros servicios de diseño web, SEO y marketing digital en Site Supremacy. Visita www.sitesupremacy.com y lleva tu proyecto al siguiente nivel.