OpenAIのS2Sプレビューは洗練されていますが、依然として段階的に考えています。 音声→テキスト→テキスト→音声→モデルです。 人間同士の会話はそんなふうじゃない。 ヒドラの紹介です。 順番を待たず、感情を文章に平坦化せず、途中で中断しても途切れないネイティブの音声間対話モデルです。 ヒドラは非同期で推論し、話しながら聞き、感情を保持し続けます。なぜなら、音声の領域から離れることはないからです。 まだベータ版ですが、変化は明らかです。早期アクセスを希望する場合は、コメント欄にリンクがあります。 その様子のプレビューはこちらです。