【Python/フルリモート】TTS音声合成モデル開発エンジニア
- ■必須スキル:
- ・TTS/音声合成モデルに関する知見 ・Qwen-TTS、Orpheus、VITS、Fish-Speech等のTTSモデルのFine-tuning・追加学習の実務経験 ・話者適応、感情/プロソディ制御、多言語対応などのカスタマイズ経験 ・音声データセットの構築および音声/テキストアライメント等を含む前処理パイプラインの開発経験 ・PyTorchでのモデル学習およびLoRA等の効率的Fine-tuning手法の実装経験 ・GPU上での推論最適化(バッチング、KV cache管理、量子化、ストリーミング生成)の実務経験 ・vLLM、TensorRT-LLM、SGLang等の推論基盤の選定・導入・最適化経験 ・同時実行数(concurrency)のチューニングおよびレイテンシ(TTFS等)改善の実務経験 ・CUDA最適化およびメモリ効率化に関する深い理解 ・REST API、WebSocket、gRPC設計およびストリーミング音声配信の実装経験 ・推論サービスのレプリカ構成、オートスケーリング、監視・可観測性基盤の構築経験
- ■歓迎スキル:
- ・音素タイムライン(phoneme timestamp)生成をTTSに統合した経験 ・リアルタイム音声対話・AIアバターのリップシンク等の開発経験 ・日本語および英語でのビジネスレベルのコミュニケーション能力 ・音声AI領域におけるTTS/音声生成モデルの開発・運用経験