NEW
リモート可

【Python/フルリモート】TTS音声合成モデル開発エンジニア

報酬
900,000円/月
場所
日本国外
雇用形態
業務委託(フリーランス)
業務内容
【募集背景】 音声合成およびTTS技術を活用したプロダクト・サービスの高度化を目的として、専門性の高いエンジニアを募集しております。 【作業内容】 TTS/音声合成モデルのFine-tuningおよび追加学習を行い、話者適応や感情・プロソディ制御、多言語対応などの高度なカスタマイズを実施していただきます。音声データセットの構築や前処理パイプラインの設計・実装、GPUを活用した推論最適化や推論基盤のチューニングを行っていただきます。また、REST APIやWebSocket、gRPCを用いた推論サービスの設計・実装および運用に携わっていただきます。 【求める人物像】 独自データや事業領域に強い関心を持ち、新たな価値創造に貢献したいという強い意欲のある方を求めております。非常に困難な課題に対しても粘り強く研究開発を推進でき、自律的に行動し未知の領域にも積極的に挑戦できる方、チーム内外との円滑なコミュニケーションを通じてプロジェクトを推進できる方を歓迎いたします。 【ポジションの魅力】 最先端のTTSおよび音声生成技術に携わりながら、モデル開発から推論基盤の構築、サービス化まで一連のプロセスに関与していただけます。高難度な技術課題に取り組むことで、音声AI分野における専門性を高めることができ、事業インパクトの大きい取り組みに参画していただけます。 【開発環境】 PyTorchを中心とした機械学習環境およびGPUを活用した推論基盤を使用し、vLLM、TensorRT-LLM、SGLang等のミドルウェアや各種監視・可観測性ツールを組み合わせて開発を行います。
スキルタグ
求めるスキル
■必須スキル:
・TTS/音声合成モデルに関する知見 ・Qwen-TTS、Orpheus、VITS、Fish-Speech等のTTSモデルのFine-tuning・追加学習の実務経験 ・話者適応、感情/プロソディ制御、多言語対応などのカスタマイズ経験 ・音声データセットの構築および音声/テキストアライメント等を含む前処理パイプラインの開発経験 ・PyTorchでのモデル学習およびLoRA等の効率的Fine-tuning手法の実装経験 ・GPU上での推論最適化(バッチング、KV cache管理、量子化、ストリーミング生成)の実務経験 ・vLLM、TensorRT-LLM、SGLang等の推論基盤の選定・導入・最適化経験 ・同時実行数(concurrency)のチューニングおよびレイテンシ(TTFS等)改善の実務経験 ・CUDA最適化およびメモリ効率化に関する深い理解 ・REST API、WebSocket、gRPC設計およびストリーミング音声配信の実装経験 ・推論サービスのレプリカ構成、オートスケーリング、監視・可観測性基盤の構築経験
■歓迎スキル:
・音素タイムライン(phoneme timestamp)生成をTTSに統合した経験 ・リアルタイム音声対話・AIアバターのリップシンク等の開発経験 ・日本語および英語でのビジネスレベルのコミュニケーション能力 ・音声AI領域におけるTTS/音声生成モデルの開発・運用経験