OmniVoice登場悪用 - 人工知能＠ふたば

画像ファイル名：1775309169715.mp4-(1926759 B)

無題Name名無し26/04/04(土)22:26:09No.159544+ 26年11月頃消えます

OmniVoice登場悪用厳禁

…	1無題Name名無し 26/04/04(土)22:26:29No.159545そうだねx1 1775309189095.mp4-(707426 B) ゲームエンド

…	2無題Name名無し 26/04/05(日)00:07:22No.159553+ 話が見えんが確かにすごい表現力だな

…	3無題Name名無し 26/04/05(日)00:43:56No.159560+ 1775317436413.mp4-(1561674 B) ゼロショットでこのレベルで真似られるって話「読み」はイマイチだけどそれでも圧倒的に強い QwenTTSとかは読めるけれどアクセントが日本語としておかしいとか MioTTSやIrodori-TTSは参照と似ていないとかあるけど読めないだけならばやりようはある

…	4無題Name名無し 26/04/05(日)00:47:20No.159561+ それと見ての通り生成がやたら速いのでガチャがはかどる

…	5無題Name名無し 26/04/05(日)01:30:56No.159565+ 1775320256251.mp4-(1593829 B) 確認したらQwen3-TTSもろくに読めてなかった・圧倒的に時間がかかる・声色は似ているが、話し方は似ていない・アクセントが壊滅的

…	6無題Name名無し 26/04/05(日)01:32:21No.159566+ 1775320341031.mp4-(905199 B) さらにIrodori-TTSも読みの精度はどっこいだった・時間はややかかる・声色すらそもそも似ていない・アクセントはわりと自然

…	7無題Name名無し 26/04/05(日)03:07:03No.159574+ 1775326023621.mp4-(324892 B) えらやっちゃえらやっちゃそれそれそれそれ

…

8無題Name名無し 26/04/05(日)07:48:34No.159578+
1775342914586.mp4-(1443271 B)

OmniVoiceは、600以上の言語をサポートする大規模な多言語対応ゼロショットテキスト読み上げ（TTS）モデルです。新しい拡散言語モデル様式のアーキテクチャを基盤とし、優れた推論速度で高品質な音声を提供し、音声クローン作成と音声デザインをサポートします。

主な機能

600以上の言語に対応：ゼロショットTTSモデルの中で最も広範な言語カバレッジです。
音声クローン：短いリファレンス音声から得られる最先端の音声クローン品質。
音声デザイン：割り当てられた話者属性（性別、年齢、音程、方言/アクセント、ささやきなど）で声を制御します。
細粒度制御：非言語記号（例：[laughter]およびピンインや音素による発音補正。
高速推論：RTFは0.025まで低く（リアルタイムより40倍速い）。
拡散言語モデルスタイルのアーキテクチャ：クリーンで流線型かつスケーラブルなデザインで、品質と速度の両方を実現します。

…	9無題Name名無し 26/04/05(日)15:21:07No.159614+ 1775370067854.jpg-(117386 B) ふーむ｡すごいね https://x.com/search?q=OmniVoice&src=typed_query&f=live

…	10無題Name名無し 26/04/06(月)07:54:01No.159670+ 追加学習したらさらに似せられるは事実なんだけどその結果新たな2.5GBのモデルになるから（量子化しても800MB）キャラひとりのためにそんなもん作るんだったらGPT-SoVITSモデル作るわ

…	11無題Name名無し 26/04/08(水)02:54:08No.159805+ 1775584448151.mp4-(1020677 B) VoxCPM2も登場

…	12無題Name名無し 26/04/08(水)03:53:17No.159808+ 1775587997569.mp4-(3207971 B) さらにボイスデザイニングが強い OmniVoiceよりも生成時間は掛かるが

…	13無題Name名無し 26/04/08(水)09:30:32No.159820+ 1775608232227.mp4-(205240 B) VoxCPM2も悪くはないがやはりクローニングはOmniがやや上という感じボイスデザイニングはVoxCPM2のほうがいいと思うあるいはアニメ系が欲しいならIrodori－TTSのほうがいいかもな

…	14無題Name名無し 26/04/08(水)23:43:02No.159871+ 1775659382258.mp4-(466475 B) 弱点に気づいてしまった気がする VoxCPM2はセリフが長いとどんどん劣化していく 40秒のあたりのセリフが何回やってもケロって良くならない >1775584448151.mp4 これで生成された声に参照音源のケツが入っているのは（バグなのでもう修正された）つまり参照音源の後ろに続きを生成している仕組みなのだろう知らんけど

…	15無題Name名無し 26/04/08(水)23:43:41No.159872+ 1775659421520.mp4-(141659 B) 単尺で生成し直すと明らかに違う

…	16無題Name名無し 26/04/08(水)23:45:13No.159873+ いっぽうでOmniは長尺になると速すぎる気がする速度調整すればいいだけだが

…	17無題Name名無し 26/04/15(水)07:21:08No.160325+ 1776205268779.mp4-(7765921 B) AIボイス屋はみじけえ夢だったなあ

…	18無題Name名無し 26/04/15(水)07:22:10No.160326+ 1776205330356.mp4-(5180978 B) 廃業ですってね

…	19無題Name名無し 26/04/21(火)11:15:46No.160831+ 1776737746307.mp4-(1257645 B) Irodori-TTS で似せるにはCFG Scale Speaker を最大に CFG Scale Text をゼロにするといいっぽい

…	20無題Name名無し 26/04/21(火)11:45:16No.160832+ 1776739516206.mp4-(1928710 B) だがやはり純粋なクローニングはオムニボイスが強い

…	21無題Name名無し 26/04/21(火)11:54:07No.160833+ 1776740047211.mp4-(2561961 B) VoxCPMはちょっと特殊で変な声には強いのかもしれないオムニボイスは通常の文には強いけれど感情文自体が苦手 Irodoriは感情文に非常に強いものの、読ませる文章の影響が強く、顔文字使っても無理やり感情を乗せることができない VoxCPMはこの制約がなく参照音源を再現しようとする感じ

…	22無題Name名無し 26/04/21(火)11:56:03No.160834+ 1776740163098.mp4-(542423 B) ちなみにIrodoriに感情的な文を入れるとこれも良くないむしろ使えるって人もいるかもだが

…	23無題Name名無し 26/04/22(水)05:16:44No.160894+ CFG Scale Speaker が高いと変な声の場合にその変な特徴を反映しすぎておかしくなるっぽいな下げるとちゃんと読めるようになるけどもちろんクローニングからは離れる

…	24無題Name名無し 26/04/28(火)19:54:56No.161373+ 1777373696827.mp4-(899260 B) 日本発のさらしな登場 OmniVoice登場まえならば要チェックだったかもだが

…	25無題Name名無し 26/04/28(火)20:11:18No.161374+ 1777374678161.mp4-(911628 B) 今後はどうあがいてもオムニボイスと比較されてしまうよこっちは商用利用も自由なのに

…	26無題Name名無し 26/04/28(火)22:26:56No.161387+ 当分これでいい⋯ ://www.playbox.com/?ref=TOMO00 ://motionmuse.ai/r/sqzqoo5t ://unlucid.ai/r/6tbrsjuw ://veners.ai/ref/e3e91545e2cd ://musebox.ai/?ref=cNz6Jg

…	27無題Name名無し 26/05/02(土)00:14:53No.161645+ 1777648493996.mp4-(688571 B) vLLM を使用するとイントネーションはまともになるただし話し方はちょっと似ていないな

おなまえ
E-mail
題　　名
コメント
添付File	[画像なし]
削除キー	(記事の削除用。英数字で8文字以内)