OmniVoice登場悪用 - 人工知能＠ふたば

画像ファイル名：1775309169715.mp4-(1926759 B)

無題Name名無し26/04/04(土)22:26:09No.159544そうだねx1 11月05日頃消えます

OmniVoice登場悪用厳禁

…	1無題Name名無し 26/04/04(土)22:26:29No.159545そうだねx2 1775309189095.mp4-(707426 B) ゲームエンド

…	2無題Name名無し 26/04/05(日)00:07:22No.159553+ 話が見えんが確かにすごい表現力だな

…	3無題Name名無し 26/04/05(日)00:43:56No.159560そうだねx1 1775317436413.mp4-(1561674 B) ゼロショットでこのレベルで真似られるって話「読み」はイマイチだけどそれでも圧倒的に強い QwenTTSとかは読めるけれどアクセントが日本語としておかしいとか MioTTSやIrodori-TTSは参照と似ていないとかあるけど読めないだけならばやりようはある

…	4無題Name名無し 26/04/05(日)00:47:20No.159561+ それと見ての通り生成がやたら速いのでガチャがはかどる

…	5無題Name名無し 26/04/05(日)01:30:56No.159565そうだねx1 1775320256251.mp4-(1593829 B) 確認したらQwen3-TTSもろくに読めてなかった・圧倒的に時間がかかる・声色は似ているが、話し方は似ていない・アクセントが壊滅的

…	6無題Name名無し 26/04/05(日)01:32:21No.159566そうだねx1 1775320341031.mp4-(905199 B) さらにIrodori-TTSも読みの精度はどっこいだった・時間はややかかる・声色すらそもそも似ていない・アクセントはわりと自然

…	7無題Name名無し 26/04/05(日)03:07:03No.159574そうだねx1 1775326023621.mp4-(324892 B) えらやっちゃえらやっちゃそれそれそれそれ

…

8無題Name名無し 26/04/05(日)07:48:34No.159578そうだねx1
1775342914586.mp4-(1443271 B)

OmniVoiceは、600以上の言語をサポートする大規模な多言語対応ゼロショットテキスト読み上げ（TTS）モデルです。新しい拡散言語モデル様式のアーキテクチャを基盤とし、優れた推論速度で高品質な音声を提供し、音声クローン作成と音声デザインをサポートします。

主な機能

600以上の言語に対応：ゼロショットTTSモデルの中で最も広範な言語カバレッジです。
音声クローン：短いリファレンス音声から得られる最先端の音声クローン品質。
音声デザイン：割り当てられた話者属性（性別、年齢、音程、方言/アクセント、ささやきなど）で声を制御します。
細粒度制御：非言語記号（例：[laughter]およびピンインや音素による発音補正。
高速推論：RTFは0.025まで低く（リアルタイムより40倍速い）。
拡散言語モデルスタイルのアーキテクチャ：クリーンで流線型かつスケーラブルなデザインで、品質と速度の両方を実現します。

…	9無題Name名無し 26/04/05(日)15:21:07No.159614+ 1775370067854.jpg-(117386 B) ふーむ｡すごいね https://x.com/search?q=OmniVoice&src=typed_query&f=live

…	10無題Name名無し 26/04/06(月)07:54:01No.159670そうだねx1 追加学習したらさらに似せられるは事実なんだけどその結果新たな2.5GBのモデルになるから（量子化しても800MB）キャラひとりのためにそんなもん作るんだったらGPT-SoVITSモデル作るわ

…	11無題Name名無し 26/04/08(水)02:54:08No.159805そうだねx1 1775584448151.mp4-(1020677 B) VoxCPM2も登場

…	12無題Name名無し 26/04/08(水)03:53:17No.159808そうだねx1 1775587997569.mp4-(3207971 B) さらにボイスデザイニングが強い OmniVoiceよりも生成時間は掛かるが

…	13無題Name名無し 26/04/08(水)09:30:32No.159820そうだねx1 1775608232227.mp4-(205240 B) VoxCPM2も悪くはないがやはりクローニングはOmniがやや上という感じボイスデザイニングはVoxCPM2のほうがいいと思うあるいはアニメ系が欲しいならIrodori－TTSのほうがいいかもな

…	14無題Name名無し 26/04/08(水)23:43:02No.159871そうだねx1 1775659382258.mp4-(466475 B) 弱点に気づいてしまった気がする VoxCPM2はセリフが長いとどんどん劣化していく 40秒のあたりのセリフが何回やってもケロって良くならない >1775584448151.mp4 これで生成された声に参照音源のケツが入っているのは（バグなのでもう修正された）つまり参照音源の後ろに続きを生成している仕組みなのだろう知らんけど

…	15無題Name名無し 26/04/08(水)23:43:41No.159872そうだねx1 1775659421520.mp4-(141659 B) 単尺で生成し直すと明らかに違う

…	16無題Name名無し 26/04/08(水)23:45:13No.159873+ いっぽうでOmniは長尺になると速すぎる気がする速度調整すればいいだけだが

…	17無題Name名無し 26/04/15(水)07:21:08No.160325そうだねx1 1776205268779.mp4-(7765921 B) AIボイス屋はみじけえ夢だったなあ

…	18無題Name名無し 26/04/15(水)07:22:10No.160326そうだねx1 1776205330356.mp4-(5180978 B) 廃業ですってね

…	19無題Name名無し 26/04/21(火)11:15:46No.160831そうだねx1 1776737746307.mp4-(1257645 B) Irodori-TTS で似せるにはCFG Scale Speaker を最大に CFG Scale Text をゼロにするといいっぽい

…	20無題Name名無し 26/04/21(火)11:45:16No.160832そうだねx1 1776739516206.mp4-(1928710 B) だがやはり純粋なクローニングはオムニボイスが強い

…	21無題Name名無し 26/04/21(火)11:54:07No.160833そうだねx1 1776740047211.mp4-(2561961 B) VoxCPMはちょっと特殊で変な声には強いのかもしれないオムニボイスは通常の文には強いけれど感情文自体が苦手 Irodoriは感情文に非常に強いものの、読ませる文章の影響が強く、顔文字使っても無理やり感情を乗せることができない VoxCPMはこの制約がなく参照音源を再現しようとする感じ

…	22無題Name名無し 26/04/21(火)11:56:03No.160834そうだねx1 1776740163098.mp4-(542423 B) ちなみにIrodoriに感情的な文を入れるとこれも良くないむしろ使えるって人もいるかもだが

…	23無題Name名無し 26/04/22(水)05:16:44No.160894+ CFG Scale Speaker が高いと変な声の場合にその変な特徴を反映しすぎておかしくなるっぽいな下げるとちゃんと読めるようになるけどもちろんクローニングからは離れる

…	24無題Name名無し 26/04/28(火)19:54:56No.161373そうだねx1 1777373696827.mp4-(899260 B) 日本発のさらしな登場 OmniVoice登場まえならば要チェックだったかもだが

…	25無題Name名無し 26/04/28(火)20:11:18No.161374そうだねx1 1777374678161.mp4-(911628 B) 今後はどうあがいてもオムニボイスと比較されてしまうよこっちは商用利用も自由なのに

…	26無題Name名無し 26/04/28(火)22:26:56No.161387+ 当分これでいい⋯ ://www.playbox.com/?ref=TOMO00 ://motionmuse.ai/r/sqzqoo5t ://unlucid.ai/r/6tbrsjuw ://veners.ai/ref/e3e91545e2cd ://musebox.ai/?ref=cNz6Jg

…	27無題Name名無し 26/05/02(土)00:14:53No.161645そうだねx1 1777648493996.mp4-(688571 B) vLLM を使用するとイントネーションはまともになるただし話し方はちょっと似ていないな

…	28無題Name名無し 26/06/24(水)18:09:02No.167569そうだねx1 1782292142244.mp4-(524787 B) ZONOS2 が登場いまどきびっくりするほど似ていないモデルは15GB超もあってこんなに時間もかけるくせにいったい何をしているんだよ？

…	29無題Name名無し 26/06/27(土)20:14:54No.167802そうだねx2 1782558894067.mp4-(773227 B) Irodoriの学習してみた LoRAではなくSpeaker Inversionのほうだけどゼロショットのと同じ音声ひとつでもだいぶいいかもだ

…	30無題Name名無し 26/06/28(日)02:54:24No.167856そうだねx1 1782582864404.mp4-(526149 B) だけど結局オムニボイスにはかなわないよ

…	31無題Name名無し 26/07/08(水)22:54:27No.168927+ 山田康雄をお願いします。

…	32無題Name名無し 26/07/09(木)01:30:28No.168938+ 1783528228938.mp4-(386710 B) こうっすか？

…	33無題Name名無し 26/07/09(木)02:26:32No.168940+ ふーじこちゃ〰︎んがよかったんだがでもありがとう。

…	34無題Name名無し 26/07/09(木)06:19:06No.168948+ >ふーじこちゃ〰︎んがよかったんだがとうぜんだけどそういうユニークなセリフは直接学習や参照させないと出てこないよあくまでも特徴を真似できるだけなんだから

…	35無題Name名無し 26/07/09(木)06:21:00No.168949+ オムニボイスはルパンを知っているわけではないのだよ

…	36無題Name名無し 26/07/09(木)14:46:55No.168979+ こんなスレあったのか OmniVoiceいいね、知らなかった irodori-ttsはCFG Guidance Modeをalternatingにすると参照音声に似やすい気がする、どういうパラメータなのか知らないけど

…	37無題Name名無し 26/07/09(木)15:42:38No.168980+ >こうっすか？クリカンより似てる!!

おなまえ
E-mail
題　　名
コメント
添付File	[画像なし]
削除キー	(記事の削除用。英数字で8文字以内)