人工知能@ふたば
[ホーム]

[掲示板に戻る]
レス送信モード
おなまえ
E-mail
題  名
コメント
添付File []
削除キー(記事の削除用。英数字で8文字以内)
  • 添付可能:GIF,JPG,PNG,WEBM,MP4. 8000KBまで. 現在18人くらいが見てます.
  • スレッドを立てた人がレスを削除してスレッド内のみアク禁にできます.
  • メール欄に「id表示」と入れてスレッドを立てるとid表示にできます.
  • メール欄に「ip表示」と入れてスレッドを立てるとip表示にできます.
  • 削除依頼が閾値を超えるとidを表示します.
  • 生成系AI,ChatGPT,Stable Diffusion,自動運転など
  • 管理人への連絡は準備板 ご意見へ. 削除依頼は記事番号を押しdelを押して下さい.
  • スマホ・携帯ふたば入口 この板の保存数は20000件です. 規約
  • 新しい板: 人工知能 ZOIDS

画像ファイル名:1775309169715.mp4-(1926759 B)
1926759 B無題Name名無し26/04/04(土)22:26:09No.159544+ 26年10月頃消えます
OmniVoice登場悪用厳禁
1無題Name名無し 26/04/04(土)22:26:29No.159545そうだねx1
    1775309189095.mp4-(707426 B)
707426 B
ゲームエンド
2無題Name名無し 26/04/05(日)00:07:22No.159553+
話が見えんが
確かにすごい表現力だな
3無題Name名無し 26/04/05(日)00:43:56No.159560+
    1775317436413.mp4-(1561674 B)
1561674 B
ゼロショットでこのレベルで真似られるって話
「読み」はイマイチだけどそれでも圧倒的に強い

QwenTTSとかは読めるけれどアクセントが日本語としておかしいとか
MioTTSやIrodori-TTSは参照と似ていないとかあるけど
読めないだけならばやりようはある
4無題Name名無し 26/04/05(日)00:47:20No.159561+
それと見ての通り生成がやたら速いのでガチャがはかどる
5無題Name名無し 26/04/05(日)01:30:56No.159565+
    1775320256251.mp4-(1593829 B)
1593829 B
確認したらQwen3-TTSもろくに読めてなかった
・圧倒的に時間がかかる
・声色は似ているが、話し方は似ていない
・アクセントが壊滅的
6無題Name名無し 26/04/05(日)01:32:21No.159566+
    1775320341031.mp4-(905199 B)
905199 B
さらにIrodori-TTSも読みの精度はどっこいだった
・時間はややかかる
・声色すらそもそも似ていない
・アクセントはわりと自然
7無題Name名無し 26/04/05(日)03:07:03No.159574+
    1775326023621.mp4-(324892 B)
324892 B
えらやっちゃえらやっちゃ
それそれそれそれ
8無題Name名無し 26/04/05(日)07:48:34No.159578+
    1775342914586.mp4-(1443271 B)
1443271 B
OmniVoiceは、600以上の言語をサポートする大規模な多言語対応ゼロショットテキスト読み上げ(TTS)モデルです。新しい拡散言語モデル様式のアーキテクチャを基盤とし、優れた推論速度で高品質な音声を提供し、音声クローン作成と音声デザインをサポートします。

主な機能

600以上の言語に対応:ゼロショットTTSモデルの中で最も広範な言語カバレッジです。
音声クローン:短いリファレンス音声から得られる最先端の音声クローン品質。
音声デザイン:割り当てられた話者属性(性別、年齢、音程、方言/アクセント、ささやきなど)で声を制御します。
細粒度制御:非言語記号(例:[laughter]およびピンインや音素による発音補正。
高速推論:RTFは0.025まで低く(リアルタイムより40倍速い)。
拡散言語モデルスタイルのアーキテクチャ:クリーンで流線型かつスケーラブルなデザインで、品質と速度の両方を実現します。
9無題Name名無し 26/04/05(日)15:21:07No.159614+
    1775370067854.jpg-(117386 B)
117386 B
ふーむ。すごいね
https://x.com/search?q=OmniVoice&src=typed_query&f=live
10無題Name名無し 26/04/06(月)07:54:01No.159670+
追加学習したらさらに似せられる
は事実なんだけどその結果新たな2.5GBのモデルになるから(量子化しても800MB)
キャラひとりのためにそんなもん作るんだったらGPT-SoVITSモデル作るわ
11無題Name名無し 26/04/08(水)02:54:08No.159805+
    1775584448151.mp4-(1020677 B)
1020677 B
VoxCPM2も登場
12無題Name名無し 26/04/08(水)03:53:17No.159808+
    1775587997569.mp4-(3207971 B)
3207971 B
さらにボイスデザイニングが強い
OmniVoiceよりも生成時間は掛かるが
13無題Name名無し 26/04/08(水)09:30:32No.159820+
    1775608232227.mp4-(205240 B)
205240 B
VoxCPM2も悪くはないがやはりクローニングはOmniがやや上という感じ
ボイスデザイニングはVoxCPM2のほうがいいと思う
あるいはアニメ系が欲しいならIrodori−TTSのほうがいいかもな
14無題Name名無し 26/04/08(水)23:43:02No.159871+
    1775659382258.mp4-(466475 B)
466475 B
弱点に気づいてしまった気がする
VoxCPM2はセリフが長いとどんどん劣化していく
40秒のあたりのセリフが何回やってもケロって良くならない

>1775584448151.mp4
これで生成された声に参照音源のケツが入っているのは(バグなのでもう修正された)
つまり参照音源の後ろに続きを生成している仕組みなのだろう知らんけど
15無題Name名無し 26/04/08(水)23:43:41No.159872+
    1775659421520.mp4-(141659 B)
141659 B
単尺で生成し直すと明らかに違う
16無題Name名無し 26/04/08(水)23:45:13No.159873+
いっぽうでOmniは長尺になると速すぎる気がする
速度調整すればいいだけだが
17無題Name名無し 26/04/15(水)07:21:08No.160325+
    1776205268779.mp4-(7765921 B)
7765921 B
AIボイス屋はみじけえ夢だったなあ
18無題Name名無し 26/04/15(水)07:22:10No.160326+
    1776205330356.mp4-(5180978 B)
5180978 B
廃業ですってね
19無題Name名無し 26/04/21(火)11:15:46No.160831+
    1776737746307.mp4-(1257645 B)
1257645 B
Irodori-TTS で似せるにはCFG Scale Speaker を最大に CFG Scale Text をゼロにするといいっぽい
20無題Name名無し 26/04/21(火)11:45:16No.160832+
    1776739516206.mp4-(1928710 B)
1928710 B
だがやはり純粋なクローニングはオムニボイスが強い
21無題Name名無し 26/04/21(火)11:54:07No.160833+
    1776740047211.mp4-(2561961 B)
2561961 B
VoxCPMはちょっと特殊で変な声には強いのかもしれない

オムニボイスは通常の文には強いけれど感情文自体が苦手
Irodoriは感情文に非常に強いものの、読ませる文章の影響が強く、顔文字使っても無理やり感情を乗せることができない

VoxCPMはこの制約がなく参照音源を再現しようとする感じ
22無題Name名無し 26/04/21(火)11:56:03No.160834+
    1776740163098.mp4-(542423 B)
542423 B
ちなみにIrodoriに感情的な文を入れるとこれも良くない
むしろ使えるって人もいるかもだが
23無題Name名無し 26/04/22(水)05:16:44No.160894+
CFG Scale Speaker が高いと
変な声の場合にその変な特徴を反映しすぎておかしくなるっぽいな
下げるとちゃんと読めるようになるけどもちろんクローニングからは離れる

- GazouBBS + futaba-