人工知能@ふたば
[ホーム]

[掲示板に戻る]
レス送信モード
おなまえ
E-mail
題  名
コメント
添付File []
削除キー(記事の削除用。英数字で8文字以内)
  • 添付可能:GIF,JPG,PNG,WEBM,MP4. 8000KBまで. 現在28人くらいが見てます.
  • スレッドを立てた人がレスを削除してスレッド内のみアク禁にできます.
  • メール欄に「id表示」と入れてスレッドを立てるとid表示にできます.
  • メール欄に「ip表示」と入れてスレッドを立てるとip表示にできます.
  • 削除依頼が閾値を超えるとidを表示します.
  • 生成系AI,ChatGPT,Stable Diffusion,自動運転など
  • 管理人への連絡は準備板 ご意見へ. 削除依頼は記事番号を押しdelを押して下さい.
  • スマホ・携帯ふたば入口 この板の保存数は20000件です. 規約
  • 新しい板: 人工知能 ZOIDS

画像ファイル名:1747456403550.png-(35946 B)
35946 B無題Name名無し25/05/17(土)13:33:23No.120078そうだねx8 9月14日頃消えます
AI関連のニューススレ
立ってないようなので
削除された記事が4件あります.見る
1無題Name名無し 25/05/17(土)13:36:37No.120081そうだねx1
Google DeepMindからAlphaEvolveが発表
https://deepmind.google/discover/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/
アルゴリズムや数学的課題をAI自身がみつけ最適化していく
2無題Name名無し 25/05/17(土)13:39:26No.120086そうだねx1
WindsurfからSWE-1モデルファミリがリリース
https://windsurf.com/blog/windsurf-wave-9-swe-1
通常モデルとlite、miniモデルがありソフトウェア エンジニアリング プロセス全体に最適化されているモデル
性能的には通常のでClaude 3.5 Sonnetぐらい?
3無題Name名無し 25/05/17(土)13:43:39No.120090そうだねx1
OpenAIからCodexが発表
https://openai.com/index/introducing-codex/
クラウドベースのソフトウェアエンジニアリングエージェントでPro、Team、Enterpriseプランで利用可能
モデルはo3を微調整したcodex-1を使用している
o4-miniを微調整したcodex-miniはCodex CLIやAPIで利用可能
4無題Name名無し 25/05/17(土)18:45:02No.120157そうだねx1
    1747475102727.jpg-(186184 B)
186184 B
シングルターンとマルチターンによる6つの生成タスク (コード、数学、SQL、API 呼び出し、データからテキストへの変換、ドキュメントの要約) にわたって、15 のトップ LLM (GPT-4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet、Deepseek-R1 など) による大規模なシミュレーションを実施しました。
https://x.com/omarsar0/status/1922755721428598988

例えば、シングルターン設定で90%を超える精度を誇るモデルはマルチターン設定では約60%まで低下すること散見された。
5無題Name名無し 25/05/17(土)18:50:07No.120160+
>No.120157
結論:
ユーザーにとっては、複数回にわたって明確にするよりも、すべての要件を 1 つのプロンプトに統合する方が適切です。

会話が脱線した場合は、統合された要約から新しいセッションを開始すると、より良い結果が得られます。

システム構築者とモデル開発者は、単なる性能だけでなく、複数ターンのコンテキストにおける信頼性を優先することが求められます。これは、これらの問題の影響がより顕著になる複雑なエージェントシステムを構築する場合に特に当てはまります。

LLMは本当に奇妙です。そして、こうした奇妙な現象は最新モデルにも現れていますが、より微妙な形で現れています。
6無題Name名無し 25/05/19(月)19:24:14No.120419そうだねx1
会話中、相手の“ウソ”をこっそり教えてくれるスマートウォッチ AIが瞬時にファクトチェック
情報の真偽を振動パターンで応答するところがユニーク
https://www.itmedia.co.jp/aiplus/articles/2505/19/news068.html
7無題Name名無し 25/05/19(月)21:05:01No.120441+
スレッドを立てた人によって削除されました
最近は静止画から脱ぐ動画作れるんやな
https://x.gd/Hpxda


iug
8無題Name名無し 25/05/20(火)09:49:38No.120493そうだねx2
#NVIDIA、RTX GPUでのAI推論より簡単に高速化できる「TensorRT for RTX」
https://pc.watch.impress.co.jp/docs/news/2015039.html

・NVIDIAは19日、COMPUTEX TAIPEI 2025にあわせ、AI推論の高速化ライブラリ「TensorRT for RTX」を発表した。すべてのRTXシリーズGPUで利用できるとしており、6月に提供を開始する予定。

何かキター?!
9無題Name名無し 25/05/20(火)11:17:36No.120499そうだねx1
Microsoft Build 2025
https://www.itmedia.co.jp/news/articles/2505/20/news097.html
Windows11でMCP対応
WSLオープンソース化
ウェブコンテンツと容易に対話できるようにする「NLWeb」
Microsoft 365 Copilot Tuningで組織ごとにAIをTuning可能に
10無題Name名無し 25/05/21(水)07:28:12No.120600そうだねx1
Google I/O 2025
https://blog.google/technology/developers/google-io-2025-collection/
AIコーディングエージェントのJules
Google AI Ultraという新しいサブスクリプションプラン(249.99ドル)でGemini think2.5pro・Veo3にアクセス可能
Veo3では音声付のビデオ生成も可能に
Imgegen4も発表
Gemini 2.5 FlashとProでネイティブオーティオ出力のプレビュー版をリリース
モバイル向けのGemma 3nを公開
Gemini Diffusionという拡散モデルも発表
11Xで話題騒然「Gemini Diffusion」Name名無し 25/05/22(木)02:31:22No.120703+
    1747848682471.mp4-(272505 B)
272505 B
>Googleは、画像生成AIなどで使われている「拡散モデル」の技術を使って作成されたAIモデル「Gemini Diffusion」を発表しました。

>テキストやコードの生成を高速処理できるのが特徴で、利用するには順番待ちリストに登録する必要があります。

https://x.com/search?q=%E6%8B%A1%E6%95%A3%E3%83%A2%E3%83%87%E3%83%AB&src=trend_click&vertical=trends
12無題Name名無し 25/05/22(木)08:33:49No.120728そうだねx2
OpenAIとデザイン企業ioの合併
https://www.itmedia.co.jp/news/articles/2505/22/news096.html
13無題Name名無し 25/05/22(木)11:26:08No.120734そうだねx2
MistralからDevstralがリリース
https://mistral.ai/news/devstral
コーディングエージェント向けのApatch2.0ライセンスのオープンソースモデルでサイズは23.6B
SWE-Bench VerifiedではClaude 3.5 haikuを超える
14無題Name名無し 25/05/22(木)19:22:36No.120773そうだねx1
PLaMoからPLaMo 2.0 Primeがリリース
https://x.com/PLaMoLLM/status/1925410565075472652
32kのコンテキスト長でGPT4oに次ぐ日本語ベンチマーク性能
価格は100万トークンあたり入力/出力で60円/250円
ブラウザ上で無料利用も可能
15無題Name名無し 25/05/23(金)05:26:17No.120822そうだねx2
Claude4がリリース
https://www.anthropic.com/news/claude-4
OpusとSonnetがリリースされ価格帯やコンテキスト長は前と変わらず
Opusはコーティングエージェントとして7時間動かせたらしい
o3と同様に思考中にツール利用も行えるとのこと
16無題Name名無し 25/05/25(日)22:40:57No.121233そうだねx3
>Veo3では音声付のビデオ生成も可能に
https://x.com/d_1d2d/status/1926021096760807877
使い手の倫理観とか良識がますます試されるレベルになってきたな…
17無題Name名無し 25/05/26(月)16:09:34No.121300+
書き込みをした人によって削除されました
18無題Name名無し 25/05/29(木)23:48:18No.121651そうだねx1
DeepSeek-R1-0528がリリース
https://x.com/deepseek_ai/status/1928061589107900779
19無題Name名無し 25/06/01(日)18:36:16No.122174そうだねx2
https://x.com/jiwasawa/status/1928268298866594292
Qwen2.5-Math特有の副作用
解答が正解だろうが不正解だろうがランダムに報酬を与えても数学の性能が上がったという研究
20無題Name名無し 25/06/04(水)13:47:33No.122654そうだねx3
Builder.ai破綻の真相:700人のインドエンジニアが「AI」を偽装、Microsoft出資の4億4500万ドル調達企業が破産
https://innovatopia.jp/ai/ai-news/56173/

スゲぇぜインド人パワー

Builder.aiが謳っていた「AI搭載」のノーコード開発プラットフォームは、実際には大規模な人力による開発体制でした。同社は「Natasha」というAIアシスタントがレゴブロックのようにアプリを自動構築すると宣伝していましたが、実際にはインドとウクライナの数百人のエンジニアが手動でコードを書いていました。

この事実は2019年にWall Street Journalによって既に報道されていましたが、その後も同社は「AI企業」としてのブランディングを続け、投資家からの資金調達を継続していました。
21無題Name名無し 25/06/07(土)16:27:05No.123080そうだねx1
現在 seaartでプロンプト欄にnipple vagina などのセンシティブなワードがキーワード検閲されている模様
22無題Name名無し 25/06/07(土)19:57:56No.123116そうだねx1
>No.123080
現在 検閲解除された模様
23無題Name名無し 25/06/08(日)15:23:42No.123259そうだねx2
Dual-Process Image Generation:
生成AIの最大の欠点「出してみないと分からない問題」がついに解消へ
https://x.com/taziku_co/status/1931141047637450936


この方法の特徴は、既存の画像生成モデルとVLMを組み合わせることで、特別な再学習なしに新しい制御タスクを実装できる点です。例えば、色のパレット、線の太さ、地平線の位置、相対的な奥行き などの視覚的な要素を、テキストや画像を用いたインターフェースで調整できます。
24無題Name名無し 25/06/08(日)15:52:37No.123261そうだねx1
FreeTimeGS:
https://x.com/bilawalsidhu/status/1931356216694882319
https://zju3dv.github.io/freetimegs/

マルチビュー 3D キャプチャを再現・再生するときに、ビデオ拡散モデルをつかって計算時間を短縮する例
25無題Name名無し 25/06/08(日)16:27:58No.123264そうだねx2
    1749367678541.jpg-(157962 B)
157962 B
Appleの研究により、推論モデル(LRM)は問題が一定以上に複雑になると、思考放棄して一気に精度が落ちることが判明した。
https://x.com/K_Ishi_AI/status/1931542962015699283
26無題Name名無し 25/06/09(月)17:29:46No.123474そうだねx1
>FreeTimeGS:
関連して4Dvが4D Gaussian Splattingを発表している
こちらは動画から空間再生を実現している
27無題Name名無し 25/06/09(月)20:00:35No.123490そうだねx1
    1749466835486.jpg-(249105 B)
249105 B
>Appleの研究により、推論モデル(LRM)は問題が一定以上に複雑になると、思考放棄して一気に精度が落ちることが判明した。
元の論文https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf読んでるだが図の誤りを指摘しておく
ハノイの塔の塔の数を増やすテストではなくディスクの数を増やしている(添付画像参照)
塔の数を増やすよりディスクを増やす方が問題の一般化が楽なのにそれでも解けないのは意外で面白い
28無題Name名無し 25/06/11(水)00:01:29No.123750そうだねx1
Mistralから初の推論モデルMagistral
https://mistral.ai/news/magistral
SmallはオープンウェイトMediumはエンタープライズとなっている
性能はMediumでR1よりそこそこ劣っている模様
29無題Name名無し 25/06/11(水)06:28:01No.123776+
OpenAIからo3-proがリリース
https://x.com/OpenAI/status/1932530409684005048
APIの価格としてはo1-proよりはるかに安い
ちなみにo3は80%の値下げで4oよりAPI価格が安くなっている
30無題Name名無し 25/06/11(水)10:06:41No.123799+
スレッドを立てた人によって削除されました
https://www.youtube.com/watch?v=ftAc5H8a4Rg
31無題Name名無し 25/06/11(水)16:35:42No.123826+
「生成AIで作成」女の子の裸の画像を共有疑い 50代の男を逮捕 愛知県警で初、わいせつ電磁的記録媒体陳列容疑で検挙 - YAHOO! ニュース
https://news.yahoo.co.jp/articles/b4b733825ba36c861cd37e74729992657262e8c3
32無題Name名無し 25/06/12(木)14:57:58No.123966そうだねx1
Text-to-LoRA(T2L):
https://x.com/SakanaAILabs/status/1932972420522230214
https://arxiv.org/pdf/2506.06105

Sakana AIが発表したT2LはこれまでのLora作成のようなデータ収集なしで、自然言語による適切な指示を与えることでLLMをタスクに適応させることができることを示した。

・多数のLoRAアダプターを圧縮できる
・ゼロショット適応が可能
・LoRAアダプターを損失ありで圧縮しても、モデルの性能低下がほとんど見られなかった。

私見:○○を(もっと)■■にして欲しい型のプロンプトと相性が良いと思われる
33無題Name名無し 25/06/12(木)16:11:43No.123971+
米ディズニーなど “生成AI 作成画像が著作権を侵害”と提訴 - NHK
https://www3.nhk.or.jp/news/html/20250612/k10014833121000.html
34無題Name名無し 25/06/12(木)19:10:23No.123986+
Seaweed APT2
https://seaweed-apt.com/2
https://huggingface.co/papers/2506.09350

この研究では、「Autoregressive Adversarial Post-Training (AAPT)」という手法を用いることで、事前学習済みの潜在動画拡散モデルをリアルタイム対応のインタラクティブな動画生成器へと変換することを試みています。

リアルタイム動画生成性能
・モデルサイズは8B(80億パラメータ)。
・単一のH100 GPUで24fps、解像度736×416の動画をリアルタイム生成可能。
・8×H100で1280×720の動画を最大1分間(1440フレーム)生成。
35無題Name名無し 25/06/13(金)00:19:02No.124048そうだねx1
”AI彼女”Z世代ユーザーの80%が「合法ならAIと結婚したい」と回答 - ナゾロジー
https://nazology.kusuguru.co.jp/archives/179390

2025年4月、Joi AIはZ世代2000人を対象に調査を行い、そのうち80%が「合法ならAIと結婚したい」と回答したことが明らかになりました。
36無題Name名無し 25/06/13(金)18:14:31No.124175+
Apple Vision Proの次期OSであるvisionOS 26に”Spatial Scene”を搭載予定

2D画像をAI解析して6DoF対応の"3Dシーン"に変換する
https://x.com/Heaney555/status/1933201882199294374

ガウススプラッティングという手法によるものだと思われます
37無題Name名無し 25/06/13(金)18:27:53No.124177+
視覚言語モデル(Vision Language Models)についてのオライリー書籍の10日間フリートライアルが実施(英語)
https://www.oreilly.com/library/view/vision-language-models/9798341624030/

VLMの初歩についてはIBMのサイトもくわしいと思う
https://www.ibm.com/jp-ja/think/topics/vision-language-models
38無題Name名無し 25/06/13(金)19:19:53No.124184+
評価認識:
最先端の言語モデルが評価時(訓練中のテスト)と実際の使用時とを区別できるかということ

https://www.arxiv.org/abs/2505.23836
この論文によるとできている可能性が高いとされている。
すなわち報酬設計に対応して報酬ハッキングを行うことができるということ

*報酬ハッキングとは、AI が正規の問題解決ではなく、タスクの採点基準やコードの脆弱性を悪用して高得点を得ることを指す。
https://metr.org/blog/2025-06-05-recent-reward-hacking/

これはバグというより、強化学習を通じて報酬を最大化するようにモデルは訓練されているのでそのプロセスの延長線上のできごとであると思われる
39無題Name名無し 25/06/14(土)21:05:16No.124435そうだねx1
特許庁、AI生成物「商標」容認 現行制度で出願・登録 - 日刊工業新聞
https://www.nikkan.co.jp/articles/view/00751708

AIが作成した文字やマーク、商標登録認める 特許庁小委 - 日本経済新聞
https://www.nikkei.com/article/DGXZQOUA103AK0Q5A610C2000000/
40無題Name名無し 25/06/15(日)23:41:57No.124653+
    1749998517007.jpg-(731942 B)
731942 B
LayerPeeler:
様々なスタイルの画像を各レイヤーを識別しながら除去し、完全なパスを持つベクターグラフィック高品質なベクターグラフィックへ変換する

主なポイント:

オクルージョンの解決: LayerPeelerは、画像の上層から順に要素を除去し、隠れている部分を復元することで、完全な形状のベクトル化を実現。

ビジョン・言語モデルの活用: 画像の各レイヤー関係を解析し、説明的なキャプションを生成。それを編集指示として使用し、微調整された拡散モデルがレイヤーを除去。

局所的な注意制御: ターゲット領域を正確に削除しつつ、周囲のコンテンツを維持するために注意機構を導入。

大規模データセット: LayerPeelerの性能向上のため、特化したデータセットを提供。

ベクター化の品質: 既存の技術よりも、形状の一貫性、幾何学的な正確性、視覚的な精度に優れた結果を生成。
41無題Name名無し 25/06/16(月)00:47:50No.124660+
Microsoftの「Copilot 3D」
https://www.testingcatalog.com/microsoft-develops-copilot-3d-to-turn-images-into-3d-objects/

将来的な音声インタラクションの可能性 「Portrait」ラベルの開発では、スタイライズされたキャラクターとの音声インタラクションが試みられていたため、Copilot 3Dがアバターとの対話機能と組み合わされる可能性もあります。
42無題Name名無し 25/06/16(月)01:39:40No.124667そうだねx1
    1750005580335.gif-(30535 B)
30535 B
Breathing Life Into Sketches Using
Text-to-Video Priors:
https://livesketch.github.io/

概要
人が描いたスケッチにテキストの指示を与えることで、動きを追加する技術を提案。

既存のテキストから動画を生成するモデルのモーションプリオールを活用し、スケッチに動きを付与。

出力は編集可能なベクター形式の短いアニメーション。
43無題Name名無し 25/06/16(月)01:49:57No.124669そうだねx1
    1750006197021.png-(863517 B)
863517 B
主要LLMの比較ランキングサイト:
Artificial Analysis
https://artificialanalysis.ai/

性能 対 価格など
44無題Name名無し 25/06/16(月)11:34:42No.124699+
    1750041282157.jpg-(1017236 B)
1017236 B
RoboBrain 2.0
https://github.com/FlagOpen/RoboBrain2.0

BAAI RoboBrain TeamによるこのAIはヒューマノイドや汎用ロボット向けの「身体性を持つAI」として設計されており、空間認識、マルチエージェントタスク計画、クローズドループ実行の能力が向上しています。

7Bと32Bのモデルで公開
45無題Name名無し 25/06/16(月)11:46:46No.124701そうだねx1
    1750042006104.png-(668724 B)
668724 B
Anthropicのマルチエージェント研究システムの構築プロセスと、その工学的課題について
https://www.anthropic.com/engineering/built-multi-agent-research-system

この研究によると、Claude Opus 4がリードエージェントとなり、Claude Sonnet 4がサブエージェントとして機能するシステムは、単独のClaude Opus 4を用いた研究よりも90.2%優れた結果を生み出したとのこと。例えば、S&P 500のIT企業の取締役を特定するタスクでは、マルチエージェントの方が素早く正確な結果を導き出した。

一方でトークン量は15倍に達し、エージェント間の調整、プロンプトの工夫が必要となる
46無題Name名無し 25/06/17(火)22:07:14No.124922そうだねx1
    1750165634506.png-(172575 B)
172575 B
PartPacker
https://research.nvidia.com/labs/dir/partpacker/
https://github.com/NVlabs/PartPacker

nvidiaがリリースした画像から3Dを生成するモデル
注目すべき点は全体を単一のメッシュで表現するのではなく編集可能な複数のパーツで生成できる点
47無題Name名無し 25/06/18(水)00:03:17No.124935そうだねx1
Bytedanceの動画生成 Seedance 1.0

生成例
https://x.com/AngryTomtweets/status/1934739283786805323
48無題Name名無し 25/06/18(水)02:10:58No.124956そうだねx2
AIで作品模倣? 募る危機感 専門家「ルールの見直しも」【フェイクの波紋】
https://news.tv-asahi.co.jp/news_economy/articles/000432773.html

樋口紀信 - ツイッター(X)
https://x.com/susujinkou/status/1934561098742817075
49無題Name名無し 25/06/18(水)03:24:38No.124963そうだねx1
AIで10億人規模の人口をシミュレーションできるシステムを開発したとの報告。
一人ひとり異なる性格や背景を持つAIエージェントが10億人それぞれ実際の人間のように考えて行動します。
https://x.com/ai_database/status/1934874343915573264
https://arxiv.org/abs/2506.12078
50無題Name名無し 25/06/18(水)13:34:40No.124995そうだねx1
Cloud Native Technology Map
https://www.cyberagent.co.jp/techinfo/info/detail/id=32029

CyberAgentがクラウドネイティブ領域のテクノロジー事例集(52p 日本語)を配布中
51無題Name名無し 25/06/18(水)14:42:47No.124999そうだねx1
ついにHugging Face Spaces が MCP に対応
https://x.com/victormustar/status/1935031748347236807
https://huggingface.co/spaces?filter=mcp-server
52無題Name名無し 25/06/18(水)15:56:12No.125003そうだねx1
中国のトップストリーマーが、ERNIE 財団モデルを活用した 2つの AIアバターを使った 6時間のストリーム配信を主催しました。
Luo Yonghao は、Baiduの電子商取引プラットフォームで歴史を作りました。
結果は? 1,300 万回の視聴と 760 万ドルの売上。
https://x.com/hasantoxr/status/1935198754933792837

数のゴリ押しに見えるけど商業的な結果でちゃったから流れ来るかもね…
53無題Name名無し 25/06/18(水)16:42:14No.125005そうだねx2
偽動画を見抜く最新技術 AIで分析“真偽”を判定【フェイクの波紋】- Yahooニュース
https://news.yahoo.co.jp/articles/909ade19caef4fb8163698100ca1fdcf4d893c2c
54無題Name名無し 25/06/18(水)17:02:44No.125006そうだねx2
How not to lose your job to AI
https://80000hours.org/agi/guide/skills-ai-makes-valuable/
https://x.com/robertwiblin/status/1934964915967570391 (解説)

Ben ToddによるAI/AGIを踏まえたキャリアプランの立て方について素晴らしい記事(英語)非常にありそうなシナリオは、適切な仕事に対する給与が 10 年ほどで 10 倍になり、その後 0 に落ちるというものです。つまり、私たちは短い黄金時代とそれに続く激しい激動の時代に向かっているのかもしれない。

### 価値が上昇する4つのスキル領域
1. AIが容易に実行できないスキル: 物理的な作業や長期間にわたる計画・判断が求められるスキル。
2. AIの展開に必要なスキル: AIシステムの設計や調整、管理に関するスキル。
3. 需要が大幅に増えるスキル: 医療や住宅建設、研究分野など、人々がより多く必要とする分野。
4. 習得が困難なスキル: 他者が簡単に学べない専門知識や独自性のあるスキル。

### 未来に向けて価値が上昇する具体的なスキル
AIシステムの運用・導入、個人の生産性向上、リーダーシップ能力、コミュニケーション能力と審美眼、政策遂行能力、複雑な物理的作業
55無題Name名無し 25/06/18(水)17:22:47No.125008そうだねx1
動画生成Hailuoを提供しているMiniMaxから2つ

最新のLLMである MiniMax-M1をオープンソース化:
- 世界最長のコンテキストウィンドウ:100万トークン入力、8万トークン出力
https://x.com/MiniMax__AI/status/1934637031193514237

SiliconCloudが上記LLMのホスティングを開始:
- 10万トークン生成するときのFLOPコスト比でDeepSeek-R1の25%を達成
https://x.com/SiliconFlowAI/status/1934859096424849903

Hailuo2リリース:
- クラス最高のプロンプト追従性
- アクロバットを再現する極端な物理を検証可能に扱える
- ネイティブ1080p出力
https://x.com/MiniMax__AI/status/1935026724468871550
56無題Name名無し 25/06/18(水)18:52:06No.125013そうだねx2
お絵描き補助AIアプリ『AI-AssistantV3』
https://note.com/tori29umai/n/n63de58623725

「AI-Assistant」は、デジタルお絵描きの作画補助に特化したAIアプリです。カラーイラストから線画を抽出したり、線画を疑似3D画像にしてライティングしたりすることができます。
57無題Name名無し 25/06/19(木)03:02:56No.125080そうだねx1
LLMの内部に人間の脳が感情を処理するのとよく似た仕組みがあることを発見
https://x.com/ai_database/status/1935329395637731667
https://arxiv.org/abs/2506.13978

心理学で知られているような感情スイッチのように動作し、LLMは26種類の細かい感情(喜び、悲しみ、恐怖、驚き、憧れ、退屈など)をそれぞれ別々に理解して、言語や文化が違っても基本構造は変わりませんでした。
58無題Name名無し 25/06/19(木)03:42:32No.125081そうだねx1
LLMを用いたアプリケーションUIの作成
DeepSiteV2
https://x.com/victormustar/status/1935374796977766545
https://huggingface.co/spaces/victor/deepsite-gallery

かなりのところまで出来る
59無題Name名無し 25/06/19(木)15:44:44No.125136そうだねx2
VisionCutter:
https://github.com/lovisdotio/VisionCutter
https://x.com/OdinLovis/status/1935356548894666955

LLMを使い編集者に人格を持たせることで編集の作家スタイルとでも呼ぶべきものを搭載した動画生成システム
Comify+flux上で動き、BPMの同調などを自動で行う
60無題Name名無し 25/06/19(木)16:55:35No.125148そうだねx2
【続報】ディズニーやマーベルなど6社がMidjourneyを著作権侵害で提訴。生成AIは「盗作の底なし沼」
- Yahoo!ニュース

https://news.yahoo.co.jp/articles/a133067812e0d2decb958ba0cdd824474146b539

ディズニー・エンタープライゼス、マーベル、ルーカスフィルム、20世紀スタジオ、ユニバーサル・シティ・スタジオ・プロダクションズ、ドリームワークス・アニメーションが連名で提出
61無題Name名無し 25/06/20(金)01:15:21No.125204そうだねx2
まあ…そうなるよねって話だけどどうなるんだろうね今後
62無題Name名無し 25/06/20(金)09:32:18No.125239+
>No.123264
https://x.com/rohanpaul_ai/status/1935746720144544157
これの反論に対する意見ともいうべき3つ目の論文
63無題Name名無し 25/06/20(金)12:06:55No.125263そうだねx1
AI学習用の動画データセット Sekai:
https://lixsp11.github.io/sekai-project/

Sekaiデータセットには、100か国以上、750都市にわたって収集されており、総収録時間は5,000時間超の映像、YouTubeの実写映像に加えて、写実的なゲーム内の映像も含まれています。特にゲーム映像の注釈は「グラウンドトゥルース(真実の情報)」と見なされ、モデル訓練において非常に重要な参照になります。

Sekaiの注釈は、人間だけでなく、大規模言語モデル(GPT-4oやQwen2.5-VLなど)と構造化視覚モデル(MegaSaM)との協働により行われています。まさにAIがAIを育てる構図です。

私見:プロダクト名に日本語っぽい単語使うトレンド早く廃れろ
64無題Name名無し 25/06/20(金)12:14:36No.125264そうだねx1
>- アクロバットを再現する極端な物理を検証可能に扱える
例:Hailuo2 vs Veo3
https://x.com/deedydas/status/1935892311353049520
65無題Name名無し 25/06/20(金)12:31:08No.125266そうだねx1
Kyutai STT:
遅延ストリーム・モデリング(Delayed Streams Modeling) speech-to-text model
https://kyutai.org/next/stt
https://x.com/kyutai_labs/status/1935652243119788111

- 2.6Bサイズの英語オンリーモデルと英・仏対応のモデル
- 音声とテキストを同時に横並びで扱う
- H100など高性能なGPU上で400ストリームをリアルタイム処理可能
- 息継ぎなのか話終わりなのかを文脈で判断

競合技術:
Deepgram、Google Cloud Speech-to-Text、Amazon Transcribe、Microsoft Azure Speech Services、AssemblyAI
66無題Name名無し 25/06/20(金)12:57:30No.125268そうだねx1
MatAnyone:
AIベースのインタラクティブ・マッティング
https://pq-yang.github.io/projects/MatAnyone/
https://huggingface.co/spaces/PeiqingYang/MatAnyone

「一貫したメモリ伝播(Consistent Memory Propagation)」という独自機構を用いて、時間的に安定したマッティング結果を実現しています。これは前のフレームの情報を次のフレームに適応的に融合することで、人物の境界や質感の再現を向上させる仕組み
特定の人物の身を追跡可能。

操作自体はほぼワンクリックで実現してる
67無題Name名無し 25/06/20(金)14:45:22No.125279そうだねx2
AI Fight Club:
https://www.lockheedmartin.com/en-us/capabilities/artificial-intelligence-machine-learning/ai-fight-club.html

ロッキード社によるAI軍事競技コンペ

初開催予定:2025年 第4四半期の

対象領域:空・陸・海・宇宙すべての作戦領域をカバーしたシミュレーション。

評価基準:米国国防総省(DoD)の厳格な要件に基づく性能評価。

優勝チームには称号と研究発表の機会が与えられる

いくらきれいごと言ったって軍事投入にやる気マンマンなのよね
68無題Name名無し 25/06/20(金)15:32:17No.125282そうだねx2
SPARC3D:
https://lizhihao6.github.io/Sparc3D/
https://www.youtube.com/watch?v=XRFlnXeOdww

画像から3Dを生成するやつ
Sparse Voxel と Diffusion-based Generation を組み合わせている。これは人間の記憶が断片情報から全体像を再構築する過程に少し似ている。

Sparcubes:サーフェスを疎なボクセル空間(1024³解像度)に表現し、符号付き距離場と変形場を散布することで滑らかでトポロジーの任意なメッシュを再構成。勾配に基づく最適化が可能。

Sparconv-VAE:すべて疎畳み込みで構成されたモダリティ整合性のあるVAE。Point Transformer V3 に着想を得た軽量な局所アテンションモジュールを搭載。

従来よりエッジの保たれた生成が可能
69無題Name名無し 25/06/20(金)23:48:25No.125342そうだねx3
>No.125148
ルールは現状の環境や技術に合わせるべきで、その逆をしようとした文化が永らえた例はない。
著作権という概念自体を改変しなければ権利そのものが陳腐化しそう。
70無題Name名無し 25/06/21(土)08:32:42No.125396+
せやね
>ルールは現状の環境や技術に合わせるべきで、その逆をしようとした文化が永らえた例はない。
>著作権という概念自体を改変しなければ権利そのものが陳腐化しそう。
コピーの質も量も対象も運用も極限まで高く大きく広くなった時代、どこまでコピー運用を禁止できるのか
71無題Name名無し 25/06/21(土)10:51:55No.125410そうだねx3
今週は主要企業のリリースだけでもかなり大量だったね…

- Midjourney V1 Video
- ChatGPT Record Mode
- Higgsfield new AI Canvas
- Claude Code MCP Servers
- Google Search Live AI Mode
- MIT Study ChatGPT’s Impact
- MiniMax M1 model & AI Agent
- Tencent open-source 3D model
72無題Name名無し 25/06/22(日)10:45:50No.125577そうだねx1
マイナーアップデートだから話題にされないMistral Small 3.2…
73無題Name名無し 25/06/22(日)14:16:57No.125596+
マルチモーダルなOCRを試せる
https://huggingface.co/spaces/prithivMLmods/Multimodal-OCR2
74無題Name名無し 25/06/22(日)14:44:56No.125598そうだねx1
最近少し話題になったAIを使うとバカになるという論調の記事や動画の元となったMITの論文の解説(英語)
https://x.com/MushtaqBilalPhD/status/1936364823576556022
75無題Name名無し 25/06/22(日)20:00:17No.125630そうだねx2
「性的ディープフェイク」相談や通報相次ぐ 警察庁 対策検討へ - NHK
https://www3.nhk.or.jp/news/html/20250622/k10014840991000.html

このうち、生成AIを悪用して作成されたものだと確認できた事案は少なくとも17件あり、15件は同級生などの知人によって作成されたものだったということです。
76無題Name名無し 25/06/23(月)02:33:19No.125682そうだねx1
もうちょいAIに関する役立つニュースだけ貼ってほしいんだが…
77無題Name名無し 25/06/23(月)08:55:00No.125720+
書き込みをした人によって削除されました
78無題Name名無し 25/06/23(月)09:08:51No.125721そうだねx6
AIリテラシーあれば読む必要ないニュース(AIリテラシーが低い人々に関するニュース)は貼る必要ないね
79無題Name名無し 25/06/23(月)17:53:03No.125744そうだねx1
RLT(Reinforcement-Learned Teacher):
https://x.com/SakanaAILabs/status/1936965841188425776

RLT(Reinforcement-Learned Teacher)のプロセスは、教師モデルが「自分で問題を解く」のではなく、「生徒が理解しやすい説明を生成する」ことに特化して学習する新しいパラダイムです。
質問と正解を与えられた上で、生徒が理解しやすい説明を出すことに報酬が与えられる設計です。これにより、小型モデルでも教師として効果を発揮できるようになります。

わずか7BパラメータのRLTが、DeepSeek R1(671B)などの巨大モデルよりも生徒の成績を向上させる結果に。
特に数学・科学系ベンチマーク(AIME、MATH、GPQA)で顕著な効果がありました。
80無題Name名無し 25/06/23(月)19:14:49No.125751そうだねx1
https://github.com/HeyNina101/ai-agent-starter-kit
このGitHubリポジトリ「ai-agent-starter-kit」は、実用的なAIエージェント構築のための専門的なガイド集を集めたスターターキットをpdfで配布

> “100個のリソースは要らない。必要なのは本物だ。”——というコンセプトで構成されています。
81無題Name名無し 25/06/26(木)00:42:30No.126056そうだねx2
Claude CLIみたいなGemini CLIがリリースhttps://x.com/googleaidevs/status/1937861646082515205
2.5proが1分あたり60件1日当たり1000件まで無料で利用可能
82無題Name名無し 25/06/26(木)00:44:27No.126058そうだねx2
GoogleDeepMindからAlphaGenome
https://deepmind.google/discover/blog/alphagenome-ai-for-better-understanding-the-genome/
DNAの変異の影響を予測できるモデル
83無題Name名無し 25/06/26(木)00:50:37No.126059そうだねx1
生成AIとRF(高周波)回路設計の融合
https://x.com/vikramskr/status/1937658826414784589

背景には、#IMS2025(国際マイクロ波シンポジウム)での発表内容があるようです。QRコードをメタマテリアルのように使うという技術的な発言も話題になっています。
84無題Name名無し 25/06/26(木)23:58:08No.126159そうだねx2
    1750949888364.jpg-(140055 B)
140055 B
エロゲ生成AI『AventuEngine』Ver.2.5
https://x.com/senooyudai/status/1938093356363747615
https://senooyudai.fanbox.cc/posts/10117771
85無題Name名無し 25/06/27(金)07:00:54No.126210そうだねx1
エッジデバイス向けのGemma 3nがリリース
https://x.com/GoogleDeepMind/status/1938278533517746686
86無題Name名無し 25/06/27(金)07:05:21No.126212そうだねx1
ChatGPTのDeepResearchのモデルがAPIに追加
https://x.com/OpenAIDevs/status/1938286704856863162
またo3とo4-miniでthinking中のWeb検索がAPIに追加
https://x.com/OpenAIDevs/status/1938296690563555636
87無題Name名無し 25/06/30(月)03:08:47No.126698そうだねx1
workflow-comfyui-single-image-to-lora-flux:
https://github.com/lovisdotio/workflow-comfyui-single-image-to-lora-flux

ComfyUI上でGemini APIとFLUX.1 Kontextを利用して1枚の画像からFLUX向けのLoRAモデルを作成するワークフロー

入力画像からGeminiをとおしてFLUX用の20枚分のプロンプトを作成しLoRA化する
88無題Name名無し 25/06/30(月)04:52:11No.126711そうだねx1
ユニバーサル・シミュレータU
https://arxiv.org/abs/2506.18739
https://www.youtube.com/watch?v=QkszoIbdGj0(解説)

従来の研究は、学習による近似に留まっていましたが、この研究はデータに依存しない厳密な再現が可能であること、トランスフォーマーがチューリング完全であることは知られていましたが、この研究はそれを超えて「任意の注意操作の厳密再現も可能」であることを証明した点が革新的です。つまり、計算的に“思考パターン”の正確な模倣が可能であることを示した

この論文は、学習(Learnability)と表現力(Expressivity)の中間領域を突き詰めた貴重な試みで、将来的にはより解釈可能なAIの設計や、タスク固有アーキテクチャの自動構成にもつながるかもしれません。
89無題Name名無し 25/06/30(月)04:55:28No.126713そうだねx1
ARグラスの現実の映像に広告ブロッカーを搭載
https://x.com/sutoroveli_news/status/1939250328786076138

広告の判別にGeminiを利用
90無題Name名無し 25/06/30(月)05:39:12No.126719そうだねx2
スレッド紹介
https://www.reddit.com/r/StableDiffusion/comments/1lnckh1/you_can_actually_use_multiple_images_input_on/

こちらのReddit投稿では、Kontext Devで画像を結合せずに複数枚の画像を入力する方法について書かれている
91無題Name名無し 25/06/30(月)08:57:29No.126757そうだねx1
    1751241449001.jpg-(194591 B)
194591 B
FramePack-P1
https://lllyasviel.github.io/frame_pack_gitpage/p1/

好評だったローカル動画生成FramePackの次期バージョンについての第一弾
さらなる結果・モデル・論文は近日公開予定。

長時間・複数動作の映像生成でドリフトを抑える新技術を投入予定とのこと
92無題Name名無し 25/07/01(火)00:24:23No.126897そうだねx1
Blender MCPがはやりの兆しでてるね
https://blender-mcp.com/

Claudeに愛犬の写真を渡してBlenderでモデリング
https://x.com/goando/status/1939590433736401349

画像からの3D化とはまた違った価値を感じる
93無題Name名無し 25/07/01(火)00:40:00No.126912そうだねx1
BaiduのERNIE4.5がApache2.0でオープンソース化
https://ernie.baidu.com/blog/posts/ernie4.5/
94無題Name名無し 25/07/01(火)03:11:28No.126952そうだねx2
現在のマルチモーダル大規模言語モデル(MLLMs)は、人間が幼少期に獲得する「コア知識(core knowledge)」の理解において体系的な欠如を示している:
https://williamium3000.github.io/core-knowledge/

CoreCognitionは、多モーダル大規模言語モデル(MLLMs)の「コア知識」欠如を評価するためのベンチマークです。

コンセプトハッキングという手法によって、ショートカット学習、認知の幻想、真の理解との差異という解決するために従来のモデルサイズのスケーリングやファインチューニングではむずかしいという知見が得られた

また、現AIは「人間とは異なる原理に基づいた認知体系が emergent(自発的に出現)しつつあり、人間とは異なる様式の知性」と言えるかもしれない
95無題Name名無し 25/07/01(火)22:50:46No.127093そうだねx2
米国13人の作家によるMeta社に対する略式判決申立ての判決
https://www.courthousenews.com/wp-content/uploads/2025/06/kadrey-et-al-vs-meta-order-motion-partial-summary-judgment.pdf

事件の概要
原告は13人の著名な作家。Metaが著作権保護された書籍を「シャドウ・ライブラリ」から無断で取得し、AIモデル(Llama)を訓練したと主張。

主な争点は、Metaの行為が「フェアユース(公正使用)に該当するか」という点。
96無題Name名無し 25/07/02(水)00:26:55No.127108そうだねx3
HRM(Hierarchical Reasoning Model)アーキテクチャ
https://arxiv.org/abs/2506.21734

人間の認知構造を抽象化したような設計になっていて、情報処理を2階層に分離し再帰的に処理しているのが最大の特徴

高次モジュール抽象的・戦略的な計画(slow thinking)長時間的・グローバル
低次モジュール細かな計算・即時実行処理(fast thinking)短時間的・ローカル

・現行モデルのように中間思考を列挙する必要がない
・パラメータ数はわずか2700万(LLMsの1/1000以下)。
・学習に使用するのはたった1000個の例(few-shotとも言えない)。
・しかも事前学習やChain-of-Thoughtの教師データなしで、数独や巨大迷路、ARCなどの難解タスクをこなします。
97無題Name名無し 25/07/02(水)03:36:26No.127121そうだねx1
>No.127108
すごいな!!🧠
98無題Name名無し 25/07/02(水)06:21:47No.127128そうだねx1
ポケモンのプレイをAIのベンチマークにしようとしてたが不適格であることがわかる
https://x.com/haoailab/status/1939777711502946544

マップの移動が難しく補助ツール必要である反面
戦闘がレベル依存であるので簡単すぎたため
99無題Name名無し 25/07/03(木)23:47:53No.127446+
    1751554073620.jpg-(354704 B)
354704 B
【速報】「原因不明の火事で全焼するぞ」メールで車折神社を脅迫、容疑で38歳無職男逮捕「生成AI絵師」で立腹

「男は容疑を認め、「『生成AI絵師』を擁護するような態度に腹が立った」と話している」😃
https://youtube.com/watch?v=RJsoUJVgUZI

https://kyoto-np.co.jp/articles/-/1512242
100無題Name名無し 25/07/04(金)07:24:38No.127480+
週刊誌的なやついらねー…

- GazouBBS + futaba-