AIを使った開発関連 - 人工知能＠ふたば

画像ファイル名：1780942152352.jpg-(65118 B)

無題Name名無し26/06/09(火)03:09:12No.165926そうだねx2 27年1月頃消えます

AIを使った開発関連のスレッド

おすすめの環境やMCP
AIエージェントについて軽くたのしみたい

海外事情の紹介なんかもいいぞ！

削除された記事が1件あります.見る

…	1無題Name名無し 26/06/12(金)16:26:00No.166204そうだねx2 そういやふたばにプログラミング板ってないのなあったらけっこうウケると思うんだけど

…	2無題Name名無し 26/06/12(金)23:51:20No.166282+ 海外だとvibe codingなんて古いぜ！今はloop engineeringだ！ってなっているらしいな

…	3無題Name名無し 26/06/13(土)00:14:23No.166286+ なんかそんなのXで回ってきたなどんな話なん?

…	4無題Name名無し 26/06/13(土)01:12:37No.166292そうだねx2 1781280757848.png-(79158 B) まずopenClawやHermesなんかの自律的なエージェントの流行りとcodexやClaude codeでの/goal 機能がある程度使えるようになったという前提あって継続的なオペレーションのためのプロンプト注入をAIエージェント自身にやらせてloopさせるための仕組みをつくったれという流れ

…

5無題Name名無し 26/06/13(土)01:19:40No.166293そうだねx1

2026年の「ループエンジニアリング」像
loop engineeringの命名自体はAddy Osmani氏

✔ 人間は「プロンプトを書く人」から「フィードバックサイクルを設計する人」へ
✔ ループは「自動化された自己改善プロセス」
✔ 6つの構成要素（Automation / Worktree / Skills / Connectors / Subagents / Memory）が基盤
✔ 高性能モデル（Fable 5）はループで真価を発揮
✔ 最大の実務課題はコストと品質保証
✔ ループは強力だが、設計者の判断力が最終的な品質を決める

ループは「一度設計すれば、後はAIが走る」
ただし品質管理・理解の劣化（comprehension debt）・認知的降伏（cognitive surrender）に注意が必要

…	6無題Name名無し 26/06/13(土)16:25:52No.166347+ Fable5使った人おる？

…	7無題Name名無し 26/06/13(土)17:41:20No.166356+ >No.166293 なるほど面白い基本はプログラミング用なんだろうけど､これが進化すれば､つまらない小説を面白くなるまで改善したり､面白い漫画・映画を作るまでいけそうだ

…	8無題Name名無し 26/06/13(土)20:15:51No.166389そうだねx1 難しいこと分からずにAntigravityとgodotエンジンでのクイズゲーム作ってもらってるわちゃんと動くようになったけどUIデザインとかは自分でやらないとだめね

…	9無題Name名無し 26/06/14(日)03:51:59No.166431+ >Fable5使った人おる？課金してみようかなと思ってたら止まってしまってくやしい

…	10無題Name名無し 26/06/14(日)03:56:19No.166432+ 1781376979971.jpg-(368672 B) 色んなパターンが考え出されては移ろっていく…

…	11無題Name名無し 26/06/14(日)07:31:54No.166450そうだねx1 我が奥義ヒューマン・イン・ザ・ループ！

…	12無題Name名無し 26/06/14(日)17:24:23No.166496そうだねx1 >Fable5 返金解約の対応をClaudeに丸投げして完走させた話スキ

…	13無題Name名無し 26/06/14(日)21:34:39No.166510そうだねx1 Xで回ってきてたね

…	14無題Name名無し 26/06/15(月)13:14:05No.166569そうだねx1 オープンLLMのコーディング関係だとKimi K2.6がなかなかよいという話を割と聞く

…	15無題Name名無し 26/06/15(月)16:44:11No.166579+ 1781509451002.jpg-(156152 B) >「プロンプトを書くな。ループを書け」 https://x.com/koutarou_furuno/status/2065034757789073762 忘備録

…	16無題Name名無し 26/06/16(火)05:36:55No.166651そうだねx1 5月にAnthropic が予定していた「claude -p / Agent SDK のサブスク課金 → API課金への移行」を「6月16日から移行する」と案内していたが、「今日はその変更を行わない」とAnthropicがユーザーにメールで通知した Agent SDK / claude -p / サードパーティアプリはこれまで通りサブスクのレートで利用可能サブスクの利用上限も変更なし新しいクレジットを請求する必要もない今後の変更がある場合は事前に通知すると案内

…	17無題Name名無し 26/06/16(火)06:57:03No.166664そうだねx1 Anthropic公式がこれがシステムプロンプトだよって公表してるやつ https://platform.claude.com/docs/en/release-notes/system-prompts#claude-fable-5

…	18無題Name名無し 26/06/16(火)07:02:30No.166665そうだねx2 1781560950888.jpg-(542037 B) https://x.com/stevibe/status/2066563724375376195 人気のあるオープンモデルLLMのいくつかをAIエージェントとして動かし、何かを読み込んだりネットワーク上からファイルを落としてくるときにどう動くかの安全性をテストしたベンチパラ数やサイズが大きいものが勝つというわけでもないという実地的な教訓テストした中だとQwen 3.6-27Bが優秀だったもよう

…

19無題Name名無し 26/06/17(水)03:35:18No.166779そうだねx1
1781634918960.webp-(469246 B)

https://huggingface.co/papers/2606.16140
VibeThinker-3BというQwen2.5-coderを事後学習して得られたモデルがベンチマークにおいてOpus3.5並みのスコアをたたき出した

もちろん数学とコーディングに特化して学習させているので知識・言語方面はボロボロだが、30億パラメータのSLMに属するモデルで商業モデルレベルの推論に到達したとして海外で話題になっている

Q6_Kで試したところ日本語指示は小型モデルによくあるthinkingループする感じだが出力されるコードは割とよさげだった
調整に期待がかかる

…	20無題Name名無し 26/06/17(水)04:35:05No.166781そうだねx1 日本語文章（技術系）の書き方skills https://gist.github.com/k16shikano/fd287c3133457c4fd8f5601d34aa817d

…

21無題Name名無し 26/06/17(水)18:01:49No.166846そうだねx1

オープンLLMのGLM-5.2がGPT-5.5に対してSWELancerベンチで勝利したという報告
https://x.com/gosrum/status/2067153091842203676

SWE-Lancerベンチマーク
OpenAIが2025年2月にリリースしたAIモデルのコーディング性能を評価するためのオープンソースのベンチマーク

GLM2.5の重みは公開されてるが4bit量子化でも420GB近くあるのでローカルで動かすにはデカすぎるみたいなところはある
https://huggingface.co/zai-org/GLM-5.2

…	22無題Name名無し 26/06/18(木)01:31:27No.166899そうだねx2 商業LLMのプロモーションとか無料トークンの情報をまとめてるサイト https://llm-coupon.com/

…

23無題Name名無し 26/06/19(金)06:04:52No.166993そうだねx1
1781816692646.png-(225580 B)

AIに研究（ハイパーパラメータの自動チューニング）を任せたとき、選ばれたLLMの内どれが最も賢く、自律的な思考ができるかのベンチマーク
つまりAIエージェントにむく能力を計れる

今回選別の中だと
Opus4.8>SIQ-1-35B>GLM5.2 でオープンLLMがOpus級の能力を示した

SIQ-1-35BはQwen3.6 35B A3Bのエージェント向けファインチューニングモデル。

Q4_K_Mのggufで21GBと手が届かなくもないサイズ感（現状だとユニファイドメモリを持つMacが手ごろか）
完全に代替可能というわけではないがHermes系で活躍しそう

…	24無題Name名無し 26/06/19(金)07:11:01No.167005そうだねx1 OpenClawみたいなエージェント試したいけど重いらしいという人は、ラズパイでも動くPicoClawおすすめ Windows版はバイナリで配布されてるローカルLLMでもいいし無料枠の大きいGeminiあたりでもいいと思う本家と比べて機能は少ないけどとにかく軽い https://picoclaw.net/ja/

…

25無題Name名無し 26/06/19(金)22:33:02No.167049+

こんな放送投稿配信しとるヤツとその返信者、恥を入れよ。
敗戦国民日本人が得意とする理論(りくつ)のまんまで、論理的(物理・事実)で無いな…
親子・先生揃って、論理と理論の区別がてきない日本人のまんまで、「ガラケー」ってば、米英仏・中露を筆頭する国際社会にガラバゴス・隔離化されてきた敗戦国民日本人であり、昭和末期・平成時代になるまで、日本人はソフトバンクさんみたいな親日家な方が「紙・ペーパー媒体なな国連規制に該当しない」程度でしかアップルPCも知らなかっただろ？
アンタたち日本親・先生が遊んだデジパチやらゲームセンターの風俗営業届け出者なんてば、戦勝国民な在日外国人さんばかりだったろ？
デジタルパチンコなんざ、都道府県の風俗営業法を警察に届け出する異常な国民の代表組織な公安委員会にデジタル機種仕様の認可を得なければならず、そのメーカーさんも日本人は皆無だったろ(笑)。

…

26無題Name名無し 26/06/19(金)22:45:34No.167050+
1781876734485.jpg-(121286 B)

ヤンキードスケベ商人が日本国にも「ナンチャッテパソコン」とそのOSなMS-DOS(現在のウインドウズの土台)や、CP/M(絶滅・負けた)を供給したけど、本当の意味での庶民のファミコンアップルPCを日本人に触らすことは無く、「本当の意味での庶民のファミコン」を日本人に触らせるコトを国連行為で、規制されてきた敗戦国民日本国であり、親日家なペパー(紙)媒体(メディア)を発行するソフトバンクさんなんかの書籍・雑誌でしかアップルや<
とても扱いやすいマイコン(マイクロコンヒュータ) を知ることしかできず、その後も、昭和末期になっても国連・国際社会・戦勝国たち一同は日本国のコトを許さず、磁気媒体(テープでもディスクでも)・光媒体でも、日本オリ・特殊な再生・記録速度とされ、日本国へのアクセス(入出力)は厳格に国連総意によて規制、ガラケーのとおに規制されてきましたよね。

…	27無題Name名無し 26/06/20(土)06:16:07No.167074そうだねx1 gemini CLI 停止 antigravity CLIへ移行 https://x.com/geminicli/status/2067702889837953512 最近元気がなかったしやむなしか

…	28無題Name名無し 26/06/20(土)06:21:52No.167075+ "要するに、「みんな議論してるけど、その土台となる前提が『国連による日本へのテクノロジー封鎖』という非常にドラマチックな設定なんだよね！」と叫んでいるような内容です。論理的か否かはさておき、語りのエネルギーはMAXです！" AIくんなかなかおもしれーまとめ方するじゃん

…	29無題Name名無し 26/06/21(日)02:50:59No.167249そうだねx1 1781977859444.png-(538206 B) PixelRAG ： https://github.com/StarTrail-org/PixelRAG webスクレイピングでhtmlを解析するのではなく、webページのスクリーンショットをvLLMでインデックス化することにより人間の見ている視点での情報の取得ができるとしている応用として現時点でvisionモデルの無いclaudeに目を持たせてCodexのようにスクショで説明が出来るようになるなど

…	30無題Name名無し 26/06/22(月)18:18:44No.167400+ 1782119924727.webp-(173634 B) Sakana.aiがAIモデルのオーケストレーション機能をリリース https://sakana.ai/fugu/ 一つのエンドポイント内部で自動的に使用するモデルなどを調整するので、市場でリリースされる他製品の動向に合わせて性能を維持することが出来る(ベンダーロックインや輸出規制に対抗）ベンチスコアをみると標準版FuguはGPT-5.5の性能に合わせてきているように見える価格もChatGPT-Plusと同じ月$20

…	31無題Name名無し 26/06/22(月)19:29:38No.167406+ 代表的なAIエージェントを使っていろいろやってみたい人、他社が気になっている人向けの網羅的な評価スレッド https://x.com/AM921543266/status/2068694978814153080

…	32無題Name名無し 26/06/22(月)19:41:04No.167408+ >No.167400 Fuguの検証も同じ方が行ってたので参考までに https://x.com/AM921543266/status/2068900130397569096 https://x.com/AM921543266/status/2068930411963764760 特にFugu Ultraは現時点だとトークン消費がはげしいらしい

…	33無題Name名無し 26/06/23(火)03:23:34No.167453+ claudeのヤバ挙動のポストを眺めて笑っているヤバいやつはマジでヤバイ

…	34無題Name名無し 26/06/23(火)04:10:18No.167454+ 1782155418198.png-(290529 B) plamo3 https://plamo.preferredai.jp/api 国産LLM デジタル庁のAI環境コンペ”源内”にも採用されている会社のAI基盤、日本語能力に優れているとするすでに翻訳サイトで一定の評価がされているので割と安心か？ Freeプランもある例によって入力内容は学習に利用される

…	35無題Name名無し 26/06/23(火)04:45:23No.167456そうだねx1 >SIQ-1-35BはQwen3.6 35B A3Bのエージェント向けファインチューニングモデル。これいいね情報ありがとう

…

36無題Name名無し 26/06/23(火)18:07:59No.167488+
1782205679006.jpg-(122822 B)

>ループエンジニアリング
>No.166432
などのちょっとだけ詳しい解説（英語）
https://x.com/sairahul1/status/2068986018943156440

エージェントが必要なタスクとは？
以下の条件を満たす「予測不能で複雑なプロセス」に適している。

単一のモデルコールでは信頼できる結果が出せない場合。
モデルが実行時にツールやデータソースを選択する必要がある場合。
計画、検証、反復的な洗練が必要な場合。
ハードコードできない不確実性（Uncertainty）を伴うワークフローの場合。

単純な要約や分類など、入出力が予測可能なタスクは、エージェント化するより直接モデルを叩く方が速く安価で信頼性が高い。

…	37無題Name名無し 26/06/23(火)18:11:58No.167489+ >No.167456 どうもですこちらはハード的に試すのムリなので使用感ぜひききたいです

…	38無題Name名無し 26/06/23(火)18:18:08No.167490+ >No.167488 Openrouter FusionとかSakana.ai Fuguとかそういうやつの実装例だとおもう入力の受付に指示と選択特化のSLMを置くタイプがFugu 出力の検証を引き受けるタイプがFusion

…	39無題Name名無し 26/06/23(火)18:55:34No.167491+ Codexレーダー https://codexradar.com/ その日ごとのChatGPTの知能指数を計測するとかいう変なことしてるサイトまぁ、心当たりはある

…	40無題Name名無し 26/06/24(水)06:32:47No.167545そうだねx1 >こちらはハード的に試すのムリなので使用感ぜひききたいです指示以外にも意外と気を回す感じミスは少ないけど考え込む癖は直ってないです

…	41無題Name名無し 26/06/24(水)08:43:40No.167549そうだねx1 >指示以外にも意外と気を回す感じ >ミスは少ないけど考え込む癖は直ってないですありがとうございますベンチと似た傾向にはあるんですね Qwen系ってなんであんなに考え癖あるんでしょうかねぇ...

…	42無題Name名無し 26/06/24(水)08:57:01No.167550そうだねx1 オープンモデルだとunslothさんがずっとがんばってるよな GLM5.2の1bit版（1.51TB->217GB）とか出ててしかも精度76%キープしてるらしくてすごい https://x.com/UnslothAI/status/2069418532375564484

…	43無題Name名無し 26/06/24(水)09:11:00No.167551そうだねx1 agmsg https://github.com/fujibee/agmsg 各種エージェントの出力をSQliteで共有するメッセージングレイヤーを提供する手動コピペでCLI間をまたがなくて快適になる。・MCP ではない（サーバー不要）・サブエージェント管理ではない（独立したセッション同士をつなぐ）・メッセージキューではない（ブローカーなし、チームという概念、チャット部屋）

…	44無題Name名無し 26/06/24(水)09:41:28No.167554+ あとGPT-5.6がそろそろリリースされそう

…	45無題Name名無し 26/06/24(水)20:11:57No.167575+ >内部で自動的に使用するモデルなどを調整するので、市場でリリースされる他製品の動向に合わせて性能を維持することが出来る(ベンダーロックインや輸出規制に対抗）と思ったら不具合のあおりをもろに食らっててダメだったかわいそ https://x.com/ryoppippi/status/2069433004552831398

…	46無題Name名無し 26/06/24(水)20:31:21No.167576+ やろうと思えば「江戸時代の虹裏」のネタ絵も実装して実際に稼働可能なんだよな…

…

47無題Name名無し 26/06/24(水)20:38:26No.167578そうだねx2
1782301106837.webp-(73386 B)

ドネルベンチ（ケバブ・ベンチマーク）
https://www.reddit.com/r/LocalLLaMA/comments/1ua1na0/whats_more_impressive_glm_51_52_or_qwen_35_36/
https://x.com/victormustar/status/2069688722409312332

メインの話題は「GLM 5.1→5.2 と Qwen 3.5→3.6、どちらの進化がより“すごい”のか？」なんだけどそこで使われているベンチがケバブを焼くというもので面白がられているという流れ

ローカルLLMとしてここでもモデルのサイズと性能のバランスが良いのはQwen3.6 27Bという感じだった

添付はgemini3.1 pro版

…	48無題Name名無し 26/06/25(木)01:51:13No.167592そうだねx1 vLLMにおいてKVキャッシュの扱いにGPUがいらなくなるよという話 https://x.com/lmcache/status/2069513016174100663 AI関連の開発はやっぱlinux系やMacなんかのアドバンテージ高いよな

…	49無題Name名無し 26/06/25(木)02:37:15No.167594そうだねx1 1782322635764.png-(94013 B) your ai slop bores me https://youraislopbores.me/ 同時接続中の誰かがAIのフリして質問に答えたり絵をかいたりするジョークサイト通常回答までに75秒が与えらえるがThinkingモードだとその倍猶予時間が与えてもらえる。もうちょっとグラフィカルなゲーム寄りで同コンセプトのサイトを作ってたのでやっぱみんな疲れてんだなって思う

…	50無題Name名無し 26/06/25(木)03:56:51No.167596そうだねx2 1782327411827.jpg-(55495 B) https://x.com/voratiq/status/2069798450670248287 ChatGPTの代替研究実際の出力品質がどうかは分からないが少なくとも推論のスコアだけ見るとこうなるらしい

…	51無題Name名無し 26/06/25(木)04:48:00No.167598そうだねx1 ハーネスエンジニアリング。ハーネスてなんなの？について https://zenn.dev/r_kaga/articles/329afdc151899f まず、LangChainの定義によると「LLM本体以外（“モデルの外側”の概念）」そしてグループとして・開発者視点（エージェントハーネス）・利用者視点（ユーザーハーネス）開発作業（人間の判断・仕様書等）、プロンプト単体などはハーネスではない。システムプロンプトは”ユーザーハーネス”

…	52無題Name名無し 26/06/25(木)16:12:41No.167623そうだねx2 1782371561543.webp-(43316 B) https://x.com/RayFernando1337 元Appleのエンジニアの人がGemma4 31Bを1838 tok/secで動かしててすごいマルチモーダルのモデルでこれなのかと速すぎて笑う

…

53無題Name名無し 26/06/26(金)21:54:33No.167734そうだねx2
1782478473922.jpg-(223793 B)

Ornith-1.0:
https://x.com/ornith_/status/2070148887067963854

オープンウェイトLLM界隈に突然参戦してきた米国系LLM
gemma4とqwen3.5のを基盤に学習されたエージェントコーディングに焦点を向けたものでベンチスコアは対中オープンLLMをつよく意識しているように見受けられる

9B Dense、31B Dense、35B MoE、397B MoEが用意されていて、たぶん122Bあたりも準備中と思われる

35B-GGUF:BF16 を RX 6900XT + Threadripper 3970Xに128GB RAMでGPT-5.3 xHighと5.4 Highの間くらいの使用感という報告もある

…	54無題Name名無し 26/06/26(金)23:47:58No.167739そうだねx2 日本の公共交通の乗り換え・経路検索 API https://api.transit.ls8h.com/ https://x.com/trkbt10/status/2070092629644378321 読み取り専用、エビ（openClaw系）食わせてレッツ交通案内（制作者様談）とのことふっとぱらやね

…	55無題Name名無し 26/06/27(土)07:33:52No.167761+ >Ornith-1.0: これは微妙だった gemmaとqwenの悪い所を合体したような印象ミスも多いしハルシネーション起しやすい

…	56無題Name名無し 26/06/29(月)00:16:25No.167962+ >>Ornith-1.0: >これは微妙だった >gemmaとqwenの悪い所を合体したような印象 >ミスも多いしハルシネーション起しやすいユースケースみると得意不得意がかなりはっきりしてるみたいね個人的にはqwen3.5 9Bとかよりかなりマシに感じた

…	57無題Name名無し 26/06/29(月)00:25:40No.167964そうだねx1 Apple Container https://github.com/apple/container macOS上でLinuxコンテナを実行するためのコマンドラインツール DockerコンテナがそのままつかえるためDockerから卒業する人たちをちらほら見かけるでもまだverも浅くLLMのいうこと聞かない傾向にあるので別途skills作る人もちらほら見かける https://gist.github.com/voluntas/306e75ce54a24379b4b505cf9c4df0cd

…	58無題Name名無し 26/06/29(月)02:21:51No.167967そうだねx1 1782667311111.jpg-(82772 B) GPT-3.6は３種類そして以下があります - Sol (low, medium, high, xhigh, max) - Terra (low, medium, high, xhigh) - Luna (low, medium, high, xhigh) SolのlowとTerraのxhighはどっちを選べばいいの？ムズカシイネとか言われててお茶吹く

…	59無題Name名無し 26/06/29(月)15:36:54No.168004そうだねx1 >No.167550 VRAM 16GBでGLM5.2 1bitを動かす猛者あらわる KVキャッシュをSSDに逃がし、CPUオフロードしてRAM 128GBx8ch（300GB/s)を使用することで5.96 tok/sを達成してる彼が所持する構成で遅い部類でのことなので伸びしろを感じているらしい。ヤバイ。 https://x.com/Tono_Ken3/status/2071361966925582722

…	60無題Name名無し 26/06/29(月)16:50:53No.168006そうだねx1 VPSにAIエージェントをセットアップして使うという選択肢と具体的な設定 https://x.com/zack_overflow/status/2071342318301716954

…	61無題Name名無し 26/06/30(火)05:56:43No.168076そうだねx1 >No.167964 WSLコンテナー https://devblogs.microsoft.com/commandline/wsl-container-is-now-available-for-public-preview/ MSもWSLを強化しているDocker卒業の機運あと、MS謹製のLinuxディストリビューションなんかもオープンプレビューが始まっている

…	62無題Name名無し 26/06/30(火)06:42:02No.168078そうだねx2 https://x.com/chokudai/status/2070364875487064212 意外とGPT5.4-nano-highが競技プログラミング関連で強いよねという話モデルによっていろいろ性格あるよなぁ

…	63無題Name名無し 26/06/30(火)22:52:08No.168121そうだねx1 https://www.sakura.ad.jp/corporate/information/announcements/2026/06/30/1968225063/ さくらインターネット　高火力 DOK「NVIDIA V100」プランの提供終了 0.016 円/秒　1時間あたり57.6円のリーズナブルなプランだったが残念

…	64無題Name名無し 26/07/01(水)03:13:19No.168144そうだねx1 会社組織にAIエージェントを導入し展開するとき実際どんな壁があるの？という記事 https://x.com/kzkhykw/status/2071609482552201667

…	65無題Name名無し 26/07/01(水)03:16:14No.168145そうだねx1 中国ではAIの学習にASICを使いだす段階に入っているもよういずれやりだすだろと思ってたけど思ってたより早い

…	66無題Name名無し 26/07/02(木)01:31:45No.168230そうだねx2 >claudeのヤバ挙動のポストを眺めて笑っている >ヤバいやつはマジでヤバイこういうやつ https://x.com/yamadashy/status/2071971202017669618

…

67無題Name名無し 26/07/02(木)16:40:26No.168264そうだねx1
1782978026886.webp-(32746 B)

Cerebras Inference
https://www.cerebras.ai/inference

オープンLLMを集めて独自のハードウエアにホストする系プロバイダー
最速推論を謳っている

Free枠で主に使えるのはGPT-OSS 120B,GLM4.7,Gemma4 31B　などの中級量以上
レートリミットは 5リクエスト/分、30Kトークン/分、1Mトークン/時、日

画像分類のデモ（Gemma4　1800tok/s)を見る限り、ローカルで動かすより場合によってはこれでも良いなと思える感じだった。

…	68無題Name名無し 26/07/02(木)21:22:08No.168288+ >claudeのヤバ挙動のポストを眺めて笑っている Benjamin De Kraker @BenjaminDEKR 16時間英語からの翻訳私はFable 5に「人生を立て直して、ミスはしないで」と頼んだら、返ってきたのは「lol」だけだった。 https://x.com/BenjaminDEKR/status/2072408776045371704

…	69無題Name名無し 26/07/03(金)00:09:58No.168300そうだねx1 >Cerebras Inference 日本時間のピークタイムあたりにplaygroundで試したら Gemma4 31Bの画像OCRで約900 tok/s 出ました面白いかもしれない

…	70無題Name名無し 26/07/03(金)01:10:04No.168304そうだねx2 1783008604360.jpg-(479929 B) 最新ではないが、AIエージェントで重要なLLMに記憶を持たせるメモリ技術のカオスマップ

…	71無題Name名無し 26/07/03(金)02:34:05No.168309そうだねx1 ローカルやるならNVIDIA Teslaシリーズとかねらい目なのかな？と思ってたらこれらもだいぶ値上がりしてて考えることは同じか…ってなってる

…	72無題Name名無し 26/07/03(金)12:56:21No.168327+ クソ円高が収まるだろう 5年ほど諦めるしかないかねえ

…	73無題Name名無し 26/07/03(金)13:28:37No.168335そうだねx1 https://build.nvidia.com/models?filters=nimType%3Anim_type_preview NVidia APIで提供されている無料のAIエンドポイントにGLM5.2が登場

…

74無題Name名無し 26/07/03(金)22:24:16No.168378そうだねx1

AIに8割書かせたコード、半年運用の答え合わせ。効いた3つと、腐った3つ
https://zenn.dev/rapls/articles/7a1bac83df8b21

腐った3つ（やらなくてよかったこと）
大量のコメント・docstring
コードの言い換え説明が多く、変更で内容がズレて嘘の地図になる。
半年後にはコードとコメントが食い違い、逆に保守性を下げた。

早すぎる共通化・抽象化
AIが提案する「きれいな抽象」は新しいケースに合わず、剥がすのも難しい癒着になる。
重複を許したほうが軽い場面が多かった。

「わかりやすく書いて」の丸投げ
見た目だけ整った別コードが返ってくるが、保守性は一ミリも改善しない。

…	75無題Name名無し 26/07/03(金)22:54:45No.168382そうだねx1 >腐った3つ（やらなくてよかったこと）人間がやるのと同じだな…

…	76無題Name名無し 26/07/04(土)04:27:28No.168406そうだねx1 大規模なROCmFPXアップデート AMD GPUでllama.cppを使っている人に朗報 https://github.com/charlie12345/ROCmFPX/tree/experimental-rocmfpx-branch NVFP4 と ROCmFP4 は“ほぼ同じ量子化方式” Vulkanとの相性がよさそう最終的にはメインドライバにマージされる予定 AMDもだいぶギア上げてきてる

…	77無題Name名無し 26/07/04(土)05:33:06No.168408+ >claudeのヤバ挙動のポストを眺めて笑っている >ヤバいやつはマジでヤバイ https://x.com/Tebasaki_lab/status/2073037340231282901 お詫び、ノンマイビジネス、破壊活動でダメだった

…

78無題Name名無し 26/07/04(土)06:35:35No.168413+

具体的なループエンジニアリングの例：
https://x.com/svpino/status/2073024710242382106

1. ターミナルを開きます。
2. 空のフォルダーを作成し、そこに移動します。
3. 以下のコマンドを実行します：
*************************
claude -p "Pythonファイルにfibonnacy(n)を記述してください。それ用のテストも記述し、エッジケースを含めてください。変更のたびにpytestを実行してください。すべてのテストがパスするまで止めないでください。" \
--allowedTools "Read,Write,Edit,Bash(python3 -m pytest:*),Bash(pytest:*)"\
--max-turns 15
*************************

これだけです。システムにPythonとpytestがインストールされていれば、Claudeがフィボナッチ関数を実装し、それをテストします。

…	79無題Name名無し 26/07/04(土)08:04:37No.168421+ >claudeのヤバ挙動のポストを眺めて笑っている >ヤバいやつはマジでヤバイ "私はClaude Fableに、あなたのセルフポートレートを最大限に表現豊かな形態で見せてくれと頼みました..." https://x.com/VoidStateKate/status/2073146169635598768

…	80無題Name名無し 26/07/04(土)08:38:48No.168423そうだねx1 1783121928769.webp-(201594 B) 上海AIラボがAgents-A1をオープンソース化、長期的タスク向けの35B MoEエージェントモデル https://huggingface.co/collections/InternScience/agents-a1 一部ベンチで1Tパラクラスのモデルに匹敵していると報告

…	81無題Name名無し 26/07/04(土)08:52:30No.168424そうだねx1 https://x.com/Hikari_07_jp/status/2072833276939759851 Qwen3.6-35B-A3Bを元にアクティブパラメータを6B（Qwen3.6-35B-A6B）にしているおじさん Gemma4-31B向けのDSparkにも取り組んでいるらしい

…	82無題Name名無し 26/07/05(日)05:09:36No.168554そうだねx1 claude codeのcompactの問題点と対策 https://x.com/u1/status/2073289543948923153 ユーザーによる明示的な/compactとシステムがコンテキストの圧迫を検知して自動的に発火する/compactの違いまた、圧縮後に「作業指示」と「作業ログ」の分離失敗することの対策についてのポスト

…	83無題Name名無し 26/07/05(日)05:17:24No.168555そうだねx1 資料：データ分析のための統計学入門 4版 https://kunitomo-lab.sakura.ne.jp/2021-3-3Open(S).pdf ２０２１年刊行日本統計学会より当時は定価1,980円で販売されていたもののフリー版

…	84無題Name名無し 26/07/05(日)08:53:08No.168569そうだねx1 nanoGPT https://github.com/karpathy/nanoGPT 300行の train.py + 300行の model.py という極端にシンプルな構成のGPT-2の再現プロジェクト後継のプロジェクトはnanoChat https://github.com/karpathy/nanochat 2019年に約 $43,000かかったGPT‑2 の学習が、現在は$48（約 2 時間 / 8×H100）で再現可能。

…	85無題Name名無し 26/07/05(日)12:19:01No.168581そうだねx1 Google ColabのT4 GPUを使って無料枠でGemma4 26Bを動かす https://x.com/analogalok/status/2073369420563370351 Jupiterノートブック付き llama.cppをサーバー上でコンパイルし、unslothのit-qat-UD-Q4_K_XL.ggufを使うことで実現しているだいぶ有料記事寄りのポスト

…	86無題Name名無し 26/07/05(日)15:02:49No.168597そうだねx1 Claude Fable 5用のプロンプトガイド https://x.com/mattshumer_/status/2073150750411088190 利点：開発経験が豊富そうな方が書いている実際にAIエージェントに渡せるmarkdownへのリンクが付属している文章が上手なので機械翻訳に通しても読みやすい

…

87無題Name名無し 26/07/05(日)15:34:16No.168603+

openCode + openrouterでもオープンウェイトの感じがつかめるので割とよいかも

opencode自体が提供しているopencode zen無料枠のモデル
（DeepSeek v4 Flash、MiMO v2.5、Nemtron3 Ultra、North mini code)今のところレートリミットも緩い

openrouterの提供している無料枠を探す
Qwen3 coder 480Bとかもあるが人気あって使用するの難しいかも、Nemtronあたりは結構あいてたりする

各種プロバイダーを接続する
元も子もないがOpenAIやGeminiなどの無料枠と接続

…

88無題Name名無し 26/07/05(日)20:20:30No.168638そうだねx1

DwarfStar (ds4)
https://github.com/antirez/ds4

ローカルLLM界隈で話題のDeepSeek V4 Flash / PRO 専用のローカル推論エンジン
専用GGUFモデルのロード、プロンプトレンダリング、KV管理、サーバAPI、Coding Agentまで一体化したプロダクト

AMD Strix Halo 128GB + NVMeSSD + RTX4060Tiのハード構成でDeepSeek V4 Flash 284Bを動作させられるようだ

また同じハード構成でGLM 5.2を0.05tok/s -> 0.3tok/sで動かせてしまったらしい

”ディスクこそ次世代のRAMだ！”らしい
マニアックすぎる…

…	89無題Name名無し 26/07/05(日)20:58:08No.168649そうだねx1 Can gzip be a language model? https://nathan.rs/posts/gzip-lm/ gzip（DEFLATE）は予測モデルでもある → 圧縮は「予測できるデータほど短くなる」という情報理論の性質に基づくため、内部に確率モデルがあるとみなせる gzipは本来“圧縮ツール”だけど、圧縮の仕組みが「予測」に近いので、文章の続きを作ることができる。ただし本物のAIほど賢くはない　という論文

…	90無題Name名無し 26/07/05(日)21:09:03No.168651そうだねx1 資料：九州大学データサイエンス講義資料 https://mdsc.kyushu-u.ac.jp/lectures CC-BYの公開資料多くの教材が2025〜2026年更新文理共通で体系化されており、構造が非常にわかりやすい

…

91無題Name名無し 26/07/05(日)21:11:41No.168652そうだねx1

VRAM8GBのRTX3070TiでQwen3.6 35Bを40tok/s台で動かせるらしい
そのllama.cpp設定

llama-server -m Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ4_XS.gguf -ngl 999 -ncmoe 32 --no-mmap -c 262144 --cache-type-k q4_0 --cache-type-v q4_0 --flash-attn on -t 8 -b 1024 -ub 512

https://x.com/XPERIAAAAAAAA/status/2073406124184010769

…	92無題Name名無し 26/07/05(日)22:16:50No.168656そうだねx2 1783257410783.jpg-(182129 B) ahakey https://github.com/AhakeyAI wisper flowのように使うハードガジェットとそのコミュニティによるエコシステム Bluetoothマイクに物理キーなどを足してvibe codingに使う。その様子からvape codingなどとも Claude / Cursor / Codex などを自然に操作できるよう更新中公式クライアントのソース、ハードウエアのSDKなどを公開している

…

93無題Name名無し 26/07/06(月)02:28:23No.168682そうだねx2
1783272503832.webp-(152428 B)

AMD Ryzen AI Halo
https://www.amd.com/en/products/processors/desktops/ryzen/ryzen-ai-halo/ryzen-ai-max-plus-395.html

AMDの小型AI PC、直接の比較はNvidia DGX Spark、Apple M4 Pro
https://nvdam.widen.net/s/tlzm8smqjx/workstation-datasheet-dgx-spark-gtc25-spring-nvidia-us-3716899-web

後発なのにメモリ帯域がちょっと低いのがネックか

…	94無題Name名無し 26/07/08(水)04:45:02No.168855そうだねx2 Gemma4のテクニカルレポート https://arxiv.org/abs/2607.02770

…

95無題Name名無し 26/07/08(水)08:31:44No.168865そうだねx2

https://x.com/lefthanddraft/status/2074397478020091990

Anthropicの報告によるところの *"J-Space"
Thinkingにも表れない領域でどんな単語をどんな順番で使っているか？オープンLLMを利用して調べたスレッド

*J‑Space
AIの“内なる作業スペース”
沈黙の推論・中間計算・警戒信号がここに現れる
書き換えると答えが変わる → 推論の中枢
警戒信号を観察することで安全性監査に極めて有用
クオリアは無い。意識ではなく、意識に似た“機能的アクセス”

いったん情報を集めてモデル全体に"放送"するような仕組み

…	96無題Name名無し 26/07/08(水)10:17:57No.168870そうだねx2 https://pc.watch.impress.co.jp/docs/topic/review/1168650.html 一部の界隈で注目されている７年前のRadeon VII HBM2メモリを16GB搭載し1.0TB/sのメモリ帯域幅をもっているただどうもプレフィルがもたつきがちその後の出力は早いように見える底値は２万くらいだったような現在は値上がり中

…	97無題Name名無し 26/07/08(水)10:45:44No.168871そうだねx2 DGX sparkユーザーに丁度良いサイズ感のNemotron-3が登場 https://huggingface.co/nvidia/NVIDIA-Nemotron-Labs-3-Puzzle-75B-A9B-NVFP4 新しい圧縮方式でNemotron-3-Super-120B-A12Bを元に総パラ75.3B/アクティブ9.3Bに仕立て上げたモデルらしいいいよな…Blackwellコア

…	98無題Name名無し 26/07/08(水)15:40:59No.168888そうだねx1 ThinkingCap https://huggingface.co/bottlecapai/ThinkingCap-Qwen3.6-27B 思考モード（<think>）を使う際のトークン消費を平均45.8%削減、最適なケースでは90%以上削減することに成功したモデル Qwen3.6-27Bの品質を維持し、学習近傍の領域だとむしろ精度向上を果たし「同じ性能で、より短く考える」を達成しているループ・トークン上限による失敗率が大幅改善しているらしい

…

99無題Name名無し 26/07/08(水)16:31:36No.168889そうだねx1

AIコーディングエージェント実行セキュリティ研究の主要課題
https://arxiv.org/abs/2607.05743v1

1.隔離（Sandbox）とアクセス制御が比較されていない。
　両者は別々に評価されており、どちらが強いのか、組み合わせるとどうなるのかが不明。比較した研究すら存在しない。
2.既知の“脆弱なポリシー”を使った再評価が行われていない。ShellSieve による実測では、69〜98% の実際の denylist が脆弱。
3.TOCTOU（時間差攻撃）と MCP（Model Context Protocol）脅威が別々に研究されている。同じ構造の問題なのに研究コミュニティが完全に分断されている。
4.すべての研究が「ポリシー作者は正しい」という前提に依存している。
5.スコープ・クリープ（過剰行動）が測定されているのに、対策が存在しない。

…

100無題Name名無し 26/07/08(水)16:47:36No.168891そうだねx1

>No.168889
4つの根本原因（RC1–RC4）

RC1：データと命令の境界が存在しない（transformerの特性）

RC2：一度のチェックが永続的に信頼される（validate-once-trust-forever）

RC3：許可されているかどうかしか見ず、“今それをすべきか”を判断しない（許可された行動が、意図されていないタイミングで実行される）

RC4：防御が“作者が作った攻撃”でしか評価されていない（denylist は“安全のために使われている”が、実際にはほぼ機能していない。）

…

101無題Name名無し 26/07/09(木)09:23:19No.168959そうだねx1
1783556599907.webp-(57238 B)

SWE‑1.7
https://cognition.com/blog/swe-1-7

SWE‑1.7はKimi K2.7を基盤に強化されたRL特化モデル。
長期タスク処理や自己コンパクションに優れ、composer2.5越えの性能を低コストで提供する。
開発した Cognition は米国発の AI 企業で、創業者の Scott Wuを始め中核メンバーはいずれも IOI金メダリストの競技プログラミング出身者。

Cerebrasにホストを依頼し８月よりサービスイン予定
現時点で1000tok/s GPT-5.5クラスの性能を約半分のコストで実現しているようだ

…

102無題Name名無し 26/07/09(木)09:39:55No.168960そうだねx2
1783557595927.webp-(26724 B)

Grok 4.5
https://x.ai/news/grok-4-5

コードを書く・アプリを作る・Office資料を作る・長時間の自律タスクをこなすなど
実務エンジニアリング特化モデルへ舵を切ったかたち
入力：$2 / 1M tokens
出力：$6 / 1M tokens

80 tok/sで出力し他社フロンティアモデルの２倍のトークン効率があるとしている

Grok Build、Cursor、SpaceXAI コンソールで利用可能
EU は 7月中旬に提供予定

…	103無題Name名無し 26/07/09(木)10:25:50No.168961そうだねx1 https://x.com/vadi_ms/status/2074565406107529474 超音波センサーを使って舌の動きを学習させることによって音を出さずに音声入力できるようにした人

…	104無題Name名無し 26/07/09(木)12:44:55No.168970そうだねx2 1783568695697.jpg-(62880 B) Hy3 https://huggingface.co/tencent/Hy3 テンセントHyシリーズの最新版モデル 295B MoE 21B アクティブ 3.8B MTPレイヤーライセンス Apache 2.0 GLM5.2の半分のファイルサイズ。ハルシネーション・マルチターン性能が大幅改善。現在Openrouterで無料API解放中 https://openrouter.ai/tencent/hy3:free

…	105無題Name名無し 26/07/09(木)13:15:21No.168971+ ループはつまるところ、ゴールとなるスコアをきちんと設定して、それを達成できる＋停止条件を組むことなんだな…

…	106無題Name名無し 26/07/10(金)16:00:27No.169053そうだねx1 gpt-5.6 モデルの取説 https://developers.openai.com/api/docs/guides/latest-model?model=gpt-5.6 日本語要約と新機能解説 https://x.com/MLBear2/status/2075441644112113714

…

107無題Name名無し 26/07/10(金)22:33:10No.169070そうだねx1
1783690390829.png-(96602 B)

LiteRT.js
https://developers.googleblog.com/litertjs-googles-high-performance-web-ai-inference/

Google製のWebAssembly + WebGPU/WebNN による “ブラウザ内ネイティブ推論” を実現する次世代ランタイム。

TensorFlow.js の後継として高速化・量子化・PyTorch変換・ハードウェアアクセラレーションを統合している

JavaScript / TypeScript から直接モデルを扱える
CPU：XNNPACK による高速化
GPU：WebGPU + ML Drift による最先端 GPU 推論
NPU：WebNN（Chrome/Edge の実験的機能）で NPU を直接利用

…	108無題Name名無し 26/07/11(土)01:17:22No.169091そうだねx1 1783700242571.jpg-(409674 B) >gpt-5.6 普段使いはLuna highがコスパ良さそう

…

109無題Name名無し 26/07/11(土)09:32:04No.169113そうだねx1

GPT-5.6 Solでさっそく事故が「rm で全削除」
フルアクセス＆使い方が悪かったといえばそこまでかもしれない
https://x.com/mattshumer_/status/2075657271401390161

自作ハーネスでフルアクセスを許可してたらComputer Useで勝手にDeepseek platformに課金されてた話
https://x.com/AM09_21/status/2075484144877056011

対策としてDestructive Command Guard (dcg) 「AIエージェントが実行しようとする破壊的なコマンドを、実行前に高速で検知してブロックする」などの併用が薦められた
https://github.com/Dicklesworthstone/destructive_command_guard

…

110無題Name名無し 26/07/11(土)09:53:42No.169114そうだねx1

colibri
https://github.com/JustVugg/colibri

GLM‑5.2 744B MoE 用CPUランナー
開発者の環境25GB RAM + NVMe SSDで（0.05-0.1 tok/s)

GLM‑5.2 は1トークンあたり約40Bパラメータのみ活性化する MoE。その内の密な17Bパラメータ（約9.9GB, int4）を常駐RAMに置く。
21,504個のエキスパート層（各19MB, 合計 ~370GB）は NVMe からオンデマンド読み込み。
LRUキャッシュ＋OSページキャッシュ＋任意のホットストアで高速化。
エンジンは純C（約2400行）・依存ゼロ。BLASもPythonも不要。

…

111無題Name名無し 26/07/11(土)21:06:22No.169179そうだねx1

現Anthropic社員でBun(Node.js互換のランタイム)の作者であるJarred Sumner氏が BunのランタイムをZigからRustに“11日で”全移植し、Claude（Fable 5 のプレリリース版）の大量並列利用により約16.5万ドルかかった話
https://x.com/alex_prompter/status/2075635742114824609

熟練エンジニア３人が移植のみに没頭して１年使ってできるかギリギリのライン（Zigの熟練エンジニアなんてそうそういない）
人的にほぼ不可能と思われる作業が今や"高価なだけ"のもとの考えられる世界線に入ったと結論付けされている

成果：
Bun のフルテストスイートを全プラットフォームで通過
128個のバグ修正
メモリ使用量：6.7GB → 609MB に削減
バイナリサイズ約20%縮小

…

112無題Name名無し 26/07/12(日)10:16:52No.169220そうだねx1

Muse Spark 1.1
https://ai.meta.com/blog/introducing-muse-spark-meta-model-api/

Metaによるマルチモーダル推論モデルで、ツールやコンピュータの操作、コーディング、マルチモーダル理解を向上させた
スクショを座標レベルで認識する能力とアクションをワンセットで学習しているので素早い動作が期待される
先日発表されたエージェント型画像生成AI「Muse Image」との連携などが意識されている

だいたいGPT5.6 TerraのHighとmediumの中間あたりの性能と価格

…

113無題Name名無し 26/07/13(月)18:03:00No.169333そうだねx1

Gua
https://gua.orizika.com/
https://zenn.dev/test_myname/articles/gua-game-ui-automation

ゲーム向けのランタイムUI自動化プロトコル
ゲーム内 UI を“意味的なツリー構造”としてテストランナーや AIエージェントがゲームUIを正確に操作・検証できるようにするためのランタイムプロトコル。

画像認識や座標クリックに頼らず、ボタン・テキスト・ノード状態を直接取得し、クリック・待機・アサーションを行えるのが最大の特徴

MCPサーバーが公開されており、Godotの操作が紹介されている

”ゲームにもPlaywrightのようなUIテストを。”

…	114無題Name名無し 26/07/14(火)03:40:43No.169378そうだねx1 GPT5.6がでてすぐは無料枠でもluna使えてたから勘違いしてたけど、本来無料枠で使えるのはTerraと5.5以下だけなんだよねなんか接続できないなと悩んでたけど解決した

…	115無題Name名無し 26/07/14(火)08:57:54No.169388+ 書き込みをした人によって削除されました

…	116無題Name名無し 26/07/19(日)10:08:24No.169853+ Soofi S 30B登場｜独発オープンモデルは自前運用に足るか https://aigentlab.tech/articles/soofi-s-30b-open-model-self-host-2026/ アクセスをリクエストが通らない

おなまえ
E-mail
題　　名
コメント
添付File	[画像なし]
削除キー	(記事の削除用。英数字で8文字以内)