人工知能@ふたば
[ホーム]

[掲示板に戻る]
レス送信モード
おなまえ
E-mail
題  名
コメント
添付File []
削除キー(記事の削除用。英数字で8文字以内)
  • 添付可能:GIF,JPG,PNG,WEBM,MP4. 8000KBまで. 現在28人くらいが見てます.
  • スレッドを立てた人がレスを削除してスレッド内のみアク禁にできます.
  • メール欄に「id表示」と入れてスレッドを立てるとid表示にできます.
  • メール欄に「ip表示」と入れてスレッドを立てるとip表示にできます.
  • 削除依頼が閾値を超えるとidを表示します.
  • 生成系AI,ChatGPT,Stable Diffusion,自動運転など
  • 管理人への連絡は準備板 ご意見へ. 削除依頼は記事番号を押しdelを押して下さい.
  • スマホ・携帯ふたば入口 この板の保存数は20000件です. 規約
  • 新しい板: 人工知能 ZOIDS

画像ファイル名:1734783138914.png-(35946 B)
35946 B無題Name名無し24/12/21(土)21:12:18No.98393そうだねx8 5月27日頃消えます
AI関連のニューススレ
立ってないようなので
削除された記事が8件あります.見る
1無題Name名無し 24/12/21(土)23:27:25No.98426そうだねx1
GitHubCopilot無料版開放
https://github.blog/jp/2024-12-19-github-copilot-in-vscode-free/
チャットはClaude3.5Sonnet使えるっぽいし本業じゃなければ十分すぎる内容
2無題Name名無し 24/12/23(月)13:42:47No.98670そうだねx2
背景に着色するだけで光源の色や位置・方向を指示できるシステム
https://x.com/bdsqlsz/status/1870877645619311003
3無題Name名無し 24/12/24(火)17:02:51No.98776+
国産で約1,720億パラメータ(GPT-3級)の「llm-jp-3-172b-instruct3」
https://x.com/llm_jp/status/1871420729641877627
性能はGPT-3.5を超えるらしい…今更GPT-3.5を超えたで大丈夫か?まあGPT-3.5時代の英語を超える日本語力なら多少はいいのかな…
4無題Name名無し 24/12/25(水)01:30:17No.98836+
>国産で約1,720億パラメータ(GPT-3級)の「llm-jp-3-172b-instruct3」
2兆トークンの学習データ込みのオープンはなかなか
5無題Name名無し 24/12/25(水)01:41:24No.98838+
AI自動運転と自動車保険についての話し
https://forbesjapan.com/articles/detail/76016

"平均的な人間ドライバーと比較して物損事故の請求発生率が88%、人身事故の請求発生率が92%も低かった"
6無題Name名無し 24/12/25(水)04:12:57No.98845そうだねx1
Qwenのところが作った視覚推論行うQvQ-72B-Preview
https://qwenlm.github.io/blog/qvq-72b-preview/
制限はいろいろあるようだがオープンウェイトでパフォーマンスは悪くない
7無題Name名無し 24/12/25(水)09:35:08No.98867+
スレッドを立てた人によって削除されました
https://www.youtube.com/shorts/0P3tb9lgXHY
8無題Name名無し 24/12/25(水)11:26:49No.98873そうだねx1
https://www.youtube.com/watch?v=n-cxDxdZPsk
9無題Name名無し 24/12/26(木)22:16:20No.99058そうだねx1
DeepSeek-V3がリリース
https://x.com/deepseek_ai/status/1872242657348710721
価格は激安の上にコーディングのベンチマークでは3.5 Sonnetを上回る
10無題Name名無し 24/12/29(日)14:12:17No.99439そうだねx1
動画生成AI Google VEO2のショーケース
https://x.com/LinusEkenstam/status/1872795124922761514
11無題Name名無し 24/12/30(月)19:15:25No.99588そうだねx1
ローカルLLMのサーバollamaへjavascriptでアクセスする
pythonやcurl用もあるみたい
https://github.com/ollama/ollama-js
12無題Name名無し 25/01/02(木)08:51:56No.99950+
12月に投下されたローカルt2vのモデルHunyuanVideo軽量化関連、ComfyUIと提携
https://x.com/ComfyUI/status/1870137963193217172

*本体
https://github.com/Tencent/HunyuanVideo

gguf化された13Bモデル
https://huggingface.co/city96/HunyuanVideo-gguf

*LLM gguf化されたllava
https://huggingface.co/IbnAbdeen/llava-llama-3-8b-text-encoder-tokenizer-Q4_K_M-GGUF
13無題Name名無し 25/01/02(木)10:23:01No.99959+
>DeepSeek-V3がリリース
DeepSeek-V3-slice-jp64 (ファイルサイズ:337GB)
”本モデルは DeepSeek-V3 をベースに、日本語の例文を元に頻出する MoE (Mixture of Experts) の各レイヤーごとのexpertsを厳選して再構成したモデルです。 元のモデルでは 256 のexpertsを搭載していますが、日本語出力における安定性とパフォーマンスのバランスを重視し、各層で頻出する 64 のexpertsを使用するように調整しています。”
https://x.com/WMjjRpISUEt2QZZ/status/1874494772855050393
14無題Name名無し 25/01/02(木)11:14:14No.99963+
スマホのセンサーのログからLLMを通して自動的に日記を付けるという発想
https://x.com/ai_database/status/1874623822609150343
15無題Name名無し 25/01/02(木)20:56:37No.100039+
Sonus-1
https://sonus.ai/blog/sonus-1
新しいところのモデルでベンチマークはそれなりにしてるけどすぐに無限ループに入るから感触は最悪だな
16無題Name名無し 25/01/06(月)11:42:48No.100673+
Macbook M2ultra 2台並列で3bit量子化したdeepseek V3が17トークン/秒で動くという話
https://x.com/hokazuya/status/1876023923479122429
17なーNameなー 25/01/06(月)18:39:52No.100715+
なー
18無題Name名無し 25/01/07(火)13:25:55No.100838+
>12月に投下されたローカルt2vのモデルHunyuanVideo軽量化関連、ComfyUIと提携
EasyHunyuanVideo
Hunyuan Video を簡単に試せる環境
RTX3060 8GBでの成功例あり
https://github.com/Zuntan03/EasyHunyuanVideo?tab=readme-ov-file
19無題Name名無し 25/01/07(火)16:13:02No.100851+
Fluxの開発元であるblackforest labsがnVidiaと提携してFp4対応の高速化やるよという告知
https://blackforestlabs.ai/flux-nvidia-blackwell/
20無題Name名無し 25/01/07(火)17:00:38No.100856+
NVIDIAのNemotronモデルファミリー
https://blogs.nvidia.com/blog/nemotron-model-families/
Llama Nemotronとビジョン言語モデルのCosmos Nemotronでそれぞれ3つのサイズがある

NVIDIA Project DIGITS
https://www.nvidia.com/en-us/project-digits/
128GBのメモリが搭載され200Bのモデルが動かせるとのこと
価格は3000ドルらしい
21なーNameなー 25/01/07(火)18:45:47No.100864+
なー
22無題Name名無し 25/01/09(木)22:04:14No.101241そうだねx1
Phi-4がMITライセンスで公開
https://huggingface.co/microsoft/phi-4
23無題Name名無し 25/01/11(土)09:42:48No.101440+
https://special.nikkeibp.co.jp/atclh/NXT/25/delltechnologies0107/
24無題Name名無し 25/01/12(日)19:39:25No.101673そうだねx2
450ドルでトレーニングされたというオープンソースのSky-T1-32B-Preview
https://novasky-ai.github.io/posts/sky-t1/
Qwen2.5-32B-Instructの微調整って言ってるから微調整の金額は強調するところなのか…?というかQwenモデルが優秀なだけでは…?
25無題Name名無し 25/01/13(月)14:40:30No.101772そうだねx7
こういうスレは地味にありがたい
26無題Name名無し 25/01/13(月)18:55:30No.101795+
少し古いNAI-v3のとして紹介されているがSDXLの弱点にも通じる話
https://dskjal.com/deeplearning/nai-v3.html
27無題Name名無し 25/01/14(火)00:32:18No.101836+
Codestral 25.01
https://mistral.ai/news/codestral-2501/
Mistralの新しいリリースだけどオープンソースでもないのに比較対象が古くさいオープンソースのを並べてるのでよくわからない…
28無題Name名無し 25/01/14(火)03:40:55No.101848+
>NVIDIA Project DIGITS
>https://www.nvidia.com/en-us/project-digits/
>128GBのメモリが搭載され200Bのモデルが動かせるとのこと
>価格は3000ドルらしい
消費電力少なくてよさそう
29無題Name名無し 25/01/15(水)08:58:48No.101986+
MiniMax-01
https://www.minimaxi.com/en/news/minimax-01-series-2
456Bのオープンソースモデルで性能は似たようなサイズのLlama3.1 405Bよりベンチマークは全体的に高そう
何より4Mトークン扱えるのがすごい
TextモデルとVLモデルがある
30無題Name名無し 25/01/15(水)22:24:31No.102038そうだねx1
AIdeaLab VideoJP
https://prtimes.jp/main/html/rd/p/000000013.000084222.html
日本語と英語の文章が直接入力可能な動画生成AI基盤モデルを無償公開
国内企業で動画生成AIの基盤モデルのフルスクラッチ開発としては日本初
31無題Name名無し 25/01/16(木)16:52:13No.102129+
遅報:
物理のシミュレートを含む世界基盤AIと分類されるNVIDIAのCosmos

デモを含む公式
https://build.nvidia.com/explore/simulation
システムはApache2ライセンス
https://github.com/NVIDIA/Cosmos
各種モデルのコレクション(t2iは14.5GB)
https://huggingface.co/collections/nvidia/cosmos-6751e884dc10e013a0a0d8e6
32無題Name名無し 25/01/17(金)04:15:15No.102177+
    1737054915742.jpg-(536995 B)
536995 B
MangaNinja:
https://x.com/bdsqlsz/status/1879410590613152129

リファレンス参照をして線画をカラー化する
オープンソース
33無題Name名無し 25/01/20(月)22:12:09No.102554そうだねx1
DeepSeek-R1リリース
https://x.com/deepseek_ai/status/1881318130334814301
ベンチマーク的にはo1と同等ぐらいかな?後なんかいろいろとサイズ違いもあり
34無題Name名無し 25/01/21(火)19:32:58No.102647そうだねx1
トランプ大統領、「AIの安全性」に関する大統領令を撤回 バイデン氏の命令は「有害」
https://www.itmedia.co.jp/aiplus/articles/2501/21/news137.html
35無題Name名無し 25/01/22(水)04:34:18No.102696+
動画生成AIにマイクラのプレイ動画とデータセットを組み合わせて学習させた結果、新たに生成した動画の中をキー操作で動けるようになってしまったというおもしろい話
まるで明晰夢のよう
https://x.com/_akhaliq/status/1881583224410845342
36無題Name名無し 25/01/22(水)08:20:29No.102707+
Stargateプロジェクト
https://x.com/OpenAI/status/1881830103858172059
ソフトバンクやOpenAIなどが主導し今後4年間で5000億ドルのAIインフラの構築するプロジェクト
37無題Name名無し 25/01/23(木)04:14:21No.102804+
ollama+Deepseekで100%ローカルなRAGを作成する例
https://x.com/MervinPraison/status/1881788246684013011
38無題Name名無し 25/01/23(木)05:32:49No.102807そうだねx4
    1737577969289.png-(298371 B)
298371 B
OpenAIがやるべきだった理念を体現してて草
39無題Name名無し 25/01/24(金)21:55:26No.103035そうだねx2
日本語リアルタイム音声対話モデルJ-Moshi
https://x.com/atsumoto_ohashi/status/1882633871176630595
7Bモデルで自然な感じ…
40無題Name名無し 25/01/28(火)06:15:34No.103372そうだねx1
DeepSeekからJanus-Pro-7B
https://huggingface.co/deepseek-ai/Janus-Pro-7B
オープンソースで画像生成可能なモデルでベンチマークではDALLE-3を超える
41無題Name名無し 25/01/28(火)06:17:19No.103373そうだねx1
Qwen2.5-VLリリース
https://x.com/Alibaba_Qwen/status/1883954247743725963
画像認識と動画認識も可能
42無題Name名無し 25/01/28(火)16:36:55No.103399+
https://www.youtube.com/shorts/CXlDuxg5sPI
43無題Name名無し 25/01/29(水)04:26:07No.103479そうだねx1
Qwen2.5-Maxリリース
https://x.com/Alibaba_Qwen/status/1884263157574820053
あげてるベンチマークではDeepSeek-v3をすべてで超えているがオープンソースではない
44無題Name名無し 25/01/29(水)21:28:59No.103549そうだねx2
https://x.com/XH_Lee23/status/1884104139594256660
結局、米中のAI競争は若い中国人開発者同士の争いなんじゃないのという指摘
45無題Name名無し 25/01/30(木)13:48:28No.103604そうだねx2
Sakana AIからTinySwallow-1.5Bが公開
https://x.com/SakanaAILabs/status/1884770664353325399
新しい知識蒸留手法「TAID」で32Bから1.5Bに知識転移を行っている
46無題Name名無し 25/01/31(金)00:01:07No.103664そうだねx1
Mistral Small 3
https://mistral.ai/news/mistral-small-3/
24Bで性能はgpt4o-miniぐらいのApatch2.0ライセンス
これとは別で数週間で推論強化したモデルを出す模様
47無題Name名無し 25/01/31(金)10:18:06No.103696+
o1までいかなくとも4o位のレベルの検閲やフィルターのないモデルが手軽に動かせるようになってほしいなあ
48無題Name名無し 25/02/01(土)04:44:57No.103789+
書き込みをした人によって削除されました
49無題Name名無し 25/02/01(土)04:48:45No.103790+
OpenAI o3-mini
https://openai.com/index/openai-o3-mini/
o3-miniは+ユーザーで1日150件
無料ユーザーも使えるよ
有料ユーザーはo3-mini-highにアクセス可能
50無題Name名無し 25/02/03(月)09:45:40No.104015そうだねx1
Deep Research
https://openai.com/index/introducing-deep-research/
Web検索を5分から30分ぐらい頑張って検索してくれるo3を調整したエージェント機能
今日からProアカウントで利用可能で1か月最大100クエリ
51無題Name名無し 25/02/06(木)05:26:26No.104270そうだねx1
Gemini 2.0 Pro Experimentalのリリース
https://blog.google/technology/google-deepmind/gemini-model-updates-february-2025/?utm_source=x&utm_medium=social&utm_campaign=&utm_content=
Gemini 2.0 Flashが正式版としてリリース
Gemini 2.0 Flash-Lite Previewもリリース
AI Studioで使えるしAdvancedにも追加されてる
52無題Name名無し 25/02/07(金)23:46:39No.104419そうだねx1
    1738939599147.mp4-(2724677 B)
2724677 B
Meta社が動画生成AI「VideoJAM」を発表
先行サービスSoraを超えたクオリティ
最近流行りの物理再現も
https://hila-chefer.github.io/videojam-paper.github.io/
53無題Name名無し 25/02/09(日)08:19:49No.104535そうだねx2
    1739056789885.webp-(30158 B)
30158 B
Hunyuan3D-2
3Dモデル生成、メッシュ(.glb)をつくれる
画像から背景を除去するオプションがついている
やっぱり正面からの絵がよさそう
https://huggingface.co/spaces/tencent/Hunyuan3D-2
54無題Name名無し 25/02/10(月)04:47:28No.104592+
フィギュアのラフに十分使えるね
55なーNameなー 25/02/11(火)14:14:49No.104706+
なー
56無題Name名無し 25/02/12(水)09:14:10No.104792そうだねx2
    1739319250087.mp4-(2593670 B)
2593670 B
OmniHuman-1
静止画像と音声から動画を生成する
歌う、話す、など色々なシチュエーションとそれらが混在したシーンでも感情とモーションをムリなく合わせられるようだ。
また、v2vも反映部位を指定できる
https://omnihuman-lab.github.io/

声優とかがキライそうな技術がまたひとつ
57無題Name名無し 25/02/12(水)11:52:40No.104804+
メタバースの時代が来るとか
あったけど
投資しろと騒ぐだけ
58無題Name名無し 25/02/12(水)16:33:02No.104811そうだねx1
仏パリで開かれていた「人工知能(AI)アクションサミット」が11日に閉幕した。AI技術の開発に対して「オープン」、「包括的」、「倫理的」なアプローチを約束する共同声明が発表されたが、イギリスとアメリカは署名しなかった。
この声明には、開催国のフランスや中国、インドを含む60カ国・地域が署名した。
https://www.bbc.com/japanese/articles/czx8ze7lx9no
59無題Name名無し 25/02/12(水)16:53:33No.104812そうだねx6
>この声明には、開催国のフランスや中国、インドを含む60カ国・地域が署名した。
中国とインドは絶対に守らんだろ!
60無題Name名無し 25/02/14(金)18:17:22No.105005そうだねx1
Nous ResearchからDeepHermes-3 Previewのリリース
https://x.com/NousResearch/status/1890148000204485088
通常と推論をシステムプロンプトで切り替えられるモデルとのこと
61無題Name名無し 25/02/15(土)20:23:14No.105116そうだねx2
OmniParser V2
https://www.microsoft.com/en-us/research/articles/omniparser-v2-turning-any-llm-into-a-computer-use-agent/
LLMがスクショを解釈可能にトークン化するやつ
62無題Name名無し 25/02/19(水)08:09:46No.105467そうだねx1
Mistral Sabaがリリース
https://mistral.ai/en/news/mistral-saba
中東および南アジアの地域言語に特化したモデル
アラビア語と多くのインド起源の言語をサポート
63無題Name名無し 25/02/20(木)06:20:59No.105567そうだねx1
Microsoft’s Majorana 1 chip
https://news.microsoft.com/source/features/ai/microsofts-majorana-1-chip-carves-new-path-for-quantum-computing/
問題解決に使える量子コンピュータの実現へ
64無題Name名無し 25/02/20(木)12:45:02No.105591そうだねx1
Grok3
https://x.ai/blog/grok-3
65無題Name名無し 25/02/20(木)15:03:10No.105606+
Grok3気になるな
66無題Name名無し 25/02/20(木)15:33:43No.105610そうだねx1
殴ってるやつと殴られている側の譲歩とはなんなのか
67無題Name名無し 25/02/21(金)16:57:16No.105754そうだねx1
>Grok3
>https://x.ai/blog/grok-3
イーロンとチームのディスカッションの和訳要約
https://x.com/d_1d2d/status/1892304288128651686

3が安定稼働すれば2をオープンソースにするかもっていうのはなかなか良い
68無題Name名無し 25/02/24(月)14:10:14No.106067そうだねx1
    1740373814674.png-(630301 B)
630301 B
https://github.com/bRAGAI/bRAG-langchain/
RAGの網羅的な調査とサンプルjupyter notebookの配布をしているレポジトリ
69無題Name名無し 25/02/25(火)03:45:24No.106141+
マイクロソフトは2025年度中にAI用データセンター事業に800億ドル(12兆円)を投じる予定だが、同時にデータセンター2カ所分に相当する「数百メガワット」規模のリースをキャンセルした。
https://www.bloomberg.co.jp/news/articles/2025-02-24/SS6J1YT0G1KW00
70無題Name名無し 25/02/25(火)04:29:52No.106142そうだねx1
Claude 3.7 SonnetとClaude Codeをリリース
https://www.anthropic.com/news/claude-3-7-sonnet
3.7 Sonnetは今までの応答とThinkingモードの両方がある
Claude CodeはターミナルからタスクをClaudeに委任できるコーディングツールらしい
71無題Name名無し 25/02/25(火)08:29:16No.106155そうだねx1
QwQ-Max-Previewリリース
https://x.com/Alibaba_Qwen/status/1894130603513319842
Qwen2.5-MaxとともにApatch 2.0でオープンウェイトでリリース予定
72無題Name名無し 25/02/25(火)09:19:46No.106164+
スレッドを立てた人によって削除されました
https://www.youtube.com/watch?v=I3Qq8r5iig4
73無題Name名無し 25/02/25(火)22:06:35No.106206そうだねx1
Gemini Code Assistの無料バージョンがリリース
https://blog.google/technology/developers/gemini-code-assist-free/
1か月あたり18万件のコード補完が可能
コンテキストウィンドウは128k
74無題Name名無し 25/02/27(木)09:14:36No.106429そうだねx1
Phi-4-multimodal と Phi-4-miniがリリース
https://azure.microsoft.com/en-us/blog/empowering-innovation-the-next-generation-of-the-phi-family/
multimodalは5.6Bで音声、視覚、テキスト処理が行える
miniは3.8B
75無題Name名無し 25/02/28(金)05:27:58No.106507そうだねx2
GPT-4.5リリース
https://openai.com/ja-JP/index/introducing-gpt-4-5/
ChatGPTからはProユーザーだけだけどAPIはTier1から使えるが価格は高い
76無題Name名無し 25/03/01(土)02:44:08No.106635+
>GPT-4.5リリース
性能もナンバリングのわりに控えめだな
77無題Name名無し 25/03/03(月)08:29:55No.107015そうだねx1
Sesame
https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo
かなり自然に音声会話が行える
日本語には未対応
78無題Name名無し 25/03/04(火)23:43:07No.107283そうだねx1
CohereからAya Visionがオープンウェイトでリリース
https://cohere.com/blog/aya-vision
32Bと8Bで同サイズより性能がよいらしい
79無題Name名無し 25/03/06(木)05:54:40No.107464そうだねx2
QwQ-32Bリリース
https://qwenlm.github.io/blog/qwq-32b/
数学やコーディングでR1に近いベンチマーク
ライセンスはApache2.0
80無題Name名無し 25/03/07(金)06:21:55No.107618そうだねx2
Mistral OCR
https://mistral.ai/news/mistral-ocr
ドキュメントからテキストとともに埋め込まれた画像を抽出できる
テキストのみでもベンチマークはトップレベル
81無題Name名無し 25/03/12(水)15:49:09No.108198そうだねx1
Clineが無料のDeepseek V3とR1のアクセスを提供するらしい
プログラミングが捗るな
82無題Name名無し 25/03/12(水)16:46:27No.108202そうだねx1
OpenAIからエージェント用のツールがリリース
https://openai.com/index/new-tools-for-building-agents/
Assistants APIの後継でResponses APIになる模様
83無題Name名無し 25/03/12(水)16:47:21No.108204そうだねx1
GoogleのオープンモデルのGemma3がリリース
https://ai.google.dev/gemma?hl=ja
128kコンテキストウィンドウでマルチモーダル対応
テクニカルレポートを見たところベンチマーク的に最大サイズの27BでGemini 1.5 Flashに近い感じかな…Chatbot Arenaのランクはo1に次ぐ9位でo1に次ぐ位置にいるので感触はいいのかな?
84無題Name名無し 25/03/12(水)17:12:22No.108205そうだねx1
Llama-3.3-Swallow-70B
https://x.com/chokkanorg/status/1898916849179578410
SwallowだとベースLLMがLlama 3.1だったがLlama 3.3に変更され日本語理解ではGPT-4oにも迫る性能
85無題Name名無し 25/03/13(木)22:22:36No.108366そうだねx1
CohereからCommand Aがリリース
https://cohere.com/blog/command-a
ベンチマークはGPT-4oやDeepSeek-V3と競いあうレベルかな…?
ライセンスは非営利のみ利用可能
86無題Name名無し 25/03/15(土)22:50:44No.108721そうだねx1
    1742046644174.jpg-(181407 B)
181407 B
3D点群データからメッシュを作成する
新手法がNvidiaから公開される

https://www.youtube.com/watch?v=kB3J9EivZN0&t=303s
87無題Name名無し 25/03/16(日)22:33:59No.108880+
書き込みをした人によって削除されました
88無題Name名無し 25/03/16(日)22:35:52No.108881そうだねx1
    1742132152526.mp4-(1651561 B)
1651561 B
BlenderとMCPでClaude 3.7 Sonnetをつないで
自然言語ベースで3Dモデリングhttps://x.com/kajikent/status/1900741055454343354
89無題Name名無し 25/03/18(火)06:28:06No.109045そうだねx2
Mistral Small 3.1がリリース
https://mistral.ai/news/mistral-small-3-1
128kコンテキストウィンドウでマルチモーダル対応しておりこの間のGemma 3より優れたパフォーマンスとのこと
90無題Name名無し 25/03/19(水)07:25:46No.109201そうだねx1
StabilityAIがStable Virtual Cameraを発表。
画像から3Dビデオを作成する仮想カメラとして実装される
https://x.com/StabilityAI/status/1902033312379732171
91無題Name名無し 25/03/21(金)13:16:41No.109499そうだねx1
OpenAIからTranscriptionのモデルGPT-4o TranscribeとGPT-4o mini TranscribeにTTSモデルのGPT-4o mini TTSがAPIのみでリリース
https://openai.com/index/introducing-our-next-generation-audio-models/
TranscriptionではWhisperを上回る
TTSでは大体の言語では他より上回ってるけど日本語はElevenLabsのscribe-v1が強いようだ
92無題Name名無し 25/03/22(土)02:21:13No.109603+
書き込みをした人によって削除されました
93無題Name名無し 25/03/22(土)02:30:20No.109604そうだねx1
    1742578220600.mp4-(2838051 B)
2838051 B
Xトレンド。
OpenAIの新しい音声モデル
のデモ
https://openai.fm

https://x.com/search?q=OpenAI&src=trend_click&vertical=trends

<記事>
>OpenAI、次世代音声モデルをAPIに導入 〜「親身なカスタマー担当のように話して」も可能/書き起こしの精度は以前の「Whisper」モデルを凌駕
https://forest.watch.impress.co.jp/docs/news/1671860.html

これは(・∀・)スゴイ!!
94無題Name名無し 25/03/22(土)03:04:22No.109611そうだねx1
ギガジンにも
https://gigazine.net/news/20250321-openai-next-generation-audio-model/
95無題Name名無し 25/03/22(土)03:18:14No.109613そうだねx1
    1742581094751.mp4-(5099888 B)
5099888 B
生成AIフル活用アニメ
『ツインズひなひま』放送の局が追加。

TOKYO MX 3月28日(金)23時30分
BS日テレ 3月30日(日)23時

※シリーズではなく、単発アニメ

https://www.animatetimes.com/news/details.php?id=1742263357
96無題Name名無し 25/03/22(土)05:08:57No.109621そうだねx3
今週のAI界隈、激動すぎる...
@ Mistral Small 3.1が24Bパラメータで驚異の性能
A Claude Web Searchがついに一般公開
B OpenAIが次世代音声モデルを発表
C Krea AIがカスタム動画生成機能を提供開始
D NotebookLMにマインドマップ機能が登場
E GeminiにCanvas機能とAudio Overview追加
https://x.com/SuguruKun_ai/status/1902904207524630659
97無題Name名無し 25/03/25(火)15:39:37No.110155そうだねx2
DeepSeek-V3の3/24のアップデート
https://api-docs.deepseek.com/updates
特に非推論としてはコード能力がかなり上がったと思われる
98無題Name名無し 25/03/26(水)05:17:01No.110249そうだねx2
4oのネイティブ画像生成
https://openai.com/index/introducing-4o-image-generation/
結構便利そうだけどGoogleのやつと比べるとどうなのかな
99無題Name名無し 25/03/26(水)05:21:58No.110250そうだねx1
GoogleからGemini 2.5 Pro Experimentalがリリース
https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#gemini-2-5-thinking
thinkingモデルでベンチマーク的には大体はSOTAレベル
1M入力64k出力までサポート
100無題Name名無し 25/03/26(水)07:42:46No.110260+
メジャーどこ以外のニュースももっと入荷しねえかな
101無題Name名無し 25/03/27(木)07:40:52No.110392そうだねx1
QwenからQwen2.5-Omni-7Bがリリース
https://huggingface.co/Qwen/Qwen2.5-Omni-7B
テキスト・画像・オーディオなどを認識しテキストと音声応答ができる
ただしQwen2.5-7Bと比べると露骨にベンチマークのスコアが下がっている
102無題Name名無し 25/03/27(木)07:47:22No.110393そうだねx2
Anthropicのthinkツール
https://www.anthropic.com/engineering/claude-think-tool
thinkingとは用途が別で複雑なツール使用や多段階タスクで役立つらしい
103無題Name名無し 25/03/28(金)09:01:59No.110542そうだねx2
AlibabaからQVQ-Maxがリリース
https://qwenlm.github.io/blog/qvq-max-preview/
前のQVQ-72B-Previewの問題を改善した視覚推論モデル
104無題Name名無し 25/04/01(火)00:22:11No.111091そうだねx1
Runway Gen-4
https://x.com/runwayml/status/1906718935778545964?s=46&t=aBgVHjAMy0TFw0zYAE90WQ
105無題Name名無し 25/04/02(水)03:23:06No.111274そうだねx1
    1743531786717.png-(21231 B)
21231 B
Photo AI 3:
difusionモデルによる写真のUpscale、Denoise、Sharpner、Recoveryツール群
品質もさることながら速さに自信があるっぽい

https://www.topazlabs.com/topaz-photo-ai
https://x.com/topazlabs
106無題Name名無し 25/04/03(木)13:01:42No.111421そうだねx1
Gensparkでスーパーエージェントが登場
https://x.com/genspark_japan/status/1907471514510962797
GAIAベンチマークではManusを上回る
107無題Name名無し 25/04/04(金)08:59:49No.111530そうだねx1
リコーからGPT-4oと同程度のLLMを発表
https://jp.ricoh.com/release/2025/0403_1
Llama-3.3-Swallow-70B-v0.4ベースモデルにモデルマージでGPT-4o(8/6時点)と同性能(日本語ベンチマーク「ELYZA-tasks-100」「Japanese MT-Bench」の二つの平均で同じぐらい)と半周ぐらい遅れてそうな感じのモデル
108無題Name名無し 25/04/05(土)07:17:18No.111653そうだねx1
    1743805038634.jpg-(138793 B)
138793 B
数週間以内にo3と「o4-mini」がリリースされ、数か月後にGPT-5がリリースされる予定!

「これにはさまざまな理由がありますが、最もエキサイティングなのは、当初考えていたよりも GPT-5 をはるかに優れたものにできるということです。

 また、すべてをスムーズに統合するのは、思っていたよりも困難であることがわかりました。そして、前例のない需要が予想されるため、十分な容量を確保したいと考えています。」
109無題Name名無し 25/04/05(土)14:38:27No.111695そうだねx1
ジム・ケラーのAI処理チップ開発企業「Tenstorrent」がAI処理用PCIeカード「Blackhole」を発表
https://gigazine.net/news/20250404-tenstorrent-blackhole/

BlackholeはINT8で1000TOPSらしい。(最適化の有無で変わるらしいので目安がよく分からない)Zeusといい尖った変態カードが色々出てきたね。
110無題Name名無し 25/04/06(日)06:54:06No.111763そうだねx1
    1743890046809.jpg-(113897 B)
113897 B
Llama 4 ScoutとMaverickがリリースBehemothはプレビュー
https://ai.meta.com/blog/llama-4-multimodal-intelligence/
Behemothが2T(アクティブ288B)でMaveric400B(アクティブ17B)Scoutが109B(アクティブ17B)
アクティブパラメータの少なさでコストは結構低い模様
Scoutは10Mのコンテキストウィンドウがある
111無題Name名無し 25/04/06(日)20:23:35No.111841そうだねx1
ChatGPT相当の性能といってもベンチだけで実際はそんなに性能高くない気がする…
112無題Name名無し 25/04/09(水)18:08:44No.112266そうだねx1
    1744189724913.webp-(33144 B)
33144 B
Gemini 2.5 proでDeep Researchが利用可能に(Advancedユーザーのみ)
https://blog.google/products/gemini/deep-research-gemini-2-5-pro-experimental/
ベンチマークではOpenAI Deep Researchをはるかに上回る
113無題Name名無し 25/04/15(火)07:39:10No.113035+
    1744670350688.jpg-(157846 B)
157846 B
GPT-4.1リリース
https://openai.com/index/gpt-4-1/
コーディングと指示に従う能力が大幅に向上し100万トークンを扱える
miniとnanoバージョンもある
nanoは分類や自動補完タスク向け

- GazouBBS + futaba-