スポンサーリンク

ローカルAI勢に朗報!GoogleがVRAMを6分の1にロスレス圧縮する方法を発表。既にHuggingFaceで開発者達が一斉に実装開始

adsense



1名無しさんID:ID:kpqjqlS20 [2026/03/25(水) 21:11:12.36]
TurboQuant: Redefining AI efficiency with extreme compression

https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/


3名無しさんID:ID:pfUuPJGnM [2026/03/25(水) 21:14:18.92]
俺のグラボでもWAN動くようになるのか


4名無しさんID:ID:RV2jxcD70 [2026/03/25(水) 21:15:17.94]
4090でもVLAM不足を感じてたところだ
改善してほしい


6名無しさんID:ID:DilX8pAx0 [2026/03/25(水) 21:20:00.43]
kvキャッシュが小さくなるのか
いいんでない?


9名無しさんID:ID:BL7JYLr6H [2026/03/25(水) 21:34:58.14]
小型モデルが進化してるから3060の2枚目を確保しといたわ


20名無しさんID:ID:idSqadWN0 [2026/03/25(水) 22:32:10.26]
>>9
いいなあ


10名無しさんID:ID:ugvSQIWZ0 [2026/03/25(水) 21:39:00.91]
モデルは小さくならんのに開発者ですらわかってないよな


12名無しさんID:ID:4+9yw8kB0 [2026/03/25(水) 21:45:34.58]
ロスレス圧縮なんて可能なのか?


36名無しさんID:ID:ZziImllM0 [2026/03/26(木) 17:56:16.49]
>>12
zipとか


13名無しさんID:ID:+63dHrpy0 [2026/03/25(水) 21:49:08.19]
ローカルモデルでも長いコンテキストで動かせるようになるの?


14名無しさんID:ID:L3z8ZwlY0 [2026/03/25(水) 21:55:39.67]
なんに使うんだこれ
ローカルLLMでエロTRPGくらいしか思いつかん


40名無しさんID:ID:SXtgUUzt0 [2026/03/26(木) 20:44:25.92]
>>14
お前マジで乗り遅れてるぞ


15名無しさんID:ID:8e+o4VR40 [2026/03/25(水) 21:57:41.31]
KVキャッシュに泣かされてきたのでめっちゃ助かる(´・ω・`)


16名無しさんID:ID:6Ems3NvaH [2026/03/25(水) 22:03:30.89]
まじでやばいぞこれ


17名無しさんID:ID:mXr9c5H/0 [2026/03/25(水) 22:06:35.87]
メモリバブル逝ったぁあああぁああああぁあああぁ


18名無しさんID:ID:pKUaVxmDH [2026/03/25(水) 22:09:48.52]
🤗🤗🤗🤗🤗🤗

👉 🤗

こうですか?わかりません!><


19名無しさんID:ID:qyUNO1CaH [2026/03/25(水) 22:12:56.06]
ん?メモリの需給逼迫を見越して買われてたサンディスクとかマイクロンやばない?


21名無しさんID:ID:/chNdIlC0 [2026/03/25(水) 22:43:28.73]
Qwen3.5ってエロ書ける?


23名無しさんID:ID:T+r7c4az0 [2026/03/25(水) 23:04:15.33]
>>21
hereticとか付いているタイプは書ける


26名無しさんID:ID:j9/1fEzJ0 [2026/03/26(木) 03:20:09.17]
>>21
規制解除バージョンは行けるっちゃ行けるけど、自発的な発言はキツいな
一々サポートしないと書けない





31名無しさんID:ID:4oCO4vCdM [2026/03/26(木) 09:00:37.09]
>>21
uncensoredで検索


22名無しさんID:ID:p06maJFu0 [2026/03/25(水) 22:46:47.78]
計算能力は据え置きだけど
記憶力と思い出す力が向上って感じ?


24名無しさんID:ID:VZgPBQI20 [2026/03/25(水) 23:05:30.91]
ようするに前と同じものが出力しやすいってだけじゃね


25名無しさんID:ID:j9/1fEzJ0 [2026/03/26(木) 03:18:33.93]
俺のPCでも48bくらいのモデルがスラスラ動かせるようになるのか
27bのIQ2Mじゃ物足りないからはよ導入してくれ


27名無しさんID:ID:eAiVvJwP0 [2026/03/26(木) 05:24:44.68]
✕1/6に減らせる
○6つ並列できるようになる


28名無しさんID:ID:cfk2mlFE0 [2026/03/26(木) 07:58:30.23]
天才かよ


29名無しさんID:ID:7LBid+UU0 [2026/03/26(木) 08:00:15.01]
一発でお望みのが出ないからきらい😠


30名無しさんID:ID:WoVY53CQH [2026/03/26(木) 08:45:36.04]
論文からクロードで構築できるんやね凄い


32名無しさんID:ID:p9Yun/F30 [2026/03/26(木) 10:54:14.01]
LLMか。
動画生成とかじゃなくて


33名無しさんID:ID:Gn0Qz8r10 [2026/03/26(木) 10:59:16.40]
3次元の日本人に強いモデルって何が主流なんだ?
2次元ばっかで3次元は情報が少ないわ


39名無しさんID:ID:P76dsRMu0 [2026/03/26(木) 20:39:41.67]
>>33
asianとか付いてるモデル
ローカルでもクラウドでもAIに人種聞くと金髪とか青い目でもコスプレした日本人に見えると判別してくる


34名無しさんID:ID:p9Yun/F30 [2026/03/26(木) 11:50:51.51]
何をもって強いと言うかだけれど、z imageやWanは中華系だからか中国美人系が出やすい印象


35名無しさんID:ID:6aGBiakx0 [2026/03/26(木) 12:05:36.00]
記憶に完璧な正確さは不要だろ
非可逆圧縮で劇的に縮むならその方がいい


37名無しさんID:ID:3t+oJQvR0 [2026/03/26(木) 18:19:06.86]
1. 「モデルそのもの」の巨大さは変わらない
TurboQuantが主に解決するのは、会話の文脈を保持するKVキャッシュ(短期記憶)の肥大化です。

モデル本体: Llama 3などの重み(ウェイト)自体をロードするには、依然として数十GBのVRAMが必要です。
KVキャッシュ: 長文を読み込ませる際に爆発的に増えるメモリを抑える技術なので、短文のやり取りだけなら、元々のモデルサイズという「入場料」が払えないと動かせません。

2. 「3ビット」でも家庭用GPUには重い
TurboQuantは3ビットまで精度を落とさず圧縮できるとしていますが、それでも:

70B(700億パラメータ)級のモデルを3ビットで動かそうとすると、本体だけで約26GB以上のVRAMが必要です。
一般的なゲーミングPC(RTX 4060等)は8GB〜12GB程度なので、依然として「フラッグシップ級のGPU(RTX 4090等)」や「Macの統合メモリ」が必須という状況は変わりません。


38名無しさんID:ID:5GSwKwOnM [2026/03/26(木) 18:34:35.15]
RTX3060じゃあFP8すら使えん

出典:https://greta.5ch.io/test/read.cgi/poverty/1774440672/