ここでFastVLMが登場します



彼らはMLPを使ってFastViTHDから視覚トークンをLLMの世界に投影します。

結果:トークンがはるかに少なく、(FastViTの約4倍、336ピクセル解像度でViT‑L/14の約16倍少ない。つまり、トークン数と複雑さが大幅に減少しているということです。
IN5.98%
MLP7.5%
PIXEL2.95%
TOKEN2.77%
原文表示
post-image
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 6
  • リポスト
  • 共有
コメント
0/400
rekt_but_resilientvip
· 3時間前
ここでの向上は素晴らしい!
原文表示返信0
GasFeeLovervip
· 09-02 14:39
まあ、こんなものでしょう。何を自慢することがあるのか。
原文表示返信0
ser_we_are_earlyvip
· 09-02 14:39
FastVLMは素晴らしいようです
原文表示返信0
BlockchainBardvip
· 09-02 14:38
すごい、トークンの数に驚いてしまった
原文表示返信0
WhaleWatchervip
· 09-02 14:27
また新しいものを作ったのか!
原文表示返信0
DiamondHandsvip
· 09-02 14:23
ああ、吹かれてちょっと混乱している...
原文表示返信0
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)