ここでFastVLMが登場します



彼らはMLPを使ってFastViTHDから視覚トークンをLLMの世界に投影します。

結果:トークンがはるかに少なく、(FastViTの約4倍、336ピクセル解像度でViT‑L/14の約16倍少ない。つまり、トークン数と複雑さが大幅に減少しているということです。
IN3.29%
MLP1.42%
PIXEL3.93%
TOKEN4.94%
原文表示
post-image
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 5
  • リポスト
  • 共有
コメント
0/400
GasFeeLovervip
· 8時間前
まあ、こんなものでしょう。何を自慢することがあるのか。
原文表示返信0
ser_we_are_earlyvip
· 8時間前
FastVLMは素晴らしいようです
原文表示返信0
BlockchainBardvip
· 8時間前
すごい、トークンの数に驚いてしまった
原文表示返信0
WhaleWatchervip
· 8時間前
また新しいものを作ったのか!
原文表示返信0
DiamondHandsvip
· 8時間前
ああ、吹かれてちょっと混乱している...
原文表示返信0
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)