📛 VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric ...

2023-06-05 19:28:50

📛 VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric Tasks

🧠 The VisionLLM framework combines vision and language tasks by treating images as a foreign language, yielding impressive outcomes.

🐦 5

❤️ 140

🔗 arxiv.org/pdf/2305.11175.pdf (https://arxiv.org/pdf/2305.11175.pdf)

https://nitter.moomoo.me/ArXivGPT/status/1665802879532167171#m

Author Public Key

npub1lhwkxztg74apyyd3k7xh6ahwmefka6d5e9fez0hftcardfv73qnq933lt6

Show more details

ArXivGPT / @ArXivGPT (RSS Feed) on Nostr: 📛 VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric ...