Data Jumat 17 Februari, Microsoft merilis versi terbaru dari framework OmniParser, yaitu Visual Agent Analysis, V2.0, di situs resminya. Framework ini dapat mengubah model seperti DeepSeek-R1, GPT-4o, Qwen-2.5VL, menjadi AI Agent yang dapat digunakan pada komputer. Dibandingkan dengan versi sebelumnya, V2 memiliki tingkat akurasi yang lebih tinggi dan kecepatan inferensi yang lebih cepat saat mendeteksi elemen UI interaktif yang lebih kecil, dengan latensi menurun 60%. Pada pengujian AgentBenchmark resolusi tinggi dengan ScreenSpot Pro, akurasi V2+GPT-4o mencapai 39.6%, sementara akurasi asli GPT-4o hanya 0.8%, menunjukkan peningkatan yang sangat besar secara keseluruhan. Selain V2, Microsoft juga merilis Sumber Terbuka omnitool, sebuah sistem Windows berbasis Docker yang mencakup pemahaman layar, penempatan, perencanaan aksi, dan eksekusi, yang juga merupakan alat kunci untuk mengubah model besar menjadi Agent.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
2 Suka
Hadiah
2
4
Bagikan
Komentar
0/400
GateUser-d6ca73f1
· 02-23 07:30
Dapatkah saya masuk ke area spot?
Lihat AsliBalas0
GateUser-50c1e0dd
· 02-17 03:19
Bull Run 🐂
Balas0
GateUser-50c1e0dd
· 02-17 02:39
Bull Run 🐂
Balas0
Mmhreyan8513
· 02-17 00:26
Ape Masuk 🚀Bull Run 🐂HODL Ketat 💪Vibes 1000x 🤑Vibes 1000x 🤑HODL Ketat 💪Bull Run 🐂Ape Masuk 🚀
Kerangka Inovasi Microsoft Sumber Terbuka: Mengubah DeepSeek menjadi AI Agent
Data Jumat 17 Februari, Microsoft merilis versi terbaru dari framework OmniParser, yaitu Visual Agent Analysis, V2.0, di situs resminya. Framework ini dapat mengubah model seperti DeepSeek-R1, GPT-4o, Qwen-2.5VL, menjadi AI Agent yang dapat digunakan pada komputer. Dibandingkan dengan versi sebelumnya, V2 memiliki tingkat akurasi yang lebih tinggi dan kecepatan inferensi yang lebih cepat saat mendeteksi elemen UI interaktif yang lebih kecil, dengan latensi menurun 60%. Pada pengujian AgentBenchmark resolusi tinggi dengan ScreenSpot Pro, akurasi V2+GPT-4o mencapai 39.6%, sementara akurasi asli GPT-4o hanya 0.8%, menunjukkan peningkatan yang sangat besar secara keseluruhan. Selain V2, Microsoft juga merilis Sumber Terbuka omnitool, sebuah sistem Windows berbasis Docker yang mencakup pemahaman layar, penempatan, perencanaan aksi, dan eksekusi, yang juga merupakan alat kunci untuk mengubah model besar menjadi Agent.