凌晨1点,我删掉电脑里所有自动化工具因为字节跳动刚刚开源的这个项目,让我见识了什么叫做”真·AI智能体“
01 | 一个让硅谷”破防”的开源项目
2025年1月23日,在OpenAI的Operator向ChatGPT Pro用户收取200美元/月费用的两天后,字节跳动豆包大模型团队悄悄在GitHub上开源了一个名为UI-TARS的项目。
结果?
24小时内Star破千,一周内飙到1.6万,如今已近3万Star。 这在GitHub开源历史上堪称”光速神话”。
更狠的是,它是完全免费、Apache 2.0协议开源、可商用。
这意味着什么?
那个硅谷刚想靠订阅制狠狠割韭菜的”AI智能体”技术,字节跳动直接免费送给了全世界。网友神评论:
“OpenAI不’Open’,DeepSeek真’Deep’,字节跳动这是要’Byte’掉所有收费AI啊!”
02 | 它能做什么?一句话:像人类一样”看”屏幕、”用”电脑
别再问AI能不能帮你干活了。
UI-TARS不是聊天机器人,它是一个有”眼睛”和”手”的数字员工。

只需一句自然语言:
- “帮我订明天最早去上海的机票” → 它打开浏览器,进入携程,筛选航班,完成预订
- “把Chrome字体调大” → 它点开设置,找到外观选项,调整字体大小
- “收集这10个竞品的信息整理成表格” → 它逐个打开网页,提取信息,生成Excel
- “在Spotify播放周杰伦的歌” → 它甚至能控制手机App(对,它支持安卓自动化)
它不是调用API,而是真的在看屏幕截图,识别按钮、输入框、文字,然后控制鼠标和键盘。
就像电影《星际穿越》里的机器人TARS一样(这也是项目命名的灵感来源), loyal, capable, and fully autonomous.
03 | 四大”黑科技”拆解:为什么它比同类产品强?
市面上的RPA(机器人流程自动化)工具早就有了,UI-TARS凭什么碾压?
🎯 增强感知:AI真的”看懂”界面了
传统自动化工具靠代码定位元素(比如”点击class为btn-blue的按钮”),一旦网页改版就崩溃。
UI-TARS用大规模GUI截图训练的视觉模型,像人一样”看”界面。按钮在哪、文字什么意思、当前页面是什么状态——它真的理解。
🧠 System-2推理:不仅会做,还会”想”
面对复杂任务,它会:
1. 分解:把”订机票”拆解为”打开网站→搜索航线→筛选时间→填写信息→支付” 2. 反思:如果某步失败,会回溯尝试其他方法 3. 规划:提前判断下一步需要什么信息
这不是预设脚本,是实时推理。
⚡ 统一动作建模:一套指令通吃所有平台
Windows、Mac、Linux、浏览器、甚至手机,所有操作被抽象成统一的动作空间。无论底层系统多复杂,对它来说都是一样的”语言”。
🔄 自动学习:越用越聪明
更恐怖的是它的“反思式在线训练”。字节跳动用数百台虚拟机让它7×24小时自动执行任务、收集数据、反思优化。这意味着:
你今天遇到的Bug,明天模型可能就自动学会了怎么解决。
04 | 实测数据:吊打OpenAI Operator和Claude
在权威的OSWorld基准测试(测试AI在真实操作系统中完成任务的能力)中:
| 模型 | 15步任务成功率 | 50步任务成功率 |
|---|---|---|
| UI-TARS | 22.7% 🥇 | 24.6% |
| OpenAI Operator | 19.7% | 32.6% 🥇 |
| Claude | 14.9% | 22.0% |
注意:虽然Operator在超长线任务(50步)中略胜,但UI-TARS在中短任务和性价比上完胜——毕竟一个是每月200美元的闭源服务,一个是免费的本地开源模型。
而在AndroidWorld手机自动化测试中,UI-TARS以46.6%碾压GPT-4o的34.5%。
结论:在落地实用性上,中国团队赢了。
05 | 两种用法:小白和极客都能玩
🖥️ 方式一:下载桌面App(推荐)
字节团队直接打包了UI-TARS Desktop客户端: – 支持Windows、macOS – 完全本地运行,数据不出本机,隐私绝对安全 – 自带可视化界面,开箱即用
GitHub地址:github.com/bytedance/UI-TARS-desktop
💻 方式二:开发者集成
如果你是开发者,一行命令启动: bash npx @agent-tars/cli@latest
配合字节开源的Midscene.js框架,你可以用JavaScript编排复杂工作流,比如:
javascript // 自动收集数据并生成报告 await agent.execute("搜索过去一周AI领域融资新闻"); await agent.execute("提取公司名称、金额、轮次"); await agent.execute("整理成Markdown表格保存到桌面");
更狠的是,它还支持MCP(模型上下文协议),可以连接Slack、Notion、数据库等任何工具。
06 | 为什么这是2025年最重要的开源事件之一?
因为UI-TARS标志着AI从”聊天”走向”行动”的临界点。
2024年,我们见证了LLM的爆发;2025年,是AI Agent(智能体)的元年。而UI-TARS证明了:
- 中国团队已站在开源最前线:不再是跟随者,而是定义标准的人
- 开源商业模式正在颠覆闭源:当免费工具比收费的还好用,旧秩序必然崩塌
- “数字员工”时代真的来了:这不是科幻,是每个人现在就能下载使用的现实
就像网友说的:
“以前觉得AutoGPT很酷但用不了,现在UI-TARS让我3分钟就搭建了一个自动写周报的工具。这才是生产力革命。”
07 | 立即行动:三步拥有你的AI助理
Step 1:访问 GitHub bytedance/UI-TARS-desktop
Step 2:下载对应系统的安装包(约300MB)
Step 3:输入你的OpenAI/Anthropic API Key(本地运行,仅用于推理),或配合本地模型使用
成本对比: – OpenAI Operator:$200/月 – UI-TARS:$0 + 你的电费
写在最后
2025年,AI开源世界正在发生一件激动人心的事:
曾经被认为只属于硅谷巨头的最前沿技术,正在被中国团队以开源、免费、透明的方式分享给全世界。
从DeepSeek到Qwen,再到今天的UI-TARS,中国AI不再是”跟随者”的标签。
这一次,我们是规则的制定者。
如果你也觉得这个项目很酷,请点赞、在看、转发,让更多人知道:
最好的AI,真的可以是免费的。
最好的技术,真的可以是中国的。
