广告也精彩

字节跳动扔出一颗”核弹”,GitHub瞬间被挤爆:这才是中国人该有的免费AI!

凌晨1点,我删掉电脑里所有自动化工具因为字节跳动刚刚开源的这个项目,让我见识了什么叫做”真·AI智能体“

01 | 一个让硅谷”破防”的开源项目

2025年1月23日,在OpenAI的Operator向ChatGPT Pro用户收取200美元/月费用的两天后,字节跳动豆包大模型团队悄悄在GitHub上开源了一个名为UI-TARS的项目。

结果?

24小时内Star破千,一周内飙到1.6万,如今已近3万Star。 这在GitHub开源历史上堪称”光速神话”。

更狠的是,它是完全免费、Apache 2.0协议开源、可商用

这意味着什么?

那个硅谷刚想靠订阅制狠狠割韭菜的”AI智能体”技术,字节跳动直接免费送给了全世界。网友神评论:

“OpenAI不’Open’,DeepSeek真’Deep’,字节跳动这是要’Byte’掉所有收费AI啊!”

02 | 它能做什么?一句话:像人类一样”看”屏幕、”用”电脑

别再问AI能不能帮你干活了。

UI-TARS不是聊天机器人,它是一个有”眼睛”和”手”的数字员工。

字节跳动扔出一颗"核弹",GitHub瞬间被挤爆:这才是中国人该有的免费AI!

只需一句自然语言:

  • “帮我订明天最早去上海的机票” → 它打开浏览器,进入携程,筛选航班,完成预订
  • “把Chrome字体调大” → 它点开设置,找到外观选项,调整字体大小
  • “收集这10个竞品的信息整理成表格” → 它逐个打开网页,提取信息,生成Excel
  • “在Spotify播放周杰伦的歌” → 它甚至能控制手机App(对,它支持安卓自动化)

它不是调用API,而是真的在看屏幕截图,识别按钮、输入框、文字,然后控制鼠标和键盘。

就像电影《星际穿越》里的机器人TARS一样(这也是项目命名的灵感来源), loyal, capable, and fully autonomous.

03 | 四大”黑科技”拆解:为什么它比同类产品强?

市面上的RPA(机器人流程自动化)工具早就有了,UI-TARS凭什么碾压?

🎯 增强感知:AI真的”看懂”界面了

传统自动化工具靠代码定位元素(比如”点击class为btn-blue的按钮”),一旦网页改版就崩溃。

UI-TARS用大规模GUI截图训练的视觉模型,像人一样”看”界面。按钮在哪、文字什么意思、当前页面是什么状态——它真的理解。

🧠 System-2推理:不仅会做,还会”想”

面对复杂任务,它会: 

1. 分解:把”订机票”拆解为”打开网站→搜索航线→筛选时间→填写信息→支付” 2. 反思:如果某步失败,会回溯尝试其他方法 3. 规划:提前判断下一步需要什么信息

这不是预设脚本,是实时推理

⚡ 统一动作建模:一套指令通吃所有平台

Windows、Mac、Linux、浏览器、甚至手机,所有操作被抽象成统一的动作空间。无论底层系统多复杂,对它来说都是一样的”语言”。

🔄 自动学习:越用越聪明

更恐怖的是它的“反思式在线训练”。字节跳动用数百台虚拟机让它7×24小时自动执行任务、收集数据、反思优化。这意味着:

你今天遇到的Bug,明天模型可能就自动学会了怎么解决。

04 | 实测数据:吊打OpenAI Operator和Claude

在权威的OSWorld基准测试(测试AI在真实操作系统中完成任务的能力)中:

模型15步任务成功率50步任务成功率
UI-TARS22.7% 🥇24.6%
OpenAI Operator19.7%32.6% 🥇
Claude14.9%22.0%

注意:虽然Operator在超长线任务(50步)中略胜,但UI-TARS在中短任务和性价比上完胜——毕竟一个是每月200美元的闭源服务,一个是免费的本地开源模型

而在AndroidWorld手机自动化测试中,UI-TARS以46.6%碾压GPT-4o的34.5%

结论:在落地实用性上,中国团队赢了。

05 | 两种用法:小白和极客都能玩

🖥️ 方式一:下载桌面App(推荐)

字节团队直接打包了UI-TARS Desktop客户端: – 支持Windows、macOS – 完全本地运行,数据不出本机,隐私绝对安全 – 自带可视化界面,开箱即用

GitHub地址:github.com/bytedance/UI-TARS-desktop

💻 方式二:开发者集成

如果你是开发者,一行命令启动: bash npx @agent-tars/cli@latest

配合字节开源的Midscene.js框架,你可以用JavaScript编排复杂工作流,比如:

javascript // 自动收集数据并生成报告 await agent.execute("搜索过去一周AI领域融资新闻"); await agent.execute("提取公司名称、金额、轮次"); await agent.execute("整理成Markdown表格保存到桌面");

更狠的是,它还支持MCP(模型上下文协议),可以连接Slack、Notion、数据库等任何工具。

06 | 为什么这是2025年最重要的开源事件之一?

因为UI-TARS标志着AI从”聊天”走向”行动”的临界点

2024年,我们见证了LLM的爆发;2025年,是AI Agent(智能体)的元年。而UI-TARS证明了:

  1. 中国团队已站在开源最前线:不再是跟随者,而是定义标准的人
  2. 开源商业模式正在颠覆闭源:当免费工具比收费的还好用,旧秩序必然崩塌
  3. “数字员工”时代真的来了:这不是科幻,是每个人现在就能下载使用的现实

就像网友说的:

“以前觉得AutoGPT很酷但用不了,现在UI-TARS让我3分钟就搭建了一个自动写周报的工具。这才是生产力革命。”

07 | 立即行动:三步拥有你的AI助理

Step 1:访问 GitHub bytedance/UI-TARS-desktop
Step 2:下载对应系统的安装包(约300MB)
Step 3:输入你的OpenAI/Anthropic API Key(本地运行,仅用于推理),或配合本地模型使用

成本对比: – OpenAI Operator:$200/月 – UI-TARS:$0 + 你的电费


写在最后

2025年,AI开源世界正在发生一件激动人心的事:

曾经被认为只属于硅谷巨头的最前沿技术,正在被中国团队以开源、免费、透明的方式分享给全世界。

从DeepSeek到Qwen,再到今天的UI-TARS,中国AI不再是”跟随者”的标签。

这一次,我们是规则的制定者。

如果你也觉得这个项目很酷,请点赞、在看、转发,让更多人知道:

最好的AI,真的可以是免费的。

最好的技术,真的可以是中国的。

声明:该文章版权归原作者所有,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本网联系。QQ1639995243 联系邮箱:enofun@foxmail.com

给TA打赏
共{{data.count}}人
人已打赏
AI智能

使用 AI 软件生成未经证实假新闻,一网民被处以行政处罚 

2024-7-26 11:55:55

知识付费

收费生意内幕和手段课程,生意以小博大的秘密,生意可复制的核心干货

2024-6-23 11:45:06

广告也精彩
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索