Telegram Group & Telegram Channel
我的 vibe coding 评测

背景
我主要用 Rust 开发高性能高并发应用,偶尔会写 HTML/CSS/Typst/Latex。 使用 MBP 作为上网本,通过 Cursor ssh remote 到一台 AMD 9900x 上开发。

总体评价
1. 没有LLM可以 oneshot 复杂的 Rust
2. 所有 LLM 都可以写高质量的 tests
3. Thinking 模型没有预期中的好,表演大于实际,但还是比不 think 好
4. Local 小模型 0.5B/1B/4B/8B 进步显著,但是 self host 还是不划算
5. GitHub copilot 是一坨屎。Cursor 的进步慢于预期。JB 连基础功能都没做好。

目前来看各家模型其实差距不大,真正影响体验的反而是工程细节:
1. 连接错误的次数,后端稳定性,编辑器流畅程度;这些方面 cursor 还有很大进步空间。
2. 修改 prompt,增删 context,是否使用搜索,是否开启新对话,等等。这些我反复做的事情总有隔靴搔痒的感觉,与 LLM 的交互总感觉很愚笨。


点评各大 LLM
1. 疑难杂症 O3 最强,其他 LLM (包括 O4-mini)可以忽略不计
2. Claude 3.7 thinking 综合能力最强,但怀疑针对网页开发有特别优化,写 Rust 就一般。
3. Gemini 各项排名第二,不会是首选模型,但也不会完全删掉。一种奇特的生态位。
4. Qwen/Gemma 都一般,但 local llm 将会成为和 Linux 一样的 infra,值得持续特殊关心。最终会成为 digital independence 的重要一环。
5. Grok 没有用过,也不关心。Deepseek 太久没更新。Phi 感觉是个玩具。

再批评一下 Claude。Desktop application 写得非常buggy,infra 经常不稳定,CEO 发表逆天言论,MCP protocol 设计得像是 ML Python developer vibe 出来的(类比于 Javascript)。

展望未来
模型发展似乎放缓了,从原本的以 AGI 为目标,变成了各种花式应用。
但这是好事,因为我们还没有准备好迎接 AGI。

未来的发展还是以 LLM 应用为主,模型本身没有护城河,可替代性太强 (类比于 OS)。
我期待 Cursor for Browser, Email, Photoshop, PowerPoint, Juypter Notebook。

正是因为 LLM 会像 OS 一样成为 digital infra,我们才需要更加关心开源 LLM,在逐利的企业竞争中争取自己的权利。



tg-me.com/life_xiangpeng/4412
Create:
Last Update:

我的 vibe coding 评测

背景
我主要用 Rust 开发高性能高并发应用,偶尔会写 HTML/CSS/Typst/Latex。 使用 MBP 作为上网本,通过 Cursor ssh remote 到一台 AMD 9900x 上开发。

总体评价
1. 没有LLM可以 oneshot 复杂的 Rust
2. 所有 LLM 都可以写高质量的 tests
3. Thinking 模型没有预期中的好,表演大于实际,但还是比不 think 好
4. Local 小模型 0.5B/1B/4B/8B 进步显著,但是 self host 还是不划算
5. GitHub copilot 是一坨屎。Cursor 的进步慢于预期。JB 连基础功能都没做好。

目前来看各家模型其实差距不大,真正影响体验的反而是工程细节:
1. 连接错误的次数,后端稳定性,编辑器流畅程度;这些方面 cursor 还有很大进步空间。
2. 修改 prompt,增删 context,是否使用搜索,是否开启新对话,等等。这些我反复做的事情总有隔靴搔痒的感觉,与 LLM 的交互总感觉很愚笨。


点评各大 LLM
1. 疑难杂症 O3 最强,其他 LLM (包括 O4-mini)可以忽略不计
2. Claude 3.7 thinking 综合能力最强,但怀疑针对网页开发有特别优化,写 Rust 就一般。
3. Gemini 各项排名第二,不会是首选模型,但也不会完全删掉。一种奇特的生态位。
4. Qwen/Gemma 都一般,但 local llm 将会成为和 Linux 一样的 infra,值得持续特殊关心。最终会成为 digital independence 的重要一环。
5. Grok 没有用过,也不关心。Deepseek 太久没更新。Phi 感觉是个玩具。

再批评一下 Claude。Desktop application 写得非常buggy,infra 经常不稳定,CEO 发表逆天言论,MCP protocol 设计得像是 ML Python developer vibe 出来的(类比于 Javascript)。

展望未来
模型发展似乎放缓了,从原本的以 AGI 为目标,变成了各种花式应用。
但这是好事,因为我们还没有准备好迎接 AGI。

未来的发展还是以 LLM 应用为主,模型本身没有护城河,可替代性太强 (类比于 OS)。
我期待 Cursor for Browser, Email, Photoshop, PowerPoint, Juypter Notebook。

正是因为 LLM 会像 OS 一样成为 digital infra,我们才需要更加关心开源 LLM,在逐利的企业竞争中争取自己的权利。

BY Patrick 舆情发布


Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283

Share with your friend now:
tg-me.com/life_xiangpeng/4412

View MORE
Open in Telegram


telegram Telegram | DID YOU KNOW?

Date: |

China’s stock markets are some of the largest in the world, with total market capitalization reaching RMB 79 trillion (US$12.2 trillion) in 2020. China’s stock markets are seen as a crucial tool for driving economic growth, in particular for financing the country’s rapidly growing high-tech sectors.Although traditionally closed off to overseas investors, China’s financial markets have gradually been loosening restrictions over the past couple of decades. At the same time, reforms have sought to make it easier for Chinese companies to list on onshore stock exchanges, and new programs have been launched in attempts to lure some of China’s most coveted overseas-listed companies back to the country.

Pinterest (PINS) Stock Sinks As Market Gains

Pinterest (PINS) closed at $71.75 in the latest trading session, marking a -0.18% move from the prior day. This change lagged the S&P 500's daily gain of 0.1%. Meanwhile, the Dow gained 0.9%, and the Nasdaq, a tech-heavy index, lost 0.59%. Heading into today, shares of the digital pinboard and shopping tool company had lost 17.41% over the past month, lagging the Computer and Technology sector's loss of 5.38% and the S&P 500's gain of 0.71% in that time. Investors will be hoping for strength from PINS as it approaches its next earnings release. The company is expected to report EPS of $0.07, up 170% from the prior-year quarter. Our most recent consensus estimate is calling for quarterly revenue of $467.87 million, up 72.05% from the year-ago period.

telegram from us


Telegram Patrick 舆情发布
FROM USA