AIHOT
精选全部 AI 动态AI 日报Agent 接入关于更新日志反馈信源提报
登录
精选全部日报更多
全部动态X · 3982 条
全部一手资讯X论文
Ethan Mollick@emollick · 5月21日48

Did we ever learn what model won gold at the IMO from OpenAI? It was a year ago and it was called an unreleased internal general purpose model back then. Has GPT-5.5 Pro Extended caught up with whatever it was?

译我们最终知道OpenAI在IMO上获得金牌的是什么模型了吗?那是一年前的事了,当时被称为一个未发布的内部通用模型。GPT-5.5 Pro Extended是否已经赶上了那个模型?

查看原推 ↗
Ethan Mollick@emollick · 5月21日72

Its The Graph again (not the METR graph, the one from the o1 launch). Although no logarithmic decay of ability with increasing compute...

译又是The Graph(不是METR的图,是o1发布时的那张图)。 虽然能力并未随计算量增加呈现对数衰减……

查看原推 ↗
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes · 5月21日51

Why most alignment work is bullshit, in one image

译为何大多数对齐工作都是徒劳,一张图说明 [引用 @AISafetyMemes]:大多数对齐计划: 第一步)创造沙神 第二步)... 😈 欺骗沙神 😈 ... 第三步)沙神永远忠诚 “当前的对齐工作,不过是在沙王巨怪脸上涂口红。” -@romanyam

查看原推 ↗
Noam Brown@polynoamial · 5月21日67

Excellent thread from mathematician Tim Gowers on the significance of the @OpenAI model’s breakthrough on the Erdos Unit Distance Problem!

译数学家Tim Gowers关于@OpenAI模型在Erdos单位距离问题上取得突破的重要长文! [引用 @wtgowers]:如果你是数学家,那么在继续阅读之前,你可能需要确保自己是坐着的。

查看原推 ↗
宝玉@dotey · 5月21日62

上周末好几场美国大学毕业典礼上,只要演讲嘉宾一夸 AI,台下就开始嘘。 被嘘得最惨的是前 Google CEO Eric Schmidt。他在亚利桑那大学的演讲里把 AI 比作一张火箭船的船票,说毕业生可以“组建一支 AI agent 团队”去完成一个人做不到的事,结果嘘声越来越大,一度逼得他停下来。他改口安抚:"我知道你们在担心什么,这种恐惧是合理的。"但核心意思没变,AI 会塑造世界,你们要去引导它。台下不买账。 被轰的不止他一个。中佛罗里达大学,一位地产公司高管把 AI 称为“下一次工业革命”,当场被嘘;中田纳西州立大学,唱片公司 Big Machine Records 的 CEO Scott Borchetta 说 AI 正在改写整个行业,面对嘘声直接甩了句“接受现实吧,这就是个工具”。 学生的反感完全能理解,毕竟现在就业形势不算好,而站在台上劝他们拥抱 AI、说机会无限的,恰恰是推动这场变革、也在用 AI 砍岗位的那批人。Gallup 上月的调查显示,美国人对 AI 的兴奋和期待正在降温,愤怒在上升。 视频来源:https://www.nbcnews.com/video/multiple-commencement-speakers-booed-for-ai-comments-during-graduation-speeches-263486021518

译近日,美国多所大学毕业典礼上,嘉宾赞扬人工智能的言论引发学生集体嘘声。前谷歌CEO埃里克·施密特在演讲中将AI比作“火箭船票”,鼓励毕业生组建AI团队,却遭遇持续哄场,他承认恐惧合理但坚持AI将塑造世界。其他演讲者称AI为“工业革命”或“改写行业”也引发类似反应。学生不满源于就业压力,认为鼓吹AI变革的嘉宾正是推动自动化、可能导致岗位减少的群体。民调显示美国人对AI热情降温,愤怒情绪上升。

查看原推 ↗
Chubby♨️@kimmonismus · 5月21日63

„We are only a few years away from AGI (…) we can start feeling it now. 2026,2027 is when it’s starting.“ Demis Hassabis has never been known for trying to generate hype. Hearing him say that we are on the path to AGI really excites me.

译“我们距离AGI只有几年之遥(……)现在就能开始感受到。2026、2027年就是它开始的时候。” Demis Hassabis从未以制造炒作闻名。听他说我们正走在通向AGI的道路上,真的让我很兴奋。

查看原推 ↗
Chubby♨️@kimmonismus · 5月21日62

AI changing the world: „10x the Industrial Revolution at 10x speed, so 100x“ (Demis Hassabis)

译AI改变世界:“工业革命的10倍规模,以10倍速度推进,即100倍”(Demis Hassabis) [引用 @kimmonismus]:“我们距离AGI仅剩数年(…)现在已能初见端倪。2026、2027年将是起点。” Demis Hassabis向来不以制造热点著称。听他坦言我们正走在通向AGI的道路上,令我倍感振奋。

查看原推 ↗
Rohan Paul@rohanpaul_ai · 5月21日71

Anders Hejlsberg (creator of C#, TypeScript): AI has shifted software work from writing code to reviewing agent-written code, architecture, and oversight. "We are all turning into project managers"

译Anders Hejlsberg(C#、TypeScript创造者):AI已将软件工作从编写代码转变为审查智能体编写的代码、架构和监督。 “我们都在变成项目经理”

查看原推 ↗
Rohan Paul@rohanpaul_ai · 5月21日64

Nvidia CEO Jensen Huang: "There's a belief that the world's GDP is limited at $100 tn. What's likely to happen is AI is going to cause that $100 tn to become $200 tn, $300 tn, $500 tn. There's no fundamental limit to the size of the GDP."

译英伟达CEO黄仁勋:"有人认为全球GDP上限是100万亿美元。但更可能发生的是,AI将使这100万亿变成200万亿、300万亿、500万亿。GDP的规模没有根本性的上限。"

查看原推 ↗
Emad@EMostaque · 5月21日6

A basic analysis shows that zeroing out federal taxes for the bottom half the USA would help millions, have minimal impact on tax receipts & add over $100 billion to the economy. It's easy to check this yourself with @grok & similar, great of @JeffBezos to highlight.

译分析表明,取消美国下半部人群的联邦税可惠及数百万人,对总税收影响有限(仅占3%),并有望为经济增添超千亿美元。Jeff Bezos指出,此举是不从民众口袋取钱的直接方式,对低收入群体意义重大。

查看原推 ↗
AYi@AYi_AInotes · 5月21日68

AI时代最恐怖的事情不是AI取代你,而是你亲手教AI取代你,然后你自己被裁🤯 扎克伯格4月30号的内部音频泄露了, 他直白地告诉所有员工,公司正在收集你们的键盘鼠标屏幕数据,训练AI。 因为Meta员工的平均智力远高于外包,这些数据能让Llama的编码能力实现戏剧性超越。 然后20天之后,也就是今天凌晨4点,8000名员工收到了裁员邮件。 这哪是为了AI转型啊,分明就是企业食人主义, 好家伙,你教AI怎么干活, AI学会了, 然后你滚蛋。 你以为这就完了? 还有更狠的, 以前资本剥削你的时间, 现在资本剥削你的智慧, 以前你996是为了给自己挣工资, 现在你996是为了训练一个能完美取代你的AI, 而且你还不能划水, 你划水训练出来的AI不够强,你还是会被裁🤣 扎克伯格在效率上肯定是赢了, 他找到了AI时代最暴利的商业模式, 用自己的员工当免费的高质量训练数据, 用完就扔, 但他也输掉了所有信任。 以后再也不会有员工愿意全力以赴了, 因为所有人都知道, 你越优秀, 你被榨干的速度就越快。 你被裁掉的日子就越近。 #Meta #AI #裁员

译近日,Meta CEO扎克伯格的内部音频泄露,他承认公司秘密收集员工键盘、鼠标和屏幕数据,用于训练Llama等AI模型,因Meta员工智力高可提升模型能力。然而,数据收集约20天后,Meta裁员8000人,引发“企业食人主义”批评:员工在不知情下训练可能取代自己的AI,资本剥削从时间升级到智慧。这损害了员工信任,揭示了AI时代高效但冷酷的用人逻辑——员工越优秀,其价值被快速榨取并抛弃的风险越高。

查看原推 ↗
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes · 5月21日30

Funniest moment of the trial

译审判中最搞笑的时刻 [引用 @rocketalignment]:ELON: 如果我们制造大量机器人,必须确保它们安全,不能出现终结者那样的情况 KRY: 你什么意思 ELON: 嗯,如果你看过那部电影,就知道那不是什么好情况

查看原推 ↗
SemiAnalysis@SemiAnalysis_ · 5月21日34

If you’ve joined the vibe-coding wave (we certainly have!), one bottleneck you might have noticed is that the “just rent a cheap CPU box” step is no longer as routine as it used to be. (1/3) 🧵

译如果你已加入氛围编程浪潮(我们当然也加入了!),你可能注意到一个瓶颈:曾经“租个便宜CPU盒子”的步骤,如今已不再像过去那样简单常规了。(1/3) 🧵

查看原推 ↗
小互@xiaohu · 5月21日63

Mdjourney创始人暗示他们被Google的 TPU坑了 白白浪费了一年时间… 如果回到过去他会选择英伟达的GPU🤣 “这大概让我们的研究进度,比起一开始就完全采用 Nvidia 技术栈,落后了差不多一年。并不算特别理想。如果我能回到过去,我会从第一天开始就全部使用 Nvidia 的方案。”

译Midjourney创始人暗示他们被Google的 TPU坑了 白白浪费了一年时间… 如果回到过去他会选择英伟达的GPU🤣 “这大概让我们的研究进度,比起一开始就完全采用 Nvidia 技术栈,落后了差不多一年。并不算特别理想。如果我能回到过去,我会从第一天开始就全部使用 Nvidia 的方案。”

查看原推 ↗
歸藏(guizang.ai)@op7418 · 5月21日40

用了几天 Mac 版豆包输入法,已经离不开了。 准确性、中英文混合输入、专业名词的识别,响应速度,都是市面上最顶的。 我现在手机上已经离不开豆包输入法了,一直在等待桌面端上线。前几天发现 MacOS 版终于来了,赶紧下载试了一下。 我觉得表现最好的就是多语言混合输入。 我日常会涉及到非常多中英文混合输入的场景,因为我们这个行业很多词没有翻译,比如说 Claude Code、AntiGravity、Perplexity,这种词和中文混合的时候,就非常难以去润色和识别。 豆包在这方面处理得巨好。 之前我用其他语音输入法,它主要有两个问题: 首先是过度优化: 它有时候改动非常大,比如在跟朋友聊天时,它会突然给一段非常正式的 Markdown 格式,让人很难接受。而且它还会批量自动添加无序列表和有序列表,修改起来非常麻烦。 然后是无法实时预览: 必须等全部说完、润色完,才会给出一整段结果。当你一次说五六百字时,很难审查其中的细节。如果其中有一两个词识别错了,很难在润色后的长文本里精准找到并修改,导致很多时候错误的信息就直接发出去了。 相比之下,豆包输入法在这两点上效果非常好: 它会实时出结果,生成完成后还会再润色一遍,这样你能清晰地看到输出文案及其对应的变化。 它不会乱加 Markdown 格式或列表,用起来很省心。 此外,豆包的识别速度极快,基本上是“言出法随”,说完立刻就能吐字,润色也很快。我现在手机上已经离不开它了,这下电脑端上线也必须得用了。 期待豆包输入法后续的版本能够支持自定义提示词润色。比如在一些特定的、独特的场景下,通过自定义提示词让它生成对应的格式,这个功能还是挺需要的。 但总的来说,从识别本身的硬功夫来看,豆包已经做得无可挑剔了。

译豆包输入法Mac版上线后,用户试用体验极佳,称其在准确性、中英文混合输入、专业名词识别和响应速度方面均为市面顶尖。与其他输入法相比,它解决了过度优化和无法实时预览的痛点,实现“言出法随”的快速输出与实时润色,避免乱加Markdown格式。对于如Claude Code、AntiGravity、Perplexity等专业术语与中文混合的场景,豆包输入法处理出色,用户已完全依赖其手机和电脑端。未来期待支持自定义提示词润色功能,但目前识别能力已无可挑剔。

查看原推 ↗
OpenRouter@OpenRouter · 5月21日70

TIP 💡 You don't have to worry about cache misses for the Auto Router (in addition to all individual models) OpenRouter will keep your session pinned to one model/provider until your cache expires

译提示💡 你无需担心自动路由(以及所有单独模型)的缓存未命中问题 OpenRouter会将你的会话固定在一个模型/提供商上,直到缓存过期

查看原推 ↗
向阳乔木@vista8 · 5月21日75

这个项目牛逼啊,增强(Hack)你的 Codex App。 即使你用API 登录Codex,也可以通过安装插件方式用上 Computer Use、添加上Goal指令。 界面样式也能调整,比如变成类似Chrome的顶部Tab。 设置任务开始、完成的声音提醒等等。 开源项目地址见评论区

译一个开源项目允许用户增强Codex App的功能。即使通过API登录,也能通过安装插件的方式启用Computer Use特性并添加Goal指令。项目还支持界面自定义,例如调整为类似Chrome浏览器的顶部Tab样式,并可设置任务开始和完成的提醒音效。相关开源项目地址已在评论区提供。

查看原推 ↗
AYi@AYi_AInotes · 5月20日63

前端已死,现在用Kimi10分钟就能做出能卖钱的网站了! 兄弟们,学会这个,你今天就能靠做网站赚钱! Kimi 2.6一键生成获奖级网站,全程零代码, 9分56秒超级详细的手把手教程, 我做了中英双语字幕, 跟着做,只需要下午就能出第一个成品。 #Kimi #AI建站 #零代码 #前端 #独立开发 #AI生产力

译Kimi 2.6能够一键生成获奖级别的网站,全程无需代码。配套的详细视频教程时长近10分钟,可指导用户快速上手,在极短的时间内产出可用于销售的成品网站,大幅降低了利用AI进行独立开发与变现的门槛。

查看原推 ↗
swyx🛬 SFO@swyx · 5月20日60

very belated but in retrospect i think @sama's mythical "build a business that gets better when models get better" is basically what I called Agent Labs here. seeing a very direct correlation with model performance and agent lab revenue, discontinuity in Q4 2025 (clip from @patrickc's stripe sessions)

译虽然迟了很久,但现在回想起来,我认为@sama那句富有传奇色彩的“构建一个随模型进步而变得更好的业务”,基本上就是我在这里所说的Agent Labs。 看到模型性能与Agent Labs收入之间存在非常直接的关联,在2025年第四季度出现断层。 (摘自@patrickc的Stripe Sessions)

查看原推 ↗
elvis@omarsar0 · 5月20日73

Self-improving AI is a big deal! As a first step, I've been exploring how much of the post-training can be automated. Here is a first post on how I am using @FireworksAI_HQ Agent to automate LLM fine-tuning itself. Dataset + Skill file included. For the use case, I took inspiration from @karpathy's tweet on LLM Knowledge Bases. I asked Claude Code to interact with Fireworks Agent to fine-tune a small Qwen model to get the right output style to efficiently keep growing my PaperWiki (https://x.com/omarsar0/status/2042286186920550498?s=20). All done via natural language. This is obviously the future of improving AI systems. The next step with the PaperWiki project is how to tune a model to better "know" the data. Harder to do, but if possible, then we have an incredibly powerful system that can recursively self-improve and can be extremely useful for things like knowledge discovery and automating all kinds of research end-to-end. More on this soon. Thanks to the Fireworks team for allowing me to test this early. Super excited about this.

译作者探索利用Fireworks AI Agent,通过自然语言交互自动化完成大语言模型的微调流程。他以Qwen小模型为例,调整其输出风格以优化PaperWiki项目的扩展效率。这一方法灵感源于@karpathy关于LLM知识库的推文,强调微调是让模型更“懂”数据的关键步骤。核心观点是自动化微调可推动构建可递归自我改进的AI系统,最终目标是打造一个能自我优化、用于知识发现和端到端自动化研究的强大工具。

查看原推 ↗
歸藏(guizang.ai)@op7418 · 5月20日63

终于找到了这种墨水屏硬件最适合的场景: 开机的时候,让 AI 往里边推一个 To-do、日历,一些基础的需要记的信息 把它挂在屏幕边上(用磁吸) 关机的时候,利用墨水屏的特性让它显示名片,这样大家加好友什么的直接看就行 太实用了! 到时候打包成 Skills。有类似硬件的朋友到时候可以玩玩。

译墨水屏硬件可通过AI推送日历、待办事项等基础信息,利用磁吸设计便捷固定。关机时,借助墨水屏的常显特性可切换为电子名片,简化社交场合的加好友流程。该方案将打包为Skills分享,为同类硬件用户提供实用参考。

查看原推 ↗
elvis@omarsar0 · 5月20日74

http://x.com/i/article/2056851733582880768 # Automating LLM Fine-Tuning with Fireworks Agent ## From Context Window to Weights Andrej Karpathy (@karpathy) recently described the personal LLM Wiki as a kind of pre-AGI memory aid, a curated repo of notes about papers, tools, and ideas you read into context when you want a model to reason over them. In his viral post, Karpathy flagged the obvious next move: "As the repo grows, the natural desire is to also think about synthetic data generation + finetuning to have your LLM 'know' the data in its weights instead of just context windows." Building LLM Knowledge Bases or LLM Wikis is already possible with agents like Claude Code or Codex, but this approach can quickly get inefficient and expensive as you try to scale them. Fine-tuning LLMs to maintain your knowledge bases is often a more efficient path forward. This post takes that next step by putting the wiki's output style into the weights. In under ten minutes of GPU time and a couple of cents of compute, a small open-weight model writes summaries of new papers in the exact format the wiki uses, with no system-prompt gymnastics, no few-shot exemplars, and no router logic. Once deployed, the summary comes back in a single fast call, fast enough to use inline inside a larger agent loop rather than as a batch job. The harder version (parametric knowledge injection of the wiki's contents) is the natural follow-up to Karpathy's framing, and I treat it as future work at the end. The interesting part is not the model itself, but that one @FireworksAI_HQ Agent session did the entire pipeline (dataset inspection, hyperparameter sweep, full training, deployment, and a working inference endpoint). Fireworks Agent is the autonomous orchestration layer for fine-tuning runs, where you give it a natural-language goal, and it plans, executes, and surfaces decision gates back to you. The whole flow can be driven from a coding agent you already use (Claude Code, Codex, or similar), which is how I ran it. The bigger picture this points to is self-improving LLMs and agents. Once training is a callable step inside an agent loop, the same coding agent that drives your workflow can also kick off fine-tuning runs to bake recurring patterns (a wiki's voice, a coding style, a triage policy) into the model itself, closing the loop between using a model and improving it. The rest of this post is the full walkthrough. All resources from this run are available in a companion repo, including the training and validation splits (train.jsonl, val.jsonl, wiki-sft-2026.jsonl), the data-build scripts (parse_2026.py, fetch_abstracts.py, build_jsonl.py), the pilot-agent.md slash command, the smoke-test script (test_new_deployment.py), and the baseline-vs-fine-tuned comparison code (before_after.py). Grab it at github.com/dair-ai/wiki-sft, clone it, point it at your own corpus, and reproduce the run end to end. ## Why Output Style Is the Right First SFT Target For a personal wiki, the high-leverage thing is consistency. Readers recognize a summary by its shape, which is a one-paragraph lede that names the authors' affiliation and the core contribution, followed by three to five bulleted takeaways with bolded short labels. A capable base model can be coaxed into this format with a careful system prompt, but the failure modes are familiar. It reverts to title-case headers, drops the affiliation line, varies bullet count, and sneaks in marketing language. Supervised fine-tuning (SFT) fixes this at the parameter level. Once the format is in the weights, every generation conforms by default, and the system prompt collapses to a single sentence (or drops out entirely). The cost stays small when the dataset stays small, and a clean stylistic dataset of 50 to 100 examples is usually enough to get started. ## Handing the Work to an Agent Most fine-tuning tutorials walk you through ten distinct steps. You format your data, upload it, choose a base model, decide on LoRA rank and learning rate, launch a job, parse logs, pick a winner, retrain on full data, deploy, and smoke test. Each step is its own surface to mess up, and you end up playing the role of a tuning agent yourself. Fireworks Agent inverts this. The interface is firectl session create -n "<your instruction>", where firectl is the Fireworks CLI. After that, you watch events stream and respond to gates when the agent surfaces a decision, such as the proposed plan or the hyperparameter (HP) sweep results. Fireworks also ships a Claude Code slash command (or you can format it as an agent skill), pilot-agent.md (previously known as Pilot Agent), that wraps the firectl commands and handles event streaming, gate detection, and resume-from-last-timestamp logic. ## Full Walkthrough Step 0: Setup Install the Fireworks CLI and confirm your account. In the Fireworks dashboard, create a service account that has the permissions Training Agent needs (the role that lets it launch training jobs and deployments on your behalf), then generate an API key tied to that service account. Also, create a separate user-level API key for inference and deployment inspection. Drop both into a .env file next to the project. Step 1: Build the Dataset The training data I use consists of chat-format records derived from the DAIR.AI Top AI Papers of the Week wiki, drawn from the top 5 papers per week in 2026 and paired with their arXiv abstracts. Three small Python scripts handle the pipeline, namely parse_2026.py (wiki to structured entries), fetch_abstracts.py (arXiv abstract lookup), and build_jsonl.py (chat-format assembly). The chat schema is the standard Fireworks shape: The final outputs are train.jsonl and val.jsonl (plus the combined wiki-sft-2026.jsonl for reference), with about 90 percent of records reserved for training and 10 percent for validation. Step 2: Upload the Dataset to Fireworks Confirm the dataset is `READY`: The dataset path you will pass to the Fireworks Agent looks like accounts/<your-account>/datasets/wiki-sft-2026. Step 3: Kick Off the Fireworks Agent This is the entire user-facing config for the run, just one instruction. The session returns an ID like 1777224532-7ddb. Stream the events: The --wait flag is important; without it, the command dumps existing events and exits. The Claude Code slash command handles this for you. Step 4: Approve the Plan and Promote the Winner The agent surfaces two gates. The first is a plan with a cost estimate and three HP configs to sweep in parallel, with validation loss as the evaluator, which you approve to resume streaming. The HP sweep then runs three SFT jobs in parallel and returns a ranked table, after which the agent surfaces a second gate with the winning config. In my run, the top three configs landed very close to each other on eval loss, which tells you the task is not particularly HP-sensitive at this dataset size, so approving full training is the obvious next step. Full training takes about eight minutes of GPU time and costs a few cents. Step 5: Verify the Deployment Deployment is where ad-hoc fine-tuning workflows usually go sideways, picking the wrong accelerator, missing a compatible shape, or stalling on capacity. The agent handles the recovery itself, so the session lands at status succeeded with a READY scale-to-zero deployment. Confirm the deployment with the following command: Step 6: Call the Model Inference uses the standard Fireworks chat completions endpoint, with a deployment-pinned model ID so requests route to your custom deployment: Once warm, calls return fast enough to use as an inline step inside an agent rather than a batch job. ## Why This Workflow Pays Off I tested the fine-tuned model on a few papers that sit outside the training set, sending the same system prompt and abstract to both the baseline qwen3-8b and the fine-tuned model. The fine-tuned model produces affiliation-led ledes that name the researchers' lab, followed by three to five bullets with bolded short-label prefixes (Method:, Performance Gains:, Scalability:), and an analytical, non-promotional tone. For instance, on Chain-of-Thought, it opened with "Researchers at Stanford University demonstrate that chain-of-thought prompting significantly enhances large language models' reasoning capabilities..." That is the wiki's voice, baked into the weights and produced in a single fast call. The practical payoff is that you no longer need a large, inefficient LLM or agent to write the summaries for your LLM Wiki. A smaller fine-tuned model can do it effectively, efficiently, and cheaply. Getting the style and tone right matters for this use case, and no amount of tuning a skill or system prompt can replace what a properly fine-tuned LLM gives you. Two more things make this useful beyond a one-off experiment. First, training becomes a tool, not a project, with one CLI command, cents of compute, and a real callable endpoint at the end, while the agent handles the boring failure modes. Second, you own the resulting model. The weights live in your account, deployed on infrastructure you control, and the idle cost is zero. At this price and friction, reaching for SFT becomes a reasonable answer to a much wider set of style and format problems. ## What's Next, Knowledge in the Weights I intentionally stopped at style transfer because it is the cleanest first SFT target on a small dataset. The harder version Karpathy described (your wiki's contents in the weights) is the natural follow-up, with synthetic data generation, more training records, and knowledge-recall evaluators in the loop. The pattern generalizes beyond a personal papers wiki. Any structured knowledge surface (an internal docs wiki, a product manual, a research vault) is a candidate for the same two-step recipe, where you SFT on style first and layer knowledge injection on top. A model that has internalized both the voice and the substance of a corpus is what makes a personalized agent on top of it genuinely useful. Fireworks Agent is currently in private preview and will be generally available soon. If you are thinking about applying this workflow to your own corpus and want to request access or talk it through with the Fireworks team, reach out at fireworks.ai/contact-training.

译本文探讨了通过微调,将个人知识库(如LLM Wiki)的内容从依赖上下文窗口,转变为固化到模型自身权重中的方法。关键在于利用如Fireworks Agent这样的自主AI代理,仅需提供自然语言目标,它就能自动完成从数据准备、训练到部署的完整微调流程。这标志着模型自我改进的闭环成为可能:当训练成为AI工作流中一个可调用的步骤时,模型能主动将反复使用的模式(如特定写作风格或决策逻辑)学习并内化到权重中,从而实现使用与优化的持续迭代。

查看原推 ↗
Chubby♨️@kimmonismus · 5月20日43

From this point on, I need to know: What magic does Seedance have that allows their Model 2.0 to remain so far ahead even after Google I/O? Seedance 2.0 was released in February (!). Model 3.0 can't be far off, and nothing has come close to 2.0 so far.

译从现在起,我需要知道: Seedance到底有什么魔力,能让他们的Model 2.0在Google I/O之后依然遥遥领先? Seedance 2.0是在二月发布的(!)。 Model 3.0应该快了,而目前还没有任何模型能接近2.0的水平。

查看原推 ↗
elvis@omarsar0 · 5月20日59

I highly recommend this. The Agentic Review is a new podcast from @QodoAI hosted by Itamar Friedman and Nnenna Ndukwe, and it's a great AI coding show that's neither hype nor doom. It's honest conversations about what shipping high-quality AI-generated code actually looks like. We need more of these conversations around AI agents. As an AI engineer, I think about this stuff constantly. A few things make this show worth your time: * It's a conversation about what good code means in the era of coding agents. * The hosts actually push back at guests instead of doing softball interviews. * The current guest lineup is strong: @dexhorthy, @shanselman, and @fullstackpython. I work a lot on context engineering, so the Dexter Horthy episode resonates the most for me. His take on context engineering as one of the biggest moats right now matches exactly what I'm seeing in production. He talks about a five-month experiment where his team stopped reading the code, then ripped it all out and rebuilt it by hand. That lesson about owning your context and actually reading what your agents produce is something every AI engineer needs to understand today. The bigger thesis across episodes: typing code may be dying, but the SDLC, code review, and craft matter more than ever. AI sprinkled on a broken software lifecycle is "a band-aid on cancer" (Hanselman's line, and it stuck with me). Thanks, @QodoAI, for the partnership on this post.

译推荐QodoAI出品的播客《Agentic Review》,该节目以平衡的视角探讨AI代码生成的真实场景。通过主持人与Dexter Horthy、Scott Hanselman等嘉宾的深度对话,节目强调了上下文工程作为关键技术壁垒的重要性,并指出AI无法弥补破碎的开发流程,反而更凸显了代码审查与工程技艺的持续价值。核心观点认为,尽管编码方式可能变革,但软件开发生命周期的本质与严谨性将更加重要。节目避免了过度炒作或悲观论调,为AI工程师提供了有价值的实践参考。

查看原推 ↗
Berryxia.AI@berryxia · 5月20日72

特么现在Flash ≠便宜了啊? 仅仅是快了吧~ Google把Gemini 3.5 Flash直接扔出来后,Artificial Analysis测完直接给出了最扎心的结论: 它在Intelligence vs Speed的Pareto前沿上,把整个行业又往前推了一大截。 Intelligence Index拿到55分,比Gemini 3 Flash高9分,直接超过Grok 4.3和Claude Sonnet 4.6。 Agentic任务(GDPval-AA)Elo评分飙到1656,远超前代。 幻觉率从92%暴降到61%。 输出速度超280 tokens/s,比上一代快70%。 多模态也继续领跑,MMMU-Pro 84%。 看起来几乎完美。 但代价是:跑一次Artificial Analysis Intelligence Index的成本,是Gemini 3 Flash的5.5倍,比Gemini 3.1 Pro贵75%。 定价直接3倍($1.5/$9 per 1M input/output)。 “Flash”这个名字,本来代表又快又便宜。 现在它代表:你终于可以用更快的速度,拿到真正旗舰级的智能,但你得为这个组合付更多钱。 Google这次是把顶级智能塞进了Flash系列,还是在用价格重新定义什么叫“轻量”? 完整基准在这里:https://artificialanalysis.ai/models/gemini-3-5-flash

译Google发布的Gemini 3.5 Flash在性能上实现飞跃,智能指数达55分,超越Grok 4.3等竞品,幻觉率大幅下降,输出速度超280 tokens/s。然而,其运行成本是前代的5.5倍,定价显著提高,引发对“Flash”是否仍代表“便宜”的讨论。该模型已在ZenMux平台开放免费体验,实际测试显示效果惊艳,在多项Agent和多模态榜单中表现顶尖,标志着顶级智能与极致速度的新结合。

查看原推 ↗
Berryxia.AI@berryxia · 5月20日59

现在二刷结束黑神话悟空后,没事还会去溜达到小西天黄梅这个章节中去在这个庙里去东瞧瞧细看看。 是真的美,也是第一次被震撼到。 没想到团队背后的付出也是如此的不容易。 大家现在可以直接在线慢慢欣赏,真的不错。 地址:https://funes.world/apps/the-hanging-sculptures-of-the-xiaoxitian

译推文分享了在通关《黑神话:悟空》后,对游戏中小西天场景原型——山西临汾隰县小西天悬塑艺术的震撼与实地探访。一个团队通过实地拍摄数千张照片,使用 Gaussian Splatting (3DGS) 技术,将其建成了一个可在线漫游的 3DGS 数字存档。该模型旨在保留明代悬塑密集的金色空间、细节与光感,让观众得以在屏幕前细细欣赏这一通常因平面印刷限制而难以被充分展现其震撼力的艺术瑰宝,并配有专门音乐。

查看原推 ↗
Ethan Mollick@emollick · 5月20日52

I am starting to have trouble paying attention to even interesting information if it is written in Claude or ChatGPT house style. I think some is the sameness of the rhythm rather than obvious tics: Claude is always so staccato. ChatGPT loves short sentences as kickers. Boring.

译我开始难以集中注意力阅读即使是有趣的信息,如果它们是用Claude或ChatGPT的典型风格写成的。我认为部分原因是节奏的雷同,而非明显的语言癖好:Claude总是如此断断续续。ChatGPT则偏爱用短句作为收尾。很无聊。

查看原推 ↗
meng shao@shao__meng · 5月20日36

Claude Design 发布一个月了,还有朋友记得它吗? 从 Google Trends 看,Claude Design 在进入 5 月后,迅速回落到发布前的数值。。

译Claude Design 发布一个月了,还有朋友记得它吗? 从 Google Trends 看,Claude Design 在进入 5 月后,迅速回落到发布前的数值。。

查看原推 ↗
宝玉@dotey · 5月20日44

终于有个不用侧边栏的 Agent App 设计,但是像浏览器一样顶部 Tab 的体验是否好还不好说。 有个问题就是内存占用必然会更厉害,因为侧边栏切换,默认全局只有一个对话打开,切换了之前的就可以销毁了。顶部 Tab 切换,默认对话都要会保留状态,这样会话一多内存就会占用厉害。

查看原推 ↗
meng shao@shao__meng · 5月20日49

最近面试过程中,用 AI 辅助的候选人,明显多起来了 😄 不太清楚他们用的是什么 AI Agent,不过整体效果都不太好,主要体现是上下文不太对,说的答案都偏泛泛,没有针对性。 比如简历中提到在项目中负责记忆系统,我觉得这部分挺重要的,就想深入探讨一下做记忆系统时遇到的问题,结果候选人等了大概 3-5 秒(应该是 Agent Thinking...)后,开始从记忆系统的基本概念介绍给我复述了,当时好想打断他,告诉他前面这段不用念,跳过 😂 其实我倒也不排除你用 AI 辅助面试,如果问到一些基本概念、原理啥的,让 AI 来回答也没什么,反正随时都能查得到;但真的涉及到工程中遇到的问题,特别是坑,AI 是回答不上来的,因为你没有把工程中的实际问题输入给它,或者说,你没有经历过这些坑。 那我只能认为,如果你过来,这些坑会在我这挖。。

译面试中AI辅助效果不佳,回答泛泛缺乏针对性。深入项目经验时,AI只复述概念,不分享实际工程问题。面试官指出,AI能应对概念提问,但实战经验如工程“坑”无法替代,候选人需依赖真实能力。

查看原推 ↗
Berryxia.AI@berryxia · 5月20日5

今日的强度有点大,教练说我练的不错。 那能不错嘛! 特么这回轮到我两腿发软了,不过我和香鱼的腿软不是一回事。@XianyuLi 太酸爽了~:(

译推文描述了高强度训练后的身体反应,训练者得到教练肯定,但感到腿部明显发软与酸胀。文中将自身感受与提及的“香鱼”的腿部发软情况作了对比,并用“太酸爽”来形容整体的训练体验。

查看原推 ↗
Emad@EMostaque · 5月20日32

Figured it out

译搞明白了 [引用 @karpathy]:个人动态:我已加入 Anthropic。我认为未来几年在大语言模型前沿领域将尤为关键。我非常兴奋能加入这里的团队并重返研发工作。我依然对教育充满热情,并计划适时恢复相关工作。

查看原推 ↗
Ethan Mollick@emollick · 5月20日62

One interesting side feature of recursive self-improvement, to the extent that is happening, is that it makes the Big Three labs more appealing to talent, and shortens the runway for launching a potential competitor instead at the same time.

译递归自我改进的一个有趣附带效应是,只要它还在发生,就会让三大实验室对人才更具吸引力,同时缩短潜在竞争对手的启动窗口。

查看原推 ↗
Berryxia.AI@berryxia · 5月20日70

记得上次使用Draw Things 这个开源生图软件还是在去年展会给现场客户做Demo演示的时候! 平时压根不会用,因为有着些许的鸡肋。 但是,也有优势,比如可以在iPad就可以挂开源模型生图。(质量嘛,忽略) 直到今天看到这个新闻,喔觉得事情有点不一样了~ Draw Things里一个纯属意外的发现,直接把本地生成速度干上天了。 Z-Image-Fun-Lora-Distill本来是为Z-Image Base训的2步/4步/8步版本。 结果有人拿它配Z Image Turbo一试,效果直接炸裂。 原来需要8-9步才能出的图,现在3-4步就够了。 本地生成时间大幅缩短,画质和细节还稳得一批。 以前觉得本地出图慢是天花板,现在这个组合直接把天花板又顶高了一截。 详细配置和LoRA下载链接在原帖评论区,已经有人实测放出来了。 对每天用Draw Things本地生成、或者玩Z Image Turbo的兄弟,这波意外发现太实用了。

译在开源生图软件Draw Things中,一项意外发现显著提升了本地AI生图速度。将原为Z-Image Base训练的Z-Image-Fun-Lora-Distill与Z Image Turbo搭配使用后,原本需要8-9步的生成过程可缩减至3-4步,大幅缩短了本地生成时间,同时保持了画质与细节的稳定。这一组合有效突破了此前本地生图速度较慢的限制。

查看原推 ↗
swyx🛬 SFO@swyx · 5月20日47

IMO deep research has been ~dead since o3 and interactivity was always more impt for active learning and eliciting intention thoughtless prompt -&gt; long ass report nobody reads is inferior to read -&gt; think -&gt; ask -&gt; read -&gt; think -&gt; ask

译IMO深度研究自o3以来已近乎停滞,而交互性对于主动学习和激发意图始终更为重要。 不假思索的提示 → 写出无人阅读的长篇报告 不如 阅读 → 思考 → 提问 → 阅读 → 思考 → 提问

查看原推 ↗
Peter Steinberger 🦞@steipete · 5月20日72

Can't recommend @cotypist https://cotypist.app enough. Autocomplete everywhere.

译强烈推荐@cotypist https://cotypist.app 。全场景自动补全。

查看原推 ↗
Rohan Paul@rohanpaul_ai · 5月20日40

Dario Amodei is so against selling US chips to China. "It's really scary and we have to stop it."

译Dario Amodei非常反对向中国出售美国芯片。 “这真的很可怕,我们必须阻止它。”

查看原推 ↗
Rohan Paul@rohanpaul_ai · 5月20日54

Marc Andreessen on AI becoming better than almost every expert human. "it's a world-class doctor, a world-class lawyer, a world-class accountant, a world-class political operative, a world-class marketing expert, and it's a world-class software coder"

译Marc Andreessen指出AI在医疗、法律、会计、政治、营销和软件开发等多个领域均已成为世界级专家,能力超越绝大多数人类专业人士。引用Larry Ellison的实际案例说明这一趋势已在企业级应用中实现:Oracle的编程工作现已由AI完成,开发者只需向模型声明程序目标,AI便会自主生成执行步骤,标志着软件开发从流程编写转向意图声明的范式转变。

查看原推 ↗
Berryxia.AI@berryxia · 5月20日44

想做爆款就做“元内容”:别只发干货,要发“关于干货的干货”..... AI越带我越原始了,什么都要追求元XX😁

译想做爆款就做“元内容”:别只发干货,要发“关于干货的干货”..... AI越带我越原始了,什么都要追求元XX😁

查看原推 ↗
Rohan Paul@rohanpaul_ai · 5月20日37

AI made coding supply explode, but demand expanded with it. In the leading tech companies, the coders using AI, are 20X more productive Companies had thousands of code ideas they never reached earlier. AI suddenly unloking them all. ~ Marc Andreessen

译AI让代码供给爆发,但需求也随之增长。 在领先的科技公司中,使用AI的程序员生产力提升了20倍。 公司此前有成千上万的代码构想未能实现,AI突然解锁了所有这些可能。 ~ Marc Andreessen

查看原推 ↗
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月21日
04:33
Ethan Mollick@emollick
48
我们最终知道OpenAI在IMO上获得金牌的是什么模型了吗?那是一年前的事了,当时被称为一个未发布的内部通用模型。GPT-5.5 Pro Extended是否已经赶上了那个模型?
OpenAI大佬观点推理
04:33
Ethan Mollick@emollick
72
又是The Graph(不是METR的图,是o1发布时的那张图)。 虽然能力并未随计算量增加呈现对数衰减……

Noam Brown: This is a general-purpose LLM. It wasn't targeted at this problem or even at mathematics. Also, it's not a scaffold. We ...

OpenAI大佬观点推理模型发布
04:06
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
51
为何大多数对齐工作都是徒劳,一张图说明 【引用 @AISafetyMemes】:大多数对齐计划: 第一步)创造沙神 第二步)… 😈 欺骗沙神 😈 … 第三步)沙神永远忠诚 "当前的对齐工作,不过是在沙王巨怪脸上涂口红。" -@romanyam

AI Notkilleveryoneism Memes ⏸️: Most alignment plans: Step 1) Create sand gods Step 2) ... 😈 Trick the sand gods 😈 ... Step 3) Sand gods remain loyal ...

安全/对齐现象/趋势
03:48
Noam Brown@polynoamial
67
数学家Tim Gowers关于@OpenAI模型在Erdos单位距离问题上取得突破的重要长文! 【引用 @wtgowers】:如果你是数学家,那么在继续阅读之前,你可能需要确保自己是坐着的。

Timothy Gowers @wtgowers: If you are a mathematician, then you may want to make sure you are sitting down before reading further.

OpenAI大佬观点推理
03:48
宝玉@dotey
62
美国大学毕业典礼嘉宾鼓吹AI遭学生强烈嘘声

近日,美国多所大学毕业典礼上,嘉宾赞扬人工智能的言论引发学生集体嘘声。前谷歌CEO埃里克·施密特在演讲中将AI比作“火箭船票”,鼓励毕业生组建AI团队,却遭遇持续哄场,他承认恐惧合理但坚持AI将塑造世界。其他演讲者称AI为“工业革命”或“改写行业”也引发类似反应。学生不满源于就业压力,认为鼓吹AI变革的嘉宾正是推动自动化、可能导致岗位减少的群体。民调显示美国人对AI热情降温,愤怒情绪上升。

现象/趋势行业动态
03:35
Chubby♨️@kimmonismus
63
"我们距离AGI只有几年之遥(……)现在就能开始感受到。2026、2027年就是它开始的时候。" Demis Hassabis从未以制造炒作闻名。听他说我们正走在通向AGI的道路上,真的让我很兴奋。
DeepMind大佬观点现象/趋势
03:35
Chubby♨️@kimmonismus
62
AI改变世界:"工业革命的10倍规模,以10倍速度推进,即100倍"(Demis Hassabis) 【引用 @kimmonismus】:"我们距离AGI仅剩数年(…)现在已能初见端倪。2026、2027年将是起点。" Demis Hassabis向来不以制造热点著称。听他坦言我们正走在通向AGI的道路上,令我倍感振奋。

Chubby♨️: "We are only a few years away from AGI (...) we can start feeling it now. 2026,2027 is when it's starting." Demis Hassab...

DeepMind大佬观点
03:06
Rohan Paul@rohanpaul_ai
71
Anders Hejlsberg(C#、TypeScript创造者):AI已将软件工作从编写代码转变为审查智能体编写的代码、架构和监督。 "我们都在变成项目经理"
大佬观点编码
02:36
Rohan Paul@rohanpaul_ai
64
英伟达CEO黄仁勋:"有人认为全球GDP上限是100万亿美元。但更可能发生的是,AI将使这100万亿变成200万亿、300万亿、500万亿。GDP的规模没有根本性的上限。"
大佬观点现象/趋势
02:01
Emad@EMostaque
6
分析表明,取消美国下半部人群的联邦税可惠及数百万人,对总税收影响有限(仅占3%),并有望为经济增添超千亿美元。Jeff Bezos指出,此举是不从民众口袋取钱的直接方式,对低收入群体意义重大。

Jeff Bezos: Thank you. The important part is zeroing out taxes on the bottom half. Best way to put money in someone's pocket is to n...

其他
01:56
AYi@AYi_AInotes
68
Meta泄露音频:员工培训AI后遭裁员,信任危机

近日,Meta CEO扎克伯格的内部音频泄露,他承认公司秘密收集员工键盘、鼠标和屏幕数据,用于训练Llama等AI模型,因Meta员工智力高可提升模型能力。然而,数据收集约20天后,Meta裁员8000人,引发“企业食人主义”批评:员工在不知情下训练可能取代自己的AI,资本剥削从时间升级到智慧。这损害了员工信任,揭示了AI时代高效但冷酷的用人逻辑——员工越优秀,其价值被快速榨取并抛弃的风险越高。

More Perfect Union: LEAKED AUDIO: In an all-hands meeting on April 30, Mark Zuckerberg tells employees that he's training AI on them ahead o...

Meta数据/训练现象/趋势
01:36
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
30
审判中最搞笑的时刻 【引用 @rocketalignment】:ELON: 如果我们制造大量机器人,必须确保它们安全,不能出现终结者那样的情况 KRY: 你什么意思 ELON: 嗯,如果你看过那部电影,就知道那不是什么好情况

🚀 Rocket Is Courtside: ELON: If we make a lot of robots we have to make sure they're safe, not a terminator situation KRY: What do you mean ELO...

其他安全/对齐
01:06
SemiAnalysis@SemiAnalysis_
34
如果你已加入氛围编程浪潮(我们当然也加入了!),你可能注意到一个瓶颈:曾经"租个便宜CPU盒子"的步骤,如今已不再像过去那样简单常规了。(1/3) 🧵
现象/趋势编码
00:19
小互@xiaohu
63
Midjourney创始人称被Google TPU坑惨

Midjourney创始人暗示他们被Google的 TPU坑了 白白浪费了一年时间… 如果回到过去他会选择英伟达的GPU🤣 “这大概让我们的研究进度,比起一开始就完全采用 Nvidia 技术栈,落后了差不多一年。并不算特别理想。如果我能回到过去,我会从第一天开始就全部使用 Nvidia 的方案。”

David: @bubbleboi it probably put our research a year behind where it could have been if we were pure Nvidia stack, not totally...

Google图像生成大佬观点数据/训练
00:14
歸藏(guizang.ai)@op7418
40
Mac版豆包输入法试用体验

豆包输入法Mac版上线后,用户试用体验极佳,称其在准确性、中英文混合输入、专业名词识别和响应速度方面均为市面顶尖。与其他输入法相比,它解决了过度优化和无法实时预览的痛点,实现“言出法随”的快速输出与实时润色,避免乱加Markdown格式。对于如Claude Code、AntiGravity、Perplexity等专业术语与中文混合的场景,豆包输入法处理出色,用户已完全依赖其手机和电脑端。未来期待支持自定义提示词润色功能,但目前识别能力已无可挑剔。

端侧评测/基准语音
00:13
OpenRouter@OpenRouter
精选70
提示💡 你无需担心自动路由(以及所有单独模型)的缓存未命中问题 OpenRouter会将你的会话固定在一个模型/提供商上,直到缓存过期
教程/实践部署/工程

推荐理由:OpenRouter 这个 Auto Router 的缓存说明很实用,会话会被固定在一个提供者直到缓存过期,不用担心切换带来的不一致,API 开发者看一眼能省事。
00:02
向阳乔木@vista8
精选75
开源插件为Codex App增添高级功能

一个开源项目允许用户增强Codex App的功能。即使通过API登录,也能通过安装插件的方式启用Computer Use特性并添加Goal指令。项目还支持界面自定义,例如调整为类似Chrome浏览器的顶部Tab样式,并可设置任务开始和完成的提醒音效。相关开源项目地址已在评论区提供。

智能体MCP/工具OpenAI开源/仓库

推荐理由:这不只是个插件,它把 Codex 从只能聊天变成了能动手的 Agent,用 API 登录也能开 Computer Use,是给开发者装上了超能力的实用补丁。
5月20日
23:56
AYi@AYi_AInotes
63
Kimi 10分钟建站,零代码打造可售网站

Kimi 2.6能够一键生成获奖级别的网站,全程无需代码。配套的详细视频教程时长近10分钟,可指导用户快速上手,在极短的时间内产出可用于销售的成品网站,大幅降低了利用AI进行独立开发与变现的门槛。

AYi: Kimi做网站设计这么牛逼吗? 这个视频分享了怎么用Kimi 2.6做获奖10美元的网站, 教程讲的特别细, 需要字幕学习的可以评论区留言告诉我!

教程/实践编码
23:45
swyx🛬 SFO@swyx
60
虽然迟了很久,但现在回想起来,我认为@sama那句富有传奇色彩的"构建一个随模型进步而变得更好的业务",基本上就是我在这里所说的Agent Labs。 看到模型性能与Agent Labs收入之间存在非常直接的关联,在2025年第四季度出现断层。 (摘自@patrickc的Stripe Sessions)

swyx🛬 SFO: New @latentspacepod Essay: why Agent Labs are clearly emerging in 2025 as a complement to Model Labs' all becoming AI Cl...

智能体大佬观点现象/趋势
23:33
elvis@omarsar0
73
自我改进的AI是件大事!

作者探索利用Fireworks AI Agent,通过自然语言交互自动化完成大语言模型的微调流程。他以Qwen小模型为例,调整其输出风格以优化PaperWiki项目的扩展效率。这一方法灵感源于@karpathy关于LLM知识库的推文,强调微调是让模型更“懂”数据的关键步骤。核心观点是自动化微调可推动构建可递归自我改进的AI系统,最终目标是打造一个能自我优化、用于知识发现和端到端自动化研究的强大工具。

elvis: http://x.com/i/article/2056851733582880768

智能体开源/仓库教程/实践数据/训练
23:14
歸藏(guizang.ai)@op7418
63
墨水屏新用途:AI推送与磁吸名片场景

墨水屏硬件可通过AI推送日历、待办事项等基础信息,利用磁吸设计便捷固定。关机时,借助墨水屏的常显特性可切换为电子名片,简化社交场合的加好友流程。该方案将打包为Skills分享,为同类硬件用户提供实用参考。

教程/实践端侧
23:03
elvis@omarsar0
74
通过AI代理自动化微调,将知识注入大语言模型权重

本文探讨了通过微调,将个人知识库(如LLM Wiki)的内容从依赖上下文窗口,转变为固化到模型自身权重中的方法。关键在于利用如Fireworks Agent这样的自主AI代理,仅需提供自然语言目标,它就能自动完成从数据准备、训练到部署的完整微调流程。这标志着模型自我改进的闭环成为可能:当训练成为AI工作流中一个可调用的步骤时,模型能主动将反复使用的模式(如特定写作风格或决策逻辑)学习并内化到权重中,从而实现使用与优化的持续迭代。

智能体MCP/工具教程/实践数据/训练
22:35
Chubby♨️@kimmonismus
43
从现在起,我需要知道: Seedance到底有什么魔力,能让他们的Model 2.0在Google I/O之后依然遥遥领先? Seedance 2.0是在二月发布的(!)。 Model 3.0应该快了,而目前还没有任何模型能接近2.0的水平。

JSFILMZ: Google promised that Gemini Omni Flash would change the game, but when you put it side-by-side with Seedance 2.0... it's...

Google图像生成大佬观点视频
22:33
elvis@omarsar0
59
播客《Agentic Review》推荐:聚焦AI编程的务实对话

推荐QodoAI出品的播客《Agentic Review》,该节目以平衡的视角探讨AI代码生成的真实场景。通过主持人与Dexter Horthy、Scott Hanselman等嘉宾的深度对话,节目强调了上下文工程作为关键技术壁垒的重要性,并指出AI无法弥补破碎的开发流程,反而更凸显了代码审查与工程技艺的持续价值。核心观点认为,尽管编码方式可能变革,但软件开发生命周期的本质与严谨性将更加重要。节目避免了过度炒作或悲观论调,为AI工程师提供了有价值的实践参考。

智能体大佬观点编码
22:08
Berryxia.AI@berryxia
72
性能飞跃但成本激增,Gemini 3.5 Flash重新定义"轻量"?

Google发布的Gemini 3.5 Flash在性能上实现飞跃,智能指数达55分,超越Grok 4.3等竞品,幻觉率大幅下降,输出速度超280 tokens/s。然而,其运行成本是前代的5.5倍,定价显著提高,引发对“Flash”是否仍代表“便宜”的讨论。该模型已在ZenMux平台开放免费体验,实际测试显示效果惊艳,在多项Agent和多模态榜单中表现顶尖,标志着顶级智能与极致速度的新结合。

Berryxia.AI: 兄弟们! 今天已经可以在ZenMux上免费体验Gemini 3.5 Flash 了! 我第一时间用它跑了那个经典的「AI模型递归二叉树生长测试」. 同一个 Prompt ,不同模型画出的树形态完全不一样。(见视频-Prompt见评论区) G...

Google多模态推理评测/基准
22:08
Berryxia.AI@berryxia
59
黑神话悟空带火山西小西天,3D数字模型上线

推文分享了在通关《黑神话:悟空》后,对游戏中小西天场景原型——山西临汾隰县小西天悬塑艺术的震撼与实地探访。一个团队通过实地拍摄数千张照片,使用 Gaussian Splatting (3DGS) 技术,将其建成了一个可在线漫游的 3DGS 数字存档。该模型旨在保留明代悬塑密集的金色空间、细节与光感,让观众得以在屏幕前细细欣赏这一通常因平面印刷限制而难以被充分展现其震撼力的艺术瑰宝,并配有专门音乐。

MasterPa: 小西天,看着像视频,但其实是我们在现场实地拍摄 3,811 张 206 GB 的照片后建模的。FUNES 把《黑神话:悟空》里「既见未来,为何不拜」满天神佛的原型,来自自山西临汾隰县的小西天,做成了一个可漫游的 3DGS 数字存档。 完全实...

图像生成教程/实践
22:03
Ethan Mollick@emollick
52
我开始难以集中注意力阅读即使是有趣的信息,如果它们是用Claude或ChatGPT的典型风格写成的。我认为部分原因是节奏的雷同,而非明显的语言癖好:Claude总是如此断断续续。ChatGPT则偏爱用短句作为收尾。很无聊。
AnthropicOpenAI大佬观点
21:47
meng shao@shao__meng
36
Claude Design 发布一个月了,还有朋友记得它吗? 从 Google Trends 看,Claude Design 在进入 5 月后,迅速回落到发布前的数值。。
Anthropic产品更新现象/趋势
21:46
宝玉@dotey
44
title_zh:

David Hill: we've been busy redesigning the desktop app from the ground up the beta taught us a lot most importantly, that left side...

智能体大佬观点
21:16
meng shao@shao__meng
49
最近面试过程中,用 AI 辅助的候选人,明显多起来了 😄

面试中AI辅助效果不佳,回答泛泛缺乏针对性。深入项目经验时,AI只复述概念,不分享实际工程问题。面试官指出,AI能应对概念提问,但实战经验如工程“坑”无法替代,候选人需依赖真实能力。

智能体现象/趋势
21:08
Berryxia.AI@berryxia
5
推文描述了高强度训练后的身体反应,训练者得到教练肯定,但感到腿部明显发软与酸胀。文中将自身感受与提及的"香鱼"的腿部发软情况作了对比,并用"太酸爽"来形容整体的训练体验。

Berryxia.AI: http://x.com/i/article/2056641313874083840

其他
21:01
Emad@EMostaque
32
搞明白了 【引用 @karpathy】:个人动态:我已加入 Anthropic。我认为未来几年在大语言模型前沿领域将尤为关键。我非常兴奋能加入这里的团队并重返研发工作。我依然对教育充满热情,并计划适时恢复相关工作。

Andrej Karpathy: Personal update: I've joined Anthropic. I think the next few years at the frontier of LLMs will be especially formative....

Anthropic大佬观点
20:33
Ethan Mollick@emollick
62
递归自我改进的一个有趣附带效应是,只要它还在发生,就会让三大实验室对人才更具吸引力,同时缩短潜在竞争对手的启动窗口。

rohit: The most interesting fact here is that Andrej did not raise a few billion dollars to do what he'd supposedly be doing no...

大佬观点行业动态
20:08
Berryxia.AI@berryxia
70
本地AI生图"意外"加速,Draw Things新发现

在开源生图软件Draw Things中,一项意外发现显著提升了本地AI生图速度。将原为Z-Image Base训练的Z-Image-Fun-Lora-Distill与Z Image Turbo搭配使用后,原本需要8-9步的生成过程可缩减至3-4步,大幅缩短了本地生成时间,同时保持了画质与细节的稳定。这一组合有效突破了此前本地生图速度较慢的限制。

Draw Things: 🔍 An interesting discovery! 🧩 Z-Image-Fun-Lora-Distill from alibaba-pai was originally trained for Z-Image Base, with ...

图像生成开源生态教程/实践
19:45
swyx🛬 SFO@swyx
47
IMO深度研究自o3以来已近乎停滞,而交互性对于主动学习和激发意图始终更为重要。 不假思索的提示 → 写出无人阅读的长篇报告 不如 阅读 → 思考 → 提问 → 阅读 → 思考 → 提问

swyx🛬 SFO: getting some yeses getting some nos. have you run a Deep Research recently?

OpenAI大佬观点推理
18:13
Peter Steinberger 🦞@steipete
72
强烈推荐@cotypist https://cotypist.app 。全场景自动补全。
其他编码
17:35
Rohan Paul@rohanpaul_ai
40
Dario Amodei非常反对向中国出售美国芯片。 "这真的很可怕,我们必须阻止它。"
Anthropic大佬观点政策/监管
17:35
Rohan Paul@rohanpaul_ai
54
Marc Andreessen指出AI在医疗、法律、会计、政治、营销和软件开发等多个领域均已成为世界级专家,能力超越绝大多数人类专业人士。引用Larry Ellison的实际案例说明这一趋势已在企业级应用中实现:Oracle的编程工作现已由AI完成,开发者只需向模型声明程序目标,AI便会自主生成执行步骤,标志着软件开发从流程编写转向意图声明的范式转变。

Rohan Paul: Larry Ellison says AI is now writing Oracle's Code. "We just tell the model what we want the program to do, and then the...

大佬观点编码
17:07
Berryxia.AI@berryxia
44
想做爆款就做"元内容":别只发干货,要发"关于干货的干货"….. AI越带我越原始了,什么都要追求元XX😁
大佬观点现象/趋势
16:05
Rohan Paul@rohanpaul_ai
37
AI让代码供给爆发,但需求也随之增长。 在领先的科技公司中,使用AI的程序员生产力提升了20倍。 公司此前有成千上万的代码构想未能实现,AI突然解锁了所有这些可能。 ~ Marc Andreessen
大佬观点编码
‹ 上一页
1…4647484950
下一页 ›