标签 nano banana 下的文章

小米发布 REDMI Turbo 5 系列手机

1 月 29 日,小米正式发布 REDMI Turbo 5 系列手机。

其中,REDMI Turbo 5 Max 搭载基于 3nm 工艺打造的天玑 9500s 芯片。据悉,天玑 9500s 采用了全大核架构并配备了大规模缓存,CPU 最高主频达 3.73GHz,缓存容量提升至 29MB。屏幕与设计方面,新机配备 6.83 英寸 1.5K 分辨率屏幕,采用 M10 新型发光材料,峰值亮度最高达 3500nits,支持 3840Hz PWM 与 DC 双重调光。

LaoabEMAKobA1Px26BGcIAYBnQg

续航与充电方面,REDMI Turbo 5 Max 内置 9000mAh 池,官方称续航表现可媲美部分 10000mAh 机型,支持 100W 有线快充、100W PPS 协议以及 27W 有线反向充电。影像上,红米 Turbo 5 Max 搭载 50MP、 ƒ/1.5、1.6um 像素高动态主摄,并支持高动态视频拍摄。

REDMI Turbo 5 Max 有黑色、蓝色、白色和橙色 4 个颜色,基础款 12GB 内存、256GB 存储,起售价格为 2499 元。

TQ0CbtXCZo3tSOxbPNDcYqKNnEw

REDMI Turbo 5 标准版则采用了基于 4nm 工艺打造的天玑 8500-Ultra 芯片。屏幕尺寸为 6.59 英寸,其他参数和 REDMI Turbo 5 Max 保持一致。,REDMI Turbo 5 内置 7560mAh 大容量电池,支持 100W 有线快充、27W 有线反向充电,并兼容百瓦级 PPS 快充协议。REDMI Turbo 5 标准版有黑色、青色和白色 3 个颜色,基础款 12GB 内存、256GB 存储,起售价格为 1999 元。来源


微信发布针对第三方违规行为的专项打击公告

1 月 29 日,微信发布针对第三方违规行为的专项打击公告,重点整治虚假营销、过度营销及危害数据安全等行为。

微信表示,近期结合用户投诉举报,对严重扰乱生态秩序、侵害用户权益的第三方违规行为开展集中治理,主要包括虚假营销及相关欺诈行为、过度营销与诱导分享行为,以及违规获取用户数据和使用外挂工具等危害隐私与安全的行为。平台将依据相关法律法规及多项微信平台协议,对违规链接、小程序和第三方 App 采取限制访问、功能封禁、下架封号等分级处置措施。

微信还表示,虚假营销行为涉及虚构返利抽奖、冒充官方身份诈骗等手段,常伴随用户财产损失与个人信息非法采集;过度营销通过高频推送和强制跳转影响体验;外挂及数据窃取行为则通过自动化脚本和技术手段操控微信功能,直接威胁平台安全。微信称将结合技术巡检与用户举报持续清理相关违规行为。来源


MiniMax 稀宇科技发布 MiniMax Music 2.5 模型

MiniMax 稀宇科技于 1 月 29 日正式发布音乐生成模型 MiniMax Music 2.5。该模型支持全段落标签控制,精准支持包括 Intro(前奏)、Bridge(桥段)、Interlude(间奏)、Build-up(情绪铺垫)及 Hook(副歌)在内的 14 种音乐结构变体,可用于高复杂度音乐作品的创作表达。

GDGLbFp4toZeuExQNtRc5ynwnac

针对华语流行音乐场景,MiniMax Music 2.5 也进行了深度优化,覆盖慢歌、说唱以及纯中文与中英文混搭等多种风格,并优化了人声合成,能实现更连续细腻的转音、自然起伏的颤音,以及胸腔与头腔共鸣的灵活切换。在男女对唱场景中,MiniMax Music 2.5 可呈现更具协同感的声线配合,支持交替演唱和多层次和声表现。

音色方面,模型支持 100 余种乐器,并对混音处理进行优化,可以保持人声与伴奏清晰分离。同时,MiniMax Music 2.5 深度适配专业创作工作流,官方表示其可应用于影视配乐、游戏动态音效、录音室级流行音乐制作及品牌定制声音设计等专业场景。来源


微软承诺与 Copilot 互动不用于训练 AI

微软于 1 月 28 日发布声明,回应外界对其数据收集与隐私保护的长期关注,重申用户对个人数据拥有完全控制权,可随时访问、转移或删除相关信息,且数据仅在获得用户同意后才会用于个性化广告等用途。

DRWSbN76poXnjXxil9OcYIMkn6e

针对企业及个人用户对 Microsoft 365 Copilot 的隐私担忧,微软进一步承诺将严格隔离用户提示词、生成内容及业务数据,明确不会将其用于训练包括基础大语言模型(LLMs)在内的任何 AI 系统。微软表示,Copilot 将全面继承 Microsoft 365 现有的身份管理、权限控制与合规体系,确保组织数据始终保留在企业自身租户环境中,不会被外部访问或泄露。来源


Chrome 浏览器引入 Gemini 自动浏览功能

Google 于 1 月 29 日宣布为 Chrome 浏览器引入全新 AI 能力,将 Gemini 3 技术深度整合至浏览器侧边栏,提供更智能的交互体验。

AxUSb3lkGoTmuhxO2xqcgXEanDN

同时,Chrome 推出名为「自动浏览」的新功能,面向订阅 Google AI Pro 或 Ultra 的用户开放,支持通过自然语言指令让 AI 代为完成多步骤操作,包括跨网站打开页面、填写表单、比价、管理预约及订阅等流程,从而减少重复操作。在涉及支付或内容发布等敏感行为时,系统仍需用户手动确认。

此外,浏览器右侧新增的 Gemini 面板可与 Gmail、日历、地图、航班及购物等服务联动,AI 能基于跨应用数据提供智能建议,例如从邮件中提取行程信息并匹配航班后自动生成日程安排。Chrome 还内置生成式图像工具 Nano Banana,用户可直接在浏览器内通过文字提示生成或编辑图像内容。来源


特斯拉计划停产 Model S 与 Model X

马斯克在最新一次财报电话会议中向投资者透露,特斯拉计划于 2026 年第二季度停止生产 Model S 与 Model X 两款车型,以便在弗里蒙特工厂为 Optimus 人形机器人项目腾出制造产能。他表示,这一调整反映出公司战略重心正逐步向自动驾驶与机器人技术领域转移,并建议有意购买上述车型的消费者尽早下单。

Model S 于 2012 年推出,Model X 于 2015 年发布,曾长期作为特斯拉旗舰产品线的重要组成部分。随着公司资源逐步向 Model 3 与 Model Y 倾斜,两款高端车型销量持续走低。数据显示,2025 年归入「其他车型」类别的销量同比下滑超过 40%,与此同时特斯拉第四季度利润亦出现明显下降。来源


看看就行的小道消息

  • 有消息称,罗技 G 即将正式发布 G325 LIGHTSPEED 头戴式无线耳机。该产品搭载 32 mm 驱动单元,阻抗为 32 Ω;配备全向收音波束成形麦克风,并支持 AI 降噪与 24-bit 音频。在设计上,耳机采用无缝透气针织布料、柔软头带与双层耳罩,整机重量为 212 g。连接方面,支持蓝牙 5.2 以及 2.4 GHz 罗技 LIGHTSPEED 无线模式,电池续航超过 24 小时。价格方面,耳机定价为 79.99 欧元。来源
  • 树莓派官方正筹备为 Compute Module 5 推出一款智能显示模块。该模块本质上是一块适配板,可将 CM5 的算力与能效直接集成至兼容显示屏,同时额外提供 HDMI 输出接口,用于驱动第二路独立视频信号,以满足多屏显示或复杂信息呈现需求。模组板还预留 M.2 扩展插槽,便于用户加装 AI 加速模块,为本地推理与智能应用预留算力空间。该智能显示模块将遵循 Intel SDM 规范设计,官方将其定位于航班信息系统、零售与企业数字标牌以及工业级显示终端等应用场景。据悉,该模块计划于今年晚些时候推出,并将于下周在西班牙举行的 ISE 2026 展会上首次公开亮相。来源


少数派的近期动态

  • 我们正在优化并改进新的首页版式,如果你在使用过程中发现了任何问题或者有改进建议,请通过反馈表单告知我们。首页反馈收集
  • 将设计装进耳朵:少数派×飞傲联名 CD 机盖板设计大赛已经开始啦。了解详情
  • 比第三方 Apps 更好使:盘点 Apple 生态经典好用的原生应用。看看都有啥

你可能错过的好文章

> 下载 少数派 2.0 客户端、关注 少数派公众号,解锁全新阅读体验 📰

> 实用、好用的 正版软件,少数派为你呈现 🚀

    Andrej Karpathy:过去一年大模型的六个关键转折

    本文共 2836 字,阅读预计需要 4 分钟。

    一边是模型光靠"多想一会儿"就能解出奥数题,另一边是刷爆排行榜的选手被用户吐槽"中看不中用"。

    2025年的AI圈,弥漫着一股诡异的气息:

    参数规模不再是唯一的军备竞赛指标,但模型能力却在某些维度上狂飙突进。

    这到底发生了什么?

    Andrej Karpathy——前OpenAI研究总监、曾掌舵特斯拉AI团队的技术大牛——在年终复盘中抛出了一个判断:

    2025年LLM的真正突破,不在于模型变大,而在于我们"驯养"它的方式、理解它的视角、以及使用它的姿势,都发生了根本性的变化。

    这篇文章,我会带你拆解Karpathy眼中的六个范式转变,聊聊它们对普通人意味着什么,以及有哪些坑是你现在就该绕开的。

    一、RLVR:训练范式的静默换代

    2024年之前,大模型训练三板斧:预训练、监督微调、RLHF。但RLHF的瓶颈很明显——依赖人工标注,成本高、速度慢

    2025年,RLVR(基于可验证奖励的强化学习)开始上位。核心逻辑很简单:用有标准答案的任务来训练。数学题对不对?代码能不能跑?机器自己就能验证。

    打个比方:RLHF像请老师批改作文,标准不一;RLVR像做数学卷子,对就是对、错就是错。

    RLVR还解锁了一个调节旋钮:让模型"多想一会儿"

    生成更长的推理链,就能换来更强能力。OpenAI的o1到o3,DeepSeek的R1,都是这条路线的产物。

    以前比谁模型参数多,现在比谁的强化学习跑得久。

    二、召唤幽灵,而非驯养动物

    Karpathy用了一个隐喻:我们不是在"培育动物",而是在"召唤幽灵"

    动物智能是进化塑造的,能力配合天衣无缝。

    但LLM的"大脑"是为了预测下一个词、在数学题里拿分——这些目标和生存没关系

    结果就是"锯齿状智能":某些任务碾压专家,另一些任务犯低级错误。

    它能写出逻辑严密的报告,但是转头就被越狱提示词骗了。

    实际后果是:别迷信基准测试。 LLM团队为了刷榜,围绕测试题大量生成训练数据,榜单漂亮,实际用起来翻车。

    幽灵的能力是尖刺的、不可预测的。用的时候,得时刻警惕。

    三、Cursor与新应用层:上下文工程的价值爆发

    2025年,Cursor没有自己训练模型,但估值从4亿飙到99亿美元。它做对了什么?

    答案是上下文工程——在调用大模型时,精心设计给它的信息环境:提示词怎么写、代码库怎么索引、多次调用怎么编排。

    Karpathy的观点是:LLM实验室培养"通才大学生",应用层把他们培养成"垂直专家"。桥梁就是上下文工程。

    直接问ChatGPT和用Cursor写代码,体验天差地别。Cursor自动索引代码仓库,理解文件依赖,提问时自动塞入相关上下文。这不是模型能力差距,是信息组织方式的差距

    启示很清晰:模型会迭代,但上下文工程能力可以沉淀,能无缝迁移到下一代模型。

    这也是我一直以来坚持上下文工程优先的原因。

    四、Claude Code:AI从"网站"变成"室友"

    Claude Code是Anthropic推出的命令行工具,特别之处在于:直接运行在本地电脑上,访问你的文件、配置、密钥。后续Copilot等工具也相继推出了这样的开发模式。

    Karpathy说:它不再是需要打开浏览器的网站,而是"寄居"在电脑里的小精灵

    本地运行的好处:AI直接读取电脑上的上下文——装了哪些软件、项目代码长什么样,不需要手动复制粘贴。

    更重要的是延迟和隐私——云端来回几百毫秒,敏感数据发到第三方合规部门不同意。

    当然也有隐患:一个能操作本地文件的AI,权限边界怎么划定?

    五、Vibe Coding:代码正在变得廉价

    Karpathy造了个词叫"Vibe Coding"——氛围编程。

    用自然语言描述需求,AI帮你写代码,你甚至不需要"懂"代码

    2025年这事跨过了临界点。之前AI写代码问题多,需要人debug。现在很多简单项目,从想法到可运行程序,一气呵成。

    Karpathy自己用它写了Rust版tokenizer(不需要学Rust)、做了好几个小应用原型、甚至写过临时应用定位bug——用完就扔。

    他的原话是:代码变得廉价、短暂、可塑、用完即弃。

    对普通人意味着什么?"我有想法但不会代码"这个门槛,正在消失。

    六、Nano Banana:LLM的GUI时代前奏

    Google的Gemini Nano Banana让Karpathy特别兴奋。

    核心不是图像生成能力,而是文本、图像与世界知识在模型权重中的深度融合

    现在"跟LLM对话"像1980年代敲命令。文本是机器原生语言,但人更喜欢视觉化呈现——这正是GUI被发明的原因。

    LLM也需要自己的GUI——用图片、信息图、动画跟我们沟通。Nano Banana就是这个方向的早期预演。

    写在最后:可立即落地的三个建议

    拉回来说说,这六个范式转变对你意味着什么。

    如果你是创业者,最重要的启示是:模型能力会继续涨,但涨的方式变了。与其追着模型跑,不如在上下文工程上建立壁垒。Cursor的成功已经证明了这条路。

    如果你是开发者,Vibe Coding值得你认真对待。不是说它会取代你,而是说它能让你的生产力翻倍。把重复性的代码工作交给AI,把精力放在架构设计和业务逻辑上。

    如果你是普通用户,最重要的是调整预期。AI既不是全能的神,也不是彻底的废物——它是一个能力极度不均匀的"幽灵"。用好它的尖刺能力,同时对它的盲区保持警惕。

    三个行动建议,作为结束:

    投资上下文工程能力。学会设计提示词、组织RAG检索、编排多步调用,这是当下性价比最高的AI技能。

    用Vibe Coding降低创意落地门槛。你脑子里的想法,别再等"等我学会编程再说",现在就可以试着让AI帮你实现。

    理解锯齿状智能,设置人工校验。在享受AI效率提升的同时,别忘了在关键环节保留人工把关。

    2025年是LLM的分水岭。规则变了,玩法也得跟着变。

    2026年,又会有什么新的成果出现呢?评论区聊聊你的看法

    既然看到这了,如果觉得不错,随手点个赞、收藏、转发三连吧~

    我是Carl,大厂研发裸辞的AI创业者,只讲能落地的AI干货。

    关注我,更多AI趋势与实战,我们下期再见!

    数据来源

    Karpathy 2025年终复盘原文 [数据|2025|https://karpathy.bearblog.dev/year-in-review-2025/]

    RLVR训练范式说明:基于可验证奖励的强化学习 [数据|2025|Karpathy原文]

    DeepSeek R1推理能力展示 [数据|2025|DeepSeek R1论文]

    Cursor估值变化:$400M(2024.8) → $9.9B(2025.6) [数据|2024-2025|https://techcrunch.com/tag/cursor/]

    OpenAI o1/o3推理模型发布 [数据|2024-2025|OpenAI官方]

    Claude Code产品发布与功能说明 [数据|2025|Anthropic官方]

    Vibe Coding概念由Karpathy在Twitter提出 [数据|2025|https://x.com/karpathy/status/1886192184808149383]

    Google Gemini Nano Banana多模态融合能力 [数据|2025|Google官方]

    使用 Cliproxy,Donehub, Antigravity Tools 反代出来的 api 生图是不能联网的。
    使用 gemini-business2api 的生图,Nano banana 可以联网检索。不过默认没有 4k,看哪位大佬搞下。

    设置如下,使用的是 url,cherry studio 里边给出的链接,就可以打开图片。联网是可以选择的。

    2api 的设置如下

    gemini-business2api 项目见链接

    使用的 linux docker 安装,opus 给的一个一键教程代码。


    📌 转载信息
    原作者:
    synbio
    转载时间:
    2026/1/19 18:30:11

    发现一家提供免登入可用 Nano Banana 生图的站
    有兴趣可以玩看看
    以下是我试着生成的图片及提示词

    提示词

    {
    “FaceReference”: {
    “Mode”: “Strict face preservation”,
    “Instruction”: “Use uploaded reference for exact facial features”,
    “Consistency”: “Face identical across all nine frames”
    },
    “GridComposition”: {
    “FocalLengthMix”: “35mm full-body to 85mm close-ups”,
    “PoseVariety”: [
    “Wide stance hands behind head”,
    “Palm extended toward camera”,
    “OK gesture over eye playful”,
    “Chin resting in both hands”,
    “Half face covered by hand”,
    “Twirling with hair flowing”,
    “Jumping with arms up”,
    “Looking over shoulder”,
    “Candid laughing”
    ]
    },
    “PersonaDetails”: {
    “Subject”: {
    “Type”: “Same as reference”,
    “Wardrobe”: “Light beige knit crop top, high-waisted blue jeans, delicate gold necklace”,
    “OverallPresence”: “Confident, radiant, approachable”
    }
    },
    “Environment”: {
    “Setting”: “Outdoor open sky”,
    “Background”: “Vibrant azure sky with clouds”,
    “Lighting”: {
    “Style”: “Harsh high-key natural sunlight”,
    “Quality”: “Crisp defined shadows”
    }
    },
    “ImageQuality”: {
    “Resolution”: “8K hyper-realistic”,
    “Aesthetic”: “High-end lifestyle campaign”
    },
    “NegativePrompt”: [
    “indoor”,
    “artificial light”,
    “different face”,
    “altered facial features”
    ],
    “ResponseFormat”: {
    “AspectRatio”: “1:1”
    }
    }

    偷偷说一下,目前我正在进行 APP 限免的板块申请
    如果可以的话希望大家支持一下!

    请进

    【APP 限免】 板块申请


    📌 转载信息
    原作者:
    josenlou
    转载时间:
    2026/1/15 18:20:57

    现在里面有六百多个提示词可以参考,有中文和英文,感觉很棒,分享一下

    安装后直接在页面上能点击弹窗输入提示词,默认有几个 NSFW 提示词,上班记得关掉(其实我感觉也不是很涩)


    📌 转载信息
    原作者:
    kazeLiu
    转载时间:
    2026/1/8 12:25:20

    利用 ai studio 做的 app,主要目的是为了生成提示词用于 nanobanana,预览图默认用的 Gemini 2.5 Flash Image,效果不如直接用到 nanobanana,也可以自己配置 api 接口,可以参考下效果,感觉还行,抛砖引玉,希望有大佬继续优化

    以下是贴给 nanobanana 的效果,更好了。

    这是项目链接,分享给大家

    https://ai.studio/apps/drive/172vxsOGcArmygKFVcNOvLLx8PWPrbV_k


    📌 转载信息
    原作者:
    Kavi
    转载时间:
    2026/1/8 12:11:37