From 70 items, 28 important content pieces were selected
AI 与工具
- SpaceX 拟以 600 亿美元收购 AI 编程工具 Cursor ⭐️ 9.0/10 · HN · 10:44
- 运行本地大语言模型已变得实用可行 ⭐️ 8.0/10 · HN · 14:36
- 机械手表工作原理的交互式深度解析 ⭐️ 8.0/10 · HN · 11:26
- 牦牛剃毛的乐趣与陷阱:软件开发中的深层反思(2019) ⭐️ 8.0/10 · HN · 14:26
- 内部政治与 AI 狂热被指侵蚀 Meta 工程文化 ⭐️ 8.0/10 · HN · 16:42
- GrapheneOS 已移植到 Android 17,官方版本即将发布 ⭐️ 7.0/10 · HN · 20:34
- 停止在浏览器会话中使用 JWT ⭐️ 7.0/10 · HN · 16:49
- 苹果 Hide My Email 功能更新或削弱隐私保护 ⭐️ 7.0/10 · HN · 18:37
- 苹果车辆运动提示动画点缓解晕车 ⭐️ 7.0/10 · HN · 16:12
- 《杀戮尖塔 2》定制 PRNG 实现跨平台种子一致性 ⭐️ 7.0/10 · HN · 09:46
数据仓库
- Apache Iceberg 提议新增 Variant 数据类型 ⭐️ 8.0/10 · GitHub · 12:52
- 利用有状态流处理开发合规 AI 代理 ⭐️ 8.0/10 · Confluent Blog (Kafka/Flink) · 21:40
- Databricks 为 Lakebase Postgres 推出 Lakebase Search 混合检索 ⭐️ 8.0/10 · Databricks Blog · 12:45
- Apache Iceberg 提议 REST 目录新鲜度感知表加载 ⭐️ 7.0/10 · GitHub · 00:50
- Apache Iceberg 提议为 Flink 增加水印与计算列支持 ⭐️ 7.0/10 · GitHub · 03:53
- Apache Iceberg 提议在提交时捕获并发送 Parquet 页脚指标 ⭐️ 7.0/10 · GitHub · 15:58
- Apache Iceberg 提议为 VARIANT 列加入虚拟字段元数据 ⭐️ 7.0/10 · GitHub · 03:00
- Databricks 发布 OpenSharing:面向 Agentic AI 时代的 Delta Sharing 升级版 ⭐️ 7.0/10 · Databricks Blog · 17:40
- Databricks 推出应用市场,简化 AI 应用发现与部署 ⭐️ 7.0/10 · Databricks Blog · 17:30
- Data + AI Summit 2026 上 Unity Catalog 更新,聚焦大规模 AI 代理 ⭐️ 7.0/10 · Databricks Blog · 13:25
GitHub 趋势
- n0-computer/iroh +326⭐: iroh:用公钥拨号的 Rust 模块化网络栈 ⭐️ 8.0/10 · GH Trending · 22:25
- meshery/meshery +229⭐: Meshery 云原生管理器单日揽获 229 星 ⭐️ 8.0/10 · GH Trending · 22:25
- OpenBMB/VoxCPM +413⭐: OpenBMB 推出 VoxCPM2:无分词器多语种语音合成与克隆模型 ⭐️ 7.0/10 · GH Trending · 22:25
- alibaba/zvec +188⭐: 阿里巴巴开源轻量级进程内向量数据库 zvec ⭐️ 7.0/10 · GH Trending · 22:25
- teslamate-org/teslamate +214⭐: TeslaMate 单日获 214 星 ⭐️ 6.0/10 · GH Trending · 22:25
- rmyndharis/OpenWA +185⭐: OpenWA 开源 WhatsApp 网关单日获 185 星 ⭐️ 6.0/10 · GH Trending · 22:25
- Universal-Debloater-Alliance/universal-android-debloater-next-generation +146⭐: 跨平台 Rust 安卓去臃肿 GUI 工具 ⭐️ 6.0/10 · GH Trending · 22:25
- swc-project/swc +21⭐: swc(Rust 编写的 JS 编译器)今日获星 21 枚 ⭐️ 6.0/10 · GH Trending · 22:25
AI 与工具
SpaceX 拟以 600 亿美元收购 AI 编程工具 Cursor ⭐️ 9.0/10
据报道,SpaceX 计划以 600 亿美元收购 AI 编程工具 Cursor 的开发商 Anysphere,此消息引发了对交易合理性及 AI 编码工具未来的广泛讨论。 这笔交易若达成,将是一家太空探索公司对 AI 开发工具领域的罕见跨界巨资收购,可能重塑开发者工具生态,并影响众多依赖 Cursor 的程序员。 600 亿美元的报价被社区评论形容为“足以建造 150 所世界最昂贵的现代医院”,交易的战略动机受到强烈质疑,SpaceX 是否正偏离核心业务引发关注。
hackernews · itsmarcelg · Jun 16, 10:44 · 社区讨论
背景: Cursor 是一款集成大语言模型的 AI 代码编辑器,可协助开发者自动补全、生成和修改代码,因智能代理等功能在开发者中快速普及。SpaceX 是埃隆·马斯克领导的私人航天公司,主营火箭发射和星链业务。此传闻中的收购突显科技巨头对 AI 开发工具战略价值的重视,也因其行业跨度之大而令市场意外。
社区讨论: 社区多数持怀疑态度:部分用户已弃用 Cursor,认为 Codex 和 Claude 体验更佳、干扰更少;有人质疑 SpaceX 高价收购 IDE 的合理性,称其“离奇”;也有用户分享 Cursor 的高性价比使用体验,觉得“好得不真实”,并对替代方案表达困惑。
标签: #acquisition, #AI, #IDE, #SpaceX, #Cursor
运行本地大语言模型已变得实用可行 ⭐️ 8.0/10
一篇技术文章指出,当前在本地运行大语言模型已经变得实用且具有优势,引发了关于本地与云端模型利弊的广泛讨论。 这标志着本地 AI 推理能力的成熟,可能推动更多开发者转向自托管方案,降低对云端 API 的依赖,影响 AI 行业的服务模式与定价策略。 社区讨论中指出了具体的权衡:密集模型如 Qwen 27B 更智能但较慢,混合专家模型如 Gemma 26B 更快但易出错,而 4 位量化工具会削弱工具调用能力。硬件需求方面,高效运行这些模型需要大量内存和强大显卡。
hackernews · jfb · Jun 16, 14:36 · 社区讨论
背景: Ollama 是一个用于在本地管理和运行大型语言模型的开源平台,提供命令行和 API 接口。llama.cpp 是一个用 C/C++实现的 LLM 推理库,是许多本地推理工具的核心。量化技术可通过降低模型精度来减少内存占用,但可能会影响模型性能。
社区讨论: 社区讨论总体较为分歧:部分用户分享实际体验,反映本地模型在速度和准确性上仍存在短板;另一些用户则对本地模型的长远价值表示乐观,认为其可避免订阅费用并实现数据自主可控,但需前期硬件投入。
标签: #local-llm, #ai, #machine-learning, #hackernews-discussion, #self-hosted
机械手表工作原理的交互式深度解析 ⭐️ 8.0/10
2022 年,一篇名为《机械手表》的交互式文章深入讲解了机械表的内部运作机制,凭借清晰直观的解释和高超的网页技术实现,在技术社区引发热烈讨论。 该作品展示了如何利用交互式网页将复杂知识化繁为简,为教育者、开发者树立了标杆,并直接启发读者制作了机械表实物分解视图,体现了开放知识共享的影响力。 整篇文章完全采用手写的原生 HTML、CSS 和 JavaScript 构建,未使用任何现代框架,即使在 iPhone 7 等老旧设备上也能流畅运行,凸显了标准 Web 技术的持久价值。
hackernews · razin · Jun 16, 11:26 · 社区讨论
背景: 机械手表是一种完全依靠机械零件运转的精密计时仪器,核心部件包括发条盒、摆轮游丝、擒纵机构和传动齿轮;发条储存能量,摆轮提供稳定振荡周期,擒纵轮间歇释放动力,齿轮组驱动指针精确走时。
社区讨论: 社区评论高度赞赏:有读者受启发制作了真实拆解可视化项目;教育工作者称赞其化繁为简的讲解极难做到;开发者则推崇纯手写代码的兼容性与匠人精神。作者低调将赞助链接放在页末,也获称许。
标签: #watches, #mechanical-engineering, #interactive-visualization, #education, #web-development
牦牛剃毛的乐趣与陷阱:软件开发中的深层反思(2019) ⭐️ 8.0/10
一篇 2019 年的旧文《But yak shaving is fun》重新引发社区热议,回顾了开发者为完成一个任务而陷入一连串琐碎子任务(俗称“牦牛剃毛”)的经历,并探讨其中的乐趣与代价。社区中不少开发者分享了个人轶事,并讨论了 AI 如何降低此类行为的成本。 该话题直击软件开发者常见的效率与深度困境,提醒人们在避免无谓耗时与追求创造力、深入理解之间取得平衡。尤其在 AI 工具普及的当下,它引发了关于自建工具与重复造轮子是否更划算的重新思考。 评论中,thimabi 指出借助 AI,构建自有工具的成本大幅降低,能带来更深刻的理解和性能收益;danielrmay 则认为反对牦牛剃毛会限制工程师的创造性,导致团队广度不足。此外,有评论者分享了持续 30 年的私人游戏引擎项目等长期案例。
hackernews · parksb · Jun 16, 14:26 · 社区讨论
背景: “牦牛剃毛”(Yak shaving)是编程界俚语,指为解决某个问题,必须先完成一连串看似无关的琐碎任务,就像为了给牦牛剪毛,需先准备工具、清理场地、捕捉牦牛等一系列步骤。该词形象描述了开发中容易偏离原目标的深度遍历状态。
参考链接
社区讨论: 讨论整体对“牦牛剃毛”持正面态度,许多人分享个人经历并视其为乐趣来源;有评论认为 AI 显著降低了探索的成本和风险,使深度自建更为可行;也有观点反对因此而羞愧,认为这有助于提升工程师的创造力和技术广度。
标签: #yak-shaving, #software-development, #productivity, #community-discussion, #AI
内部政治与 AI 狂热被指侵蚀 Meta 工程文化 ⭐️ 8.0/10
最新分析揭示 Meta 内部政治斗争、绩效配额制度以及对 AI 的过度聚焦正在侵蚀其工程文化,包括经理争夺员工绩效评级和强制将工程师调至数据标注岗位等现象。 该问题可能反映科技行业在 AI 热潮下普遍的工程文化退化趋势,影响工程师的创造力与留存,促使行业反思管理方式。 据内部人士透露,管理层为员工绩效评级激烈争斗,并强制 30-50%的核心团队工程师转做数据标注和 RLHF 工作,引发资源浪费争议。
hackernews · throwarayes · Jun 16, 16:42 · 社区讨论
背景: Meta 旗下拥有 Facebook、Instagram、WhatsApp 等产品,采用以‘桶’划分的绩效评级系统,经理需为团队争取更高评级。近年来,公司全力投入 AI 领域,大量资源向 AI 项目倾斜。
社区讨论: 评论中,有人质疑为何管理层不直接分配预算到团队;有前员工指出被收购的团队(如 WhatsApp)工程文化较好,而原生团队效率低;还有观点担忧 AI 狂热引发的管理混乱将成为新常态,并对 30-50%工程师被强制调岗的数据表示怀疑。
标签: #software-engineering, #engineering-culture, #meta, #tech-industry, #organizational-behavior
GrapheneOS 已移植到 Android 17,官方版本即将发布 ⭐️ 7.0/10
GrapheneOS 项目已将其代码移植到 Android 17(基于谷歌最新 Android 版本)上,官方发布即将推出,提供更长时间的安全补丁支持。 这将确保隐私和安全性敏感用户能够继续获得最新的系统更新,避免因系统版本过旧而面临风险,巩固 GrapheneOS 在注重安全的移动操作系统中的地位。 适配工作可能包括对 Linux 内核、硬件驱动及安全增强功能的调整,首个官方版预计支持最新的 Pixel 设备,具体机型尚未公布。
hackernews · Cider9986 · Jun 16, 20:34 · 社区讨论
背景: GrapheneOS 是一个非盈利的开源移动操作系统,基于 AOSP(Android 开源项目),专为隐私和安全设计,主要支持 Google Pixel 手机。它移除 Google 服务并引入沙盒化 Play、权限撤回、引脚随机化等高级特性。每个大版本 Android 更新都需要重新整合这些安全改进,因此移植工作至关重要。
社区讨论: 社区讨论热烈,用户纷纷表示期待,一些长期使用者称不会再回用原厂系统,尽管缺少一些便捷功能(如光标滑动和消息反应),但对隐私益处感到满意。也有用户询问 Android 17 的具体新变化。
标签: #GrapheneOS, #Android, #privacy, #security, #mobile-os
停止在浏览器会话中使用 JWT ⭐️ 7.0/10
一篇技术文章论证了在浏览器会话中使用 JSON Web 令牌的安全风险,并提倡使用替代方案,引发了社区关于服务间通信和令牌吊销策略的激烈讨论。 这挑战了广泛采用的 JWT 实践,可能影响 Web 身份验证架构的决策,尤其对前端和后端开发者具有重要启示。 文章主要针对浏览器会话场景,但社区指出 JWT 在服务间通信中仍有价值,且可通过短期有效和吊销列表等机制降低风险。
hackernews · dzonga · Jun 16, 16:49 · 社区讨论
背景: JSON Web 令牌(JWT)是一种开放标准(RFC 7519),用于在各方之间安全地传输 JSON 对象。它通过数字签名实现可验证性,常用于 Web 应用的身份验证和授权。JWT 通常由服务端签发,客户端存储并在后续请求中附带,从而实现无状态会话。然而,其无状态特性也带来了令牌吊销和安全性方面的挑战。
参考链接
社区讨论: 社区普遍认可 JWT 在浏览器会话中存在的风险,但大量评论强调 JWT 适用于服务间通信,并可通过短期令牌、刷新机制和吊销列表来有效管理。部分人认为作者的立场过于绝对,忽视了这些实用策略。
标签: #JWTs, #security, #authentication, #web development, #session management
苹果 Hide My Email 功能更新或削弱隐私保护 ⭐️ 7.0/10
苹果计划将 Hide My Email 和 Sign in with Apple 的邮件别名统一迁移至@private.icloud.com 子域名。此举将使网站更容易通过域名黑名单批量屏蔽这些别名,降低其隐私保护效果。 这一变化将严重影响依赖 Hide My Email 保护真实邮箱地址的用户,因为网站可以简单地阻止所有来自该子域名的邮件,使得别名功能失去作用。隐私倡导者需寻找自定义域名等替代方案。 目前,用户仍可生成@icloud.com 的别名,且每小时至少可创建 30 个。但迁移后,所有别名都将使用同一子域名,失去原有的分散性。该更改尚未正式实施。
hackernews · SXX · Jun 16, 18:37 · 社区讨论
背景: Hide My Email 是苹果 iCloud+的一项功能,可为用户生成随机的邮件别名,转发至真实邮箱,从而隐藏真实地址。此前,这些别名使用不同的域名,但现在苹果计划统一至@private.icloud.com。共享子域名更容易被网站识别和封禁,类似 SimpleLogin 等免费邮件别名服务也面临同样的问题。
参考链接
社区讨论: 社区中,有用户认为‘无用’之说过于夸张,因为那些会屏蔽隐私邮件地址的网站原本就可能使用一次性邮箱。也有人质疑为何统一子域名反而使封禁更容易。部分用户建议使用自定义域名或 Catch-All 功能作为替代方案,并提醒趁现在多生成@icloud.com 别名。
标签: #privacy, #apple, #email, #hide-my-email, #security
苹果车辆运动提示动画点缓解晕车 ⭐️ 7.0/10
Apple 的车辆运动提示(Vehicle Motion Cues)功能通过在屏幕边缘显示跟随车辆运动的动画点,帮助缓解乘车时使用手机导致的晕车症状。The Verge 作者实测后称其有效。 晕车问题广泛存在,尤其在车内看屏幕时容易引发不适。该功能利用设备内置传感器,无需额外硬件,为乘客提供了一种简单、易用的解决方案,可能改善众多用户的出行体验。 该功能在 iOS 18 及之后系统中提供,可通过控制中心手动开启或设置自动识别车辆运动。iOS 26 中新增了自定义动画点颜色和可见度等选项。并非对所有用户都完全有效,效果因人而异。
hackernews · neilfrndes · Jun 16, 16:12 · 社区讨论
背景: 晕动症(晕车)通常由于视觉与前庭系统感知的运动信息不一致引发。当乘客在移动车辆中注视静止屏幕时,眼睛看到的内容相对固定,但内耳感受到加速度和转向,这种冲突导致恶心等不适。车辆运动提示通过提供与车辆实际运动同步的视觉参考点,帮助大脑协调两种感知信号,从而减轻症状。
参考链接
- Use iPhone more comfortably while riding in a vehicle - Apple ...
- I Tried Apple’s New ‘Vehicle Motion Cues’ Feature and Risked ... Apple announces new accessibility features, including Eye ... A Complete Guide to Vehicle Motion Cues on iPhone and iPad How to Enable and Use Vehicle Motion Cues on iPhone in iOS 18 ... Images Your iPhone has a secret in-car feature that's ... - ZDNET This hidden Vehicle Motion Cues setting solved my motion ...
- Apple announces new accessibility features, including Eye ...
社区讨论: 社区讨论整体积极,许多用户表示从未知晓该功能,迫不及待尝试;有人分享了晕动症的感知冲突模型(视觉与内耳不一致),也有用户指出安卓平台上存在类似应用,还有评论溯源了晕动症的进化理论(可能与远古觅食时神经毒素检测有关)。
标签: #accessibility, #motion-sickness, #apple, #ux, #hn-discussion
《杀戮尖塔 2》定制 PRNG 实现跨平台种子一致性 ⭐️ 7.0/10
开发者公布《杀戮尖塔 2》中自定义伪随机数生成器(PRNG)的技术细节,通过在代码内自行实现 PRNG 替代 C#标准库,确保游戏种子在桌面与移动等所有平台上完全一致,并避免未来标准库更新导致旧种子失效。 此举对速通、社区种子分享和游戏长期保存至关重要,消除了平台间随机性差异,保证任何玩家使用相同种子得到完全相同游戏过程;同时为其他跨平台游戏提供了确定性随机数生成的参考。 自定义 PRNG 使用 32 位哈希函数处理种子,将种子空间从初代的 64 位缩减至约 40 亿个,虽便于暴力枚举全部种子以验证必输局,但降低了出现极端好运种子的概率。初代曾因平台标准库差异导致种子不同。
hackernews · rdmuser · Jun 16, 09:46 · 社区讨论
背景: 伪随机数生成器(PRNG)通过种子初始化,产生看似随机但可复现的数字序列。《杀戮尖塔》等 Roguelike 卡牌游戏中,种子决定地图、掉落与战斗顺序,使同一种子可复现相同体验。若 PRNG 实现因平台或运行时版本而异,种子便失去可复现性,破坏分享与竞速的基础。
参考链接
社区讨论: 社区讨论积极,认可跨平台一致性的价值,同时关注种子空间缩减的影响:暴力枚举成为可能,有助于寻找必输种子,但减少了高收益种子局出现。有人联想到初代已发现的必输种子,并探讨了‘RNG 地狱’的极端情况。
标签: #random-number-generation, #game-development, #seed, #prng, #slay-the-spire
数据仓库
Apache Iceberg 提议新增 Variant 数据类型 ⭐️ 8.0/10
Apache Iceberg 社区通过 issue #10392 正式提议新增 Variant 数据类型,旨在对 JSON、Avro 等动态半结构化数据提供高效的二进制编码支持。 该类型将增强 Iceberg 表在处理半结构化数据时的灵活性和查询效率,解决数据湖架构中常见的数据模式灵活性与性能之间的矛盾,对大数据分析生态有重要影响。 Variant 列可以在保留源数据灵活性的同时,以内部高效的二进制表示进行编码,使 Spark、Trino 等查询引擎可以直接操作序列化后的数据,而无需昂贵的解析步骤。
github · sfc-gh-aixu · Apr 30, 12:52
背景: Apache Iceberg 是一种高性能的开源表格式,用于管理数据湖中的海量分析表,支持多种计算引擎并发安全操作。Variant 类型是一种通用容器,能够动态容纳不同数据类型,常见于 Snowflake、SQL Server 等系统中,用于灵活处理 JSON 等半结构化内容。
参考链接
标签: #apache-iceberg, #data-lake, #semi-structured-data, #database-systems, #open-source
利用有状态流处理开发合规 AI 代理 ⭐️ 8.0/10
Confluent 发布了一篇技术指南,介绍如何结合 Apache Kafka 与 Flink 的有状态流处理,通过 7 种状态、4 种模式和分阶段部署来构建符合欧盟《人工智能法案》的 AI 代理。 该指南直接响应了欧盟 AI 法案即将生效带来的合规需求,为开发者提供了切实可行的架构方案,有助于在构建 AI 代理时实现审计就绪和合规。 指南中具体阐述了 AI 代理的 7 种状态、4 种设计模式以及分阶段部署策略,通过 Apache Kafka 记录所有事件,并使用 Flink 管理状态以实现审计和合规。
rss · Confluent Blog (Kafka/Flink) · Jun 15, 21:40
背景: 欧盟《人工智能法案》(EU AI Act)是世界上第一部全面的人工智能监管法规,对高风险 AI 系统提出了透明性、可追溯性和人工监督等严格要求。有状态流处理(stateful stream processing)是一种数据处理范式,处理引擎能够跨多个事件记住信息,常用于窗口聚合和复杂事件处理。Apache Kafka 是一个分布式流平台,常用于构建实时数据管道;Apache Flink 是一个流处理框架,特别擅长管理有状态计算,支持事件时间处理和精确一次容错。将二者结合,可以记录 AI 代理的每一次决策与状态变化,从而满足合规审计需求。
参考链接
标签: #AI compliance, #stream processing, #Apache Kafka, #Apache Flink, #EU AI Act
Databricks 为 Lakebase Postgres 推出 Lakebase Search 混合检索 ⭐️ 8.0/10
Databricks 于近日为 Lakebase Postgres 推出 Lakebase Search,该功能处于 AWS 和 Azure 上的 Beta 测试阶段,通过 lakebase_vector 和 lakebase_text 两个原生扩展,将混合向量与全文检索能力直接嵌入数据库,为智能体原生的应用提供支持。 这意味着基于 Lakebase 构建的 AI 智能体无需依赖外部检索服务,即可在一个统一的 Postgres 后端完成复杂的数据检索任务,简化了架构并提升端到端性能,对依赖实时数据的企业级 AI 应用影响显著。 Lakebase Search 基于 pgvector 的近似最近邻(ANN)索引类型 lakebase_ann 实现向量搜索,与现有 pgvector 生态兼容;同时 lakebase_text 提供全文本搜索。目前该功能在 Beta 阶段,仅限 AWS 和 Azure 平台。
rss · Databricks Blog · Jun 16, 12:45
背景: Databricks Lakebase 是一个完全托管的 Postgres 数据库,集成在 Databricks 平台中,专为 AI 智能体和应用设计,提供低延迟、可扩展的操作型工作负载。智能体原生应用是指围绕大型语言模型构建、能自主完成多步骤任务并积累上下文的应用。向量搜索和全文检索是检索增强生成(RAG)等 AI 应用的关键组件,前者基于语义相似度,后者基于关键词匹配。
参考链接
标签: #databricks, #vector-search, #postgresql, #ai, #retrieval
Apache Iceberg 提议 REST 目录新鲜度感知表加载 ⭐️ 7.0/10
该提案为 Apache Iceberg 的 REST 目录引入了一种新鲜度感知的表加载 API,仅当自上次请求后表元数据发生变化时才执行实际加载。 此举可显著减少不必要的表元数据加载,提升查询引擎的性能和可扩展性,对依赖 Iceberg 的大数据生态系统具有重要意义。 该机制类似于 HTTP ETag,客户端在请求时携带上次 ETag,服务端仅在元数据变更时返回新数据,否则返回 304 状态码;但该提案尚处于讨论阶段,客户端缓存实现细节待定。
github · gaborkaszab · Jun 14, 00:50
背景: Apache Iceberg 是一种用于大规模分析数据的表格式,其 REST 目录规范定义了管理表的标准化 API。查询引擎通常缓存表元数据以加速查询,但需检测变更以避免使用过期信息。完整加载表元数据(包括模式、分区、快照等)在表规模较大时成本高昂,因此需要更高效的更新机制。
参考链接
标签: #Apache Iceberg, #metadata caching, #REST catalog, #table format, #performance optimization
Apache Iceberg 提议为 Flink 增加水印与计算列支持 ⭐️ 7.0/10
GitHub 上的 Apache Iceberg 项目提案(#16756)建议在 Iceberg 中为 Apache Flink 添加对水印(watermarks)和计算列(computed columns)元数据的支持,以便在 Catalog 中保留流式处理所需的这些定义。 此功能将弥补 Iceberg 与 Flink 在流式 SQL 工作流中的元数据鸿沟,使得查询引擎能够正确规划和执行依赖于水印和计算列的流式查询,增强两个系统间的互操作性,并满足现代流式数据湖的需求。 当前,Iceberg 表格式主要保存表结构(列信息),但 Flink SQL 中定义的 WATERMARK 和 AS 计算列表达式在通过 Catalog 管理时会丢失。该提案旨在扩展 Iceberg 的元数据模型,以存储这些关键信息,但具体实现细节尚未确定。
github · SteveStevenpoor · Jun 12, 03:53
背景: Apache Iceberg 是一种高性能的开放表格式,用于大规模分析表,支持多种计算引擎并发访问。Apache Flink 是流行的流处理框架,其 SQL 支持定义水印(基于事件时间处理乱序数据)和计算列(从其他列计算得出的虚拟列)。在流式数仓中,将这些定义持久化到 Iceberg 中对于查询一致性和可移植性至关重要。目前,Flink 的 CREATE TABLE 语句中的此类元数据在 Iceberg Catalog 中无法保留,导致跨作业或平台迁移时需要重复定义。
标签: #Apache Iceberg, #Apache Flink, #streaming, #watermarks, #computed columns
Apache Iceberg 提议在提交时捕获并发送 Parquet 页脚指标 ⭐️ 7.0/10
该提案建议在 Iceberg 的 Spark 写入过程中,可选地捕获 Parquet 文件页脚中的聚合物理存储指标(如值计数、空值计数等),并在事务提交时通过 Iceberg 的事件机制向外发送,但不会将这些指标持久化到表元数据中。 这一改进可以增强对写入作业的可观测性,帮助数据工程师在不增加元数据存储负担的情况下,了解数据文件层面的统计信息,进而优化性能、监控数据质量并快速定位问题。 该功能为可选(opt-in)机制,仅在 Spark 写入时触发;聚合指标来源于 Parquet 文件的页脚,其中包含每个行组的列级统计;通过 Iceberg 已有的事件框架发出,不会修改 Iceberg 表的元数据结构。
github · gtrettenero · Jun 3, 15:58
背景: Apache Iceberg 是一种适用于大数据分析的开源表格式,支持在数据湖中实现事务性和高性能查询。Parquet 是一种列式存储格式,每个文件末尾的页脚记录了各列的统计信息(如最小值、最大值、空值数量)。Iceberg 提供事件机制,可在事务提交时通知外部系统,该提案利用这一机制广播页脚指标。
参考链接
标签: #Apache Iceberg, #Parquet, #Data Engineering, #Observability, #Metrics
Apache Iceberg 提议为 VARIANT 列加入虚拟字段元数据 ⭐️ 7.0/10
Apache Iceberg 社区提出了一项规范级提案,为 Iceberg v3 中的 VARIANT 类型列添加虚拟字段元数据,使查询引擎能够自动解析字段类型、下推谓词,并将查询重定向到已提取的物理列。 该机制解决了半结构化数据查询中的关键痛点,无需用户手动管理 schema 演变即可实现高效查询优化,对数据湖和湖仓一体架构的性能提升有重要意义。 虚拟字段数组将记录 VARIANT 列中已知字段路径、类型,并可选择性地指向物化该字段的物理列,从而支持类型解析和谓词下推,但具体实现仍依赖于引擎支持。
github · jeffbuser · Apr 25, 03:00
背景: Apache Iceberg 是一种开源表格式,用于大规模数据分析。Iceberg v3 引入了 VARIANT 类型,用于原生存储 JSON 等半结构化数据。谓词下推是一种查询优化技术,旨在尽早过滤数据以减少扫描量。
参考链接
标签: #Apache Iceberg, #data engineering, #semi-structured data, #query optimization, #table format
Databricks 发布 OpenSharing:面向 Agentic AI 时代的 Delta Sharing 升级版 ⭐️ 7.0/10
Databricks 推出了 OpenSharing,这是对 2021 年发布的 Delta Sharing 开放数据共享协议的升级,专为智能体(Agentic AI)时代设计,开始支持 AI 模型、notebook 等 AI 资产的跨平台共享。 此次升级使 AI 智能体能够在不同组织与计算平台间安全、高效地共享和利用数据及 AI 资产,有助于加速企业 AI 应用的落地,并进一步扩大 Databricks 的开放生态影响力。 OpenSharing 支持 Databricks-to-Open 和 Databricks-to-Databricks 两种共享模式,除 Delta 格式表外还可共享 Unity Catalog 模型和 notebook 文件;非 Databricks 接收方目前仅支持访问 Delta 格式表。
rss · Databricks Blog · Jun 16, 17:40
背景: Delta Sharing 是 Databricks 于 2021 年提出的开放协议,允许在不复制数据的情况下跨组织实时共享 Delta Lake 数据。OpenSharing 是其演进版本,顺应 Agentic AI(具备自主目标设定、推理和决策能力的 AI 系统)的发展趋势,将共享范围从数据扩展到 AI 资产。
参考链接
标签: #data-sharing, #delta-sharing, #agentic-ai, #databricks, #open-source
Databricks 推出应用市场,简化 AI 应用发现与部署 ⭐️ 7.0/10
Databricks 宣布在其数据智能平台上推出应用市场,用户现在可以直接发现并部署数据与 AI 应用,无需离开平台环境。 此举降低了 Databricks 生态系统的应用获取门槛,有望加速解决方案的采用,同时为开发者开辟新的分发渠道,进一步巩固其在数据与 AI 领域的平台地位。 目前披露的技术细节有限,但市场将遵循平台现有的安全与治理框架,应用可能涵盖数据处理、机器学习模型及行业解决方案等。
rss · Databricks Blog · Jun 16, 17:30
背景: Databricks 是一个基于云的数据工程、数据科学和机器学习平台,以统一分析著称。此前其市场主要提供数据集和笔记本,此次新增应用类别,使第三方开发者能够直接向平台用户提供可部署的应用程序,类似的模式有 Salesforce AppExchange 或 AWS Marketplace。
标签: #databricks, #data marketplace, #app ecosystem, #data intelligence, #platform feature
Data + AI Summit 2026 上 Unity Catalog 更新,聚焦大规模 AI 代理 ⭐️ 7.0/10
在 2026 年 Data + AI 峰会上,Databricks 发布了 Unity Catalog 的更新,旨在帮助数十万 AI 代理安全、高效地操作企业数据。 随着 AI 代理在企业中广泛部署,统一的数据治理成为核心需求;此次更新使企业能够大规模管理代理对数据的访问,推动 AI 应用的广泛落地。 Unity Catalog 提供对数据、应用及 AI 代理的统一治理,新功能可能包括增强的代理访问控制、自动化治理和 AI 驱动的数据策管能力。
rss · Databricks Blog · Jun 16, 13:25
背景: Unity Catalog 是 Databricks 的统一数据治理解决方案,支持对数据、应用和 AI 代理的管理。AI 代理是一种能自主推理、规划和执行任务的软件系统。当企业部署成百上千个代理来处理数据与决策时,确保它们安全、合规地访问数据变得至关重要。
参考链接
标签: #data governance, #Unity Catalog, #Databricks, #AI agents, #data management