From 49 items, 30 important content pieces were selected
AI 与工具
- Signal 就英国新监控法案发声明:‘监视不等于安全’ ⭐️ 8.0/10 · HN · 19:42
- 苹果发布 Apple Intelligence,Siri AI 引发广泛讨论 ⭐️ 8.0/10 · HN · 18:17
- 苹果发布基于 Google Gemini 模型的 AI 新架构 ⭐️ 8.0/10 · HN · 19:14
- MiMo 发布 1T 模型 UltraSpeed 模式:生成速度突破 1000 token/秒 ⭐️ 8.0/10 · HN · 15:27
- Performative-UI:恶搞 UI 设计模式的 React 组件库 ⭐️ 8.0/10 · HN · 14:05
- 防止 Apple Music 在 macOS 上自动启动的巧妙技巧 ⭐️ 8.0/10 · HN · 17:01
- 进口米、茶、香料中检出欧盟禁用农药 ⭐️ 7.0/10 · HN · 15:59
- 潮流取代朋友:社交媒体推送算法主导化 ⭐️ 7.0/10 · HN · 11:58
- xAI 更像数据中心 REIT 而非前沿 AI 实验室 ⭐️ 7.0/10 · HN · 15:13
- Datasette-agent-edit 0.1a0:受 Claude 启发的 AI 文本编辑插件 ⭐️ 6.0/10 · Simon Willison · 23:56
数据仓库
- Apache Iceberg 提出文件格式 API 标准化特性支持 ⭐️ 8.0/10 · GitHub · 11:57
- Iceberg REST 目录拟新增表与列标签元数据字段 ⭐️ 7.0/10 · GitHub · 08:00
- Apache Iceberg 提议新增 Variant 数据类型支持 ⭐️ 7.0/10 · GitHub · 12:52
- Apache Iceberg 提议为 VARIANT 列添加虚拟字段元数据以优化半结构化查询 ⭐️ 7.0/10 · GitHub · 03:00
- 提议为 Iceberg loadTable 添加查询参数以修剪快照和元数据日志 ⭐️ 7.0/10 · GitHub · 02:33
- Delta Lake 协议新增重定向规范提案 ⭐️ 7.0/10 · GitHub · 20:12
- Apache Hudi 提出新 Table API 以增强查询引擎集成 ⭐️ 7.0/10 · GitHub · 23:15
- ClickHouse Cloud 推出可执行 UDF 公开测试版 ⭐️ 7.0/10 · ClickHouse Blog · 01:16
- Apache Iceberg:Spark 提交时捕获并发出 Parquet 页脚指标 ⭐️ 6.0/10 · GitHub · 15:58
- 提议为 Iceberg Kafka Connect 增加背压控制机制 ⭐️ 6.0/10 · GitHub · 00:01
GitHub 趋势
- openai/plugins +296⭐: OpenAI 官方插件仓库单日获 296 星,热度飙升 ⭐️ 9.0/10 · GH Trending · 22:07
- mvanhorn/last30days-skill +3558⭐: AI 研究技能 last30days-skill 单日暴涨 3558 星 ⭐️ 8.0/10 · GH Trending · 22:07
- roboflow/supervision +1140⭐: Roboflow Supervision 开源库单日获星超千 ⭐️ 8.0/10 · GH Trending · 22:07
- CopilotKit/CopilotKit +398⭐: CopilotKit: 前端 AI 代理与生成式 UI 栈引入 AG-UI 协议 ⭐️ 8.0/10 · GH Trending · 22:07
- RyanCodrai/turbovec +1730⭐: turbovec:基于 Rust 的高性能向量索引库单日获 1730 星 ⭐️ 7.0/10 · GH Trending · 22:07
- Panniantong/Agent-Reach +796⭐: Agent-Reach:让 AI 代理免费搜索多网络平台的开源 CLI 工具 ⭐️ 7.0/10 · GH Trending · 22:07
- aaif-goose/goose +699⭐: Goose 开源 AI 代理登 GitHub 趋势,一日获 699 星 ⭐️ 7.0/10 · GH Trending · 22:07
- refactoringhq/tolaria +649⭐: Tolaria 获 649 星:管理 Markdown 知识库的开源桌面应用 ⭐️ 7.0/10 · GH Trending · 22:07
- google/skills +481⭐: Google 发布 skills 仓库,赋能 AI 代理集成谷歌产品 ⭐️ 7.0/10 · GH Trending · 22:07
- luongnv89/claude-howto +393⭐: claude-howto:Claude Code 可视化示例指南 ⭐️ 6.0/10 · GH Trending · 22:07
AI 与工具
Signal 就英国新监控法案发声明:‘监视不等于安全’ ⭐️ 8.0/10
2026 年 6 月 8 日,Signal 发表声明,强烈谴责英国一项最新的监控提案,指出该提案将严重破坏端到端加密,使监视凌驾于安全之上。 此事凸显全球政府监控与个人隐私之间的激烈冲突,若此提案成为法律,将迫使通讯软件植入后门或客户端扫描功能,不仅危及英国用户,更可能为其他国家的监控立法树立危险先例。 提案可能强制设备实施实时 AI 裸体检测、年龄验证,并要求将用户私密照片发送给第三方进行审查,这种客户端扫描机制从技术上无法被限定范围,将彻底瓦解端到端加密。
hackernews · g0xA52A2A · Jun 8, 19:42 · 社区讨论
背景: 端到端加密保证只有通信双方可阅读信息,服务提供商无法解密。英国政府自 2015 年起多次试图立法要求加密通讯服务商提供后门。客户端扫描技术旨在设备本地检测不良内容,但安全专家指出,该机制无法被限制于特定类型内容,一旦实施即等同于破解加密,为大规模监控铺路。
参考链接
社区讨论: 社区评论普遍对提案持批评态度,将其比作‘人工史塔西’并质疑科技公司通过安全启动等技术协助了控制权转移。但同时,也有用户指出 Signal 要求手机号注册且未开源后端的做法与其隐私主张相矛盾,呼吁 Signal 公布所有后端基础设施源码。
标签: #privacy, #surveillance, #UK, #Signal, #security
苹果发布 Apple Intelligence,Siri AI 引发广泛讨论 ⭐️ 8.0/10
苹果在 WWDC 2026 上正式发布 Apple Intelligence,将生成式 AI 深度集成至 Siri 及系统应用,提供写作工具、图像生成、通知摘要等功能,同时宣布因欧盟《数字市场法案》(DMA)要求,该功能暂不对欧盟用户开放,中国大陆也尚未支持。 这标志着苹果大规模进军消费级 AI 市场,凭其强大的设备生态和隐私保护优势,可能在 AI 助手领域建立新标准;但 DMA 的限制也凸显了科技创新与欧盟监管之间的紧张关系,可能影响全球用户的体验分化。 Apple Intelligence 仅支持 iPhone 15 Pro 系列、iPhone 16 全系以及搭载 M1 或更新芯片的 iPad 和 Mac,采用设备端与私有云计算混合处理;macOS 版本仅支持苹果自研芯片的 Mac。
hackernews · 0xedb · Jun 8, 18:17 · 社区讨论
背景: Apple Intelligence 是苹果于 2024 年 WWDC 首次公布的生成式 AI 系统,其设计强调隐私,多数任务在设备本地运行。Siri 作为苹果语音助手虽已推出多年,但功能迭代缓慢,此次 AI 整合被视为关键升级。欧盟《数字市场法案》要求大型科技公司开放互操作性,苹果以安全风险为由未在欧盟提供该功能。
社区讨论: 社区评论呈现出期待与失望并存的态度:部分用户认为新功能只是兑现了过去的承诺;另有一些用户则对 Siri 类似“星际迷航计算机”的演示感到兴奋。多数网友看好苹果在消费级 AI 的潜力,但对欧盟和中国用户无法使用表示遗憾,有人质疑此举可能导致大量用户无法获得完整系统更新。
标签: #apple, #ai, #siri, #consumer-tech, #regulation
苹果发布基于 Google Gemini 模型的 AI 新架构 ⭐️ 8.0/10
苹果公司公布了新的 AI 架构,将 Google Gemini 模型深度集成到 Apple Intelligence 中,通过设备端处理和 Private Cloud Compute 保障用户隐私。 此举标志着苹果 AI 战略的重大转向,通过引入第三方先进模型,在保护隐私的同时快速提升 Siri 和系统 AI 能力,可能加剧移动 AI 生态的竞争。 该架构强调用户数据仅用于即时请求处理,苹果与第三方均不可访问,外部专家可验证隐私承诺。但新功能暂未在欧盟推出,且苹果未明确具体使用的 Gemini 模型版本及部署细节。
hackernews · unclefuzzy · Jun 8, 19:14 · 社区讨论
背景: Apple Intelligence 是苹果为其操作系统内置的 AI 功能套件,主打端侧智能和隐私保护。Google Gemini 是谷歌的多模态大语言模型,具备先进的推理与搜索能力。苹果的 Private Cloud Compute 技术旨在云端执行 AI 任务时仍能确保数据隔离与匿名化。此次合作意味着苹果将外部模型纳入其精心设计的隐私架构中。
社区讨论: 社区讨论整体谨慎乐观:赞赏苹果将第三方模型包裹进隐私层的产品化思路,但对隐私承诺的真实性存疑;欧盟缺席发布被视为信号;用户期待 Gemini 的搜索能力整合,同时呼吁苹果公开更多模型集成细节。
标签: #apple, #ai, #google-gemini, #privacy, #llm-integration
MiMo 发布 1T 模型 UltraSpeed 模式:生成速度突破 1000 token/秒 ⭐️ 8.0/10
小米 MiMo 与 TileRT 合作,为 MiMo-V2.5-Pro 模型推出 UltraSpeed 模式,首次在商用 GPU 上实现 1T 参数模型的 1000 tokens/秒生成速度,通过极致的模型-系统协同设计达成。 这一突破显著降低了大规模 AI 模型的推理延迟与成本,可能重塑开发者工作流,使实时 AI 交互成为可能,并对当前由美国公司主导的 AI 定价体系构成挑战。 该模式基于 MiMo-V2.5-Pro 的 1T 参数混合专家(MoE)架构,激活参数约 42B,宣称成本低廉,但确切的 UltraSpeed 模式定价尚未明确公布。
hackernews · gainsurier · Jun 8, 15:27 · 社区讨论
背景: MiMo 是小米推出的大语言模型系列,MiMo-V2.5-Pro 是其万亿参数(1T)的 MoE 模型,专为编程、数学和长上下文任务设计。生成速度以每秒 token 数(TPS)衡量,是影响实时交互体验的关键指标。常规大规模模型推理速度较慢且昂贵,此次突破有望加速 AI 应用落地。
参考链接
社区讨论: 社区讨论热烈:有人对极速 AI 感到兴奋又不安,担忧工作模式会趋向碎片化;有观点认为中国厂商的低价高速服务将冲击美国公司的定价体系;也有用户指出 MiMo V2.5 Pro 在智能编程代理测试中表现领先,但关注度不足。
标签: #AI, #LLM, #inference-speed, #cost-optimization, #Chinese-tech
Performative-UI:恶搞 UI 设计模式的 React 组件库 ⭐️ 8.0/10
vorpus 发布了一个名为 performative-ui 的 React 组件库,以讽刺手法模仿了那些追求表面效果、为炫技而牺牲可用性的网页界面元素。 该作品用幽默揭示了行业中为了彰显开发者技能或专业性而流行的“表演式 UI”现象,促使人们反思这类设计长期存在的背后原因。 库通过 npm 分发(npm install performative-ui),包含动画 ASCII 艺术等组件,虽然意在恶搞,但实现得非常专业。
hackernews · lizhang · Jun 8, 14:05 · 社区讨论
背景: 在网页开发中,一些浮华的视觉效果(如粒子背景、复杂动画、过度设计的加载指示等)常被用于吸引用户注意或展示前端技术实力,即便可能影响性能或体验。这些手法一度被视为高级技能标志,但随着技术普及逐渐沦为俗套,因而被讽刺为“表演式 UI”。
参考链接
社区讨论: 评论热烈且充满自省。有人指出,简单网站在缺少这类元素时会被认为不够专业,因为数据表明此类设计行之有效;另有人感慨,这些技巧曾是高级前端的象征,如今却成为讽刺对象,反映出“高级”的界定往往源于他人无法做到。还有用户虽觉好笑,但承认也想实际使用某些组件。
标签: #react, #ui-design, #satire, #web-development, #frontend
防止 Apple Music 在 macOS 上自动启动的巧妙技巧 ⭐️ 8.0/10
开发者创建了一个具有与 Apple Music 相同 Bundle Identifier 的假应用,通过让该简单进程运行,即可阻止音乐应用自动启动,几乎无需代码。 这为许多用户解决了 macOS 上音乐应用不经同意就自动启动的烦人问题,尤其对使用蓝牙耳机或演出设备的人有帮助,体现了对系统深层理解的价值。 该应用通过简单存在并占用相同 Bundle ID 来拦截系统启动命令,本身不执行任何后台工作,但需注意可能影响系统更新或其他依赖该标识符的功能。
hackernews · bobbiechen · Jun 8, 17:01 · 社区讨论
背景: Bundle Identifier 是 macOS/iOS 系统中用于唯一识别应用的一串字符,例如 com.apple.Music。当用户按下媒体键或连接蓝牙设备时,系统会查找并启动对应标识符的应用。本方案利用这一机制,用同名假应用‘欺骗’系统,从而阻止真正的音乐应用启动。
社区讨论: 社区反馈积极,许多用户表示长期受此困扰,尤其蓝牙设备触发音乐的情况。部分评论者对苹果强制推广 Apple Music 表示不满,认为这是对用户的不尊重,甚至有人因此不再信任苹果的软件生态。用户普遍赞赏这个解决方案的巧妙和简洁。
标签: #macos, #apple-music, #hack, #bundle-identifier, #usability
进口米、茶、香料中检出欧盟禁用农药 ⭐️ 7.0/10
根据 foodwatch 报告,进口大米、茶叶和香料中被检测出欧盟已禁用的农药残留,这是由于一个漏洞:欧盟国家出口这些禁用农药至第三国,后者将其用于食品种植,随后食品又进口回欧盟。 这一现象暴露了监管漏洞,即欧盟禁止的农药被出口后通过食品回流,危害消费者健康,且欧盟企业仍从中获利。 在 64 个检测样品中,14 个超标,涉及 12 种欧盟未批准农药;问题产品包括干辣椒、孜然、大米、茶叶等。
hackernews · john-titor · Jun 8, 15:59 · 社区讨论
背景: 欧盟因健康风险禁用了一部分农药,但允许境内企业继续生产并出口。这些农药在目的地国被用于种植出口欧盟的作物,残留物随食品回流。欧盟对食品中农药残留设定了最大残留限量(MRL),但部分未批准物质缺乏明确限量或默认为零容忍。
社区讨论: 社区评论主要关注‘回旋镖效应’,即欧盟企业出口禁用农药后通过食品回流获利;部分评论指出超标产品的严重性,具体列出干辣椒、孜然等;另有评论建议购买有机食品,并呼吁对涉事企业进行制裁。
标签: #pesticides, #food-safety, #eu-regulation, #environmental-health, #import-export
潮流取代朋友:社交媒体推送算法主导化 ⭐️ 7.0/10
BBC 文章指出,传统社交媒体如 Facebook 和 Instagram 已不再用于社交联系,而是被用户匿名地用来发现算法推荐的潮流内容。 这一转变引发技术社区对社交平台本质的反思,特别是像 Hacker News 这样的平台是否也沦为算法内容发现工具,影响人们对网络互动与信息消费的认知。 用户使用 Facebook 等多匿名浏览推荐内容而非与朋友互动;有用户通过修补应用去除算法推送后,发现信息流几乎为空,凸显社交互动的缺失。
hackernews · 1vuio0pswjnm7 · Jun 8, 11:58 · 社区讨论
背景: Hacker News 是一个由 Y Combinator 运营的社会化新闻聚合平台,专注于计算机科学与创业,用户提交满足求知欲的内容。它与传统社交媒体不同,更强调讨论与内容质量。近期讨论将 Facebook 等平台与之比较,突出后者社交功能的衰退。
参考链接
社区讨论: 评论普遍对社交媒体持批评态度,认为其已沦为操纵情绪的工具,类似电视但更有效。部分用户通过技术手段屏蔽算法内容后感受到信息流的空虚,并开始停止使用部分平台。讨论中频繁将 Hacker News 与 Facebook 对比,引发关于 HN 是否也属社交媒体的争议。
标签: #social-media, #algorithmic-feed, #media-criticism, #digital-culture, #hacker-news
xAI 更像数据中心 REIT 而非前沿 AI 实验室 ⭐️ 7.0/10
xAI 通过向 Google 和 Anthropic 出租 GPU 算力,每月获得约 22 亿美元收入,使其业务模式从 AI 研发转向数据中心基础设施出租。 这引发对 xAI 作为前沿 AI 实验室的估值质疑,以及 Google 与 SpaceX 间可能存在的循环交易问题,影响 AI 基础设施投资逻辑和行业格局。 xAI 使用自建燃气轮机供电,燃料成本约每年 9000 万美元;但 GPU 硬件每年约五分之一因技术过时而需重建,制约投资回报。
hackernews · martinald · Jun 8, 15:13 · 社区讨论
背景: 数据中心 REIT 是一种拥有并出租数据中心空间的房地产投资信托,收入主要来自租金;前沿 AI 实验室如 OpenAI 等,以推进 AI 技术前沿为核心使命。xAI 的高额租金收入使其更像基础设施出租方,偏离了实验室的定位。
参考链接
社区讨论: 社区质疑 Google 与 SpaceX 的股权关联可能催生虚假交易,担忧 GPU 硬件快速贬值影响盈利可持续性,并讨论文章观点是否具有原创性。
标签: #xAI, #AI infrastructure, #REIT, #business model, #GPU rental
Datasette-agent-edit 0.1a0:受 Claude 启发的 AI 文本编辑插件 ⭐️ 6.0/10
Simon Willison 发布了 Datasette Agent 插件 datasette-agent-edit 的 0.1a0 版本,该插件实现了精确的文本编辑工具,包括 view、str_replace 和 insert,其设计直接借鉴了 Claude 的文本编辑器工具。 该插件为 Datasette 生态系统提供了一个通用的文本编辑基础,未来可支撑协作 Markdown 编辑、SQL 查询更新和 SVG 编辑等功能,简化了在 AI 代理中实现可靠文本编辑的复杂度。 插件实现了三个核心工具:view(带行号查看文件片段)、str_replace(替换唯一字符串,非唯一则失败)和 insert(在指定行后插入文本)。这是一个早期 alpha 版本,尚未广泛集成。
rss · Simon Willison · Jun 7, 23:56
背景: Datasette 是一个用于探索和发布结构化数据的开源工具。Datasette Agent 是其 AI 助手,可通过自然语言交互自动生成 SQL 查询。Claude 的文本编辑器工具以严格的操作设计(view/str_replace/insert)著称,有效避免了常见编辑错误,因此 Simon Willison 将其模式抽象为可复用的基础插件。
参考链接
标签: #datasette, #ai-agents, #text-editing, #plugins, #llm-tools
数据仓库
Apache Iceberg 提出文件格式 API 标准化特性支持 ⭐️ 8.0/10
Apache Iceberg 社区提出引入文件格式 API 的提案。该 API 旨在统一 Avro、Parquet、ORC 以及新兴文件格式的特性实现,解决因独立开发导致的功能不一致问题。 这一架构变更将显著提升 Iceberg 生态的一致性,降低新文件格式的集成门槛,并确保 V3 规范中的新特性(如新列类型、默认值)能跨格式一致实现,对数据湖生态有深远影响。 该 API 主要针对 Iceberg V3 规范中需要文件格式层面支持的特性,例如新列类型和默认值。当前各格式支持的功能并不对称,API 将定义统一的接口,并考虑对未来格式的扩展性。
github · pvary · Apr 20, 11:57
背景: Apache Iceberg 是一种开放的表格式,专为大规模分析表设计,支持在 Spark、Trino 等计算引擎间安全共享数据。Iceberg 底层可使用 Avro、Parquet 或 ORC 文件格式存储数据,但这三种格式在数据编码和特性支持上各有差异。随着 Iceberg V3 规范引入更多高级特性,不同格式的开发进度不一,导致功能碎片化。该文件格式 API 提案正是为了化解这一矛盾。
标签: #Apache Iceberg, #File Format, #Data Engineering, #Open Source, #API Design
Iceberg REST 目录拟新增表与列标签元数据字段 ⭐️ 7.0/10
Apache Iceberg 社区在 issue #15521 中提议,为 REST 目录协议的 LoadTableResponse 增加一个可选的 labels 字段,以标准化方式传递表的归属、分类、成本归属和业务域等目录级元数据。 该提案填补了目录元数据标准化的空白,使开源引擎能直接消费目录维护的上下文信息,避免依赖厂商专有扩展,显著提升跨引擎的互操作性。 labels 字段为可选字段,附着于 LoadTableResponse 中,具体数据结构或字段定义尚未在提案中明确;该字段旨在承载目录自身维护的表级和列级上下文,目前仍处于早期讨论阶段。
github · laskoviymishka · May 12, 08:00
背景: Apache Iceberg 的 REST 目录协议是一套标准化 API,旨在让任何遵循该协议的目录都能被 Iceberg 引擎访问。LoadTableResponse 是该协议中用于返回表元数据的核心响应,当前已包含 schema、快照、文件位置等信息,但缺少统一途径来传递目录所维护的归属、分类等管理信息。现有目录实现往往采用专有扩展来补充这些元数据,导致不同开源引擎难以一致地消费它们。
参考链接
标签: #iceberg, #catalog, #metadata, #REST API, #open-source
Apache Iceberg 提议新增 Variant 数据类型支持 ⭐️ 7.0/10
Apache Iceberg 在 #10392 号议题中提议新增 Variant 数据类型,用于对 JSON、Avro 等半结构化数据进行高效的二进制编码。 该类型能让 Spark、Trino 等查询引擎更高效地处理半结构化列,在保持数据灵活性的同时提升分析性能,满足数据湖场景下对动态数据的处理需求。 Variant 类型会在内部将半结构化数据存储为紧凑的二进制格式,但目前仅为提案阶段,具体实现细节尚未确定。
github · sfc-gh-aixu · Apr 30, 12:52
背景: Apache Iceberg 是一种高性能开源表格式,广泛用于数据湖上的大规模分析表,支持多引擎并发读写。半结构化数据(如 JSON、Avro、Parquet)常见于现代数据架构,传统关系型数据库缺少原生高效的处理方式。Variant 数据类型的概念源自编程语言,可动态容纳多种数据格式,本次提案旨在将类似能力引入 Iceberg 的类型系统,实现对半结构化数据的原生高效支持。
标签: #Apache Iceberg, #data types, #semi-structured data, #Variant, #data engineering
Apache Iceberg 提议为 VARIANT 列添加虚拟字段元数据以优化半结构化查询 ⭐️ 7.0/10
Apache Iceberg 提交了一份规范级提案(#16064),计划在 VARIANT 类型列上引入“虚拟字段”元数据,以提升半结构化数据的查询性能和模式演化能力。 该机制有望让查询引擎自动解析类型、下推谓词并透明地路由到物理列,大幅简化半结构化数据的管理,可能影响所有使用 Iceberg 处理 JSON 等格式的数据湖用户。 虚拟字段允许为 VARIANT 列内已知的字段路径声明类型化元数据,目前提案仅为规范设计,尚未提供具体实现细节。
github · jeffbuser · Apr 25, 03:00
背景: Apache Iceberg 是一种开源表格式,专为大规模数据湖设计,其 v3 版本引入了 VARIANT 类型以高效存储 JSON 等半结构化数据。半结构化数据通常以嵌套形式存在,查询时需解析整个对象,性能较差。通过预先声明虚拟字段的元数据,引擎可以像处理普通列一样优化查询,例如实现谓词下推和列裁剪,从而提升性能。Snowflake 等平台已对 Iceberg VARIANT 列提供支持,但手动管理虚拟字段仍较繁琐,该提案旨在自动化此过程。
参考链接
标签: #Apache Iceberg, #data-engineering, #semi-structured-data, #schema-evolution, #VARIANT-type
提议为 Iceberg loadTable 添加查询参数以修剪快照和元数据日志 ⭐️ 7.0/10
Apache Iceberg 社区发起了一项提案 (issue #15947),建议在 REST API 的 loadTable 响应中增加查询参数,使客户端能够限制返回的快照日志 (snapshot-log) 和元数据日志 (metadata-log) 数组的大小,防止其随提交次数无限增长。 该改进解决了表元数据查询中的一个重要可扩展性问题,避免因频繁提交导致响应体积过大、传输和解析开销上升。它将提升 Iceberg REST 目录在大规模流式写入等高频场景下的性能和可用性,让客户端按需获取历史信息。 提案针对 loadTable 返回的完整 TableMetadata 对象,其中的 snapshot-log 和 metadata-log 均为无界数组;新增的查询参数预计会支持类似限制条目数量或根据时间戳截断等功能。具体实现需要修改 REST 目录的 OpenAPI 规范以及客户端实现。
github · laserninja · Apr 12, 02:33
背景: Apache Iceberg 是一种开放表格式,通过维护快照日志(记录每次表变更的快照 ID 和时间戳)和元数据日志(记录元数据文件路径和创建时间)来实现时间旅行和版本管理。每次提交都会向这两个数组追加新条目,且默认不自动清理,因此在 commit 频繁的表上它们会迅速膨胀。loadTable 是 Iceberg REST 目录 API 中用于获取完整表元数据的端点,当前会原样返回这些日志,可能造成不必要的网络传输和内存占用。
参考链接
标签: #apache-iceberg, #rest-api, #performance-optimization, #table-metadata, #api-design
Delta Lake 协议新增重定向规范提案 ⭐️ 7.0/10
Delta Lake 社区提交了协议变更提案 (PR #3705),提出新增重定向规范,包括功能定义、启用/禁用流程及查询重定向机制。 该规范若被采纳,将增强 Delta Lake 表的灵活性和可移植性,支持表迁移、视图重定向等场景,对数据工程生态系统有重要影响。 提案细节涵盖重定向的功能定义、启用/禁用操作步骤,以及查询如何被重定向到新表位置或版本的具体流程。
github · kamcheungting-db · Mar 14, 20:12
背景: Delta Lake 是一种开源存储框架,为数据湖提供 ACID 事务支持,其核心协议定义了读写操作标准。重定向机制通常用于将查询指向表的新位置,例如迁移数据或实现跨目录视图,这在 Trino 等查询引擎的 Delta Lake 连接器中已有相关概念(如从 Delta 表重定向到 Hive 表)。该提案旨在将此功能正式纳入 Delta Lake 协议,形成统一规范。
标签: #delta-lake, #protocol, #data-engineering, #open-source, #redirection
Apache Hudi 提出新 Table API 以增强查询引擎集成 ⭐️ 7.0/10
Apache Hudi 社区发布了 RFC #15195,提议一套全新的 Table API,旨在简化与各类查询引擎(如 Spark、Flink、Trino)的集成。该提案要求全面记录所有相关 API。 此举有助于降低 Hudi 与不同查询引擎集成的复杂度,提升数据湖仓生态系统的互操作性,并可能加速 Hudi 在更多计算环境中的采用。 该 RFC 对应的 JIRA 任务为 HUDI-4142,隶属于史诗 HUDI-4141。新 API 的具体设计和抽象程度尚待讨论,目前主要聚焦在 API 的文档化工作。
github · hudi-bot · Dec 11, 23:15
背景: Apache Hudi 是一个开源数据湖仓平台,支持在数据湖上实现 ACID 事务、高效更新插入等数据库级功能。Table API 是一种面向关系型操作的统一编程接口,例如 Apache Flink 的 Table API 允许以批流一体方式处理数据。查询引擎(如 Spark、Trino)是数据湖场景下进行交互式分析的核心组件,与 Hudi 的深度集成对保证数据时效性和查询性能至关重要。
标签: #ApacheHudi, #RFC, #TableAPI, #QueryEngine, #DataLake
ClickHouse Cloud 推出可执行 UDF 公开测试版 ⭐️ 7.0/10
ClickHouse Cloud 现在以公开测试版形式支持可执行用户自定义函数(UDF),用户可以用 Python 编写函数,打包成 zip 上传至集群,然后在 SQL 中像内置函数一样调用。 这一功能使用户能将自定义逻辑或外部库直接集成到 ClickHouse Cloud 查询中,避免重新编译 ClickHouse,显著提升了灵活性和代码复用性。 可执行 UDF 通过标准输入输出(STDIN/STDOUT)流式处理数据,支持 TabSeparated 等格式,调用语法为 executable(脚本名_可选参数, 格式, 结构, 输入查询)。函数进程按需启动,以流式管道方式与 ClickHouse 交互。
rss · ClickHouse Blog · Jun 8, 01:16
背景: 用户自定义函数(UDF)允许用户在 SQL 中调用自定义代码。ClickHouse 之前已支持 SQL UDF,而可执行 UDF 可以运行外部程序或脚本(如 Python、Bash),处理更复杂的逻辑。此功能之前在自托管 ClickHouse 中可用,现在也引入到云服务中。
标签: #ClickHouse, #UDF, #cloud, #Python, #beta
Apache Iceberg:Spark 提交时捕获并发出 Parquet 页脚指标 ⭐️ 6.0/10
提出了一项针对 Apache Iceberg Spark 写入路径的可选改进,允许在提交时捕获 Parquet 文件的页脚统计信息(如值计数、空值计数等),并通过 Iceberg 的事件框架异步发出,而无需将指标持久化到表元数据中。 该特性增强了数据文件物理层面的可观测性,有助于运维团队监控写入性能与存储特征,且不会增加表元数据的存储负担,对大规模数据湖的日常管理很有价值。 这是面向 Spark 集成的可选(opt-in)机制,指标从 Parquet 页脚获取,在 Iceberg 提交时通过事件框架发出;数据本身不会写入 Iceberg 表元数据,仅用于外部监控。
github · gtrettenero · Jun 3, 15:58
背景: Parquet 文件末尾的页脚(footer)包含行组、列统计(如最小值、最大值、非空计数)等元数据。Apache Iceberg 的事件框架允许在表操作(如提交)时触发事件,供外部系统捕捉。该提案将两者结合,提供一种无侵入的写入统计收集方式。
参考链接
标签: #apache-iceberg, #parquet, #spark, #performance-metrics, #feature-request
提议为 Iceberg Kafka Connect 增加背压控制机制 ⭐️ 6.0/10
该提案建议在 Apache Iceberg 的 Kafka Connect 组件中增加 Coordinator 与 Worker 之间的背压控制:Worker 端新增检测 Coordinator 进度的能力,当 Coordinator 过载时自动暂停自身,以遏制控制主题消息的指数级增长。 该机制可防止 Coordinator 因消息堆积而陷入过载,提升整个数据管道在写入 Iceberg 表时的稳定性与可靠性,直接惠及使用 Kafka Connect 落地数据到 Iceberg 的生产用户。 具体实现细节尚在讨论阶段,计划由 Worker 感知 Coordinator 状态并执行暂停操作,从而在源头阻断消息洪峰,避免控制流量失控。
github · HenryCaiHaiying · Jun 2, 00:01
背景: Apache Iceberg 是一种开放表格式,Kafka Connect 是其官方提供的从 Kafka 写入数据的连接器。该连接器采用 Coordinator-Worker 架构,Coordinator 负责任务调度,Worker 执行实际的数据搬移,二者通过 Kafka 的控制主题进行通信。背压常见于流处理系统,指下游处理速度跟不上上游生产速度时,通过反馈机制迫使上游减速,防止系统崩溃。
参考链接
标签: #apache-iceberg, #kafka-connect, #backpressure, #distributed-systems, #proposal