Skip to the content.

From 53 items, 30 important content pieces were selected

AI 与工具

  1. 谷歌每月支付 SpaceX 9.2 亿美元租用 AI 计算资源 ⭐️ 9.0/10 · HN · 11:46
  2. ntsc-rs 开源项目:精准模拟模拟电视与 VHS 视频效果 ⭐️ 8.0/10 · HN · 19:17
  3. Meta 确认数千 Instagram 账户因 AI 恢复漏洞被黑 ⭐️ 8.0/10 · HN · 18:35
  4. Nvidia 提出面向 Windows PC 的强大 CPU 系统 ⭐️ 8.0/10 · HN · 12:52
  5. 莱比锡基准:博士级数学难题考验大模型综合能力 ⭐️ 8.0/10 · HN · 14:00
  6. MicroPython 与 WASM 结合打造 Python 沙箱 ⭐️ 8.0/10 · Simon Willison · 03:53
  7. Zeroserve:基于 eBPF 的零配置可编程 Web 服务器 ⭐️ 7.0/10 · HN · 14:59
  8. 宝可梦绿宝石移植 WebAssembly,帧率 10 万 FPS ⭐️ 7.0/10 · HN · 11:12
  9. 英格兰和威尔士警方被要求停用 AI 撰写法庭陈述 ⭐️ 7.0/10 · HN · 15:35
  10. OpenAI 上线锁定模式防范 ChatGPT 提示注入数据窃取 ⭐️ 7.0/10 · Simon Willison · 23:56

    数据仓库

  11. Apache Iceberg 拟新增 Variant 数据类型支持 ⭐️ 8.0/10 · GitHub · 12:52
  12. Iceberg 提议为 VARIANT 列增加虚拟字段元数据 ⭐️ 8.0/10 · GitHub · 03:00
  13. Apache Iceberg 提议引入文件格式 API 以统一特性支持 ⭐️ 8.0/10 · GitHub · 11:57
  14. 提案:Kafka Connect Worker 需检测 Coordinator 进度以暂停过载 ⭐️ 7.0/10 · GitHub · 00:01
  15. Apache Iceberg REST API 新增查询参数以裁剪快照和元数据日志 ⭐️ 7.0/10 · GitHub · 02:33
  16. Delta Lake 协议变更提案:新增重定向功能文档 ⭐️ 7.0/10 · GitHub · 20:12
  17. Apache Iceberg Spark 集成拟在提交时捕获 Parquet 页脚指标 ⭐️ 6.0/10 · GitHub · 15:58
  18. Apache Iceberg 提议在 LoadTableResponse 中暴露服务端分配的 tableId ⭐️ 6.0/10 · GitHub · 19:56
  19. Apache Iceberg REST 目录为视图加载添加 ETag 及条件 GET 支持 ⭐️ 6.0/10 · GitHub · 02:23
  20. Apache Hudi 提议支持分区软删除功能 ⭐️ 6.0/10 · GitHub · 22:43

    GitHub 趋势

  21. Panniantong/Agent-Reach +700⭐: Agent-Reach CLI 工具让 AI 代理免费访问多平台网页内容 ⭐️ 8.0/10 · GH Trending · 21:33
  22. CopilotKit/CopilotKit +613⭐: CopilotKit 单日获星 613,引领代理驱动生成式 UI 前端栈 ⭐️ 8.0/10 · GH Trending · 21:33
  23. PaddlePaddle/PaddleOCR +449⭐: PaddleOCR 单日获 449 星,成热门 OCR 工具 ⭐️ 8.0/10 · GH Trending · 21:33
  24. lfnovo/open-notebook +783⭐: lfnovo/open-notebook 开源 NotebookLM 替代品今日获 783 星 ⭐️ 7.0/10 · GH Trending · 21:33
  25. openai/plugins +215⭐: OpenAI 插件仓库单日新增 215 星引关注 ⭐️ 7.0/10 · GH Trending · 21:33
  26. aquasecurity/trivy +159⭐: Trivy 开源安全扫描器单日 GitHub 获 159 星 ⭐️ 7.0/10 · GH Trending · 21:33
  27. obra/superpowers +1008⭐: GitHub 仓库 obra/superpowers 单日新增超千星 ⭐️ 6.0/10 · GH Trending · 21:33
  28. mvanhorn/last30days-skill +441⭐: mvanhorn/last30days-skill:跨平台 AI 研究总结工具 ⭐️ 6.0/10 · GH Trending · 21:33
  29. microsoft/VibeVoice +219⭐: 微软 VibeVoice 开源语音 AI 今日获 219 星 ⭐️ 6.0/10 · GH Trending · 21:33
  30. santifer/career-ops +203⭐: santifer/career-ops:AI 求职工具日增 203 星 ⭐️ 6.0/10 · GH Trending · 21:33

AI 与工具

谷歌每月支付 SpaceX 9.2 亿美元租用 AI 计算资源 ⭐️ 9.0/10

谷歌与 SpaceX 签署协议,将从 2026 年 10 月到 2029 年 6 月,每月支付 9.2 亿美元,以获得约 11 万个 NVIDIA GPU、CPU 等设备的专用计算能力。 这笔交易为 SpaceX 带来每年逾 110 亿美元的经常性收入,借助其近百倍的市销率,可能大幅推高其 IPO 估值,同时凸显 AI 算力市场的巨大需求和战略竞争。 合同总时长 32 个月,总金额约 294 亿美元;租用设备包括约 11 万个 NVIDIA GPU、CPU 和内存,平均每个“组件”月费约 8400 美元。此前 Anthropic 已租用 xAI 的 Colossus 数据中心全部算力,每月支付 12.5 亿美元。

hackernews · ramanan · Jun 6, 11:46 · 社区讨论

背景: 在 AI 热潮下,大规模 GPU 集群成为训练和运行大模型的关键稀缺资源。xAI 运营着位于孟菲斯的 Colossus 数据中心,拥有大量 NVIDIA GPU。科技巨头为满足自身 AI 服务需求,除自建外也开始大规模外部租用算力。SpaceX 当前估值约为其年收入的 94 倍,这一极高倍数可能源于市场对星链及 AI 业务的高增长预期。

参考链接

社区讨论: 社区讨论集中于估值影响和交易合理性:有用户计算该交易或为 SpaceX 带来 1 万亿美元估值增长,谷歌因其持股有望获益;但也有观点质疑 94 倍市销率的合理性,认为其更接近地产信托而非科技公司;另有人视之为金融泡沫,或对组件单价提出疑问。整体情绪混杂,惊叹之余不乏对可持续性的担忧。

标签: #AI, #Cloud Computing, #SpaceX, #Google, #Finance


ntsc-rs 开源项目:精准模拟模拟电视与 VHS 视频效果 ⭐️ 8.0/10

近日,开源库 ntsc-rs 发布,它能够精确模拟 NTSC 制模拟电视信号和 VHS 磁带的视频伪影,如复合信号串扰、色彩失真及磁带退化效果。 该项目为复古游戏模拟器和视频后期制作提供了高度逼真的模拟信号仿真,满足了当下对 90 年代影像风格的复刻需求,推动了开源视频处理工具的发展。 该库基于数字信号处理实现,与商业插件 Red Giant Universe VHS 相比在准确性上有所提升,但目前尚未模拟垂直同步错误、色彩副载波相位偏移等更细微的模拟缺陷。

hackernews · gregsadetsky · Jun 6, 19:17 · 社区讨论

背景: NTSC 是一种曾广泛用于北美和日本的模拟电视制式,其复合视频信号在传输中易产生色彩串扰(如彩虹纹、点蠕动)等伪影;VHS 磁带则因机械结构和磁性衰退,常引入画面抖动、噪点与信号丢失。ntsc-rs 旨在通过软件数字处理重现这些模拟介质特有的视觉效果。

参考链接

社区讨论: 社区讨论活跃,多数用户认可项目的价值,但也指出其尚未覆盖垂直同步错乱、PAL 制式的汉诺威条纹等细节。有人建议通过 AI 训练真实 VHS 设备特征以实现不同型号的精准模拟,也有视频制作者表达了对复古摄像机效果的实用需求。

标签: #ntsc, #vhs, #emulation, #video-processing, #retro-computing


Meta 确认数千 Instagram 账户因 AI 恢复漏洞被黑 ⭐️ 8.0/10

Meta 证实其 AI 驱动账户恢复流程存在一个缺陷,未正确验证密码重置邮件,导致黑客能够接管数千个 Instagram 账户。 这一事件凸显了 AI 系统在关键身份验证流程中的安全风险,可能影响用户信任并引发对 AI 安全性的更广泛担忧。 Meta 在数据泄露通知中称,恢复工具本身按预期运行,但另一代码路径中的错误导致未验证用户提供的邮箱地址是否与账户关联,从而绕过验证。

hackernews · speckx · Jun 6, 18:35 · 社区讨论

背景: AI 驱动的账户恢复利用人工智能辅助用户找回访问权限,例如通过动态安全提问降低摩擦。密码重置是常见的账户恢复方式,系统通常需验证重置邮件是否发送至账户绑定邮箱,若验证被绕过,攻击者可提供自己的邮箱劫持账户。此类漏洞属于账户接管(ATO)攻击的常见模式。

参考链接

社区讨论: 社区普遍对 Meta 的解释表示怀疑,认为’按预期运行’与’存在漏洞’自相矛盾。有用户反映自动化系统误封账户且无人工申诉渠道,另有用户希望此事加速 Meta 的衰落,并对 AI 辅助恢复系统表示担忧。

标签: #cybersecurity, #AI, #Instagram, #Meta, #vulnerability


Nvidia 提出面向 Windows PC 的强大 CPU 系统 ⭐️ 8.0/10

英伟达提出了一款面向 Windows PC 的高性能 CPU 系统,采用统一内存架构,旨在提升游戏和本地 AI 工作负载的性能。 统一内存架构可能成为系统设计的重大变革,它允许 CPU 和 GPU 高效共享内存,有望显著提升游戏和本地 AI 应用的性能,对传统 x86 架构主导的 PC 市场带来冲击。 该 CPU 预计与移动版 RTX 5070 核心数量相当,但受带宽和功耗限制,实际 GPU 性能可能仅为独立显卡的一半。同时,高通已推出具有统一内存的骁龙 X Elite 处理器,市场竞争激烈。

hackernews · tosh · Jun 6, 12:52 · 社区讨论

背景: 统一内存架构(UMA)允许 CPU 和 GPU 共享同一内存池,消除了数据拷贝开销,已在苹果 M 系列芯片中成功应用。Nvidia Grace 是面向数据中心的 ARM 架构 CPU,而此次提出的系统或许是该技术向消费级 PC 的延伸。Windows on ARM 平台虽已发展多年,但游戏和软件兼容性仍是不小挑战。

参考链接

社区讨论: 社区对统一内存架构普遍持肯定态度,认为其能优化资源利用,但对游戏性能存疑,担心受限于带宽和功耗。部分用户指出高通的骁龙 X Elite 已率先实现类似设计,且单核性能更强。对本地 AI 应用的前景也有分歧,有人认为仍是小众需求。

标签: #hardware, #nvidia, #cpu-architecture, #unified-memory, #hn-discussion


莱比锡基准:博士级数学难题考验大模型综合能力 ⭐️ 8.0/10

一项新基准测试要求大语言模型解决类似二年级博士生水平的复杂数学问题,这些问题的答案需要从训练文献中综合推导,难度远超常规考试。 该基准揭示了当前顶尖模型在深度数学推理上的真实水平,为评估 AI 能否辅助科研文献整合提供了严格标尺,直接影响未来 AI 在数学研究中的应用方向。 据论文表 3,GPT-5.5 在 2000 次尝试中回答了 1389 题,但仅 1043 题正确,凸显错误率仍较高;问题需领域专家花费数天乃至数周才能攻克。

hackernews · root-parent · Jun 6, 14:00 · 社区讨论

背景: 传统 LLM 基准多测试对已知知识点的直接检索,而本基准的问题均基于现有文献但需重新合成,类似要求博士生将阅读积累转化为新见解,因此更能衡量模型的理解与推理深度。

社区讨论: 社区普遍认可难度设置,但争论焦点集中在模型的高错误率对实际工具化的影响,以及这类从训练数据推导的问题是否算作真正的“前沿挑战”。部分评论认为性能提升已相当惊人,而另一些则强调需警惕误用。

标签: #LLMs, #mathematics, #benchmarks, #AI evaluation, #machine learning


MicroPython 与 WASM 结合打造 Python 沙箱 ⭐️ 8.0/10

Simon Willison 发布了 alpha 包 micropython-wasm,将 MicroPython 编译为 WebAssembly,并以 Datasette 插件 datasette-agent-micropython 作为首个应用,实现 Python 代码的沙箱化执行。 该方案为 Python 生态提供了一种新颖的沙箱执行方式,解决了现有方案难以安全运行用户代码的局限性,尤其扩展了 Datasette 等工具的插件系统能力,降低了恶意或缺陷代码的风险。 micropython-wasm 通过 WebAssembly 实现内存和 CPU 限制,首个集成实例为 Datasette Agent 插件,当前为 alpha 版本,作者提醒该沙箱仍可能存在安全风险。

rss · Simon Willison · Jun 6, 03:53

背景: MicroPython 是 Python 3 的精简实现,专为微控制器等资源受限环境设计。WebAssembly(Wasm)是一种可移植的低级字节码格式,能在浏览器或独立运行时中提供安全、高性能的执行沙箱。Datasette 是 Simon Willison 开发的开源数据探索与发布工具,支持 Python 插件扩展。传统 Python 沙箱方案(如 PyPy 沙箱或 seccomp)配置复杂或限制较多,而 MicroPython on WASM 通过编译到 Wasm 运行时,可利用其天然隔离性实现轻量沙箱。

参考链接

标签: #WebAssembly, #MicroPython, #sandboxing, #Datasette, #Python


Zeroserve:基于 eBPF 的零配置可编程 Web 服务器 ⭐️ 7.0/10

Zeroserve 是一款新颖的零配置 Web 服务器,利用 eBPF 程序动态处理 HTTP 请求,允许用户用 C(未来可能支持 Rust)编写脚本,替代传统的声明式配置语言。 该项目将 eBPF 的应用从内核可观测性拓展到应用层请求处理,为 Web 服务器配置带来了更高的灵活性和可编程性,可能影响未来服务器设计,降低定制化门槛。 目前仅支持单线程,社区建议使用 SO_REUSEPORT 实现多进程共享连接队列;eBPF 程序限定 C 语言,但底层为 Rust 项目,有望扩展;项目处于早期阶段,尚侧重静态文件服务。

hackernews · losfair · Jun 6, 14:59 · 社区讨论

背景: eBPF(扩展伯克利包过滤器)是 Linux 内核中的一项技术,允许安全运行沙盒程序,无需修改内核源码或加载模块,通过验证器确保安全。传统上用于网络过滤、性能监控和安全。Zeroserve 创新地将 eBPF 用于 Web 服务器请求处理,用户编写的 eBPF 程序可动态检查 HTTP 请求并决定路由或响应,颠覆了 nginx 等依赖声明式配置的传统。

参考链接

社区讨论: 社区反响积极,认为思路新颖。有用户指出传统基准测试(如 Techempower)过时,推荐 http-arena 进行性能比较。多数人希望支持 Rust eBPF,并建议采用 SO_REUSEPORT 提升多核性能。部分人认为静态文件场景有限,但总体期待项目发展。

标签: #eBPF, #web-server, #Rust, #configuration, #performance


宝可梦绿宝石移植 WebAssembly,帧率 10 万 FPS ⭐️ 7.0/10

经典 GBA 游戏《宝可梦绿宝石》已成功移植到 WebAssembly,可在浏览器中直接运行。该移植版性能惊人,帧率高达 100,000 FPS。 这一移植展示了 WebAssembly 在游戏模拟领域的高性能潜力,使得无需安装即可在网页中流畅体验经典游戏,推动了复古游戏在浏览器端的复兴。 移植版实现了即时存档功能,但社区反馈存在战斗菜单选择“宝可梦”时崩溃、部分道具名称显示为数字等错误。用户可通过键盘 Z 键和 X 键模拟 A/B 按键,并使用加速功能。

hackernews · tripplyons · Jun 6, 11:12 · 社区讨论

背景: WebAssembly(Wasm)是一种可移植的二进制指令格式,旨在为网页提供接近原生的执行速度,于 2019 年成为 W3C 推荐标准。《宝可梦绿宝石》是 2004 年在 GBA 平台发行的经典角色扮演游戏。此前浏览器中的模拟器多依赖 JavaScript,而 WebAssembly 能大幅提升模拟性能,实现更高帧率。

参考链接

社区讨论: 社区反馈总体积极,用户赞赏加速功能和性能。但也有多人报告了错误,如战斗菜单中选择“宝可梦”时崩溃、道具名称显示为数字等,并建议加入速度切换键和操作提示。另有评论者分享了其他游戏移植到 WebAssembly 的经验。

标签: #webassembly, #gba, #emulation, #pokemon, #performance


英格兰和威尔士警方被要求停用 AI 撰写法庭陈述 ⭐️ 7.0/10

英国监管机构指示英格兰和威尔士警方暂停使用人工智能生成法庭陈述,直至完成充分评估,因对其可靠性和法律完整性存有担忧。 此举凸显在刑事司法等敏感领域未经充分验证即部署 AI 的潜在风险,可能促使其他司法管辖区采取类似审慎政策,维护司法公正。 警方已被发现使用未经评估的商业 AI 工具,包括微软 Copilot;尽管内部政策要求核查 AI 输出,但实际执行不足,引发对证据完整性的严重质疑。

hackernews · nmstoker · Jun 6, 15:35 · 社区讨论

背景: 英国警方近年尝试利用 AI 技术提高效率,如自动生成案件陈述。然而,AI 模型可能产生错误或偏见信息,在刑事司法中尤其危险,可能导致冤假错案。此前,法律界已对 AI 在法庭程序中的未经测试应用提出警告。

社区讨论: 社区普遍批评警方过早采用 AI,认为像 Copilot 这样的工具质量低劣,且未充分评估;有人指出,AI 生成内容在沟通中已显不足,更有观点认为政府为 AI 投入巨资恐难提升生产力;也有建议采用视频记录等更可靠的方式替代 AI 生成文本。

标签: #AI ethics, #law enforcement, #technology policy, #AI regulation, #criminal justice


OpenAI 上线锁定模式防范 ChatGPT 提示注入数据窃取 ⭐️ 7.0/10

OpenAI 的锁定模式现已正式上线,向 Free、Go、Plus、Pro 等个人账户及自助式 ChatGPT Business 账户推出。该模式通过限制出站网络请求,旨在防止提示注入攻击导致的数据外泄。 该功能直接切断了 LLM 系统‘致命三重困境’中的数据外泄途径,采用确定性机制而非 AI 评估,为高风险用户提供了强大的安全保障,解决了提示注入攻击中最危险的环节。 锁定模式并非所有人必需,仅推荐给高风险用户,启用后存在功能与实用性的权衡。它仅限制数据传出,但不阻止恶意提示内容出现在 ChatGPT 处理的内容中(如缓存网页或上传文件)。

rss · Simon Willison · Jun 5, 23:56

背景: 提示注入攻击是一种针对大语言模型的网络安全攻击,攻击者通过构造恶意提示,诱使模型泄露私有数据或执行不当操作。数据外泄指未经授权将数据传输至外部的行为。‘致命三重困境’理论指出,当 LLM 系统同时具备访问私有数据、接触不可信内容以及数据外泄渠道时,将面临严重安全风险。锁定模式通过阻断外泄渠道来打破这一困境。

参考链接

社区讨论: Simon Willison 称赞该功能,并指出默认 ChatGPT 缺乏此类保护。OpenAI CISO 强调锁定模式面向高风险用户,存在功能权衡但值得。社区普遍认为这对安全实践者意义重大。

标签: #AI Security, #ChatGPT, #Prompt Injection, #OpenAI, #Data Exfiltration


数据仓库

Apache Iceberg 拟新增 Variant 数据类型支持 ⭐️ 8.0/10

Apache Iceberg 社区在 Issue #10392 中正式提议新增 Variant 数据类型,旨在以高效的二进制编码方式存储和查询 JSON 等半结构化数据。 该特性将大幅提升数据湖中动态半结构化数据的处理效率,并促进各种查询引擎的优化,对基于 Iceberg 的数据平台具有广泛影响。 Variant 类型采用紧凑的二进制格式,兼具灵活性与查询性能,已在 Apache Parquet™ 生态中作为开放标准得到支持。

github · sfc-gh-aixu · Apr 30, 12:52

背景: Variant 是一种开放数据类型标准,专为高效处理 JSON 等半结构化数据而设计。它通过二进制编码减少存储开销并加速查询,已率先在 Apache Parquet 和 Delta Lake 中实现标准化。传统上,半结构化数据常以文本形式存储,但查询需实时解析,性能较差,Variant 则在保持灵活性的同时提供了列存优化。

参考链接

标签: #Apache Iceberg, #data types, #semi-structured data, #Variant, #Open Source


Iceberg 提议为 VARIANT 列增加虚拟字段元数据 ⭐️ 8.0/10

Apache Iceberg 社区在规范层面提出了虚拟字段机制,用于声明式管理 VARIANT 列中已知路径的类型元数据,使引擎能够自动完成类型解析、谓词下推和透明查询重定向。 该提案填补了 Iceberg 在高效处理半结构化数据方面的关键空白,通过谓词下推和自动模式演化显著提升查询性能,并减轻数据工程师手动管理模式的负担,对 Spark、Trino 等分析引擎的用户影响深远。 虚拟字段仅能覆盖 VARIANT 列中预先注册的路径,且该机制目前仍处于提案讨论阶段,尚未在 Iceberg 中实现。

github · jeffbuser · Apr 25, 03:00

背景: Apache Iceberg 是一种高性能的开放表格式,用于管理大规模分析型数据湖表。其 v3 版本引入的 VARIANT 数据类型可高效存储半结构化数据(类似 JSON),但引擎在查询这类列时缺乏具体类型信息,导致优化困难。虚拟字段元数据正是为解决这一问题而设计,它允许表定义额外的结构信息来指导查询引擎。

参考链接

标签: #apache-iceberg, #data-engineering, #semi-structured-data, #table-format, #variant-type


Apache Iceberg 提议引入文件格式 API 以统一特性支持 ⭐️ 8.0/10

Apache Iceberg 项目通过 issue #12225 提出引入文件格式 API 的提案,旨在为 Avro、Parquet 和 ORC 提供统一的接口,以便标准化 Iceberg V3 规范中新增列类型、默认值等特性的实现。 这一变更将解决当前不同文件格式特性支持碎片化的问题,确保所有支持的文件格式都能一致地实现 Iceberg 的新功能,从而简化开发者集成和维护工作,并加速新特性在生态中的落地。 该 API 将抽象出文件格式相关的操作,允许开发者以统一方式处理 schema 演化、默认值、列类型等新功能;目前该提案仍处于讨论阶段,具体实现细节尚未确定,但有望作为 Iceberg V3 规范的一部分。

github · pvary · Apr 20, 11:57

背景: Apache Iceberg 是一种开源的高性能表格式,用于管理数据湖中的大规模分析表,支持 Spark、Flink、Trino 等多种计算引擎。它底层依赖 Avro、Parquet 和 ORC 等文件格式存储数据,其中 Avro 是行式序列化格式,Parquet 和 ORC 为列式存储格式。Iceberg 规范的 V3 版本引入了许多新特性,例如新的列类型和默认值,但这些特性需要文件格式层面的支持,目前各格式的实现进度不一。

参考链接

标签: #Apache Iceberg, #file format, #data engineering, #API design, #open-source


提案:Kafka Connect Worker 需检测 Coordinator 进度以暂停过载 ⭐️ 7.0/10

在 Apache Iceberg 项目中,有人提出为 iceberg-kafka-connect 增加背压机制:当 Coordinator 过载时,Worker 能检测 Coordinator 的进度并主动暂停,以避免控制主题(control topic)消息指数级增长。 该改进可防止生产环境中因消息积压导致的故障,提升 Iceberg 与 Kafka Connect 集成的可靠性,降低资源耗尽和服务中断的风险。 方案简单:Worker 定期检测 Coordinator 的进度,一旦发现过载便暂停,而非继续发送消息,给 Coordinator 恢复时间,从而防止控制主题消息失控增长。

github · HenryCaiHaiying · Jun 2, 00:01

背景: Apache Iceberg 是一种高性能开源表格式,用于数据湖中的大规模分析表。Kafka Connect 是 Apache Kafka 的集成框架,用于在 Kafka 与外部系统间可靠地流式传输数据。Iceberg 提供了 Kafka Connect 连接器(iceberg-kafka-connect),可将数据写入 Iceberg 表。在分布式模式下,Kafka Connect 包含 Worker 和 Coordinator 等组件,Coordinator 负责集群管理,Worker 执行数据移动任务。

参考链接

标签: #Apache Iceberg, #Kafka Connect, #backpressure, #distributed systems, #reliability


Apache Iceberg REST API 新增查询参数以裁剪快照和元数据日志 ⭐️ 7.0/10

在 Apache Iceberg 的 REST API 提案 #15947 中,建议为 loadTable 响应添加查询参数,以便客户端选择性地裁减 snapshot-log 和 metadata-log 数组,避免这些数组随每次提交无限增长,从而提升性能。 该改进解决了生产环境中表元数据响应过大的扩展性问题,能显著减少数据传输量、降低内存占用和延迟,尤其对拥有大量快照的表至关重要,提升了 REST 目录的大规模实用价值。 提案涉及 snapshot-log(记录每次快照操作的 ID 和时间戳)和 metadata-log(记录元数据文件变更)两个无界数组;未来可能通过类似 ?trim-snapshot-log 的查询参数实现按需裁剪。相关定义参见开放 API 规范中的 SnapshotLog 和 MetadataLog 模式。

github · laserninja · Apr 12, 02:33

背景: Apache Iceberg 是一种开源高性能表格式,专为大数据分析设计,支持快照机制以实现时间旅行和增量读取。每次对表进行写入或合并等操作都会生成一个新的快照,相关信息被追加到 snapshot-log 和 metadata-log 数组中。REST 目录是一种标准的 Iceberg 目录实现,通过 HTTP 端点提供元数据访问,其中 loadTable 接口直接返回包含完整日志的表元数据,在表生命周期较长时可能导致响应体积膨胀。

参考链接

标签: #apache-iceberg, #rest-api, #scalability, #performance, #metadata


Delta Lake 协议变更提案:新增重定向功能文档 ⭐️ 7.0/10

Delta Lake 项目提交了一个协议变更提案(PR #3705),新增重定向功能规范文档,详细描述了该功能的启用、禁用流程以及查询重定向机制。 该提案若被采纳,将为 Delta Lake 引入重定向能力,可能简化跨环境数据访问、支持工作负载迁移,并提升与其他系统的兼容性,对数据工程生态产生重要影响。 该 PR 为纯文档变更,属于协议规范提案,尚需社区讨论与代码实现。重定向功能将定义新的表特性或协议扩展,可能涉及元数据操作与查询路由的底层变更。

github · kamcheungting-db · Mar 14, 20:12

背景: Delta Lake 是一种开源数据湖存储框架,通过事务日志实现 ACID 事务。其协议定义了客户端读取与写入表的规则,通过协议版本与表特性管理功能兼容性。协议变更会影响所有下游客户端(如 Spark、Flink)的行为,因此需谨慎提案并经过社区审查。

参考链接

标签: #Delta Lake, #Protocol Change, #Redirection, #Data Engineering, #Documentation


Apache Iceberg Spark 集成拟在提交时捕获 Parquet 页脚指标 ⭐️ 6.0/10

该提案为 Apache Iceberg 的 Spark 集成添加了可选机制,可在写入期间从 Parquet 页脚捕获列级聚合指标(如值计数、空值计数),并在提交时通过事件框架发出,用于可观测性,且不持久化到表元数据中。 此举使得数据工程师能够在提交时刻实时监控写入文件的质量与状态,无需修改表元数据即可获取关键统计信息,有助于在大规模数据湖中快速发现问题、优化性能,并提升数据管道的可观测性。 该功能为可选(opt-in),利用 Iceberg 现有的事件框架,不会将指标写入表元数据,仅用于临时的可观测性用途,目前仍处于提案阶段,尚未实现。

github · gtrettenero · Jun 3, 15:58

背景: Apache Iceberg 是一种面向大型分析表的高性能表格式,广泛应用于数据湖中。Parquet 是一种列式存储文件格式,其页脚(footer)包含行组级别的列统计信息,如值计数和空值计数。Iceberg 在每次数据写入时通过原子提交更新表的元数据树,确保一致性,且提供了事件框架用于监听提交操作。

参考链接

标签: #apache-iceberg, #spark, #parquet, #metrics, #observability


Apache Iceberg 提议在 LoadTableResponse 中暴露服务端分配的 tableId ⭐️ 6.0/10

Iceberg 社区在 PR #16399 中提议修改 REST API,在 LoadTableResponse 响应中增加服务端分配的资源标识符(如 tableId),以便客户端无需 HTTP 层拦截即可进行资源级访问控制。 此变更对使用联合目录(如 S3 Tables)的下游系统至关重要,它们需要 tableId 来构建 ARN 并进行凭据分发,从而简化访问控制流程并提升安全性。 该提案主要针对 S3 Tables 等会分配服务端标识符的后端,暴露 tableId 可以让客户端直接将其用于基于资源的策略,避免解析 HTTP 请求。

github · aritragster · May 18, 19:56

背景: Apache Iceberg 是一种开放式表格式,用于在数据湖上管理大型分析数据集。其 REST Catalog 协议定义了引擎与目录服务之间的标准化接口。某些云服务(如 AWS S3 Tables)会为表分配唯一的服务端标识符(tableId),用于构建 ARN 以实施精细的访问控制。当前 LoadTableResponse 未返回该标识符,迫使客户端通过解析 HTTP 层获取,增加了复杂性和耦合度。

参考链接

标签: #Apache Iceberg, #REST Catalog, #Access Control, #API Enhancement, #Server IDs


Apache Iceberg REST 目录为视图加载添加 ETag 及条件 GET 支持 ⭐️ 6.0/10

Apache Iceberg 社区提议将已应用于 loadTable 端点的 ETag 和条件 GET 机制(返回 304 Not Modified)扩展到 loadView REST 端点,以优化视图元数据检索。 该优化可减少视图元数据请求的序列化与网络传输开销,对频繁访问视图的数据管道和查询引擎有实际性能提升,完善了 REST 目录的缓存一致性设计。 Java 参考客户端已基于 Caffeine 缓存实现了 loadTable 的条件请求,视图条件请求预计采用类似机制;当前仅为提案,实现细节有待讨论。

github · laserninja · Apr 12, 02:23

背景: ETag 是 HTTP 响应头,标识资源的特定版本,客户端通过 If-None-Match 头携带上次获取的 ETag 进行条件请求;若资源未变,服务器返回 304 Not Modified 跳过内容传输。Apache Iceberg 的 REST 目录提供标准化的 HTTP API 访问表与视图元数据,此前仅 loadTable 支持条件 GET,此次扩展旨在统一视图的缓存优化。

参考链接

标签: #apache-iceberg, #rest-api, #etag, #caching, #conditional-requests


Apache Hudi 提议支持分区软删除功能 ⭐️ 6.0/10

Apache Hudi 社区发布了一项功能提议,计划为分区删除操作添加软删除支持,允许用户在数据被永久清理前恢复已删除的分区。 该功能可提升数据安全性,避免因误操作或业务变更导致的分区数据永久丢失,为用户提供数据恢复窗口,符合企业级数据湖管理对可靠性的需求。 当前 delete_partition API 会直接替换分区文件,随后由清理服务彻底删除。新提议的软删除机制将在中间状态保留文件与元数据表 (MDT) 引用,支持用户恢复数据,最终由用户触发或清理服务执行实际删除。

github · kbuci · May 18, 22:43

背景: Apache Hudi 是一个开源数据湖平台,通过高性能开放表格式为数据湖提供数据库级事务、高效更新/删除和增量处理能力。分区是表中按字段划分的逻辑单元,用于提升查询效率;清理服务负责按时间策略移除过期文件,元数据表 (MDT) 则维护文件索引信息。现有分区删除为硬删除,不可逆,软删除提议旨在引入回收站式保护。

参考链接

标签: #Apache Hudi, #data management, #soft delete, #partition management, #open source