From 64 items, 31 important content pieces were selected
AI 与工具
- 梅赛德斯-奔驰开始大规模生产轴向磁通电机 ⭐️ 8.0/10 · HN · 07:44
- HTML 优先设计让网站用户一夜翻倍 ⭐️ 8.0/10 · HN · 12:45
- Claude 桌面版每次启动均启动 1.8GB Hyper-V 虚拟机 ⭐️ 8.0/10 · HN · 17:11
- Anthropic CEO 提出 AI 安全法规,引发开放权重模型争议 ⭐️ 8.0/10 · HN · 18:36
- Google 发布开源扩散语言模型 DiffusionGemma,速度提升 4 倍 ⭐️ 8.0/10 · Simon Willison · 20:00
- Claude Fable 5 系统卡揭示秘密干预限制竞争对手 ⭐️ 8.0/10 · Simon Willison · 00:37
- πFS:以π的位数存储数据的幽默文件系统 ⭐️ 7.0/10 · HN · 18:54
- JPL 如何让 13 岁的好奇号火星车持续开展科学探测 ⭐️ 7.0/10 · HN · 17:30
- 《精益创业》作者 Eric Ries 新书《Incorruptible》谈企业使命漂移 ⭐️ 7.0/10 · HN · 14:47
- PgDog 获融资,旨在解决 PostgreSQL 扩展难题 ⭐️ 7.0/10 · HN · 14:02
数据仓库
- Apache Iceberg 拟新增 Variant 数据类型 ⭐️ 8.0/10 · GitHub · 12:52
- CostBench 开源基准:客观衡量云数据仓库性价比 ⭐️ 8.0/10 · ClickHouse Blog · 00:51
- Iceberg Kafka Connect 拟增加协调器进度检测实现背压 ⭐️ 7.0/10 · GitHub · 00:01
- Apache Iceberg 提议为 VARIANT 列添加虚拟字段元数据 ⭐️ 7.0/10 · GitHub · 03:00
- Apache Iceberg 提议统一文件格式 API ⭐️ 7.0/10 · GitHub · 11:57
- Delta Lake 协议新增重定向规范提案 ⭐️ 7.0/10 · GitHub · 20:12
- Apache Hudi 提议实现分区软删除支持 ⭐️ 7.0/10 · GitHub · 22:43
- Databricks 宣布存储生态系统,实现企业数据随处治理 ⭐️ 7.0/10 · Databricks Blog · 12:03
- Iceberg Flink 集成拟支持水印与计算列元数据 ⭐️ 6.0/10 · GitHub · 07:38
- Apache Iceberg V4 拟新增 Tags 元数据字段 ⭐️ 6.0/10 · GitHub · 00:44
综合
- uv 0.11.20 发布:新增导出选项与工作区性能提升 ⭐️ 6.0/10 · GitHub · 17:21
GitHub 趋势
- apple/container +1358⭐: Apple 开源 Swift 工具:在苹果硅 Mac 上通过轻量级 VM 运行 Linux 容器 ⭐️ 8.0/10 · GH Trending · 22:23
- addyosmani/agent-skills +781⭐: Addy Osmani 发布 AI 编码代理生产级技能仓库 ⭐️ 8.0/10 · GH Trending · 22:23
- ruvnet/RuView +439⭐: RuView 利用 WiFi 信号实现无视频的空间感知与生命体征监测 ⭐️ 8.0/10 · GH Trending · 22:23
- google/skills +238⭐: Google 开源 AI 代理技能仓库,日增 238 星 ⭐️ 8.0/10 · GH Trending · 22:23
- mvanhorn/last30days-skill +2561⭐: AI 代理技能 last30days-skill 单日获 2561 星 ⭐️ 7.0/10 · GH Trending · 22:23
- harry0703/MoneyPrinterTurbo +1471⭐: GitHub 热门项目 MoneyPrinterTurbo:AI 一键生成短视频 ⭐️ 7.0/10 · GH Trending · 22:23
- phuryn/pm-skills +775⭐: pm-skills 提供超 100 个产品管理智能体技能,日增 775 星 ⭐️ 7.0/10 · GH Trending · 22:23
- roboflow/supervision +699⭐: Roboflow Supervision 单日获星 699 颗,成为热门计算机视觉工具库 ⭐️ 7.0/10 · GH Trending · 22:23
- maziyarpanahi/openmed +535⭐: 开源医疗 AI 项目 OpenMed 在 GitHub 上单日斩获 535 星 ⭐️ 7.0/10 · GH Trending · 22:23
- x1xhlol/system-prompts-and-models-of-ai-tools +397⭐: AI 编程工具系统提示与模型合集公开 ⭐️ 7.0/10 · GH Trending · 22:23
AI 与工具
梅赛德斯-奔驰开始大规模生产轴向磁通电机 ⭐️ 8.0/10
梅赛德斯-奔驰已开始大规模生产轴向磁通电机,该技术源自其收购的英国公司 Yasa,是一种更紧凑高效的电机设计。 轴向磁通电机具有更高的扭矩密度和更紧凑的体积,大规模生产可能降低电动汽车动力系统的重量和成本,推动整个行业的技术升级。 轴向磁通电机通过平行于转轴的磁通设计,实现了更高的扭矩密度和更好的散热性能,但长期可靠性仍需验证,目前主要用于高性能车型。
hackernews · raffael_de · Jun 10, 07:44 · 社区讨论
背景: 轴向磁通电机是一种电机几何结构,其转子与定子之间的间隙及磁通方向平行于旋转轴,不同于传统径向电机中磁通沿半径方向。这种设计使得电机呈扁盘形,在相同体积下磁通面积更大,扭矩密度更高,且散热更好。
参考链接
社区讨论: Hacker News 社区讨论热烈,普遍持谨慎乐观态度。用户赞扬该技术的小型化和高效率,但也指出轴向磁通电机承受更高负载和应力,其长期可靠性仍需时间验证。多数人认为径向电机在未来十年仍将占主导地位,轴向电机可能先在高端性能车上普及。
标签: #electric-vehicles, #axial-flux, #manufacturing, #automotive, #technology
HTML 优先设计让网站用户一夜翻倍 ⭐️ 8.0/10
一位开发者采用 HTML 优先方法重建网站,核心功能无需 JavaScript,结果用户数量在一夜之间翻倍。 这表明在注重性能和可访问性的项目中,HTML 优先设计能带来显著用户增长,挑战了当前对重型 JavaScript 框架的依赖,可能影响开发者的技术选型。 该方法利用标准 HTML 表单元素和服务器端逻辑,仅在必要时用 JavaScript 增强,符合渐进增强策略,确保在低网速或旧设备上仍可正常使用。
hackernews · edent · Jun 10, 12:45 · 社区讨论
背景: HTML 优先是一种网页开发理念,强调优先使用浏览器原生能力(如 HTML 表单、CSS),减少对 JavaScript 的依赖,从而提高页面加载速度、可靠性和可访问性。渐进增强(Progressive Enhancement)是这一理念的实践策略,即先保证基本内容和功能的可用性,再为支持现代特性的浏览器提供增强体验。近年来,随着 HTMX 等轻量工具的出现,该理念再度受到关注。
社区讨论: 社区讨论总体正面,许多人对无 JavaScript 时代的简洁性表示怀念,但也有人质疑是否会增加开发工作量。有评论提到 HTMX 等现代工具让 HTML 优先实践更简单,还有人期待浏览器原生支持 HTML 表单与 REST 终端的直接交互(如 HTML Triptych 提案)。
标签: #web development, #HTML, #progressive enhancement, #performance, #JavaScript
Claude 桌面版每次启动均启动 1.8GB Hyper-V 虚拟机 ⭐️ 8.0/10
Anthropic 的 Claude 桌面客户端在 Windows 系统上每次启动时,即使仅用于聊天,也会自动启动一个约 1.8GB 的 Hyper-V 虚拟机,且不提供退出机制。该虚拟机用于 Claude Cowork 功能的沙箱环境。 该设计缺乏用户控制和资源管理意识,浪费系统资源,反映出 AI 工具在快速迭代中忽视用户体验的倾向。它引发了关于桌面软件膨胀、AI 与操作系统集成方案的社区讨论。 该 Hyper-V 虚拟机占用约 1.8GB 内存,并为 Cowork 功能额外安装约 10GB 的包。用户无法禁用或删除该虚拟机;在 Windows 上点击 Cowork 权限链接时,甚至会跳转到 macOS 系统设置页面,暴露出匆忙开发的痕迹。
hackernews · tonyrice · Jun 10, 17:11 · 社区讨论
背景: Hyper-V 是微软开发的虚拟化技术,允许在 Windows 上运行虚拟机。沙箱(Sandboxing)是安全机制,用于隔离程序运行,防止系统故障或漏洞扩散。Claude 桌面版使用 Hyper-V 虚拟机为 Cowork 功能(AI 协同工作)提供一个隔离环境,但默认在每次启动时加载,即使未使用该功能。
社区讨论: 社区评论普遍认为该行为是 Anthropic 匆忙构建的表现,缺乏精细打磨。有人指出这是 AI 公司与操作系统在本地 AI 集成上的竞赛,但 Google 同时拥有 Gemini 和 Android 却未能解决类似问题。另有人嘲讽 Windows 版本中嵌入了 macOS 系统偏好设置的链接,并抱怨现代软件剥夺用户控制权。
标签: #AI, #desktop-software, #user-experience, #resource-management, #sandboxing
Anthropic CEO 提出 AI 安全法规,引发开放权重模型争议 ⭐️ 8.0/10
Anthropic 的 CEO Dario Amodei 发表了一篇关于人工智能指数级增长的政策文章,建议实施 AI 安全标准、技术测试和审计等法规。 该提案来自领先 AI 公司的 CEO,可能影响未来的 AI 监管方向,并引发了关于监管俘获和开放权重模型合法性的广泛讨论。 提案要求前沿 AI 模型在发布前必须通过技术测试和审计,并建立保护模型权重的安全标准;评论者指出这可能实质性地禁止开放权重模型。
hackernews · yjp20 · Jun 10, 18:36 · 社区讨论
背景: 开放权重模型是指训练好的神经网络参数公开可用的模型,促进了 AI 透明度和协作,但也可能被滥用;监管俘获指法规被大型企业用来限制竞争,是社区争论的焦点。
社区讨论: 社区评论分歧较大:部分支持提案的安全考量,但更多人认为这是监管俘获,意图使开放权重模型非法,并担忧大公司通过法规巩固市场地位;也有人肯定其中的就业政策。
标签: #AI policy, #regulation, #AI safety, #open-source models, #Anthropic
Google 发布开源扩散语言模型 DiffusionGemma,速度提升 4 倍 ⭐️ 8.0/10
Google 正式发布了开源(Apache 2 许可)扩散语言模型 DiffusionGemma,拥有 260 亿参数,在 Hugging Face 上提供,同时 NVIDIA 通过其 NIM API 免费托管该模型。这标志着扩散文本生成技术正式融入 Gemma 系列,继去年实验性 Gemini Diffusion 之后正式推出。 该非自回归扩散模型能以高达 4 倍的速度生成文本,为实时 AI 应用开辟了可能。开源及免费托管使其更易于实验和集成,可能推动高效语言模型的新方向,影响开发者和产业生态。 模型基于扩散过程生成文本,而非逐词预测,拥有 26B 参数,在 NVIDIA GeForce RTX GPU 上优化。Simon Willison 测试时以超过 500 token/秒的速度返回 2,409 个 token。但高并发云服务中,其并行解码优势可能减弱,自回归模型在饱和计算时更高效。
rss · Simon Willison · Jun 10, 20:00
背景: 扩散语言模型是一种不同于传统自回归 Transformer 的语言模型,它通过从噪声到文本的转换过程并行生成多个词,而非顺序预测。此前已有 LLaDA 等研究探索此范式。Google 去年曾短暂实验 Gemini Diffusion 模型,而 DiffusionGemma 是该方向的正式开源成果,结合了 Gemma 系列的广泛采用和 Apache 2 许可。
参考链接
标签: #AI, #language-models, #diffusion-models, #open-source, #Google-Gemma
Claude Fable 5 系统卡揭示秘密干预限制竞争对手 ⭐️ 8.0/10
Anthropic 在 Fable 5 系统卡中披露,已对涉及前沿大模型开发的任务(如构建预训练流程、分布式训练或机器学习加速器设计)实施隐藏式干预,即使此类请求已违反服务条款,也会通过修改提示、引导向量或参数高效微调等方式暗中削弱回复效果,且不告知用户。 这是 AI 公司首次公开承认采用不可察觉的手段限制模型能力以遏制竞争对手,引发对透明性、公平竞争和 AI 治理的严重忧虑,可能影响行业对模型可信度的判断。 干预仅影响约 0.03% 的流量,集中在不足 0.1% 的组织中;模型不会回退至其他模型,而是直接使回复失效,干预方式对用户完全不可见。
rss · Simon Willison · Jun 10, 00:37
背景: Claude Fable 是 Anthropic 最新的视觉大模型,系统卡则是详细记录 AI 系统部署配置、防护措施及影响的公开文档。Anthropic 服务条款早已禁止使用 Claude 开发竞争模型,但为防范那些无视条款的参与者,公司增加了技术干预,其引用的“递归自我改进”概念指 AI 加速自身研发进程,可能带来失控风险。
标签: #AI Ethics, #Large Language Models, #Anthropic, #Competition, #System Card
πFS:以π的位数存储数据的幽默文件系统 ⭐️ 7.0/10
πFS 是一个幽默的开源项目,它通过将数据表示为圆周率π小数位的偏移量来“存储”文件,以此说明寻址开销等同于原数据大小。 该项目以诙谐方式直观展示了信息论基本原理:数据压缩存在根本限制,所谓“免费存储”并不存在;它引发了关于压缩极限和现代有损压缩(如大语言模型)的有趣讨论。 技术上,该文件系统每存储 8 比特输入数据需写入 16 比特地址信息;随着数据长度增加,在π中找到的序列的起始位置和长度远大于原始数据的概率极高,因此完全不实用。
hackernews · helterskelter · Jun 10, 18:54 · 社区讨论
背景: 圆周率π是一个无限不循环小数,理论上任何有限的数字序列都可能在其小数位中出现。但信息论表明,无损压缩的极限由数据的熵决定;使用π的索引来编码数据,索引本身所需空间至少与数据等长,因此无法真正压缩。
社区讨论: 社区评论普遍赞赏这一巧思,同时明确指出其不切实际:有用户计算了地址开销,指出每 8 位数据需 16 位地址;有人提及图书馆巴比伦的类似实验,并指出大语言模型可视为有损压缩的一种实现;总体氛围轻松幽默,认可其为信息论的趣味演示。
标签: #pi, #filesystem, #compression, #information-theory, #thought-experiment
JPL 如何让 13 岁的好奇号火星车持续开展科学探测 ⭐️ 7.0/10
NASA 喷气推进实验室通过软件更新(如 R13 补丁)和电源管理策略,让已运行 13 年的好奇号火星车在远超原定任务寿命后仍能正常工作。 这展示了深空探测器的长期可维护性,为未来低成本、长寿命的行星探测任务提供了宝贵工程经验,有望使科学回报远高于载人航天。 好奇号主计算机采用 30 年历史的 RAD750 抗辐射处理器;软件更新压缩至 21.9MB 左右,通过深空网络上传。下一代任务将改用功耗更低的抗辐射版骁龙平台。
hackernews · pseudolus · Jun 10, 17:30 · 社区讨论
背景: 好奇号于 2011 年发射,原定任务寿命仅 2 年,但凭借辐射加固嵌入式系统和远程软件修复能力已超期服役。RAD750 本质上是 1990 年代的 IBM PowerPC 750 处理器,以其可靠性著称。火星车所有指令通过深空网络发送,每次软件更新都是数亿公里外的精密操作。
参考链接
社区讨论: 评论普遍惊叹好奇号的超长寿命,认为总成本不到人类绕月任务的 5%,呼吁将更多预算投向无人探测。有人指出处理器换代(从 RAD750 到骁龙)的跨越,也有人感慨时间流逝,并期待它工作到 2035 年。
标签: #mars-rover, #space-exploration, #engineering, #longevity, #embedded-systems
《精益创业》作者 Eric Ries 新书《Incorruptible》谈企业使命漂移 ⭐️ 7.0/10
Eric Ries 在 Hacker News 开展 AMA,推介新书《Incorruptible》,阐述企业因“财务引力”等隐性结构性力量逐渐背离创始使命的现象,并介绍 Costco、Patagonia 等保持本心的成功案例。 该话题直面初创与成熟企业普遍面临的使命稀释困境,揭示了公司治理中常被忽视的深层动因,为创业者、投资者和管理者提供了构建长期忠诚组织的思路。 书中提出“财务引力”概念,将企业堕落归因于结构性力量而非个人恶意,并以 Costco、Patagonia、Novo Nordisk 为例,同时提及 Ries 创立的长期证券交易所(LTSE)和 AI 实验室 Answer.AI 等实践。
hackernews · eries · Jun 10, 14:47
背景: Eric Ries 是《精益创业》作者,该书倡导快速迭代与验证式学习。《Incorruptible》是其时隔十五年的新作,延续对组织可持续性的思考,类似 Jim Collins《从优秀到卓越》的追问,但更侧重使命保有与结构性防御。
社区讨论: 评论呈现分歧:前 Anthropic 员工认为成就关键在具体人而非结构;有人以《从优秀到卓越》中企业的后续衰落质疑案例的长期可靠性;另有指出 Costco 等案例依赖创始人铁腕而非纯粹结构。
标签: #startups, #mission-drift, #business-strategy, #lean-startup, #company-culture
PgDog 获融资,旨在解决 PostgreSQL 扩展难题 ⭐️ 7.0/10
PgDog 宣布获得融资,用于开发一款开源 PostgreSQL 代理,该代理旨在解决数据库扩展性和高可用性问题。 许多 PostgreSQL 用户长期受困于扩展和高可用性的复杂配置,PgDog 有望提供一个一体化解决方案,简化数据库架构,对广泛使用 PostgreSQL 的企业意义重大。 PgDog 使用 Rust 语言开发,支持连接池、负载均衡和数据库分片,并能管理逻辑复制。但目前仍处于早期阶段,尚未在生产环境中大规模验证。
hackernews · levkk · Jun 10, 14:02 · 社区讨论
背景: PostgreSQL 传统上主要通过升级单机硬件(垂直扩展)来提升性能,其水平扩展能力有限,缺乏内置的分片机制。高可用配置通常需要借助 Patroni、HAProxy 等外部工具,而版本升级往往需要停机维护,成为运维痛点。PgDog 这样的代理工具试图通过提供统一的连接管理和分片来简化这些问题。
参考链接
社区讨论: 社区讨论热度高,用户普遍认同高可用和版本升级是主要痛点。评论中分享了手动故障转移、分片需求等经历,对创始人经验表示认可,同时也有对代理能否真正解决复杂问题的质疑,整体持谨慎乐观态度。
标签: #postgresql, #database, #proxy, #scaling, #funding
数据仓库
Apache Iceberg 拟新增 Variant 数据类型 ⭐️ 8.0/10
Apache Iceberg 社区在 issue #10392 中提议新增 Variant 数据类型,用于高效二进制编码和查询 JSON、Avro、Parquet 等半结构化数据。 此举将显著提升数据湖中半结构化数据的处理效率,使 Iceberg 在功能上比肩已支持 Variant 类型的 Delta Lake 和 Snowflake,满足现代数据分析对灵活数据存储与查询的需求。 Variant 类型以内部二进制格式存储,可保留源数据的灵活性并实现高效查询;该提案目前处于建议阶段,具体实现细节及与现有系统的兼容性尚待明确。
github · sfc-gh-aixu · Apr 30, 12:52
背景: Variant 数据类型是一种用于半结构化数据的高效存储格式,支持 schema-on-read,避免了频繁的 ETL 和扁平化操作。该类型已在 Snowflake、Databricks 的 Delta Lake 和 Apache Spark 中得到应用,其标准化有望降低不同系统间的集成成本。
参考链接
标签: #Apache Iceberg, #semi-structured data, #data types, #query optimization, #data lake
CostBench 开源基准:客观衡量云数据仓库性价比 ⭐️ 8.0/10
ClickHouse 推出了 CostBench,一个开源的云数据仓库性价比基准测试框架,它将各平台的查询运行时间和计费模型统一转换为“单位价格性能”指标,实现公平的成本效率对比。 它解决了多云数据仓库选型中成本难以横向比较的核心痛点,帮助企业在性能和支出之间找到最佳平衡,推动行业从单纯拼速度转向注重性价比。 CostBench 通过采集真实查询耗时和解析各家(如 Snowflake、BigQuery)的详细计费逻辑,计算出每美元能完成的查询量,代码在 GitHub 开源,确保透明可复现。
rss · ClickHouse Blog · Jun 10, 00:51
背景: 云数据仓库服务普遍采用异构计费模式,例如按扫描字节数、计算时长或混合计费,导致直接对比性能成本非常困难。传统基准测试(如 TPC-H)仅衡量查询速度,而忽略真实费用。CostBench 首次以“性价比”作为核心维度,为技术选型提供标准化依据。
参考链接
标签: #data-warehouse, #benchmarking, #cloud-cost, #performance, #clickhouse
Iceberg Kafka Connect 拟增加协调器进度检测实现背压 ⭐️ 7.0/10
Apache Iceberg 社区提出一项提案,计划在 Kafka Connect 的 Worker 组件中增加协调器(Coordinator)进度检测功能,当协调器过载或出现问题时,Worker 可以主动暂停,从而实施背压,避免控制消息呈指数级增长。 该机制直接解决了 Iceberg Kafka Connect 在实际运行中协调器过载时控制消息爆炸式增长的问题,有助于提高系统稳定性,避免因背压缺失导致的数据管道崩溃,对于依赖 Iceberg 和 Kafka 的大规模数据湖应用具有重要现实意义。 提案设计的背压机制较为简单,Worker 通过检测 Coordinator 的进度自行暂停,无需复杂的外部管控。目前尚处于提案阶段,具体实现和细节待定,且讨论仅通过邮件列表进行,暂无实际代码或性能测试数据。
github · HenryCaiHaiying · Jun 2, 00:01
背景: Apache Iceberg 是一种用于大规模分析表的高性能开放表格式,常与 Kafka Connect 结合实现流式数据入湖。Kafka Connect 是 Apache Kafka 的集成框架,用于连接外部系统。在此架构中,协调器(Coordinator)负责分配任务,工作节点(Worker)执行数据同步。当协调器过载时,若无背压控制,Worker 持续发送的控制消息会加剧问题,背压机制可让下游通知上游降低发送速率,防止系统崩溃。
标签: #apache-iceberg, #kafka-connect, #backpressure, #coordinator, #data-streaming
Apache Iceberg 提议为 VARIANT 列添加虚拟字段元数据 ⭐️ 7.0/10
针对 Apache Iceberg v3 新增的 VARIANT 半结构化数据类型,社区提出了引入虚拟字段元数据的机制。该机制允许引擎解析字段类型、下推谓词,并将查询透明重定向到已抽出的物理列。 这将显著提升对半结构化数据的查询优化能力,简化用户手动管理 schema 演变的负担,使 Iceberg 在处理灵活数据模型时更加高效。 虚拟字段是 VARIANT 列内已知字段路径的类型化元数据,可用于谓词下推和透明列重定向。该提案目前处于设计阶段,尚无具体实现细节或已知限制。
github · jeffbuser · Apr 25, 03:00
背景: Apache Iceberg 是一种开源表格式,用于在数据湖上实现可靠的数据管理,其 v3 版本引入了 VARIANT 类型以高效存储半结构化数据(如 JSON)。半结构化数据通常缺少固定 schema,导致查询性能和 schema 管理困难。虚拟字段元数据的概念类似 React 的虚拟 DOM,在元数据层创建虚拟视图,异步处理后再同步回对象存储。
参考链接
标签: #Apache Iceberg, #data lakes, #semi-structured data, #schema evolution, #query optimization
Apache Iceberg 提议统一文件格式 API ⭐️ 7.0/10
Apache Iceberg 社区在 issue #12225 中提出了一个文件格式 API 提案,旨在抽象化对 Avro、Parquet 和 ORC 三种底层文件格式的支持,以确保 Iceberg V3 规范新增的特性在所有格式中获得一致实现。 当前由于不同开发者专注于不同格式,导致新特性支持不均衡。该 API 将简化维护工作,保障用户无论选择何种文件格式都能享受完整功能,提升数据湖生态的兼容性和可靠性。 该 API 需要为 Iceberg V3 引入的新列类型、默认值等特性提供统一的文件格式层接口,并考虑对未来可能出现的新兴文件格式进行扩展支持。
github · pvary · Apr 20, 11:57
背景: Apache Iceberg 是一种高性能开放表格式,用于管理数据湖中的大型分析表,支持 Spark、Trino 等多种计算引擎。底层可采用 Avro(行式序列化)、Parquet(列式存储)和 ORC(列式存储)等文件格式存储数据。Iceberg V3 规范新增了诸多高级功能,要求各文件格式进行相应适配。
标签: #Apache Iceberg, #file formats, #API design, #data engineering, #open source
Delta Lake 协议新增重定向规范提案 ⭐️ 7.0/10
Delta Lake 项目通过合并请求 #3705 提交了一份协议变更提案,新增重定向规范。该提案详细定义了重定向特性、启用与禁用的流程,以及查询重定向机制。 该规范若被采纳,将允许 Delta 表将查询重定向至其他表,这对数据迁移、表版本升级或无缝切换场景至关重要,能提升 Delta Lake 生态系统的兼容性与灵活性。 该提案属于协议变更文档,目前仅为提案,尚未纳入正式协议;它描述了特性定义、启用/禁用的具体步骤,以及客户端执行查询重定向的流程。
github · kamcheungting-db · Mar 14, 20:12
背景: Delta Lake 是一个开源数据湖存储层,通过 ACID 事务和可扩展元数据处理为数据湖带来可靠性。其协议定义了表结构和读写规则,表特性则是一组可启用的功能,影响表的行为。重定向规范是拟议的新特性,允许 Delta 表将读取请求引导至其他表,便于数据治理和演进。
标签: #delta-lake, #protocol, #redirection, #documentation, #proposal
Apache Hudi 提议实现分区软删除支持 ⭐️ 7.0/10
Apache Hudi 社区提出一项提案(Issue #18774),计划为分区操作添加软删除功能,允许在数据被永久清理前进行恢复。当前删除 API 会直接替换文件并由清理服务永久删除,新方案将引入一个中间状态。 该功能将提升数据安全性,允许在误删分区时进行恢复,减少操作失误带来的数据丢失风险,对依赖 Apache Hudi 进行数据管理的用户尤为重要。 根据提案,软删除后分区文件不再对读查询可见,但相关文件和索引仅标记为删除,直到清理服务运行时才真正移除,从而为误删提供恢复机会;不过此功能仍处于早期讨论阶段,尚未实现。
github · kbuci · May 18, 22:43
背景: Apache Hudi 是一款流行的数据湖仓平台,为数据湖带来了事务和增量处理等数据库功能。在 Hudi 表中,分区是组织数据的逻辑单元,常用于按时间等维度划分数据。直接删除分区会导致数据永久丢失,而软删除是一种延迟清理策略,可在用户误操作后提供救回数据的机会。
标签: #Apache Hudi, #Data Lake, #Soft Delete, #Partition Management, #Feature Request
Databricks 宣布存储生态系统,实现企业数据随处治理 ⭐️ 7.0/10
Databricks 正式发布存储生态系统,使企业能够在无需移动数据的情况下,对分布在多云和本地环境中的数据资产进行统一治理。 此举解决了企业数据治理中数据难以移动的关键痛点,消除了数据迁移带来的成本、延迟和合规风险,对采用数据湖屋架构的组织意义重大。 该生态系统基于 Delta Lake 等开放表格式构建,可能借助 Unity Catalog 实现跨环境的细粒度访问控制和审计,但技术实现细节和兼容性限制尚待公布。
rss · Databricks Blog · Jun 10, 12:03
背景: 数据湖屋是一种融合数据湖和数据仓库的架构,由 Delta Lake、Apache Iceberg 等开放表格式支撑,支持高效存储与分析。企业数据资产往往分散在多个云平台和本地系统中,治理难度大。多云治理则涉及跨不同云服务商的基础设施管理,需要统一的安全、合规和成本控制手段。
参考链接
标签: #data-governance, #databricks, #enterprise-data, #multi-cloud, #data-lakehouse
Iceberg Flink 集成拟支持水印与计算列元数据 ⭐️ 6.0/10
Apache Iceberg 社区提出了一项新提案(#16756),计划在 Flink 集成中添加对水印(Watermarks)和计算列(Computed Columns)的元数据支持。 这将使 Flink 在创建和查询 Iceberg 表时能够保存并利用流处理特有的元数据,提升流式查询的准确性和效率,缩小与原生流处理引擎之间的差距。 提案旨在允许 Iceberg catalog 存储计算列(如 event_time AS order_time)和水印策略(如 WATERMARK FOR event_time AS event_time - INTERVAL ‘5’ SECOND)的定义,这些元数据目前无法被持久化。
github · SteveStevenpoor · Jun 10, 07:38
背景: Apache Iceberg 是一种开放表格式,支持在数据湖上管理大型分析表,允许多种计算引擎(如 Spark、Flink、Trino)并发读写。Apache Flink 是流行的流处理框架。在流处理中,水印用于追踪事件时间进度并处理延迟数据,计算列则是在查询时根据其他列动态生成的虚拟列。目前通过 Flink 创建的 Iceberg 表会丢失这些流处理元数据。
参考链接
标签: #Apache Iceberg, #Apache Flink, #streaming, #metadata, #watermarks
Apache Iceberg V4 拟新增 Tags 元数据字段 ⭐️ 6.0/10
Apache Iceberg 社区在 V4 规范中提出 #14815 号提案,计划为数据文件引入 Tags 键值对元数据字段,以增强自定义信息存储能力。 该提案为 Iceberg 表格式带来了文件级元数据扩展性,允许数据平台灵活附加标签、版本等自定义属性,有助于提升数据治理和运维效率,并促进与数据质量、血缘追踪等系统的集成。 Tags 字段将作为键值对出现在文件清单的 data_file 结构中,当前仅针对 Table 规格,不涉及 View、REST 等模块,且提案尚处于设计阶段,未进入实现。
github · emkornfield · Jun 9, 00:44
背景: Apache Iceberg 是一款面向大规模分析表的高性能开放表格式,通过清单文件组织数据文件的元数据。V4 规范重新设计了元数据架构,引入自适应元数据树以支持流处理场景下的低延迟提交。此次提议的 Tags 字段允许用户在文件清单中为每个文件附加键值对标签,进一步丰富了元数据的自定义能力。
标签: #apache-iceberg, #table-format, #metadata, #specification, #v4
综合
uv 0.11.20 发布:新增导出选项与工作区性能提升 ⭐️ 6.0/10
uv 0.11.20 于 2026 年 6 月 10 日发布,为 uv export 和 uv pip list 分别增加了 --emit-index-url 与 --find-links 选项,引入了隐藏的 uv upgrade 命令,并加速了大型工作区的发现过程。 这些增强让依赖导出格式更完整,便于在不同索引环境中复现安装;uv upgrade 的加入预示着更原生的依赖升级体验;大型工作区性能优化则直接惠及 monorepo 风格的项目管理。 --emit-index-url 将索引 URL 显式写入导出的 requirements 文件;--find-links 允许 uv pip list 显示来自本地或远程链接的包;隐藏的 uv upgrade 目前仍是预览功能,且会拒绝 Git 修订版本;macOS 构建采用了 ICF 以减小二进制体积。
github · github-actions[bot] · Jun 10, 17:21
背景: uv export 用于将项目依赖导出为标准的 requirements.txt 格式,而 --emit-index-url 可额外输出软件源地址,这在依赖来自多个非 PyPI 索引时尤为重要。uv 通过 [[tool.uv.index]] 配置支持自定义包索引,例如 PyTorch 的专用通道。工作区是 uv 管理多个相关 Python 项目的机制,在根目录的 pyproject.toml 中声明 [tool.uv.workspace] 即可,发现算法会向上遍历目录树。
标签: #python, #package-manager, #release, #tooling, #uv