From 59 items, 29 important content pieces were selected
AI 与工具
- Transformer 作者 Noam Shazeer 加入 OpenAI ⭐️ 9.0/10 · HN · 00:26
- GitHub 万级仓库传播木马,瞄准 AI 编程代理 ⭐️ 9.0/10 · HN · 11:45
- GLM-5.2:最强开源文本大模型震撼发布 ⭐️ 9.0/10 · Simon Willison · 23:58
- 举报强迫同意违法,Elkjop 五年后被罚 180 万欧元 ⭐️ 8.0/10 · HN · 18:31
- 瑞士议会解除新建核电站禁令 ⭐️ 8.0/10 · HN · 14:17
- 医院和大学通过老药新用大幅降低治疗成本 ⭐️ 8.0/10 · HN · 10:33
- Modos Flow 彩色电子纸显示器:60Hz 刷新率与 3200x2400 分辨率 ⭐️ 8.0/10 · HN · 11:41
- Ubiquiti 推出基于 ZFS 的企业级 NAS,无订阅费 ⭐️ 7.0/10 · HN · 14:24
- CS 6120 高级编译器自学课程受热议:追踪编译成争议焦点 ⭐️ 7.0/10 · HN · 11:04
- 欧洲数字主权剧场:W Social 的批判性审视 ⭐️ 7.0/10 · HN · 12:46
数据仓库
- Apache Iceberg 计划支持 Variant 数据类型 ⭐️ 8.0/10 · GitHub · 12:52
- Delta Lake 重定向协议变更提案 ⭐️ 8.0/10 · GitHub · 20:12
- Delta Lake 4.3.0 发布:集成 Unity Catalog 与选择性替换 ⭐️ 7.0/10 · GitHub · 04:26
- Apache Iceberg v4 规范新增 varchar 和 char 类型 ⭐️ 7.0/10 · GitHub · 13:55
- Apache Iceberg 提议新鲜度感知表加载 API ⭐️ 7.0/10 · GitHub · 00:50
- Apache Iceberg 提议在 LoadTableResponse 中暴露资源标识符 ⭐️ 7.0/10 · GitHub · 19:56
- dbt 适配器登陆 Confluent Cloud,简化流数据管道开发 ⭐️ 7.0/10 · Confluent Blog (Kafka/Flink) · 22:09
- Apache Iceberg 提议支持 Flink 水印与计算列元数据 ⭐️ 6.0/10 · GitHub · 03:53
- Spark 提交时捕获并发送聚合 Parquet footer 指标 ⭐️ 6.0/10 · GitHub · 15:58
- Iceberg Kafka Connect 新增背压控制提案 ⭐️ 6.0/10 · GitHub · 00:01
GitHub 趋势
- DeusData/codebase-memory-mcp +2308⭐: DeusData/codebase-memory-mcp:支持 158 种语言的高性能 MCP 代码智能服务器 ⭐️ 8.0/10 · GH Trending · 22:27
- google-research/timesfm +858⭐: Google Research 时间序列基础模型 TimesFM 单日获 858 星 ⭐️ 8.0/10 · GH Trending · 22:27
- makeplane/plane +610⭐: 开源项目管理平台 Plane 单日获 610 星,成 Jira 替代新秀 ⭐️ 7.0/10 · GH Trending · 22:27
- n0-computer/iroh +369⭐: Rust 网络栈 iroh:用加密密钥替代 IP 地址 ⭐️ 7.0/10 · GH Trending · 22:27
- alibaba/zvec +344⭐: 阿里巴巴开源轻量级进程内向量数据库 zvec ⭐️ 7.0/10 · GH Trending · 22:27
- Universal-Debloater-Alliance/universal-android-debloater-next-generation +247⭐: 跨平台安卓去臃肿 GUI 工具 UAD-ng 今日获 247 星 ⭐️ 7.0/10 · GH Trending · 22:27
- yifanfeng97/Hyper-Extract +124⭐: Hyper-Extract:一键将文本转为知识超图 ⭐️ 7.0/10 · GH Trending · 22:27
- obra/superpowers +1435⭐: AI 编程代理技能框架 Superpowers 单日获 1435 星 ⭐️ 6.0/10 · GH Trending · 22:27
- withastro/flue +164⭐: Astro 团队发布 Flue 沙箱代理框架,单日揽 164 星 ⭐️ 6.0/10 · GH Trending · 22:27
AI 与工具
Transformer 作者 Noam Shazeer 加入 OpenAI ⭐️ 9.0/10
Transformer 论文作者、谷歌 Gemini 前联席主管 Noam Shazeer 宣布离开谷歌,正式加入 OpenAI。 Shazeer 是深度学习领域的标志性人物,他的加入将进一步增强 OpenAI 的研发实力,并可能影响大模型赛道的竞争格局。 他曾参与创立 Character.AI,2024 年通过约 27 亿美元的交易重返谷歌领导 Gemini,此次离职距离回归仅约两年。
hackernews · lukasgross · Jun 18, 00:26 · 社区讨论
背景: 2017 年发表的《Attention Is All You Need》论文提出了 Transformer 架构,奠定了当前大语言模型的技术基础。Noam Shazeer 是该论文的八位作者之一,被誉为顶尖的工程‘魔法师’,在谷歌工作逾 20 年后短暂创业,又再度回归谷歌。
社区讨论: 社区对此反应热烈,普遍惊讶于其短暂回归后再度离开。一些评论猜测其直言不讳的政治立场或与谷歌管理层产生分歧,也有网友回顾了他在 Transformer 论文中的历史贡献,期待他在 OpenAI 能带来新的突破。
标签: #AI, #transformers, #talent migration, #OpenAI, #Google
GitHub 万级仓库传播木马,瞄准 AI 编程代理 ⭐️ 9.0/10
一份安全报告揭露了超过 10,000 个 GitHub 仓库正在传播木马病毒,这些木马专门针对 AI 编程代理(如 Copilot、Cursor 等),意图通过感染开发者环境来破坏软件供应链。 攻击者利用 AI 代理自动集成代码的特性,发起大规模供应链攻击。恶意依赖一旦引入,传播速度远超传统手段,严重威胁依赖 AI 辅助开发的团队。 攻击者频繁删除并重新推送提交,使仓库排在搜索结果前列,增加被 AI 代理抓取的概率。仓库多克隆新项目而非流行仓库,以规避人工审查。
hackernews · theorchid · Jun 18, 11:45 · 社区讨论
背景: AI 编程代理(如 GitHub Copilot、Cursor 等)能根据指令自动搜索并集成开源代码。传统上开发者会人工审查依赖,但 AI 代理可能跳过此步骤直接引入未经验证的仓库,带来安全隐患。
社区讨论: 多位开发者分享亲身经历,称个人开源项目被克隆并植入恶意代码。社区普遍认为频繁提交的策略旨在提升排名,并分析攻击时机与 AI 代理普及及全球大选年有关,整体担忧情绪明显。
标签: #malware, #supply-chain-security, #github, #ai-agents, #cybersecurity
GLM-5.2:最强开源文本大模型震撼发布 ⭐️ 9.0/10
GLM-5.2,一个拥有 7530 亿参数、1 百万 token 上下文窗口的文本专用混合专家模型,由 Z.ai 以 MIT 许可证开源发布,在多项基准测试中成为领先的开源权重模型。 这一发布为开源模型设立了新标杆,MIT 许可证允许免费商用和修改,将加速 AI 应用的民主化,对闭源模型形成强力竞争。 该模型输出 token 数较多,在 Artificial Analysis 智力指数任务中平均产生 43k 输出 token,且 1 百万上下文窗口需通过模型名称后缀[1m]激活;通过 OpenRouter 访问时,输入价格为每百万 token 1.4 美元,输出为 4.4 美元。
rss · Simon Willison · Jun 17, 23:58
背景: 混合专家(MoE)是一种机器学习架构,通过多个专家网络分工处理不同输入,减少计算开销,实现高效扩展。开源权重模型指公开训练参数的模型,虽然训练数据和代码可能不公开,但允许自由使用和修改,与完全开源模型有所区别。
参考链接
标签: #LLM, #open-source, #Mixture of Experts, #Z.ai, #GLM-5.2
举报强迫同意违法,Elkjop 五年后被罚 180 万欧元 ⭐️ 8.0/10
一名个人因 Elkjop 公司强制用户同意接收营销信息作为加入客户俱乐部的条件,向挪威数据保护局投诉,最终该公司被罚款 180 万欧元。 该案例表明个人能够依据 GDPR 有效挑战企业违法行为,数据保护机构能够做出实质性处罚,对消费者隐私权益保护具有重要示范作用。 Elkjop 公司在回复中承认“接收营销/优惠是成为客户俱乐部成员的条件”,这构成了 GDPR 禁止的捆绑同意。挪威数据保护局 Datatilsynet 历时五年才做出最终裁决。
hackernews · speckx · Jun 18, 18:31 · 社区讨论
背景: GDPR(通用数据保护条例)第 7 条第 4 款明确规定,同意必须自由给出,禁止将服务与不必要的个人数据处理捆绑在一起,即所谓的“强迫同意”。谷歌和 Facebook 在 GDPR 生效首日就因类似做法遭到起诉。数据保护机构负责监督 GDPR 实施,并可对违规行为处以高额罚款。
参考链接
社区讨论: 多数评论对本案结果表示欣慰,鼓励更多人主动维护自身权利。有用户称赞挪威数据保护局一贯站在消费者立场,但处理周期较长。也有评论指出在美国这类维权行为常面临阻力,个人可能处于不利地位。
标签: #privacy, #gdpr, #consent, #regulatory-fines, #consumer-rights
瑞士议会解除新建核电站禁令 ⭐️ 8.0/10
瑞士联邦议会投票决定,解除自 2017 年起实施的新建核电站禁令,为未来核电建设重新打开大门。 此举标志着瑞士能源政策的重大转向,有助于在弃核与气候目标之间寻求平衡,可能影响该国能源安全和电力供应稳定性。 该决定仍需通过全民公投才能最终生效,同时左翼和绿党强烈反对,未来辩论可能充满挑战。
hackernews · leonidasrup · Jun 18, 14:17 · 社区讨论
背景: 2011 年日本福岛核事故后,瑞士政府于 2017 年通过能源战略,决定逐步淘汰核电并禁止新建核电站。瑞士目前有四台在运核电机组,发电量约占全国三分之一。近年来,因冬季电力短缺风险和气候目标压力,核能议题重新回到公共讨论中。
社区讨论: 社区讨论热烈,支持者认为核能是解决气候和冬季缺电问题的关键,批评针对核能高成本和误导信息;反对者担忧公投前景和政治阻力。有评论指出意大利等国也应效仿。
标签: #nuclear energy, #energy policy, #Switzerland, #climate change, #Hacker News
医院和大学通过老药新用大幅降低治疗成本 ⭐️ 8.0/10
医院和大学正在重新利用现有药物,以大幅降低治疗费用。例如,癌症药阿伐斯汀用于治疗黄斑变性,每次剂量仅 50 美元,而类似专利药兰尼单抗需 1500 美元;氯胺酮治疗抑郁症也远低于其专利修饰药艾氯胺酮的成本。 这凸显了药品再利用在降低医疗成本、提高可及性方面的巨大潜力,尤其对罕见病等无利可图的领域意义重大,同时揭示了制药行业通过专利策略维持高价、扭曲医疗激励的现状。 阿伐斯汀与兰尼单抗分子结构相同,但包装和定价天差地别;艾氯胺酮是氯胺酮的一种镜像分子,专门修改以获得专利,但有证据表明其疗效不如普通氯胺酮。此外,现有药物的新用途缺乏无需厂商同意的明确监管路径,限制了推广。
hackernews · giuliomagnifico · Jun 18, 10:33 · 社区讨论
背景: 药品再利用指将已获批的药物用于新适应症,可绕过冗长研发流程以降低成本。许多老药专利已过期,药企缺乏动力投资,甚至通过微调分子结构重新申请专利来维持高价。医生虽可超说明书用药,但常缺乏正式批准和报销支持。
社区讨论: 社区普遍支持降低成本的药品再利用,但强烈批评美国医疗激励的扭曲,如通过分子修饰申请专利抬高价格。评论者分享了罕见病成功的再利用案例,并指出缺乏监管途径是主要障碍。
标签: #drug repurposing, #healthcare, #patents, #cost reduction, #pharmaceuticals
Modos Flow 彩色电子纸显示器:60Hz 刷新率与 3200x2400 分辨率 ⭐️ 8.0/10
Modos 公司推出了 Modos Flow,这是一款 13.3 英寸彩色电子纸显示器,具备 3200x2400 原生分辨率、触控输入和 60Hz 刷新率,将电子纸技术性能推向了新高。 这标志着电子纸首次达到 60Hz 刷新率,结合高分辨率和彩色显示,使其能流畅处理视频和日常操作,显著拓宽了其在护眼阅读以外的应用场景,如便携办公和户外设备。 Modos 采用了定制微控制器来实现 60Hz 驱动,但基于 E Ink Carta 面板的耐久性可能因高刷新率而受影响。此外,Dasung 等厂商也发布了类似规格的产品,显示该领域竞争正在升温。
hackernews · Vinnl · Jun 18, 11:41 · 社区讨论
背景: 电子纸显示器以低功耗和日光可读性见长,但传统刷新率极低(通常 1Hz),且长期局限于灰度显示。E Ink 公司近年推出的彩色电子墨水技术(如 E Ink Kaleido)才使彩色电子纸成为可能,而 60Hz 刷新率对电子纸而言曾是巨大挑战,因其依赖物理墨滴移动。Modos Flow 的推出表明,这一壁垒正被突破。
参考链接
社区讨论: 社区讨论普遍充满期待,认为 Modos Flow 是电子纸领域的重大进展。有人特别赞赏其高刷新率,但也对 Carta 面板长期使用的寿命表示担忧。另有用户指出,这款产品首次使电子纸显示器足以胜任日常交互,可能催生更多应用场景。
标签: #e-paper, #display-technology, #hardware, #startup, #color-eink
Ubiquiti 推出基于 ZFS 的企业级 NAS,无订阅费 ⭐️ 7.0/10
Ubiquiti 发布了搭载 ZFS 文件系统的企业级 NAS 产品,主打零月租费模式,配备双 25 GbE SFP28 端口和冗余电源。 该产品将 ZFS 的数据完整性、快照等高级存储功能带入企业市场,且无持续订阅成本,可能对传统企业存储厂商构成挑战。 该 NAS 提供双 25GbE SFP28 端口和冗余电源,但社区讨论指出,使用传统机械硬盘时可能无法充分利用高带宽。
hackernews · ksec · Jun 18, 14:24 · 社区讨论
背景: ZFS 是一款集文件系统和卷管理功能于一体的技术,最初由 Sun 公司开发,以数据完整性校验、写时复制和高效快照著称。Ubiquiti 是一家知名的网络设备制造商,此前主要面向专业消费者和中小企业,其产品以性价比高和无许可证费为特点,但在企业级市场的可靠性曾受质疑。此次推出基于 ZFS 的 NAS,是 Ubiquiti 向企业存储领域的一次拓展。
参考链接
社区讨论: 社区反响热烈但看法不一:许多用户赞赏其采用 ZFS 和无订阅费的模式,认为 ZFS 远超竞品的容错和备份能力;但也有用户警告,Ubiquiti 的企业级产品往往因更新匆忙而存在稳定性风险,并指出使用机械硬盘时实际性能可能难达标称带宽。此外,部分用户提及 Ubiquiti 过往的安全事件,对其信任度存疑。
标签: #enterprise-nas, #zfs, #ubiquiti, #storage, #hackernews
CS 6120 高级编译器自学课程受热议:追踪编译成争议焦点 ⭐️ 7.0/10
康奈尔大学的 CS 6120 高级编译器课程将 2025 年秋季学期的全部材料免费在线开放,包括视频、阅读资料和项目,使任何人都能自学高级编译技术。 该课程为编译器领域提供了高质量、易获取的教育资源,降低了学习门槛,同时社区对其内容的讨论反映了现代动态编译技术的演变趋势。 动态编译器部分几乎完全围绕跟踪编译(trace compilation)展开,但该技术已被多次放弃;此外,社区质疑课程中有些内容(如死代码消除、SSA 形式)更适合编译器入门课程,而非高级课程。
hackernews · ibobev · Jun 18, 11:04 · 社区讨论
背景: 跟踪编译是一种动态编译技术,通过记录和编译程序的热路径来优化性能,但因其难以处理路径分支和内存开销问题,逐渐被基于方法或类型反馈的编译方式取代。现代动态编译器更注重类型反馈、推测优化及去优化等机制。
参考链接
社区讨论: 社区普遍赞赏该课程的易访问性,但多位评论者指出其动态编译器部分过度集中于已过时的跟踪编译技术,并质疑课程中部分基础内容是否配得上“高级”之名。也有评论提到 Rust 编译器曾使用机器学习等不同思路。
标签: #compilers, #education, #computer-science, #online-learning, #programming-languages
欧洲数字主权剧场:W Social 的批判性审视 ⭐️ 7.0/10
一篇博客文章对欧洲社交网络项目 W Social 进行了批判性审视,质疑其数字主权主张,并指出其表演性本质。 此事揭示了欧洲数字主权政治辞令与实际开放技术实现之间的差距,并反映出真正开源替代方案如 Eurosky 被忽视的问题。 W Social 声称基于 ATProto,但缺乏透明度,而 Eurosky 由非营利组织 Modal 公开构建。社区指出,W Social 更像是政客专用的欧盟版 Truth Social。
hackernews · nemoniac · Jun 18, 12:46 · 社区讨论
背景: 数字主权指欧洲减少对美国科技平台的依赖,建立自主技术生态。AT Protocol(ATProto)是 Bluesky 社交网络所采用的去中心化协议,旨在实现社交数据可移植和用户自主。欧洲已有多个基于 ATProto 的尝试,如 Eurosky。
参考链接
社区讨论: 社区整体持怀疑态度,认为 W Social 可疑且不透明,有人指出其更像是欧盟版 Truth Social,仅供政客扩大影响力。许多人推荐开放构建的 Eurosky(mu.social)作为替代,并对政客迅速加入而媒体鲜有关注真正开源项目表示不满。
标签: #digital sovereignty, #social media, #European tech, #ATProto, #platform critique
数据仓库
Apache Iceberg 计划支持 Variant 数据类型 ⭐️ 8.0/10
Apache Iceberg GitHub 议题 #10392 提出新增 Variant 数据类型,以实现对 JSON、Avro、Parquet 等半结构化数据的高效二进制编码。 该类型可让数据湖更灵活且高效地处理半结构化数据,减少存储开销,并显著提升 Spark、Trino 等查询引擎对此类数据的操作性能。 该提案建议内部采用高效二进制格式存储 Variant 数据,同时保留原始半结构化数据的灵活性;目前提议处于讨论阶段,未包含具体实现细节。
github · sfc-gh-aixu · Apr 30, 12:52
背景: Apache Iceberg 是一种面向大规模分析数据集的高性能开源表格式,支持 Spark、Trino、Flink 等多种引擎并发安全访问。半结构化数据(如 JSON、Avro)通常具有动态模式,直接存储会带来解析和查询效率问题。Variant 数据类型旨在为这类数据提供原生、高效的存储和查询支持。
标签: #Apache Iceberg, #Variant Type, #Semi-structured Data, #Data Engineering, #Data Types
Delta Lake 重定向协议变更提案 ⭐️ 8.0/10
Delta Lake 社区在 #3705 提案中新增重定向功能,详细定义了其特性、启用/禁用流程及查询重定向流。 该协议变更将增强 Delta Lake 在多集群环境下的查询路由能力,对数据迁移和负载均衡具有重要意义。 提案具体描述了重定向功能的定义、启用与禁用的步骤,并明确了查询重定向的流程。
github · kamcheungting-db · Mar 14, 20:12
背景: Delta Lake 是一个开放格式的数据湖存储层,其事务日志遵循 Delta 协议,通过协议版本和表特性集控制行为。协议变更提案需详细说明新功能的定义与实现流程,以确保跨引擎兼容性。重定向机制通常用于在表迁移、跨区域访问或多集群操作中,将查询导向正确的数据位置。
标签: #Delta Lake, #protocol, #redirection, #proposal, #data engineering
Delta Lake 4.3.0 发布:集成 Unity Catalog 与选择性替换 ⭐️ 7.0/10
Delta Lake 4.3.0 正式发布,为 Apache Spark 引入 Unity Catalog REST API 集成,使其成为托管 Delta 表的真实源,并新增 replaceOn 和 replaceUsing DataFrame API 实现选择性数据替换。 Unity Catalog 集成通过服务器端提交验证和意图驱动的元数据更新,提升了跨引擎的数据治理一致性与安全性,为未来统一访问奠定基础;新的替换 API 丰富了数据操作手段,简化增量 ETL 流程。 该版本基于 Apache Spark 4.1.0 和 4.0.1,提供 Scala 2.13 构件;UniForm 现支持原子化、增量式的 Iceberg 元数据转换;Delta Sharing 增强了流式和 CDF 支持,包括自动 Delta 响应解析与 Parquet 转 Delta。
github · seewishnew · Jun 18, 04:26
背景: Delta Lake 是为数据湖提供 ACID 事务的开源存储层。Unity Catalog 是开源数据治理工具,可统一管理元数据与 AI 资产并提供细粒度访问控制。选择性数据替换允许根据条件或列匹配部分覆盖数据,是 ETL 中常见的更新需求。
标签: #data-engineering, #delta-lake, #apache-spark, #unity-catalog, #release
Apache Iceberg v4 规范新增 varchar 和 char 类型 ⭐️ 7.0/10
Apache Iceberg 的 PR #16829 提议在 v4 规范中新增 varchar(N) 和 char(N) 两种原始类型,以提升与传统 SQL 引擎及主流查询引擎的兼容性。 这一变更将显著改善 Iceberg 与 DB2、Oracle、SQL Server 等传统数据库的互操作性,并原生适配 Spark 3.1+ 和 Trino 等引擎,降低迁移和集成成本。 Spark 从 3.1.0 起已通过 VarcharType(length) 和 CharType(length) 支持这些类型,Trino 也原生支持 varchar(n) 和 char(n);该提案旨在使其成为 Iceberg v4 的正式基础类型。
github · ebyhr · Jun 17, 13:55
背景: Apache Iceberg 是一种为大规模数据湖分析设计的高性能开放表格式,允许多种引擎(如 Spark、Trino、Flink)同时安全地操作同一张表。传统关系型数据库通常提供定长字符串(char)和变长字符串(varchar)类型,但大数据表格式往往只提供通用的字符串类型,缺少长度约束,导致在 SQL 兼容性上存在差距。
参考链接
标签: #apache-iceberg, #data-engineering, #specification, #sql, #database
Apache Iceberg 提议新鲜度感知表加载 API ⭐️ 7.0/10
该提案在 Iceberg REST 目录中新增 API,允许客户端仅在表元数据发生变更时才进行完整的表加载,避免不必要的全量刷新,优化缓存机制。 此举可显著减少查询引擎频繁加载元数据的开销,提升缓存效率,对大规模数据平台的性能和扩展性具有积极影响,尤其适用于需要实时数据新鲜度的分析场景。 该 API 作为 Iceberg 目录级接口提出,旨在实现按需加载表元数据;具体实现需确保与现有 REST 目录规范兼容,并考虑各种客户端缓存失效策略的集成方式。
github · gaborkaszab · Jun 14, 00:50
背景: Apache Iceberg 是一种开放的表格式,用于大规模数据分析。其 REST 目录规范为不同引擎提供了标准化的表管理接口。查询引擎通常会缓存表元数据以加速查询,但需要及时失效缓存以保证数据新鲜度。当前实现往往依赖事件处理或全量加载,缺乏条件加载机制,导致不必要的开销。该提案通过引入新鲜度感知加载,旨在解决这一问题。
参考链接
标签: #apache-iceberg, #rest-catalog, #caching, #metadata, #optimization
Apache Iceberg 提议在 LoadTableResponse 中暴露资源标识符 ⭐️ 7.0/10
Apache Iceberg 项目提议修改 REST API,在 LoadTableResponse(加载表响应)中新增服务端分配的资源标识符(例如 tableId),使客户端能直接获取该标识符用于资源级访问控制。 该变更将简化云原生集成中的权限管理,下游系统无需通过 HTTP 层拦截即可获取服务端标识符,从而方便地构造 ARN 等凭证,提升与 AWS S3 Tables 等云服务的整合效率。 服务端标识符(如 tableId)由 REST 目录后端分配,例如 S3 Tables 会为每个表生成唯一的 tableId,用于 ARN 构造和细粒度授权。当前 LoadTableResponse 中不包含此字段,导致客户端不得不依赖外部机制获取。
github · aritragster · May 18, 19:56
背景: Apache Iceberg 是一种高性能开放表格式,用于管理大规模分析表,通常部署在数据湖上。它的 REST 目录 API 允许客户端通过标准 HTTP 操作(如 loadTable)获取表元数据。LoadTableResponse 是 loadTable 接口的返回对象,包含表的位置、格式等信息,但此前未暴露服务端内部标识符。
标签: #Apache Iceberg, #REST API, #Access Control, #Cloud Storage, #Table Metadata
dbt 适配器登陆 Confluent Cloud,简化流数据管道开发 ⭐️ 7.0/10
Confluent 发布了 dbt-confluent 适配器,允许数据工程师在 Confluent Cloud 的 Apache Flink 服务上运用 dbt 熟悉的 SQL 转换工作流,构建和测试流处理管道。 此举弥合了批处理与流处理之间的鸿沟,使得数据工程师无需学习新工具即可直接构建流处理管道,有望提高开发效率并推动流处理在更多场景的采用。 该适配器为开源项目,代码托管于 GitHub,可通过 PyPI 安装;它基于 Confluent Cloud 的全托管 Flink SQL 服务运行,数据必须位于 Confluent Cloud 的 Kafka 主题中。此次发布还包含了物化表(Materialized Tables)等更新。
rss · Confluent Blog (Kafka/Flink) · Jun 18, 22:09
背景: dbt 是一款流行的数据转换工具,它让数据工程师通过 SQL 定义和执行数据仓库中的批量转换。Apache Flink 则是流处理领域的事实标准,擅长处理实时数据流。Confluent Cloud 提供全托管的 Kafka 和 Flink 服务。此前 dbt 主要面向批处理场景,而新适配器将其工作流扩展至流处理,使数据工程师能沿用相同的 SQL 开发体验来构建实时管道。
参考链接
标签: #dbt, #Confluent, #Apache Flink, #data engineering, #streaming
Apache Iceberg 提议支持 Flink 水印与计算列元数据 ⭐️ 6.0/10
Apache Iceberg 社区提交了一个新特性请求(issue #16756),提议在表元数据中增加对 Apache Flink 水印(watermark)定义和计算列(computed column)的支持,以便 Flink 流式处理引擎能够直接利用这些信息进行查询规划与执行。 该功能将显著改善 Iceberg 与 Flink 在流式 SQL 场景下的集成体验,用户可以像在原生 Flink 表中一样定义水印和计算列,并由 Iceberg 目录统一保存,从而简化流式作业的开发与维护,推动数据湖在实时处理领域的应用。 当前仅为提案,尚未提供具体实现细节;需注意计算列可能涉及确定性表达式与持久化策略,水印的存储需保证与 Flink 语义一致,且应不影响其他查询引擎的兼容性。
github · SteveStevenpoor · Jun 12, 03:53
背景: Apache Flink 中的水印是一种追踪事件时间进度的机制,用于处理乱序数据和触发窗口计算。计算列则是由表中其他列通过表达式生成的虚拟列,常用于简化查询或预计算。目前 Iceberg 目录主要保存表模式,不保留流式查询所需的水印和计算列元数据,导致用户需在每次作业中重复定义。
标签: #Apache Iceberg, #Apache Flink, #Streaming SQL, #Watermarks, #Computed Columns
Spark 提交时捕获并发送聚合 Parquet footer 指标 ⭐️ 6.0/10
此功能请求建议在 Apache Iceberg 写入过程中,从 Parquet 文件页脚提取聚合的物理存储统计信息(如列级别的值计数、空值计数等),通过 Iceberg 现有的事件框架在提交时发送,但不将指标持久化到表元数据中。 该机制可为数据监控、存储成本分析提供便捷的统计信息,帮助用户优化数据布局和查询性能,且不会增加 Iceberg 表元数据的存储开销,对 Spark 上使用 Iceberg 的用户有实际价值。 该特性为 opt-in(可选)机制,仅发送指标而不持久化;具体指标来源于 Parquet 页脚,如 value_counts、null_value_counts、nan_value_counts 等列级统计;目前仅处于提议阶段,尚未实现。
github · gtrettenero · Jun 3, 15:58
背景: Apache Iceberg 是一种高性能的开放表格式,用于在数据湖中管理大规模分析数据,支持多引擎并发读写。Parquet 是一种列式存储文件格式,其页脚包含行组和列的统计信息,如最小值、最大值和空值计数,常用于优化数据跳过。Spark 是广泛使用的分布式计算引擎,可通过 Iceberg 扩展进行数据写入。
参考链接
标签: #apache-iceberg, #spark, #parquet, #metrics, #data-engineering
Iceberg Kafka Connect 新增背压控制提案 ⭐️ 6.0/10
提议在 Iceberg 的 Kafka Connect 集成中增加背压控制机制:当协调器过载时,工作器会检测协调器进度并暂停自身,以避免控制主题消息指数级增长。 该机制解决了流数据管道中的可扩展性问题,防止协调器过载导致系统不稳定,对使用 Iceberg 和 Kafka Connect 的大数据系统有重要意义。 工作器通过监控协调器进度决定是否暂停,设计简洁;目前处于提案阶段,具体实现尚未确定,社区通过邮件列表进行讨论。
github · HenryCaiHaiying · Jun 2, 00:01
背景: Kafka Connect 是 Apache Kafka 提供的集成框架,用于连接外部系统。Apache Iceberg 是一种面向大规模分析数据集的表格式。Iceberg Kafka Connect 集成允许用户将 Kafka 数据流式写入 Iceberg 表。在分布式系统中,背压(backpressure)是一种常见的流量控制机制,用于防止下游组件过载。
参考链接
标签: #Apache Iceberg, #Kafka Connect, #backpressure, #distributed systems, #streaming