文献分享: SIGMOD-24论文集概览
论文集link
文章目录
- 1. Keynotes
- 2. Industry Session
- 2.1. Query Engines
- 2.2. LLMs and ML Applications
- 2.3. Cloud Storage
- 2.4. Cloud Databases
- 2.5. Cloud Database Architecture
- 2.6. Graph Data Management
- 3. Demonstrations
- 3.1. Group A
- 3.1. Group B
- 4. Panels
- 5. Tutorials
- 6. Workshop Summaries
1. Keynotes
👇The Limitations of Data, Machine Learning and Us
🏛机构:智利大学
➡️领域:
- Social and professional topics → Computing / technology policy
- Computing methodologies → Machine learning
- Information systems → Data management systems
📚概述:
- 讨论了以下主题
- 监督学习/输入监督学习的数据的局限
- 人类适用机器学习时的社会/认知偏见
- 人工智能使用的监管措施
👇**The Journey to A Knowledgeable Assistant with Retrieval-Augmented Generation (RAG) **
🏛机构:Facebook (Meta)
📚概述:
- 背景:
- 多个研究领域(DB/NLP/AI)都致力于在一定时间提供正确信息
- 近年LLM提出,但也可能会输出错误/虚假信息
- 本文工作:
- 通过实验,评估LLMs在回答事实性问题的可靠性
- 构建Retrieval-Augmented Generation(RAG)联邦系统,整合LLM训练集以外知识,提高回答可靠性
- 将RAG用到多模态/不同文化/个性化回答
👇Making Data Management Better with Vectorized Query Processing
📚概述:
- 主要回顾/展望了矢量化查询
- 矢量化查询是啥
- 传统的查询:逐行处理(tuple-at-a-time)
- 矢量化查询:每次处理一批固定大小的数据(称之为Vector),可实现CPU优化/缓存友好等
2. Industry Session
2.1. Query Engines
👇Apache Arrow DataFusion: A Fast, Embeddable, Modular Analytic Query Engine
🏛机构:Apache
📚概述:
- 介绍了Apache Arrow DataFusion:一个基于Apache Arrow的查询引擎,强调快速/可嵌入/可扩展
- Apache Arrow:跨平台数据处理工具,提供高效的内存模型
- DataFusion:用Rust编写,具有性能+安全性的优势
👇Unified Query Optimization in the Fabric Data Warehouse
🏛机构:微软
➡️领域:Information systems → Query optimization
📚概述:
- 背景:微软曾推出了Parallel Data Warehouse,是一种查询大量数据的并行系统
- 本文:介绍了微软最新提出的Fabric DW
- 文章对比了Fabric DW与传统的Parallel Data Warehouse
- 新的优化器考虑了现代环境中的需求,如动态资源分配/计算存储分离等
**👇Measures in SQL **
🏛机构:Google
➡️领域:
- Information systems → Relational database query languages
- Data analytics
- Online analytical processing
📚概述:
- 背景:SQL已被广泛采用,但传统的SQL任然缺乏可组合计算的能力
- 本文:提出一种新型的附加列,叫做Measure(度量)
- 如何操作带度量的表:和普通表操作方法一样
- 带度量的SQL的优势:可在保留SQL语义同时,通过调用Measure解决更复杂的查询
- 度量如何计算得到:通过上下文(上下文敏感表达式)得到度量的值
👇ByteCard: Enhancing ByteDance’s Data Warehouse with Learned Cardinality Estimation
🏛机构:ByteDance
➡️领域:
- Information systems → Data management systems
- Computing methodologies → Machine learning
📚概述:
背景:
关于ByteHouse:字节公司开发的云原生数据分析引擎,用于处理超大规模数据的复杂分析任务
⚠️云原生数据库:指专门为云环境设计和优化的数据库系统
关于基数估计:预测查询结果的数量(大小),直接影响优化器的决策,是有护额的瓶颈所在
ByteCard的引入:融合最近在基数估计方面的进展,构建了兼顾可靠/实用的基数估计模型
👇Automated Multidimensional Data Layouts in Amazon Redshift
🏛机构:Amazon
➡️领域:
- Information systems → Data layout
- Autonomous database administration
- Online analytical processing engines
📚概述:
背景:关于数据布局技术,其是DB/DW中优化存储和访问效率的策略,常见为以下几种
种类 概述 示例(T=Tuple/A=Attribute) 行存储 一行数据连续存储 T1/A1→T1/A2→…→T1/An→T2/A1→…→Tm/An 列存储 一列数据连续存储 T1/A1→T2/A1→…→Tm/A1→T1/A2→…→Tm/An 排序键 数据按Key排序后存储 N/A 索引 建立表 ↔ \xleftrightarrow{} 内存位置的索引 B+树,哈希表 本文的工作1:提出了多维数据布局(MDDL)
- 核心方法:传统方法是基于一组列对表进行排序,MDDL是基于一组谓词(查询条件)对表进行排序
- 优点:是的查询高度的定制化
本文的工作2:提出一种自动化学习算法,基于历史工作负载,自动学习每个表最佳的MDDL
👇Automated Clustering Recommendation With Database Zone Maps
🏛机构:Oracle
➡️领域:Theory of computation → Database query processing and optimization (theory)
📚概述:一言蔽之,主要讲了区间图/自动聚类在数据仓库中的应用
- 背景:关于区间图(Zone Maps)
- 结构:将表划分为Zone,存储每个区域的最大/最小值
- 工作原理:支持查询时,读取区间的最大/最小值,选择跳过/不跳过该区间,从而减少扫描工作量
- 优势:在按某列排序/聚类处理后的数据上表现优越
- 本文的工作:自动分析工作负载→推荐聚类方案(线性聚类和z-order聚类)→建区间图→提高查询性能
2.2. LLMs and ML Applications
👇Similarity Joins of Sparse Features
🏛机构:Uber
➡️领域:
- Information systems → Clustering
- Theory of computation → MapReduce algorithms
📚概述:提出了Fast Scalable Sparse Joiner (FSSJ)算法,用于在大规模稀疏数据上进行相似性连接
- 一些前置知识和背景
- 相似性连接:在两个数据集中,找出相似性超过某个阈值的记录对
- 前缀过滤:相似性连接的一种技术
- 含义:对比属性的前N个属性(前缀),如果两个记录的前缀不匹配,则默认不相似
- 存在的问题:某些元素在数据集中很流行/元素分布极其不均时,过滤效率会下降
- 稀疏特征:比如平均每个Tuple只有少数Attributes被赋值
- 本文工作:关于FSSJ,引入Quasi-Prefix Filtering的新方法
- 针对频繁出现的流行元素做出优化,最流行元素不会被当作前缀来过滤
- 传统前缀过滤需对所有记录排序,然后广播给所有计算结点。准前缀过滤避免了广播操作
👇FinSQL: Model-Agnostic LLMs-based Text-to-SQL Framework for Financial Analysis
🏛机构:浙江大学
➡️领域:Information systems → Structured Query Language
📚概述:金融领域Text-to-SQL的挑战与解决
- 背景:Text-to-SQL
- 含义:通过自然语言生成SQL
- 问题与挑战:金融领域缺乏实用的Text-to-SQL基准数据集,现有Text-to-SQL没考虑金融数据库特点
- 本文的工作
- BULL数据集:收集的一个实用的Text-to-SQL基准数据集
- FinSQL框架:一个基于大语言模型的Text-to-SQL框架,处理方法包括提示词构建/参数微调/输出校准
👇Rock: Cleaning Data by Embedding ML in Logic Rules
🏛机构:关河智图/深圳计算机研究院
➡️领域:Information systems → Information integration
📚概述:提出一个基于ML的Rock系统,用来清洗Relational Data(就是Relational Database中的数据)
- Rock的核心:结合机器学习/逻辑推理,通过将ML分类器嵌入为谓词来清洗数据
- Rock的清洗任务:注意以下任务在Rock中可做到多任务协同处理
- 实体解析:将不同事物指向(识别并归类为)一个实体
- 冲突解决:捕捉不同实体之间的语义不一致(比如数据源1说A是20岁/数据源2说A是30岁)并解决
- 及时性推断:根据数据的属性值,判断这些值是否过期并更新
- 不完整信息补全
- Rock的其它功能
- 自发从数据中发现规则
- 对大规模数据采取批处理模式
- 随数据更新而逐步更新
👇Data-Juicer: A One-Stop Data Processing System for Large Language Models
🏛机构:阿里巴巴
➡️领域:Information systems → Information integration
📚概述:提出了一个新的Data-Juicer系统,能够为LLM的训练生成多样化的数据组合(data recipes)
- 背景:数据与LLM
- 数据在LLM的重要性:LLM的关键在于使用了庞大的/异构的/高质量的数据
- 数据组合:从不用来源混合而成的数据,用于训练LLM,决定了LLM的性能
- 现有的问题:开源工具无法满足多样化数据需求,以及新数据源
- Data-Juicer能干啥
- 对于异构且庞大的数据,能高效生成各种数据组合
- 能更高效评估数据组合对LLMs性能的影响
👇The Hopsworks Feature Store for Machine Learning
🏛机构:Hopsworks(瑞典软件公司)
➡️领域:
- Information systems → Database design and models
- Database management system engines.
📚概述:提出了Hopsworks机器学习特征存储(Feature Store)系统
- 背景:ML系统中的数据管理
- 含义:是ML-Sys中处理/存储/组织数据,确保数据用于训练推理的过程,是ML-Sys最具挑战的部分
- 特征存储:管理ML数据的统一平台,贯穿了特征工程/训练/推理
- Hopsworks特征存储平台:用于管理特征数据,解决了如下问题
- 特征重用:特征在不同机器学习任务中重复使用
- 数据转换:组织/执行特征过程的数据转换过程
- 确保一致性:保证特征工程/训练/推理时,数据是正确且一致的
👇COSMO: A Large-Scale E-commerce Common Sense Knowledge Generation and Serving System at Amazon
🏛机构:Amazon
➡️领域:
- Computing methodologies → Knowledge representation and reasoning
- Information systems → Web mining
📚概述:
- 背景:现有电商图谱(产品属性-用户-商家关系)无法有效发现用户意图/反应用户思维
- COSMO是个啥:可扩展系统,基于用户行为→构建用户知识图谱→为搜索导航提供服务
- COSMO构建流程:
- 知识提取:用LLM从亚马逊大数据中提取初始知识
- 筛选:引入一个(基于人工标注数据)分类器,判断哪些知识可靠/不可靠并筛选
- 去噪:采用指令微调,进一步筛掉与人类认知有偏差的知识,最终得到高质量的知识
- COSMO已经被部署在亚马逊的搜索和导航系统中
2.3. Cloud Storage
👇LETUS: A Log-Structured Efficient Trusted Universal BlockChain Storage
🏛机构:蚂蚁集团
➡️领域:
- Information systems → Data management systems
- Security and privacy → Database and storage security
📚概述:提出了LETUS,用于区块链的高效/安全的通用存储系统
背景:区块链爆炸增长,传统两层式存储结构已无法满足需求
LETUS系统的主要特点
- 打破传统两层架构:将认证数据结构(ADS)放到存储引擎,从而优化了存储和IO
- 提出了新型ADS:结合Merkle树+增量编码(delta-encoding)功能,称作DMM-Tree
- 改进的索引机制:基于版本的索引,用变种B树来索引ADS生成的数据页
- 通用性:适用各种区块链
LETUS已经在蚂蚁链的商业应用中部署,例如2023年亚运会的NFT项目和数字火炬点燃活动
👇Vortex: A Stream-oriented Storage Engine For Big Data Analytics
🏛机构:Google
➡️领域:Information systems → Stream management
📚概述:提出了Vortex,一个为Google BigQuery构建的实时分析存储引擎,支持对数据流的实时分析
- 背景:
- 企业需要处理海量数据,尤其是对于连续数据流(streaming data)
- 传统数据系统分为流处理引擎/批处理系统,后者在处理实时数据时不佳
- 关于Vortex
- 设计:专为数据流设计但也支持批处理,将两种操作集成到了同一个系统中
- 能力:处理PB级别的数据摄取(持续流入与分析),能以亚秒级响应用户的实时查询
👇Native Cloud Object Storage in Db2 Warehouse: Implementing a Fast and Cost-Efficient Cloud Storage Architecture
🏛机构:IBM
➡️领域:Information systems → Database management system engines
📚概述:提出了Db2 Warehouse存储架构的现代化改造,以适应云环境
- 背景
- 传统小块存储:以4KB大小的数据页为存储单位(适合随机存取/块级IO),但在云环境数据库中成本高
- 云对象存储:在处理大规模数据时,比传统小块存储成本更低
- 存在的问题:将传统存储 → 迁移 \xrightarrow{迁移} 迁移云对象存储成本巨大,因此需要新的架构
- 对Db2 Warehouse架构的改进
- 将Log-Structured Merge(LSM)树整合到Db2 Warehouse系统,以管理大规模写入/查询
- 保留传统数据页格式,避免对传统数据库内核大幅重构
👇ESTELLE: An Efficient and Cost-effective Cloud Log Engine
🏛机构:电子科大/华为
➡️领域:
- Information systems → DBMS engine architectures
- Structured text search
📚概述:提出了ESTELLE,转为云环境设计的日志引擎,用于管理大规模的日志数据
- 背景:
- 日志的重要性:监控/调试/分析的核心数据
- 日志的特性:高频写入,低频检索,大量存储;这也是本文模型所要满足的
- ESTELLE的设计与特点
- 采用了一种低成本日志索引框架,可根据需求灵活引用索引机制
- 分离计算和存储,以分离读写操作,从而确保系统能同时查询和写入
- 设计了一个近乎无锁的写入过程,以适应高频快速写入需求
- ESTELLE存储与查询优化
- 采取对象存储技术(以对象为单位存储,包含数据/元数据/主键)
- 采取Log Bloom Filter和近似倒排索引,根据场景优化查询
👇TimeCloth: Fast Point-in-Time Database Recovery in The Cloud
🏛机构:阿里巴巴
➡️领域:
- Information systems → Database utilities and tools
- Point-in-time copies
- Storage recovery strategies
- Database recovery
📚概述:提出了TimeCloth,一种专为云环境设计的通用恢复机制,以优化用户触发的数据库恢复
- 背景:关于用户触发的数据库恢复
- 特点:相比于因故障触发的恢复,需要更加考量用户的需求,如细粒度(精确程度)/时间点
- 现有方案:与底层数据库引擎高度集成,难以处理用户触发的恢复
- TimeCloth的设计:专注实现次线性恢复时间,满足用户对恢复的特定要求
- 恢复模块:包括了几种机制,高效日志过滤/将非冲突日志并行回放/合并日志以减少工作量
- 导入模块:实现了透明的基于FUSE的延迟加载机制+智能预取功能
- TimeCloth已经在阿里云上投入生产
2.4. Cloud Databases
👇Proactive Resume and Pause of Resources for Microsoft Azure SQL Database Serverless
🏛机构:微软
➡️领域:Computer systems organization → Self-organizing autonomic computing
📚概述:提出了一种针对云数据库的主动资源分配基础设施,并用于无服务器的Azure SQL数据库
- 背景:为云数据库分配资源
- 反应式:传统的方法,即根据当前需求分配资源
- 主动式:创新方法,结合当前需求+预期需求来分配资源
- 本文的模型
- 要干啥:在资源的高可用性/运营成本的降低/主动策略的计算开销之间找到接近最优的平衡点
- 干了啥:用于管理数百万个无服务器的Azure SQL数据库
👇Vertically Autoscaling Monolithic Applications with CaaSPER
🏛机构:微软
➡️领域:Information systems → Data management systems
📚概述:提出了CaaSPER垂直自动扩展算法,旨在优化Kubernetes平台上DBaaS的资源管理
一些基本概念
- Kubernetes平台:管理云应用程序的开源平台,云应用分为有状态(对DB操作有赖于历史数据)/无状态
- 垂直扩展/水平扩展:增加单个服务器或节点的资源来提升处理能力/增加服务器节点数
⚠️Kubernetes通过垂直扩展来应对负载波动
现状问题
- Kubernetes平台上,客户为应对峰值负载会过度分配资源(负载下降时也没有缩减资源)
- 现有的垂直自动扩展工具在及时缩减资源或应对CPU限流时表现不佳
CaaSPER的提出
- 是个啥:结合反应式(负载临界时主动调整)+主动式(预测负载变化以主动调整)的垂直自动扩展算法
- 为了啥:保持最佳的CPU利用率,减少资源浪费
- 其它特性:允许用户选择能效模式/性能模式,可扩展性(与平台无关)
👇Flux: Decoupled Auto-Scaling for Heterogeneous Query Workload in Alibaba AnalyticDB
🏛机构:阿里巴巴
➡️领域:
- Information systems → Data warehouses
- Autonomous database administration
📚概述:提出了Flux,一个专为阿里巴巴AnalyticDB设计的云原生负载自动扩展平台,用于优化异构查询
- 背景(当前遇到的问题)
- 云数据仓库需要处理各种异构工作负载,比如在线事务/临时查询/ETL(抽取+转换+加载)
- 当长/短期查询混合执行时,并发控制+多任务执行会过于复杂
- 传统自动扩展机制在处理混合工作时,可能导致资源利用不平衡(有些过度分配/有些又不足)
- 关于Flux
- 是啥:云原生的自动扩展平台,具有解耦的自动扩展架构,专用于处理异构查询工作负载
- 架构:
- 性能优化:将长/短期查询机制分开处理 → \to →消除了传统系统中由于并发控制导致的瓶颈
- 资源弹性:利用无服务器容器实例来动态分配资源 → \to →资源分配可快速响应负载变化
👇Intelligent Scaling in Amazon Redshift
🏛机构:Amazon
➡️领域:
- Information systems → DBMS engine architectures
- Relational parallel and distributed DBMSs
- Autonomous database administration
- Online analytical processing engines
📚概述:提出了基于AI的RAIS,用于解决云数据仓库在处理多样化工作负载时的自动扩展问题
- 背景:阿里巴巴和亚马逊真是神奇的对手,两篇论文的论调都差不多,什么工作负载多样云云
- 关于RAIS
- 是啥:一组基于AI驱动的扩展/优化技术
- 干啥:确保数据仓库能根据负载需求,从垂直/水平扩展(动态调整)资源
- 咋干:动态(响应)分配资源+自动优化数据仓库规模,这二者都是基于AI所完成的
👇Stage: Query Execution Time Prediction in Amazon Redshift
🏛机构:Amazon/MIT
➡️领域:
- Information systems → Database performance evaluation;
- Relational database model
📚概述:这个好理解,就是一种新的查询时间预测器,称之为Stage predictor,应用在Amazon Redshift
- 背景:
- 在DBMS中查询时间的准确预测极为关键,关系到优化/资源分配等
- 现有预测技术存在一些问题,比如Cold Start(无历史数据时表现差),工作负载变化大时预测不准
- Stage predictor:一个分层执行的时间预测器,结合了以下三种模型
- 执行时间缓存:缓存过去的执行时间,预测时优先使用历史数据
- 轻量级本地模型:针对特定数据库实例进行优化,即对每个实例个性化预测
- 复杂的全局模型:一个可在Redshift实例剑转移的复杂模型,基于不同实例的共享知识预测
2.5. Cloud Database Architecture
👇PolarDB-MP: A Multi-Primary Cloud-Native Database via Disaggregated Shared Memory(最佳论文)
🏛机构:阿里巴巴
➡️领域:Information systems → Relational database model
📚概述:提出了PolarDB-MP,多主结构+云原生数据库,旨在解决主从数据库中写入吞吐量受限问题
关于什么是主从数据库
- 主数据库:位于核心结点,处理所有写操作,将写操作同步到从数据库
- 从数据库:位于辅助结点,处理所有读操作,接收来自主数据库的更新从而保持一致
🌘这种做法的好处在于提高了读性能,坏处在于写必须经过主数据库→限制了写性能
关于PolarDB-MP
- 是多主数据库,即允许多个结点成为主数据库,分散了写的负载
- 利用了==分离式共享内存和存储==架构
- 分离式架构:计算资源与存储资源分开设置在不同结点,二者都可独立扩展
- 共享内存/存储:多个结点可访问同一组内存/存储资源,本模型实质上每个结点可访问所有数据
- 允许事务在单个节点上处理
关于PolarDB-MP的核心组件Polar Multi-Primary Fusion Server (PMFS)
- 设计思想:建立在分离式内存共享上,负责全局事务调节+缓冲区融合,采取了远程直接内存访问
- 主要功能:事务融合(跨结点事务一致),缓冲区融合(跨结点内存共享),锁融合(跨界点并发控制)
关于PolarDB-MP引入的LLSN设计:为不同结点生成的写前日志,建立一个部分顺序的结构
👇Amazon MemoryDB: A Fast and Durable Memory-First Cloud Database
🏛机构:Amazon
➡️领域:Information systems → Main memory engines
📚概述:提出了基于云内存的数据库服务Amazon MemoryDB for Redis
- 关于Amazon MemoryDB for Redis的主要特点
- 内存高性能:MemoryDB将数据直接放在内存中,可以高速读写
- 高耐久性:除了将数据放在内存中,MemoryDB还会异步地将数据复制到外存中,防丢失
- 与Redis:MemoryDB基于Redis,兼容Redis(在Redis上运行的app可直接在MemoryDB上运行)
- 可扩展性:用户可按需(负载增加时)扩展存储/计算资源
- 高可用性:可多区部署,多区备份
👇Extending Polaris to Support Transactions
🏛机构:微软
➡️领域:Information systems → Data management systems
📚概述:对Polaris系统的增强
关于Polaris:一个云原生的分布式查询处理器
- 传统的Polaris:仅支持只读事务(查询)
- 增强的Polaris:支持所有常规事务(插入/删除/更新/加载)
关于日志结构存储
- 原理:当插入/跟新/删除时,先把变更按顺序写入日志,一段时间后合并执行日志以更改实际数据
- 不可变性:一旦数据被写入,就不会再发生改变,新的数据不会覆盖而是追加 (避免了频繁磁盘修改)
🌊增强的Polaris正是采用了日志结构存储,利用其不可变性,大大提高了写入效率
其它Polaris的技术特性
- 使用快照隔离语义(Snapshot Isolation/一种事务隔离级别)来保持数据一致,支持多表/多语句事务
- 支持T-SQL,即为微软的Fabric平台提供完整的T-SQL支持
👇BigLake: BigQuery’s Evolution toward a Multi-Cloud Lakehouse
🏛机构:Google
➡️领域:Information systems → Data management systems engines
📚概述:介绍了BigLake的设计及其在Google Cloud的BigQuery中的演变
BigQuery是啥:Google Cloud的云原生分布式查询处理器
现今遇到的挑战
数据管理的复杂性:很多企业需要统一管理数据仓库/数据湖,但这又是俩不同结构的系统
结构 简单说明 数据库 用于实时存储、管理结构化数据,支持事务处理。 数据仓库 集成多个数据源,用于大规模数据分析和报表生成。 数据湖 存储原始、未处理的多种格式数据,支持大数据分析和机器学习。 如何整合不同格式的数据和表格
非结构化数据的处理:AI/ML工作负载处理需要处理的正是非结构化的数据,如何让它们高效处理?
多云部署:很多企业会用不同的云平台,如何让多个云平台运行相同服务?
BigLake:通过以下创新,是的数据仓库和数据湖得以结合
- BigLake Tables:使得BigQuery能处理分析不同格式的数据
- BigLake Object Tables:使BigQuery能处理非结构化数据,从而进行AI/ML处理
- Omni平台:使得BigQuery可以在非谷歌云平台运行
👇Predicate Caching: Query-Driven Secondary Indexing for Cloud Data Warehouses
🏛机构:Amazon
➡️领域:
- Information systems → Data scans
- Online analytical processing engines
- Data warehouses
📚概述:提出了云数据仓库中提高查询性能的新方法,叫做谓词缓存
背景
- 云数据仓库(比如Amazon Redshift)已成为查询处理的标准
- 用户和系统经常发送相同的查询,导致查询性能遇到瓶颈
- 当前系统的优化有赖于查询结果的缓存,但结果缓存会因为插入/删除/更新而过时
为了解决上述问题,提出了谓词缓存(一种新的二级索引)
- 是啥:一种用于优化数据库查询性能的二级索引技术
- 干啥:解决传统缓存方法,在处理重复查询时面临的缓存过时问题
谓词缓存的原理:以如下为例子阐述
UserID (基础表) Name Age 1 Alice 25 2 Bob 30 3 Carol 35 4 Dave 40 SELECT * FROM Users WHERE Age > 30; -- 查询结果如下
UserID (结果表) Name Age 3 Carol 35 4 Dave 40
- 传统的查询:缓存结果表的结果,下次发起相同查询时(若基础表没更新)直接输出缓存
- 谓词缓存查询:不会缓存结果,转而缓存基础表中满足查询条件的对象的范围,例如
- 缓存:执行上述查询,缓存会记录范围[35, 40]
- 更新:当基础表发生改变时,缓存也只要改变谓词范围(相比换掉整个结果表好得多)
- 再查询:利用缓存的范围信息,快速定位符合的数据
谓词缓存的其它特性
- 可在查询执行时动态构建(摘要里也没细说)
- 谓词缓存是轻量级的(还是那句话,比缓存整张表好多了),并且能够在线维护
2.6. Graph Data Management
👇BG3: A Cost Effective and I/O Efficient Graph Database in ByteDance
🏛机构:字节
➡️领域:
- Information systems → Data management systems
- Storage management
📚概述:介绍了字节新提出的ByteGraph 3.0(BG3)模型,用来处理大规模图结构数据
- 背景
- 字节旗下产品(Tiktok/抖音/头条)每天生成大量图
- ByteGraph是字节的分布式图数据库,但随负载量增加显得力不从心
- 关于ByteGraph 3.0:ByteGraph的升级版本,主要结构包含
- 图存储引擎:内存索引是基于BW-Tree(一种适合图数据存储的树形数据结构),采取云存储
- 负载感知的空间回收机制:根据负载情况优化存储空间,减少写放大(写入量<<请求空间)
- 轻量级主从同步机制:保证扩展系统时,多个结点间的数据同步且一致,有利于实时处理
👇PG-Triggers: Triggers for Property Graphs
🏛机构:米兰理工
➡️领域:Triggers(触发器)是数据库的一种自动化操作,即特定事件发生时自动执行一系列预定操作
- Information systems → Triggers and rules
- Graph-based database models
- Theory of computation → Database query languages (principles)
📚概述:提出了PG-Triggers的概念,是一个针对属性图(Property Graphs)添加触发器的方案
回顾一下属性图:一种图数据库模型,用于存储+管理图数据库,由以下三种结构组成
图数据库结构 对应关系数据库结构 举例 Nodes Entity 学生,老师 Properties Attribute 学生(StuID/成绩),老师(Course/TecherID) Edges Relationship 学生 ← 授课 \xleftarrow{授课} 授课老师 背景:
- 现状:图数据库正在进行标准化工作
- 作者要干啥呢:为图数据库引入PG-Triggers,以支持类似SQL的触发机制
PG-Triggers (说的是写啥,反正在我辽阔的知识盲区中)
- 定义了触发器的语法和语义
- Neo4j 实现:将PG-Triggers翻译成Neo4j图数据库中的APOC触发器
- Neo4j:一个库,用于增强Neo4j的Cypher查询语言的功能
- APOC触发器:一种触发结构,让Neo4j在数据变化时执行预定操作
- Memgraph 实现:在这个库也实现了以下,为证明PG-Triggers的机制不仅适用于Neo4j
👇GraphScope Flex: LEGO-like Graph Computing Stack
🏛机构:阿里巴巴
➡️领域:Computer systems organization → n-tier architectures.
📚概述:提出了GraphScope Flex(GraphScope系统的升级)
- 关于GraphScope
- 是个啥:用于图遍历+分析+学习的综合解决方案
- 遇到的困难:不够万能(处理各种编程接口/App/Data时不够多样)
- 关于GraphScope Flex
- 目标:解决GraphScope所面对的多样性挑战,权衡资源和效益,提供灵活和用户友好
- 模块化:采取类似乐高积木的模块化,允许用户根据需求组合定制
- 结果评估
- GraphScope Flex在LDBC社交网络基准测试中实现了2.4倍的吞吐量提升
- GraphScope Flex在Graphalytics基准测试中达到了最高55.7倍的加速比
- 在实际应用中,GraphScope Flex表现出高达2,400倍的性能提升
👇Bouncer: Admission Control with Response Time Objectives for Low-latency Online Data Systems
🏛机构:领英/微软
➡️领域:
- General and reference → Empirical studies
- Information systems → Main memory engines
- Database utilities and tools
📚概述:提出了Bouncer(一种查询接纳控制策略),在流量激增时确保查询能尽快响应
- 背景:
- 现实背景:互联网公司在经历突发流量时,需采取策略让查询满足响应时间目标(SLOs)
- 查询接纳控制策略:(尤其在流量暴增时)用于控制接受/拒绝用户的查询请求
- 关于Bouncer策略
- 是啥:一种查询接纳控制策略
- 基本原理:低成本估算当前响应时间分布→判断新查询是否能在SLOs内完成→拒绝/接受
- 其它策略/原理
- 查询分类:为不同类别的查询设置不同的SLO
- 早期拒绝策略:帮助客户端迅速作出反应,避免系统浪费资源在无效的查询上
- 避免饥饿策略:确保某些类别的查询不会被完全拒绝,防止查询类型长期得不到服务
- 评估与结果
- Bouncer有效避免了饥饿
- Bouncer通过较少的总体拒绝次数,达到总体较小的系统开销
- 高负载下,让已接纳的查询保持接近其SLO
- 其它查询则不能达到SLO
👇NPA: Improving Large-scale Graph Neural Networks with Non-parametric Attention
🏛机构:北京大学
➡️领域:
- Information systems → Data mining
- Computing methodologies → Machine learning
📚概述:设计了非参数化(Non-parametric)GNN与非参数化注意力(PNA)
- 基础背景:
- 传统GNN:GNN处理大规模图数据时,可扩展性差
- 以往研究:通过GNN高采样技术来提交扩展性
- 现在研究:非参数化GNN训练不依赖大量可训练参数,许多场景下扩展性都很强
- 另一个背景:非参数化GNN的局限
- 过平滑问题:由于特征的过度传播,随着传播层数增加,网络性能急剧下降
- 忽略了特征的影响:非参数化GNN传播时只考虑了图结构,忽略了特征的影响
- NPA模块的提出
- 是啥:一个可插拔的模块,兼容现有非参数化GNN,使其同时支持可扩展性+更深架构
- 原理:引入注意力机制,通过传播时权衡特诊&图结构的重要性,来优化特征传播
- 验证与实验
- NPA在七个同构图/五个异构图中表现优异
- 在大规模数据集ogbn-papers100M上,NPA 实现了最先进的性能
- 一言蔽之:高性能,高扩展性,支持更深网络结构
3. Demonstrations
3.1. Group A
👇Demonstration of Ver: View Discovery in the Wild
🏛机构:芝加哥大学
➡️领域:Information systems → Information integration
📚概述:展示了Ver1数据发现系统
- 能干啥:在没提供连接路径信息的大型表格库中,识别出Project-Join视图
- 解决了啥问题
- 技术问题:面对大规模表格,要能快速找出视图
- 认为问题:如何帮用户理解+使用这些视图(因为导航结果复杂性/路径链接多样性等)
👇Comquest: Large Scale User Comment Crawling and Integration
🏛机构:天普大学/IBM
➡️领域:
- Information systems → Deep web
- Web crawling
- Information integration
- Information systems applications.
📚概述:展示了名为 Comquest 的评论抓取系统,利用Web API来收集大量网站用户评论
- 问题背景
- 用户的评论对于下游应用有重要价值
- 评论数据受限于特定平台,使得数据可用性受限,群体多样化受限
- Comquest 系统的设计
- 能干啥:(跨平台)抓取与特定新闻话题或故事相关的评论数据
- 怎么干:通过深度学习抓取API参数→发送HTTP请求到第三方评论系统的API→收集评论
- 广泛性:不仅适用于新闻网站,还可与任何用户评论网站配合使用
👇QueryShield: Cryptographically Secure Analytics in the Cloud
🏛机构:波士顿大学
➡️领域:
- Security and privacy → Cryptography
- Information systems → Data management systems
📚概述:展示了QueryShield,为云端数据分析提供加密安全服务,以保护隐私+简化多方安全计算
- QueryShield 的功能
- 数据分析描述发布:
- 数据分析师 → QueryShield 发布分析描述 \xrightarrow[\text{QueryShield}]{发布分析描述} 发布分析描述QueryShield数据所有者
- 数据所有者在保证隐私前提下,选择参与计算以获利/公益
- 数据隐私保障:提供多方安全计算技术,为关系数据库/时间序列分析,提供隐私保护
- QueryShield 的特性:用户友好,封装了多方安全计算(MPC)的复杂计算,非专家也可使用
- 文中演示的三个场景:四人就业信息调查+信用评分 异常分析+医学场景
👇SIERRA: A Counterfactual Thinking-based Visual Interface for Property Graph Query Construction
🏛机构:南洋理工
➡️领域:
- Human-centered computing → Visualization systems and tools
- Information systems → Query languages
📚概述:展示了新型视觉查询界面(VQI) SIERRA,帮不会图查询语言(Cypher)用户构建属性图数据库
背景知识
属性图:一种图数据库模型,用于存储+管理图数据库,由以下三种结构组成
图数据库结构 对应关系数据库结构 举例 Nodes Entity 学生,老师 Properties Attribute 学生(StuID/成绩),老师(Course/TecherID) Edges Relationship 学生 ← 授课 \xleftarrow{授课} 授课老师 视觉查询界面:一种帮助用户建立数据库的图形化界面,而无需编写代码(比如SQL)
背景:
- 属性图大受欢迎,但特定查询语言构成了门槛→视觉查询界面
- 现有视觉查询界面虽然易用,但未充分考虑HCI规律和心理学
SIERRA 的设计创新:解决了现有视觉查询界面在可用性和美观性上的不足
- 理论驱动的设计:采用反事实思维,结合HCI/可视化/心理学原则,使得界面直观易用
- 标签复合图(LCG):引入标签复合图,展示图的结构
- 视觉形状定义语言:融入在SIERRA的设计里,在查询构建过程中引导用户创建和维护LCG
👇Sawmill: From Logs to Causal Diagnosis of Large Systems
🏛机构: MIT
➡️领域:
- Software and its engineering → System administration
- Computing methodologies → Causal reasoning and diagnostics
- Natural language generation
📚概述:展示了Swamill系统,用来从复杂日志文件中提取因果关系
- 背景:
- 因果分析在复杂系统的动态中至关重要
- 计算机作为复杂系统,很多信息都在半结构化的日志文件中,难以提取因果
- Sawmill 系统的设计与功能
- 数据转换与清理:半结构化原始日志数据 → Sawmill \xrightarrow{\text{Sawmill}} Sawmill适合因果分析的结构化表示形式
- 可理解的变量命名:系统会自动地,将从日志中提取出的变量,命名为人类可理解的名称
- 聚合变量生成:Sawmill根据用户选择的因果单元,生成相关的聚合变量
- Sawmill能干啥
- 高效地将日志数据转化为可以进行因果推理的模型,并进行探索式因果发现
- 允许用户通过交互式界面参与,从而使用现有的工具进行因果推理
👇Demonstrating REmatch: A Novel RegEx Engine for Finding all Matches
🏛机构: 牛津大学/智利天主教大学
➡️领域:
- Theory of computation → Regular languages
- Information systems → Information retrieval
📚概述:展示了名为REmatch的正则表达式(RegEx)引擎
背景知识
正则表达式:一种用于模式匹配的工具,如以下示例
(1) 电子邮件的正则匹配表达式^[a-z0-9._%+-]+@[a-z0-9.-]+\.[a-z]{2,}$ (2) 123-456-7890类型的表达式被正则表达式\d{3}-\d{3}-\d{4}匹配
正则表达式引擎:用于解析+匹配正则表达式,并返回结果
REmatch引擎的设计
- 基于枚举算法理论,找到文档中给定模式的所有匹配项
- 区别于传统正则引擎,REmatch无需使用复杂非标准操作符,就能找到嵌套和重叠的匹配项
- 时间复杂度与逐字符输出匹配结果的时间成比例
用户界面:https://rematch.cl
应用场景:DNA序列分析,语言分析,如本文展示例子所示
👇ASQP-RL Demo: Learning Approximation Sets for Exploratory Queries
🏛机构: 宾夕法尼亚大学/Aviv大学
➡️领域:Information systems → Data management systems
📚概述:展示了ASQP-RL系统,用于优化针对大规模外部数据的非聚合查询
- 背景:处理大规模外部数据库的查询很耗时,尤其当内存有限时
- ASQP-RL原理
- 用户发起非聚合查询(SELECT/PROJECT/JOIN)
- ASQP-RL运行强化学习算法选择外部数据库一个子集
- 此处强化学习算法的原理:通过局部数据子集来近似全局数据查询的结果
- ASQP-RL将选择的子集加载到本地,成为近似集
- ASQP-RL对已经物理化(本地化)的子集执行快速的查询
- ASQP-RL的优势:
- 查询时间速快
- 查询结果准确(虽然只取了子集,但效果和取整体差不多)
- 针对聚合查询也有良好效果
👇IMBridge: Impedance Mismatch Mitigation between Database Engine and Prediction Query Execution
🏛机构: 华东师大/蚂蚁集团
➡️领域:Information systems → Query optimization
📚概述:展示了IMBridge系统,旨在弥合[数据库引擎 ↔ \leftrightarrow ↔机器学习预测]间的阻抗不匹配问题
- 背景知识
- ML×DB:机器学习模型可用于对存储在数据库的数据执行分析
- Python UDF:看起来很高级,其实就是Python User-Defined Function的意思
- 阻抗不匹配:两个系统或组件之间差异过大,导致无法交互,协调效率差
- 研究背景
- 阻抗不匹配:
- 当前数据库在查询引擎中引入Python UDF(预测函数),以在处理查询时执行ML推理
- 数据库无法理解预测函数语义
- 推理上下文重复:传统方法中,没调用一次预测函数,都要重新设置上下文环境
- 不匹配的批量大小:源于数据库操作与预测函数的批量处理之间缺乏协调,影响吞吐
- IMBridge 系统的解决方案
- 通过预测函数重写器→消除多余的推理上下文设置
- 引入了一个解耦的预测操作符→统一数据库与预测函数的批大小
👇ASM in Action: Fast and Practical Learned Cardinality Estimation
🏛机构: 浦项科技大学/洛桑联邦理工大学
➡️领域:Information systems → Query optimization
📚概述:展示了名为ASM的基数估计器
- 背景
- 基数估算:用于估计查询结果/中间结果的大小,从而反向优化查询
- 现有问题:
- 基于机器学习的基数估算器能够显著提高估算精度
- 实际部署中,ML无法与数据库查询优化器结合,导致性能不佳
- ASM的改进
- 使用自动回归模型,即利用历史数据对当前查询结果进行预测
- 从数据库中进行适当的采样
- 利用多维统计合并,在复杂多维数据上提供更高效的基数估算
- ASM能干啥:
- 显著提升了基数估算器的效率,尤其是在复杂/多维查询情况下
- 更容易与现有的数据库查询优化器集成,避免了“估算精度高但执行效率低”的问题
👇The Game Of Recourse: Simulating Algorithmic Recourse over Time to Improve Its Reliability and Fairness
🏛机构: 纽约大学
➡️领域:
- Information systems → Data management systems;
- Social and professional topics → Socio-technical systems
- Human centered computing;
📚概述:讨论了算法反应(Algorithmic Recourse)概念,并提供了一种通过模拟生成相关数据的方法
- 背景知识
- 算法反应:为在算法系统中得到不利结果的人提供建议,使其采取行动改变结果
- 算法反应的目的:发挥人的主观能动性,从而让人对算法有更多控制权
- 算法反应的困境:缺乏公开可用的数据集
- 关于The Game Of Recourse
- 是啥:一个基于代理的模拟
- 干啥:生成现实的算法反应数据
- 灵感:来自于康威的“生命游戏”Conway’s Game of Life (笑)
- 特性:可靠性+公平性
- 开放访问: https://game-of-recourse.streamlit.app
👇RobOpt: A Tool for Robust Workload Optimization Based on Uncertainty-Aware Machine Learning
🏛机构: 渥太华大学/IBM
➡️领域:
- Information systems → Query optimization
- Computing methodologies → Uncertainty quantification
- Supervised learning by regression
📚概述:展示了RobOpt系统,旨在解决关系型数据库管理系统(R-DBMS)中的查询优化问题
- 背景知识
- 优化器:R-DBMS依赖于查询优化器,为从查询选择最优计划,以达到优化目的
- 优化器原理:依赖于数据库中达到统计信息(数据分布/查询条件)→估计查询的代价和参数
- 研究背景
- 传统优化器的缺陷:
- 传统优化器的参数估计准确性差,执行查询总是非最优
- 传统优化器基于特定场景
- 基于机器学习优化器的缺陷:处理不同工作负载时,通常会选择次优方案,从而优化不力
- RobOpt 的提出
- 是啥:针对工作负载的鲁棒查询优化器,使得查询计划的选择更加稳健
- 鲁棒查询优化器:在面对不确定性/系统波动,仍然选出最优计划的优化器
- 原理
- 使用数据库的查询日志作为输入
- 通过日志中的历史数据,训练出一个基于风险感知的学习代价模型
- 在执行优化器时,考虑风险因素,并采取风险感知的计划策略
- 可以在工作负载级别/单个查询级别上分析查询样本。都可做出最优选择
- RobOpt 的优势
- 鲁棒性:在不确定较大的场景任然保持稳定性+高性能
- 灵活性:可部署在任何R-DBMS上
👇Demonstrating CAESURA: Language Models as Multi-Modal Query Planners
🏛机构: 达姆城工业大学
➡️领域:Information systems → Semi-structured data
📚概述:展示了CAESURA系统,用于将数据库技术与LLM结合,从而处理多模态数据
- 背景与背景知识
- 多模态数据
- 含义:指包含不同形式的数据,比如表格/文本/图像
- 应用:在基于LLM的问答系统中,需要enable用户去查询多模态数据
- RAG(Retrieval Augmented Generation)
- 是啥:一种扩展LLM的技术
- 干啥:先从向量数据库中检索相关数据→将数据输入LLM来计算查询结果
- 弊端:LLM推理成本很高,LLM只能处理有限数据(对大规模RAG束手无策)
- CAESURA 的提出
- 是啥:一种数据库优先的多模态问答系统
- 核心思想:使用 LLM 的推理能力→翻译自然语言查询→生成数据库执行计划
- 工作流程
- 用户通过自然语言,提出查询
- CAESURA 使用 LLM 将查询翻译成数据库可以执行的查询计划
- 数据库系统(而非LLM)执行查询
- 优势:
- 得益于LLM,从而(通过转换自然语言)能处理多模态数据
- 得益于数据库系统,可以快速处理(而非是让LLM进行高成本的推理)
- 扩展性好,能够处理大规模的数据集,不想RAG数据一大就阿巴阿巴
👇Demonstration of Udon: Line-by-line Debugging of User-Defined Functions in Data Workflows
🏛机构: 加州大学欧文分校
➡️领域:
- Information systems → Data management systems
- Software and its engineering → Software testing and debugging
📚概述:展示了Udon调试器,用于在大数据处理系统中,逐行调试复杂用户自定义函数(UDF)
- 背景
- 编程语言的差异:
- 大数据系统由C/C++/Java编写
- 用户用Python分析处理,比如机器学习API有99%都是python
- UDF成为bridge their gap的重要工具
- UDF调试的挑战:需要协同不同编程语言+大数据规模庞大(开销高)
- Udon 的解决方案
- 逐行调试:用户可设断点+逐行单步走,可以在调试UDF时修改代码
- 单个元组调试:允许UDF在单个Tuple上执行,逐行检查运行情况
- 调试原语:包含了现代化调试原语,比如设断点+代码检查+动态修改代码
👇UniTS: A Universal Time Series Analysis Framework Powered by Self-Supervised Representation Learning
🏛机构: 哈工大
➡️领域:
- Computing methodologies → Machine learning
- Mathematics of computing → Time series analysis
📚概述:展示UniTS框架,用于解决时序分析中的问题,比如部分标注数据/领域漂移
- 背景问题:时间序列预测的一些挑战
- 部分标注:即不是所有数据都被完整标注,即不是所有数据都有正确标签
- 领域漂移:应用于某模型的领域,在新的领域表现不佳
- UniTS 框架的设计
- 自监督表征学习:使得模型在标签不完整时,通过学习内在结构+表征,提升分析效果
- Sklearn 风格 API:尊重用户习惯,开发者可灵活使用该架构
- 用户友好GUI:高度封装,好看,傻子也能用
👇ChatPipe: Orchestrating Data Preparation Pipelines by Optimizing Human-ChatGPT Interactions
🏛机构: 人大
➡️领域:Information systems → Data analytics
📚概述:展示了ChatPipe新系统,通过与ChatGPT对话来简化机器学习的数据准备过程
- 关于数据准备
- 是啥:数据清洗,转换。处理等
- 将ChatGPT用于数据准备
- 咋整:根据用户提示生成代码,运行代码来进行数据准备
- 缺陷:需用户引导ChatGPT因此需具备一定编程基础+生成的代码无法滚回(需从头引导)
- ChatPipe 系统的设计
- 套壳ChatGPT:不仅与ChatGPT无缝交互
- 操作推荐:智能提示用户下一步操作,从而更好的引导ChatGPT
- 版本控制与滚回:允许用户滚回到以前的版本。无需从头还是引导
- Demo Session
- 被集成到了一个Web应用里
- 在Kaggle数据集上可完成高效准备
3.1. Group B
👇Responsible Model Selection with Virny and VirnyView
🏛机构: 乌克兰天主教大学/纽约大学
➡️领域:
- Information systems → Data management systems
- Social and professional topics → Socio-technical systems
- Human centered computing
📚概述:展示了Virny软件库和与之配套的交互工具VirnyView,用户模型审计+模型选择
模型审计:对机器学习模型进行系统性评估和分析,涵盖准确性/稳定性/鲁棒性
关于Virny软件库
- 特性:模块化+可扩展性,用户可根据需求扩展其功能
- 技术手段
- 具有一套评估机器学习性能的公平性指标,其中包括很多新指标
- 提供了一套基于多个敏感属性(性别/种族)的分析功能,用于评估在不同人群的表现
VirnyView工具:一个配套的交互工具,提供可视化界面,封装了模型审计和选择的过程
开放访问:https://github.com/DataResponsibly/Virny and https://r-ai.co/VirnyView
👇Property Graph Stream Processing In Action with Seraph
🏛机构: 乱七八糟
➡️领域: 乱七八糟
📚概述:介绍了Seraph,一种基于Cypher的查询语言,专注于处理流图数据+连续查询
背景
- 图数据模型的普及+Cypher查询语言的推广→图数据分析越来越重要
- 现有的图查询语言(Cypher)在处理流图数据存在局限,如不可连续查询
- 流图数据,就是实时性高的图数据
关于两种编程语言
声明式(declarative):用户只需描述需求就可得结果,具体每一步怎么做不用管,比如SQL
SELECT name FROM students WHERE age > 18;
命令式(Imperative):需用户明确每一步该怎么做,比如Python
result = [] for student in students:if student.age > 18:result.append(student.name)
关于Seraph
- 核心创新点:基于Cypher,支持本地连续查询,可在流图数据上查询并给出实时结果
- 特性
- 是声明式(declarative)语言
- 向后兼容了Cypher,即Cypher语言也可在Seraph中使用
- 有严格的形式化定义,即用符号+表达式来描述问题
其它
- Seraph还提供了一个web用户界面
- 演示视频:https://riccardotommasini.github.io/seraph/
👇Property Graph Stream Processing In Action with Seraph
🏛机构:智利的一堆大学
➡️领域:
- Information systems → Data management systems
- Database query processing
- Graph-based database models
📚概述:展示了MillenniumDB,一种高性能开源图数据库
- 背景与问题
- 知识图谱的数据多样性:包含文本/图像/表格/视频/音频,图数据库还需支持多个共存DB
- 多种数据具备需要互相操作的需求,因此更需要处理和查询多样化的数据格式
- MillenniumDB 的特点
- 支持多模态+多模型:支持属性图模型,语义网络式RDF,以及结合这二者的多层图模型
- 支持的查询语言:
- 支持属性图和多层图上的类似 Cypher 的查询语言
- 支持在 RDF 数据上执行 SPARQL 1.1 查询
- 优化的查询引擎:
- 结合了最坏情况最优连接算法+统的关系型查询优化技术
- 支持多种图特定任务,如路径查找、模式识别和多模态数据的相似性搜索
- Demo Session:在TelarKG/BibKG/Wikidata等图谱上表现良好
👇IDE: A System for Iterative Mislabel Detection
🏛机构:北理
➡️领域:Information systems → Data cleaning
📚概述:介绍了IDE系统,用于在ML训练种解决标签错误的问题,提高标签的质量以利于训练
- 背景及背景知识
- 标签错误:即在数据集种标注错误标签
- 标签错误的后果:会让DL模型性能雪崩,因为DL赖于高质量标签
- 获取高质量标签过程需要人工验证,成本极高
- IDE 系统的介绍
- 采用一种迭代检测和修复错误标签的方法
- 每次迭代种,IDE使用早期损失观察+基于影响的验证,来识别错误标签
- 对于识别出的错误标签,系统随之做出修复
- 当系统检测到早期损失观察不再有效时,自动终止迭代
- 对于难以确定标签的实例,IDE会生成伪标签,这也可以提高总体的标签质量
👇A Demonstration of GPTuner: A GPT-Based Manual-Reading Database Tuning System
🏛机构:四川大学
➡️领域:Information systems → Database administration
📚概述:提出了名为GPTuner的DBMS自动调优系统
- 背景
- 可配置参数(knobs)对数据库系统影响很大,但人为调整这些参数到最优及其困难
- 目前已有的机器学习自动调整系统有赖于黑箱优化,忽略了数据库领域知识
- GPTuner 的提出
- 核心:GPTuner系统利用LLM,通过阅读数据库文档/手册等,讲黑箱优化与领域知识结合
- 用户与专家的合作
- 用户:GPTuner解读参数特性提供定见解,以帮助优化,无需用户深入掌握优化知识
- 专家:通过自然语言输入调优建议,进一步增强GPTuner功能
👇Demonstrating 𝜆-Tune: Exploiting Large Language Models for Workload-Adaptive Database System Tuning
🏛机构:康奈尔大学
➡️领域:
- Information systems → Query optimization
- Autonomous database administration
- Human-centered computing → Natural language interfaces
📚概述:展示了 λ \lambda λ-Tune模型,可根据工作负载自动化自适应为数据库系统调优
- 背景
- 还是knobs的调优,目的在于根据数据库的硬件+查询负载来优化配置
- 传统调优方法依赖大量计算资源(GPU)和时间
- 𝜆-Tune 的创新之处
- 利用LLMs来理解和处理文本数据,不需要额外训练(零次学习)直接生成配置建议
- 零次学习:模型在没有见过某类训练数据情况下,对这些类别做出正确预测
- 系统根据DB系统+硬件规格+查询负载,通过自动生成提示,生成适合的调优建议
- 采取一种工作负载压缩方法,只提取最优洞察力的工作负载特征
- 𝜆-Tune 的优势
- 计算资源小:无需耗时的调优与训练(零次学习)
- 性能提升
👇User-friendly, Interactive, and Configurable Explanations for Graph Neural Networks with Graph Views
🏛机构:浙江大学等
➡️领域:
- Computing methodologies → Neural networks
- Information systems → Graph-based database models
📚概述:介绍了名为GVEX的系统,用于为用户提供友好+可交互的GNNs行为解释
- 问题背景
- GNN对图数据分析表现优异,但其具有黑箱特性,内部工作原理难以解释
- 目前对于GNNs的解释方法,仅限于对特定实例,且生成的解释结构过大(难以直观理解)
- GVEX 系统的创新点
- 提供了用户友好+交互式的界面,以及个性化的配置(选择感兴趣类别/结点数量)
- 利用事实+反事实属性,以及这些节点在GNN消息传递的聚合影响,生成高质量解释子图
- 生成双层解释结构,包含图模式+解释子图
👇OpenIVM: a SQL-to-SQL Compiler for Incremental Computations
🏛机构:荷兰国家数学和计算机科学研究学会/滑铁卢大学
➡️领域:Information systems → Database query processing
📚概述:展示了名为OpenIVM的SQL-to-SQL编译器,专用于增量视图维护(IVM)
- 增量视图维护(IVM)
- 作用:用于在基础数据插入/更新/删除时,快速更新数据库中物化视图
- 物化视图:所预测的查询结果,存储在数据库中,用于查询优化
- 现有IVM的局限:通常在独立的系统中实现IVM的计算,需要额外计算系统及资源
- OpenIVM 的创新之处
- 核心理念:通过现有的SQL查询引擎执行所有IVM,而非额外系统,减少开发/计算成本
- 支持跨系统:能协调OLTP和OLAP系统工作
- OLTP(在线事务处理):负责处理DBMS基础的表插入/更新/删除
- OLAP(在线分析处理):存储和维护物化视图
- 二者协调的方式:OLTP将基础操作处理后,通过SQL传递给OLAP后续处理
- 技术实现
- SQL编译器:
- OpenIVM将视图定义编译为SQL
- OpenIVM根据数据库的基础表变化,增量地更新物化视图 (基于DBSP增量计算原理)
- DuckDB 的集成
- DuckDB:一个轻量级数据库管理系统
- OpenIVM用DuckDB来编译/解析/转换/优化物化视图维护的逻辑
- Demo Session
- OpenIVM作为DuckDB的一个扩展模块,给 DuckDB 添加 IVM 功能
- OpenIVM 在跨系统 IVM 中应用
- PostgreSQL 处理基础表的更新操作
- DuckDB 用于存储和维护这些表的物化视图
👇Building Reactive Large Language Model Pipelines with Motion
🏛机构:UC Berkeley
➡️领域:
- Information systems → Data management systems
- Computing methodologies → Artificial intelligence
📚概述:介绍了Motion,一共用户构建和执行反应式LLM管道的Python框架
- 背景
- LLM依赖于提示词,要求提示词有详细信息+丰富上下文,才能高效优化LLM
- 反应式LLM管道,指通过引入新信息(用户反馈/历史输入输出),而动态改进提示词
- Motion 框架的功能
- 提供了一共Python框架,方便开发者创建+运行反应式LLM管道
- 使用了一种弱一致性模型,即牺牲一定实时性,来减少用户响应延迟
👇Demonstrating Nexus for Correlation Discovery over Collections of Spatio-Temporal Tabular Data
🏛机构:芝加哥大学
➡️领域:
- Information systems → Information integration
- Specialized information retrieval
📚概述:介绍了Nexus系统,帮助用户从观察数据中获取因果关系
背景知识
观察数据:真实世界中采集的最原始数据
因果分析的重要性:能为更好的决策提供依据
因果分析的策略:先过识别数据中的相关性间接识别因果 (直接识别因果过于困难)
Nexus 系统的功能
- 将不同时空范围内的表格数据对其,降低分散/复杂数据的分析成本
- 有效处理数据集中可能存在的缺失值
- 识别那些可能与因果关系有关的“有趣”相关性
👇Plutus: Understanding Data Distribution Tailoring for Machine Learning
🏛机构:美国罗切斯特大学/柏林工业大学
➡️领域:
- Information systems → Information integration
- Computing methodologies → Machine learning
📚概述:介绍了Plutus工具,用于HCI+模型感知数据获取,集成在SystemDB中
- 背景知识
- 出现的问题:ML模型有时候在整个数据集上表现不错,但在特定数据切片上表现差
- 数据切片:数据中某些 特定的组合,比如具有特定特征(年龄/性别)的一部分
- 表现变差的原因在于:切片的数据不够多/质量差
- 解决办法:定位让模型表现不好的那部分数据切片,获取更多那部分数据
- 关于获取新数据的挑战
- 传统的众包方法(crowdsourcing):即从大量个人那里获得数据,但是太贵/效率太低
- 外部数据源:从现有外部数据(Data Lake / Data Market)获得数据,更廉价
- Plutus的设计
- 是个啥:一个工具,用于协助人机交互过程,根据机器学习模型需求,智能获取数据
- 啥特点:集成在SystemDB中+支持从数据调试到数据获取的完整生命周期
- 原理:
- 让用户追踪模型表现不佳的具体数据片段
- 识别出有问题片段后,连接外部数据源
- 与外部数据源交互,从而补充/修补有问题数据
- 应用场景:Plutus 可以应用于任何需要提升模型表现的场景
👇Multi-Backend Zonal Statistics Execution with Raven
🏛机构:柏林工业大学
➡️领域:
- Information systems → Spatial-temporal systems
- Applied computing → Earth and atmospheric sciences
📚概述:展示了Raven,一个区域统计的框架,用于管理遥感卫星激增的数据
- 背景:
- 大量遥感数据,对气候监测/灾害管理很有用
- 处理这些数据,需要通过区域统计,汇集感兴趣区域内的像素数据
- 现有问题:
- 存在多种空间系统,及其区域统计操作
- 他们之间接口/架构/算法差异太大
- Raven的解决方案
- 提供了统一接口,简化了不同系统的协作使用
- 支持多后端执行环境,使用户可以轻松在不同系统间进行基准测试和比较
- 包含领域特定的Declarative语言+优化技术
👇ShiftScope: Adapting Visualization Recommendations to Users’ Dynamic Data Focus
🏛机构:Oregon State University
➡️领域:Human-centered computing → Visualization toolkits
📚概述:介绍了ShiftScope,一个动态可视化交互系统,用于推荐个性化数据
- 背景问题
- 可视化推荐系统,帮助用户在数据探索过程发现重要简介
- 但随用户对数据理解加深或目标有变,现有系统难以适应,导致推荐不再相关
- ShiftScope的解决方案
- 引入一个互动系统,追踪用户对数据的认知变化
- 采用双智能体强化学习框架
- 一个智能体,负责适应用户数据焦点的变化
- 另一智能体,推荐满足用户当前/未来探索需求的最佳可视化
👇Demonstration of ElasticNotebook: Migrating Live Computational Notebook States
🏛机构:伊利诺伊大学槟城分校
➡️领域:
- Information systems → Computing platforms
- Data replication tools
📚概述:介绍了ElasticNotebook,解决当前Jupyter Notebook中会话状态不可保存的问题
- 当前Jupyter Notebook的弊端:
- 会话结束后(如开始运行一段Python),用户定义的变量/机器学习模型会丢失
- 当前笔记本无法有效的持久化会话状态
- ElasticNotebook的解决方案
- 提供绘画状态实时迁移,用户可以计算检查点/恢复来保存并恢复会话状态
- 前端:允许用户配置定期创建会话状态的检查点
- 后端:使用轻量级监控技术,可以高效复制会话状态
4. Panels
👇The Future of Graph Analytics
🏛机构:乱七八糟
➡️领域:乱七八糟
📚概述:讨论了近年来图技术在工业和学术界的发展,以及未来图分析系统可能面临的挑战
- 背景与现状
- 过去20年,图数据在工业界需求暴增,在学术界有关图处理也取得进展
- 图查询语言也在不断演变
- 讨论围绕以下问题展开
- 是否需要更表达力强的语言和库来分析图中的关系
- 是否需要新的混合OLTP/OLAP架构来提升性能和扩展性
- 用户对图分析工作负载和基准的期望是什么
- 图机器学习将如何影响图分析系统
- 如何让图分析系统适应图形数据的动态变化
👇The Future of Graph Analytics
🏛机构:微软
📚概述:讨论了DBMS从本地到公有云的迁移,及这种迁移对系统中ML应用的影响
- 背景
- DBMS转变:
- 数据库管理逐渐向公有云转移,数据库开发者变成了操作者
- 使得我们可以通过遥测反馈循环来进行系统的整体优化
- ML for Systems 的兴起:通过利用数据反馈,机器学习被广泛用于优化系统性能和管理
- LLM的影响:LLM已经成为数据库系统优化中的一个有趣元素
- 讨论的主题
- ML for Systems 的实际应用和鲁棒性如何
- 大语言模型在系统优化中能起到什么作用
- 涉及具体的工程考虑和开放性的未来行业发展问题
5. Tutorials
👇Demystifying Data Management for Large Language Models
🏛机构:卡内基梅隆大学/北京大学
➡️领域:
- Information systems → Data management systems
- Information systems applications
- Computing methodologies → Machine learning
- Artificial intelligence
- Distributed computing methodologies
📚概述:关于LLMs时代数据管理的教程,讨论了开发+部署LLM过程中数据管理方面的挑战
- 背景:LLMs在训练和部署过程中需要管理大量数据,使得数据管理至关重要
- 教程内容
- 如何在 LLM 的开发和部署阶段管理知识和参数数据
- 强调了在数据管理中如何平衡效率与有效性
👇SmartNICs in the Cloud: The Why, What and How of In-network Processing for Data-Intensive Applications
🏛机构:达姆城工业大学
➡️领域:
- Hardware → Networking hardware
- Networks → Programmable networks
- Information systems → Database query processing
📚概述:讨论了数据中心/云计算中,资源分离/智能网口卡(SmartNICs)/智能交换机的作用
- 关于资源分离
- 是啥:在云计算系统中,将CPU/内存独立为不同部分
- 分离任务:将传统的计算资源(CPU/内存/存储)独立出来
- 好处:enable了良好的可扩展性,提高了资源利用率
- 坏处:增大了网络的处理和开销成本
- 关于智能硬件
- 有啥:智能网络接口卡(SmartNICs)+智能交换机(Smart Switches)等,作为可编程硬件
- 能干啥:
- 在网络层中:执行云系统中的分离任务,以降低开销
- 在应用层中:执行更高级的操作,比如SQL查询/机器学习流水
- Tutorial内容
- 讲解SmartNICs的工作原理
- 探讨如何最佳利用这些智能硬件
👇Learned Query Optimizer: What is New and What is Next
🏛机构:阿里巴巴
➡️领域:Information systems → Data management systems
📚概述:讨论了学习型查询优化器,即如何将机器学习应用于数据库的查询优化
- 背景:机器学习应用于查询,体现出了优越性,具备广泛实验依据
- Tutorial内容
- 将用于查询优化的机器学习组件分类,分别介绍其代表性方法
- 展示一些基准测试的结果和原型应用
- 展示了一个前沿系统,通过逐步指导,降低开发和部署学习型算法的难度
- 未来方向:文中说的一塌糊涂,我也不好总结了
👇Distributed Transaction Processing in Untrusted Environments
🏛机构:美国一堆无关紧要的大学
➡️领域:
- Information systems → Distributed database transactions
- Computer systems organization → Fault-tolerant network topologies
- Networks → Network protocol design
📚概述:为开发者提供一个系统化的框架来分析拜占庭容错协议,便于选择和使用
- 关于拜占庭容错协议(BFT)
- 是啥:用于分布式系统(如去中心化的数据管理系统)中的共识机制
- 干啥:解决系统中可能存在的恶意节点或故障节点的问题
- 原理:当系统中某一结点出现不可靠行为后,仍能让诚实结点就系统状态达成一致
- 背景:BFT协议的快速发展,使选择合适的协议变得困难,开发者难以弄清哪种协议最适合
- Tutorial内容
- 介绍了一个设计空间,即协议设计时各种设计因素和选项,比如
- 基础设施设置,网络环境/结点分布/拓扑结构
- 通信方式,比如广播/流量控制
- 社会选择属性,比如公平性等
- 介绍了设计权衡(如下),帮助开发者理解各协议的差异
- 性能 vs. 可靠性
- 公平性 vs. 效率
- 通信开销 vs. 扩展性
👇Responsible Sharing of Spatiotemporal Data
🏛机构:芝加哥大学/俄亥俄州立大学
➡️领域:
- Information systems → Data exchange
- Spatial-temporal systems
📚概述:讨论了时空数据共享中的挑战和解决方案,尤其注重保护隐私
- 时空数据:带有时间和空间维度的数据,比如某事某地的气象数据
- 背景
- 越累越多的应用场景有赖于时空数据,比如自动驾驶
- 涉及到时空数据共享,需要有新的隐私标准+机器学习技术的融合
- 设计的挑战
- 时空数据设计隐私,比如个人的位置/时间等
- 如何提高数据使用价值同时,严格执行隐私保护措施?
- 如何解决挑战
- 现代数据共享机制
- 让数据相关方设定精确的数据使用共享条款
- 用强大的数据基础设施来保障数据安全
- 隐私和分析的平衡:即确保隐私合规的同时,实现数据的有效利用
👇Querying Graph Databases at Scale
🏛机构:智利大学/智利天主教大学
➡️领域:
- Information systems → Query languages for non-relational engines
- Graph-based database models
📚概述:关于图数据库查询算法和数据结构的教程,重点关注可以在现实世界知识图谱扩展的算法
- Part1
- 介绍图数据库,在查询知识图谱具有优势
- 知识图谱:将信息以图形式结构化表示的模型
- 介绍图数据模型和不同的查询语言
- Part2:讨论如何高效评估图模式查询
- 引入了最坏情况下最优的连接技术,将其与传统连接算法对比
- Part3:
- 介绍如何高效评估路径查询
- 如何构建紧凑的表示,来处理指数暴增的路径集合
- Part4:介绍压缩数据结构的最新进展
👇Cognitive Psychology Meets Data Management: State of the Art and Future Directions
🏛机构:南洋理工
➡️领域:
- Information systems → Query languages for non-relational engines
- Graph-based database models
📚概述:讨论了引入认知心理学理论来改进DBMS,以追求以人为中心的设计
- 问题背景:数据库系统中,数据定义/数据库操作语言(SQL)是给人设计的,需要追求以人为中心
- 认知心理学
- 研究人类如何思考和处理信息
- 文章提出,通过结合认知心理学理论,可以优化 DBMS 的设计,提高人机交互效率
- 然后就是回顾过去技术+未来研究方向了,瞎几把鬼扯了一堆,我都感到尴尬
👇Vector Database Management Techniques and Systems
🏛机构:北京大学/普渡大学
➡️领域:
- Information systems → Query languages for non-relational engines
- Graph-based database models
📚概述:讨论了特征向量数据库管理系统(VDBMSs)
- 特征向量数据库管理系统 (Vector Database Management Systems)
- 是啥:专门设计用于存储+管理+查询特征向量的DBMS
- 特征向量:用于在ML/DL中表示数据对象(图像/文本/高维数据)
- 关于特征向量的特点(挑战)
- 语义相似性,需基于相似性来进行比较,在数据库中不(像传统数据一样)可精确匹配
- 向量的数据规模巨大,储存和比较昂贵
- 缺乏可索引结构
- 有时需混合查询(例如数值+特征向量一起查询)
- VDBMSs的关键技术议题
- 查询处理:如何衡量向量间的相似性(相似性评分)+向量查询的类型+查询接口
- 存储索引:向量压缩和基于磁盘的索引
- 查询优化和执行:比如混合查询处理,硬件加速,分布式搜索
👇An Overview of Continuous Querying in (Modern) Data Systems
🏛机构:里昂第一大学
➡️领域:乱七八糟
📚概述:介绍了连续查询(aka常驻查询/查询流)的概念及发展
- 概念的起源
- 1992年由 Terry 等人提出
- 旨在处理随时间变化的数据,持续监控和处理数据流
- 早期发展:
- 应用在关系模型上,通过代数扩展/演算/语义来表达
- 查询的语义和应用集中于传统的DBMS
- 最近的进展
- 流数据库(Streaming Databases, SDS)显著发展,支持处理实时数据流
- 连续查询扩展到了图数据库(Graph DBMS),知识图谱等
- 比如流图(Streaming Graphs)的连续处理技术
👇SIMDified Data Processing - Foundations, Abstraction, and Advanced Techniques
🏛机构:德累斯顿工业大学
➡️领域:
- Computer systems organization → Single instruction, multiple data
- Information systems → Database query processing
- Main memory engines
📚概述:介绍了如何利用**单指令多数据(ISMD)**技术,来加速DBMS的查询执行
- 第一部分
- 解释了SIMD是啥:一种并行计算技术,让一个CPU同时处理对多个数据元素执行相同操作
- 解释了SIMD的引入背景
- 解释了SIMD的传统应用,如何加速查询处理
- 第二部分
- SIMD硬件发展
- 展示了,如何使用统一的抽象层来处理不同处理器的 SIMD 扩展
- 第三部分:介绍了应对未来挑战的高级技术
- 对于更宽和灵活大小的 SIMD 寄存器的处理方法
👇Machine Learning for Databases: Foundations, Paradigms, and Open problems
🏛机构:南洋理工
➡️领域:Information systems → Data management systems
📚概述:介绍了**机器学习用于数据库(ML4DB)**领域,讨论了最新进展/挑战
- 介绍ML4DB基础与应用:
- ML可为DB提升性能,提供新的可能性
- 介绍两种主要应用范式
- 将机器学习模型直接替代现有的数据库组件 (如查询优化器/索引系统)
- 利用机器学习增强传统数据库组件 (更为常见)
- ML4DB目前主要的挑战
- 如何在数据库中高效地集成和运行机器学习模型
- 数据漂移问题,即数据库中数据的模式随时间变化,而导致模型性能下降
👇Applications and Computation of the Shapley Value in Databases and Machine Learning
🏛机构:Simon Fraser University / 杜克大学
➡️领域:
- Information systems → Data management systems
- Computing methodologies → Machine learning
📚概述:围绕Shapley值的应用和计算问题,介绍其在数据库/机器学习领域的作用
- 关于Shapley是什么
- 源于博弈论:旨在通过公平分配各个参与者的贡献,来解决分配问题
- 很难计算:源于其组合性质,被证明为#P-hard问题
- Shapley的应用与挑战
- 近年来在机器学习/数据库广泛使用,比如解释机器学习模型输出/评估特征贡献
- 有很多研究致力于高效Shapley值计算,比如在特定场景寻求替代
- 本论文:从算法机制和应用假设的角度来综述Shapley值的应用及其计算方法
- 介绍Shapley值的基本概念+在数据库和机器学习中的广泛应用
- 讨论Shapley值计算的挑战,比如一些前沿的快速计算+近似计算
- 探索了在特定应用背景下的替代解决方案
👇Beyond Bloom: A Tutorial on Future Feature-Rich Filters
🏛机构:乱七八糟
➡️领域:
- Theory of computation → Data structures design and analysis
- Bloom filters and hashing
📚概述:讨论了过滤器的重要性/现状,以及在数据密集型的新发展
- 过滤器的概念:
- 是什么:存储数据集合的“近似表示”来节省内存空间
- “近似表示”意味着,过滤器判断一个元素是否属于集合时,只能做近似(可能返回假阳性)
- 比如:Bloom过滤器/商过滤器/Cuckoo过滤器
- 用途:快速判断元素是否属于一个集合,在处理密集型数据是减少储存和计算量
- 应用场景有:数据库/存储引擎/计算生物学/网安
- 过滤器的进展与限制
- 进展:开发出了具有更好性能和更多特性的过滤器,优化了数据结构在不同场景的表现
- 限制:现有设计只能克服一些局限,却往往牺牲了效率
- Tutorial
- 帮助数据库社区了解过滤器理论和实践的最新进展
- 展示使用现代过滤器API重新设计应用的真实案例
- 讨论未解决的研究问题
6. Workshop Summaries
👇International Workshop on Data Management on New Hardware (DaMoN)
🏛机构:达姆施塔特工业大学/MIT
➡️领域:
- Information systems → Data management systems
- Computer systems organization → Architectures
📚概述:
- 背景:新硬件(多核CPU/GPU)的发展
- 困难:传统数据库架构难以适配新硬件,导致计算性能/扩展性不佳
- 研讨会结论:跨学科合作,重新设计数据库算法+架构
👇Second Workshop on Simplicity in Management of Data (SiMoD)
🏛机构:甲骨文/Simon Fraser University
➡️领域:Information systems → Data management systems
📚概述:
- 背景 :现代数据库系统太复杂
- 问题:复杂设计尽管功能强大,但维护性差,实际应用中难以不出错
- 研讨会结论:应该提出简单且有效的查询优化/存储设计/数据库
👇Seventh International Workshop on Exploiting Artificial Intelligence Techniques for Data Management (aiDM)
🏛机构:乱七八糟,但居然有墨尔本大学的Renata,我的恩师哈哈哈
➡️领域:
- Information systems → Database management system engines
- Computing methodologies → Artificial intelligence
📚概述:
- 背景 :AI技术被广泛应用于处理多种数据类型并优化数据管理系统
- 问题:当前数据库只要用来存储+检索,未能充分利用AI技术就行深层次优化
- 研讨会:讨论了查询优化/自动调优/自主数据库等等与AI的集成
👇Eighth Workshop on Data Management for End-to-End Machine Learning (DEEM)
🏛机构:UC Berkeley / 微软
📚概述:
- 背景 :机器学习应用中数据管理日益复杂,尤其是ML流水中的大规模数管理
- 问题:
- 数据预处理+模型选择+部署等步骤复杂
- 需要支持多样化用户群体
- 涉及人机交互/合规性等问题
- 研讨会:如何通过AI优化数据管理+ML流水+隐私保护+数据清洗+多模态数据管理等
👇GRADES-NDA’24: 7th Joint Workshop on Graph Data Management Experiences & Systems (GRADES) and Network Data Analytics (NDA)
🏛机构:乱七八糟
➡️领域:Information systems → Graph-based database models
📚概述:
- 背景 :
- 网络结构化数据在多个领域广泛应用
- 图数据管理和分析变得越来越重要
- 问题:处理大规模图数据时,数据异质性、动态变化和质量低下的问题很常见
- 研讨会:讨论了图查询语言+动态图管理+异构网络上的机器学习等
👇Fourth International Workshop on Big Data in Emergent Distributed Environments (BiDEDE)
🏛机构:乱七八糟
➡️领域:Information systems → Data management systems
📚概述:
- 背景 :新型分布式环境(边缘计算/无服务器计算),为处理大规模异构数据提供了新方式
- 问题:新型分布式环境,面临复杂均衡/容错/数据分配等问题和挑战
- 研讨会:探讨在新型分布式环境中使用AI/数据集成/事务管理等…
👇Eighth Workshop on Human-In-the-Loop Data Analytics (HILDA)
🏛机构:乱七八糟
➡️领域:
- Information systems → Data management systems
- Humancentered computing
📚概述:
- 背景 :关于人与数据交互,应将人类作为数据系统中的核心参与者
- 问题:传统数据管理系统,忽视了人类认知和时间的限制(以至于让人类认知成为瓶颈)
- 研讨会:探讨人与LLM交互/数据可视化/数据清理
👇Third International Workshop on Data Systems Education (DataEd’24)
🏛机构:乱七八糟
➡️领域:
- Information systems → Data management systems
- Applied computing → Education
📚概述:
- 背景 :随着数据科学需求的增加,数据系统的教育需求愈大
- 问题:数据库教育和计算机科学教育社区之间互动较少,难以分享互补的观点和经验
- 研讨会:探讨数据系统教育的教学实践+课程设计+AI与数据管理结合等
👇First Workshop on Governance, Understanding and Integration of Data for Effective and Responsible AI (GUIDE-AI)
🏛机构:乱七八糟
➡️领域:
- Information systems → Data management systems
- Computing methodologies → Artificial intelligence
📚概述:
- 背景 :数据驱动的自动化系统在高风险应用中广泛部署,数据管理在AI设计中的作用变得关键
- 问题:现有AI研究集中于算法优化,忽视了数据治理
- 研讨会:讨论数据治理、透明性、数据质量管理和AI系统的公平性与隐私保护等关键问题
👇First Workshop on Quantum Computing and Quantum-Inspired Technology for Data-Intensive Systems and Applications (Q-Data)
🏛机构:乱七八糟
➡️领域:
- Information systems → Data management systems
- Computer systems organization → Quantum computing
📚概述:
- 背景 :量子计算的发展,使得研究者开始探索其在数据密集系统的潜力
- 问题:量子计算和传统计算结合的技术复杂性增加
- 研讨会:探讨量子计算、量子启发式硬件在数据库优化、数据处理系统和自动化数据库中的应用
👇Tenth International Workshop on Testing Database Systems (DBTest)
🏛机构:微软/NUS
➡️领域:
- Information systems → Database management system engines
- Software and its engineering → Software testing and debugging
📚概述:
- 背景 :数据存储量和硬件技术的发展,数据库系统和数据密集型系统的测试需求日益增加
- 问题:测试和评估数据库系统的复杂性不断增加(云计算,大数据)
- 研讨会:探讨数据库系统的测试方法、性能评估、可靠性、安全性等问题