盘点2021年晋升为Apache TLP的大数据相关项目
  • 精选30个炫酷的数据可视化大屏(含源码),拿走就用!
  • PrestoCon Day 2021 会议 PPT 下载
  • Data + AI Summit 2021 全部超清 PPT 下载
  • Learning Spark, 2nd Edition 可以免费下载了
  • Trino Summit 2021 会议视频和 PPT 下载盘点2021年晋升为Apache TLP的大数据相关项目精选30个炫酷的数据可视化大屏(含源码),拿走就用!PrestoCon Day 2021 会议 PPT 下载Data + AI Summit 2021 全部超清 PPT 下载Learning Spark, 2nd Edition 可以免费下载了

    最热排行榜

  • 浏览 (139076)473喜欢

    1Hive数据类型转换
  • 浏览 (115410)86喜欢

    2Hive常用字符串函数
  • 浏览 (101869)66喜欢

    3Hive insert into语句用法
  • 浏览 (92513)179喜欢

    4Hive常用函数大全一览
  • 浏览 (92340)128喜欢

    5Hive几种数据导入方式
  • 浏览 (90818)75喜欢

    6Apache Spark SQL自适应执行实践
  • 浏览 (87774)294喜欢

    7精心收集的Hadoop学习资料(持续更新)
  • 浏览 (84598)69喜欢

    8使用HttpClient通过post方式发送json数据
  • 浏览 (83530)88喜欢

    9Spark: sortBy和sortByKey函数详解
  • 浏览 (83517)73喜欢

    10Hive:ORC File Format存储格式详解
  • Linux

    生成火焰图:Linux 和 Mac 平台的详细指南

    生成火焰图:Linux 和 Mac 平台的详细指南
    火焰图(Flame Graphs)是一种可视化技术,用于展示软件程序的运行时性能。它们可以帮助开发者快速识别程序中的热点(即执行时间最长的部分)。本文将指导您如何在 Linux 和 Mac 平台上生成火焰图。火焰图简介火焰图是由 Brendan Gregg 创建的性能分析工具,它以一种直观的方式展示了程序的调用栈信息。火焰图的每一层代表函

    w397090770   3周前 (04-10) 46℃ 0评论0喜欢

    Presto

    Presto 超大内存泄漏问题排查

    Presto 超大内存泄漏问题排查
    最近有一个线上 Presto 集群的 Coordinator 节点内存一直处于90%以上,如下图所示:如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:ob欧宝体育在线登录-ob欧宝娱乐app下载大数据日志里面可以看到几乎每分钟都在 Full GC,但是内存仍然占用很高,所以第一个想法就是存在内存泄漏。但是线上的集群内存是180GB,所以分析这些内存就不能用

    w397090770   3个月前 (01-31) 129℃ 0评论0喜欢

    Prestissimo

    使用 Presto + Velox 读取 HDFS 上的数据

    使用 Presto + Velox 读取 HDFS 上的数据
    当前 velox 支持了 HDFS、S3 以及本地文件系统,其中 HDFS 和 S3 模块是需要在编译的时候显示指定的,比如我们要测试 HDFS 功能,编译 prestissimo 的时候需要显示指定 PRESTO_ENABLE_HDFS=ON,如下:[code lang="bash"]PRESTO_ENABLE_HDFS=ON make release[/code]Velox 解析 HDFS NN endpoint 逻辑核心代码如下:[code lang="CPP"]HdfsServiceEndpoint HdfsFileSystem::getServic

    w397090770   10个月前 (06-29) 396℃ 0评论2喜欢

    Prestissimo

    如何构建 Presto、Prestissimo\Velox 镜像

    如何构建 Presto、Prestissimo\Velox 镜像
    为了方便集群的部署,一般我们都会构建出一个 dokcer 镜像,然后部署到 k8s 里面。Presto、Prestissimo 以及 Velox 也不例外,本文将介绍如果构建 presto 以及 Prestissimo 的镜像。构建 Presto 镜像Presto 官方代码里面其实已经包含了构建 Presto 镜像的相关文件,具体参见 $PRESTO_HOME/docker 目录:[code lang="bash"]➜ target git:(velox_docker) ✗ ll ~/

    w397090770   10个月前 (06-21) 273℃ 0评论7喜欢

    Alluxio

    Alluxio Local Cache 加速 Presto 查询在 Uber 的应用

    Alluxio Local Cache 加速 Presto 查询在 Uber 的应用
    背景如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:ob欧宝体育在线登录-ob欧宝娱乐app下载大数据在 Uber,数据影响着每一个决定。Presto 是推动 Uber 各种数据分析的核心引擎之一。例如,运营团队在仪表盘等服务中大量使用 Presto;Uber Eats 和营销团队依靠这些查询的结果来决定价格。此外, Presto 还被用于 Uber 的合规部门、增长营销部

    w397090770   1年前 (2022-11-14) 690℃ 0评论1喜欢

    Presto

    图文介绍 Presto + Velox 整合

    图文介绍 Presto + Velox 整合
    过去十年,存储的速度从 50MB/s(HDD)提升到 16GB/s(NvMe);网络的速度从 1Gbps 提升到 100Gbps;但是 CPU 的主频从 2010 年的 3GHz 到现在基本不变,CPU 主频是目前数据分析的重要瓶颈。为了解决这个问题,越来越多的向量化执行引擎被开发出来。比如数砖的 Photon 、ClickHouse、Apache Doris、Intel 的 Gazelle 以及 Facebook 的 Velox(参见 《Velox 介绍

    w397090770   2年前 (2022-09-29) 1639℃ 0评论2喜欢

    Presto

    Velox 介绍:一个开源的统一执行引擎

    Velox 介绍:一个开源的统一执行引擎
    如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:ob欧宝体育在线登录-ob欧宝娱乐app下载大数据Velox 利用了大量的运行时优化,例如过滤器和连接的重新排序(conjunct reordering)、数组和基于哈希的聚合和连接的 key 标准化、动态过滤器下推(dynamic filter pushdown)和自适应列预取(adaptive column prefetching)。考虑到从传入的数据批次中提取的

    w397090770   2年前 (2022-09-05) 1832℃ 0评论2喜欢

    Hadoop

    大规模 Hadoop 升级在 Pinterest 的实践

    大规模 Hadoop 升级在 Pinterest 的实践
    Monarch 是 Pinterest 的批处理平台,由30多个 Hadoop YARN 集群组成,其中17k+节点完全建立在 AWS EC2 之上。2021年初,Monarch 还在使用五年前的 Hadoop 2.7.1。由于同步社区分支(特性和bug修复)的复杂性不断增加,我们决定是时候进行版本升级了。我们最终选择了Hadoop 2.10.0,这是当时 Hadoop 2 的最新版本。本文分享 Pinterest 将 Monarch 升级到 Ha

    w397090770   2年前 (2022-08-12) 526℃ 0评论0喜欢

    Presto

    Presto 里面如何把 array 或 Map 里面的元素由行转成列

    Presto 里面如何把 array 或 Map 里面的元素由行转成列
    在 Spark 或 Hive 中,我们可以使用 LATERAL VIEW + EXPLODE 或 POSEXPLODE 将 array 或者 map 里面的数据由行转成列,这个操作在数据分析里面很常见。比如我们有以下表:[code lang="sql"]CREATE TABLE `default`.`iteblog_explode` ( `id` INT, `items` ARRAY<STRING>)[/code]表里面的数据如下:[code lang="sql"]spark-sql> SELECT * FROM iteblog_explode;1 ["iteblog.co

    w397090770   2年前 (2022-08-08) 1626℃ 0评论6喜欢

    Data + AI Summit

    Data + AI Summit 2022 PPT 下载

    Data + AI Summit 2022 PPT 下载
    Data + AI Summit 2022 于2022年06月27日至30日举行。本次会议是在旧金山进行,中国的小伙伴是可以在线收听的,一共为期四天,第一天是培训,后面几天才是正式会议。本次会议有超过200个议题,演讲嘉宾包括业界、研究和学术界的专家,本次会议主要分为六大块:数据分析, BI 以及可视化:了解最新的数据分析、BI 和可视化技术以及

    w397090770   2年前 (2022-07-20) 1142℃ 0评论1喜欢