Airflow powers AI

背景介绍 最近接手了一个项目,经过需求调研决定尝试使用 Airflow 调度数据生产,过程涉及: 从大数据 Hive 数据库整合数据宽表; 在 Spark 上运行 IRT 算法模型汇总 ADS 表。 从中学习了很多关于大数据的知识,同时也积累了如何通过 Airflow 提交 Spark 任务的经验,应当抽时间总结一下。 冰山之下 如「冰山理论」所描述,我们所做的只是冰山露在水面的一角,隐藏在冰山之下更大的一部份是: Airflow + Celery Docker 搭建好的 Hadoop 集群 搭建好的 Hive 数据库 搭建好的 Spark 集群 接下来我们将关注在「冰山水面上的一角」来阐述我们如何利用这些已有的技术连结了整个系统。 Make DAG great again 之前部门里有位算法大佬用 DAG(大佬念做「戴格」)实现了一套非常牛逼的文本和识别处理算法,然后每次讨论方案必谈 DAG, 所以 DAG 成了部门里都知道的一个梗,虽然大佬走了之后很少再有人提起 DAG,但是接下来我们会进行文艺复兴,让 DAG 再次出现在我们的日常技术讨论中。 Make DAG Great Again! Airflow 介绍 架构 概念 DAG Operator Connection Providers packages See also: Provider packages.

Understanding Rust futures by going way too deep

原文链接:Understanding Rust futures by going way too deep。 译者注:原文大量的引入了有趣的对话,迫于排版问题这里不进行翻译,必要的对话通过引用块来解释。 深入理解 Rust future 用 Rust future!就是这么简单!直到我们发现并非如此。所以我们先探索简单的部分,然后继续探索困难部分而不是等它慢慢靠近我们。 起步 Choo choo here comes the easy part 🚂💨 我们创建一个新的项目: $ cargo new waytoodeep Created binary (application) `waytoodeep` package 我们需要安装 cargo-edit 如果之前没有安装过的话,接下来就可以直接 cargo add : $ cargo install cargo-edit Updating crates.io index Downloaded cargo-edit v0.7.0 Downloaded 1 crate (57.6 KB) in 0.47s Ignored package `cargo-edit v0.7.0` is already installed, use --force to override 因为 cargo-edit 很方便,所以你可能已经安装过它。部分读者会感到困惑是因为像 cargo new, cargo build, cargo test, cargo run 等子命令都内置在 cargo 中, 但是 cargo add 没有。

Surgical Reading: How to Read 12 Books at Once

原文链接:https://superorganizers.substack.com/p/surgical-reading-how-to-read-12-books 手术阅读法:如何同时阅读 12 本书 译者注:这篇文章让我想起了《如何阅读一本书》这本书,文章中的大部分技巧都能在这本书中找出来,阅读是一门需要学习的技能。 当有人问我如何阅读时我总是会有点尴尬,因为我一般都是同时阅读十几本书。 但是我这样阅读并不是为了炫耀 – 我这么做是因为我觉得这种阅读方式更好,最起码对我来说。 这是一个我开发一个叫做 手术阅读法(surgical reading) 的过程,它意味着当我读一本非小说的书籍时,我会专注于尽可能快的从书中找到最有价值的部分并将之剔除。 这样允许我在一个主题上同时阅读许多不同的书籍,并从多个角度来观察这一主题。我的目标是快速地找到有价值的知识,并使用现实中获得的信息去解决问题。 这种方法有很多隐藏的好处。首先,我可以快速了解自己对一本书是否有兴趣,并因此去花更多的时间读我真正感兴趣书籍。当我对一本书不感兴趣时我就可以将其放下并转到其他事情上,因为我知道我将它放回去是有原因的。 阅读不应该是将书籍在 ToDo 事项完成,而是应该解释什么吸引了你。 其次,我可以从多个角度观察一个主题,并真正理解问题。我可以看到有多少不同的人讨论同一个时间和想法,而不是依靠一位作者的陈述。 这使我对当前感兴趣的的任何主题都有更细微的了解。 最后,它将书籍转变为更主动和更积极的事物。我的书架(library)已经不再是死板的存储空间,而是一个与我不断互动的鲜活的事物。 当然,当我找到一本我真正喜欢的书(现在也越来越频繁),我也可以充分的利用它。 我是谁(Who I Am) 我的名字是 Brian Tobal,我耗费了我的大部分时间来思考如何学习。在过去 15 年,我在教育界获得了很多头衔(hats)。 我曾是一名小学科学老师、一家教育公司的研究员、六家教育科技初创公司的产品负责人,本人也是一些初创公司的创始人, 包括我于 2018 年出售的一家名为 Hickory 的公司。 我喜欢初创公司。从学习角度来看,它们使你可以完全沉浸于新的领域,并根据其性质迫使你解决实际问题。 这为我自己的学习方法和阅读方法提供了动力。我不是为了仅仅积累知识来建立知识库,通常我建立它是为了尽快使用它。 手术阅读法就是设计用来帮助我这么做的。 所以你准备好试一试了吗?请从书架上拿出一些已经搁置了一段时间的书,希望您还没有读过。跟着我,亲眼看看手术阅读法的感觉。 让我们开始吧! 把书当作其自身的地图(Use the Book Itself as a Map) 以下是一份我如何阅读一本书的步骤分解: 了解一本书 通过封面评判这本书 索引(index)包含了一切 把目录(TOC)当作骨架 通过前言(preface)进行预览 此过程的重点是获得在大约 15 分钟内对任何书籍进行“地图绘制”的能力。你希望对有价值的知识位于何处、什么地方打动你以及要花费多少时间来阅读它有基本的了解。 下面,我们将逐步完成从一本书中提取要点(或者说知识块)的过程,如何增加阅读一本书的价值,以及如何结合所有内容以便您可以轻松的一次提取多本书。 了解一本书(Approaching a Book ) 当我开始阅读一本非小说的书籍之前,我会话费 5-10 分钟的时间尝试去了解他对我具有什么价值以及它的结构。当我们决定要阅读此书时我们可以通过很多方式做到这一点。 也许通过亚马逊阅读一些评论和反馈或者随机浏览其中一部分。我更喜欢使用这本书本身。

Rust Borrow and Lifetimes

原文链接:Rust Borrow and Lifetimes。 Rust 是一门处于往 1.0 活跃开发的新语言(译注:1.0 早已发布,目前最新稳定版本 1.42)。 我必须再写一篇关于我为什么觉得 Rust 牛逼的新博客,但是今天我将关注在它的借用(borrow) 和生命周期(lifetimes)系统,这也是常常让包括我在内的 Rust 新手陷入困境的地方。这篇文章假设 你基本了解 Rust,如果还没推荐你先阅读指南和指针指南。 资源所有权和借用 Rust 通过一个难缠的(sophisticated)借用系统在不用 GC 的情况下达到内存安全。对于任何资源 (栈内存、堆内存、文件句柄等),他们都对应一个唯一的所有者(owner)在需要的情况下处理资源回收。 你可以通过 & 或者 &mut 创建一个新的绑定指向该资源,这被称之为借用或可变借用。编译器确保 所有的所有者(owners)和借用者(borrowers)行为正确。 拷贝和转移(Copy and move) 在我们开始进入借用系统之前,我们需要知道 Rust 如何处理拷贝和转移。这个 StackOverflow 答案非常值得一读。 基本上,在赋值和函数调用上: 如果值是可拷贝的(copyable)(仅涉及原始(primitive)类型,不涉及如内存或文件句柄的资源),编译器默认进行拷贝。 其他情况,编译器转移(moves)所有权(ownership)并使原来的绑定无效。 简而言之,POD(Plan Old Data) => 拷贝,Non-POD(线性类型(linear types))=> 转移。 以下是一些额外的注释供你参考: Rust 拷贝像 C。每一个按值(by-value)使用一个值都是字节拷贝(通过 memcpy 浅拷贝),而不是语义上的拷贝或克隆。 如果想要让一个 POD 结构体变成不可拷贝的,你可以使用一个 NoCopy 标记,或者实现 Drop 特性(trait)。 转移之后,所有权就转移到了下一个所有者那。 资源回收 Rust 会在任何资源的所有权消失后立刻释放该资源,就这些,当: 所有者超出作用域,或 正在持有的所有者改变绑定(原始绑定变成 void)。 所有者和借用者的权限(privileges)和限制 这一节基于 Rust Guide 在权限(privileges)一部分提到拷贝和转移。

Translate

译:深度学习算法:完整指南

原文链接:Deep Learning Algorithms : The Complete Guide。 深度学习正在影响整个世界。 深度学习的炒作始于 2012 年:一个神经网络(Neural Network)在图片识别任务上表现出超人的性能,并且只有少数人能预测将会发生什么。 在过去 10 年,越来越多的算法落地到我们生活中。越来越多的公司开始将其加入到日常业务中。 这里,我尝试覆盖近几年各种应用如计算机视觉和自然语言处理(Natural Language Processing)中所涉及的所有最重要的算法和构思。 其中有一些算法比其他一些使用的更加频繁并且每一种都有其自身的优点和缺点。 我的主要目标是给你一个当前领域通用的思路去帮助你理解每一种情况应该使用什么算法。 因我知道它看起来会对一些从零开始的人造成一定程度的混乱。 但是通过阅读这份指南,我有信心你会认识到什么是什么并且你可以准备好去立即使用他们。 所以如果你正在寻找一份深度学习真正的完整指南,那就让我们开始吧。 Contents 但是什么是深度学习? 神经网络 前馈神经网络(FNN) 卷积神经网络(CNN) 循环神经网络(RNN) 递归神经网络(Recurisive Neural Network) 自编码器(AutoEncoders) 深度信念网络 (Deep belief network)和受限玻尔兹曼机 (Restricted Boltzmann machine) 生成对抗网络(GAN) Transformers 图神经网络(GNN) 自然语言处理中的深度学习 词嵌入 (Word embedding) 序列建模(Sequence Modeling) 计算机视觉中的机器学习

Taking Smart Notes With Org-mode

Prelude https://praxis.fortelabs.co/how-to-take-smart-notes/ https://www.nateliason.com/blog/roam Topics 读书笔记 技术 Translate 认同的话 Learning English To Complete Links Sprint 1:2019-02-03 ~ 2019-02-19 LD_PRELOAD: The Hero We Need and Deserve 通过 LD_PRELOAD 覆盖一些函数,比如 faketime Going Solo, Successfully 变身成为独立开发者。 Graceful Shutdown Why limiting work-in-progress works Practical Go: Real world advice for writing maintainable Go programs 译文:https://github.com/llitfkitfk/go-best-practice 百万 Go TCP 连接的思考: epoll方式减少资源占用