需求:将一个数组/可迭代的东西分成 batch
实现:三行代码
想把我讲给你听
心有猛虎,细嗅代码
做 OCR 数据合成需要三个条件,字体,语料,背景图。之前闹过一段字体荒,只有几百个字体,生成出来的效果比较单一,然后一口气收集了 2W 个字体,可把自己坑了。
工作中查 Hive 标有一些限制。为了绕过限制,可以将数据直接 Dump 到 HDFS 里。但是这样做会导致查出来一大堆文件,用起来很是不便。
EXIF 信息真好,EXIF 信息真烦
工作中很多时候需要将全角字符转换成半角字符。之前一直处理不好。最近搞出来了个还算好用的方法。
这两年也就春节这几天有工夫折腾一下自己的博客。
前两天为了多占几个机器多占几块卡,让程序跑得更快一点,踩了一下分布式训练的坑。
Pandoc 多好用啊~但是 Pandoc 只支持 docx,不支持 doc。Win 下这样的工具都是收费的,比较坑。于是小伙伴给了一个不完美的 AppleScript 脚本,通过 Mac 的「Automatic/自动操作」来运行。
Python 自带了一个很简单的 HTTP Server,就是 python -m http.server 8000
这个,很方便。组里面同学基于这个改出来一个专门用来看图的 HTTP Server,但我觉得不太好用+看不懂+多文件不优雅。于是就自己动手重新写了一个。
强攻了一周,总算放弃了。