Tutorial

基础知识 线性代数 矩阵理论 概率论 随机过程 图论 数值分析 最优化理论 机器学习 数据挖掘 平台 Linux  语言 Python Linux shell 基础库 numpy pandas sklearn matplotlib or seaborn 框架 TensorFlow Pytorch Keras 常用模型 CNN RNN(LSTM) GAN 常用架构(包括transfer […]

随着TensorFlow学习的深入,有许多细节不得不注意,Stanford的tensorflow公开课就讲解了很多细节,记录于此,以供参考。 tf.constant()和tf.Variable(),为什么constant是小写,Variable是大写?因为constant是个op(操作节点),而Variable是个class(类)。 Variable的initialize其实就是assign初始值,所以,当定义一个Variable时,如果紧跟了一个assign操作,其实是不用initialize的,例如W = tf.Variable(10), assign_op = W.assign(100), 我们可以直接sess.run(assign_op)而不用sess.run(tf.global_variables_initializer())。详见源码,其中有一句是:self._initializer_op = state_ops.assign(self._variable, self._initial_value, validate_shape=validate_shape).op。注意,类似tf.Variable.assign_add(), tf.Variable.assign_sub()之类的方法仍然要求对变量进行initialize,因为这些操作依赖Variable的初始值。 constant是定义在graph(图)中的,而Variable是和Session绑定的。也就是说,在tensorboard中可视化graph时,可以看到constant但是看不到variable,且不同的session可以维护一个variable的不同值,例如sess1 = tf.Session(), sess2 = tf.Session(), sess1.run(W.assign(10)), sess2.run(W.assign(20)) 用另一个Variable初始化一个Variable时,要注意使用initialized_value()方法,例如W = tf.Variable(tf.truncated_normal([10,10])), U = tf.Variable(W2)是错误的,因为U使用W去初始化,在U初始化的时候,W很可能还没有初始化(TensorFlow的分布式,并行运行的特点所导致),因此,正确写法是W = tf.Variable(tf.truncated_normal([10,10])), […]

不得不说,archlinux真的是开发人员友好的…当然前提是能够接受足够新的软件环境(gcc都7.1.1了…) 安装Nvidia驱动,cuda,cudnn,配置环境变量一条命令搞定: # pacman -S nvidia cuda cudnn 对,你没有看错,就是一条命令,而且以后升级也是,交给系统,完全无忧。 如果不从源码编译的话,直接pip install tensorflow-gpu就好了,That‘s it! 如果从源码编译,请安装bazel,也是一条命令: # pacman -S bazel 然后参照官方教程编译安装即可。 比Ubuntu简单几个数量级:)

虽然用Linux好几年了,但是对shell脚本的掌握基本为零……最近需要做一些文件批量重命名,图像批量预处理,文本批量预处理的琐碎而重复的工作,于是乎下定决心好好学习一下shell脚本。于是找了一本口碑不错的shell脚本入门书—-《Linux Shell 脚本攻略 第2版》,是印度人Shantanu Tushar和Sarath Lakshman写的。边看边写博客系列(计划分九个系列完成)当做读书笔记,同时,也不完全是读书笔记,会加上一些解释的链接或者个人的经验:)当然,如果有人看,也算是做个“脱水版”的精炼shell脚本入门“指南”吧:) 基本的文件格式结构,运行规则:文件开头第一行 #!/bin/bash(这里可以是别的shell的路径),#!这玩意叫shebang,运行可以$ bash script.sh 这种运行方式首行的shebang就没什么用了,或者$ chmod +x script.sh 然后 $ ./script.sh。 命令间隔符:换行符或者分号; 是等价的,也就是说 $ cmd1; cmd2 等同于 $ cmd1 $ cmd2。 终端的打印:最基本的echo,$ echo “Hello […]

自从读研,论文阅读量直线上升,总觉得电子版读起来不如纸质的感觉好,最关键是电子版做笔记不方面。于是乎,和室友商量着买个打印机。因为是打论文看,所以对打印质量没有特别要求,只要公式清晰就行,因此为了节省成本,二手激光打印机是首选。 因为是寝室两个人用,所以网络打印机肯定是最方便的,但是贵啊……其次,考虑到成本,支持自动双面也会很划算(毕竟国产硒鼓二三十一个,而且还2000的打印量,还可以加粉,纸张的成本显得格外重要)。 目标明确:黑白激光,网络打印,自动双面,二手,开始淘宝~ 一番搜索,找到一款HP P2055DN的型号,自动双面,网络打印,但是要600多,有点贵,一番咨询,老板人很nice,推荐了HP P2015D,USB打印,自动双面,虽然不支持网络打印,但是便宜啊!当时突然觉得网络打印没那么重要了,一时心动就这个了。 买回来以后,发现,没有网络打印两个人用真的超级不方面。随时需要拔插不说,每次还要抱着笔记本蹲到角落里连上打印机……正有些懊恼的时候,看到了桌子角落里尘封已久的树莓派,心生一计,可以用这玩意儿做服务器啊,而且功耗还极低,完全可以一直保持开机状态,想想就很方便。于是乎一番搜索,有些教程极其复杂,有些有很简略,一时无所适从,还是变弄边看吧! 因为长久不用,树莓派的系统估计已经很过时了,不如格式化重来,于是到官网下载了树莓派的镜像安装系统,进行安装,这一步非常简单,到这里下载noobs,格式化TF卡,解压拷贝到TF卡里,连接电源,显示器,鼠标键盘,开机,按照提示安装即可。 接下来就是配置系统啦,首先是换源+升级系统。因为是教育网,用中科大的就很快,这里有配置教程。其实这里有个小坑,就算换了/etc/apt/sources.list文件中的源,apt-get update的时候还是会有一个官方源会卡住,那是因为/etc/apt/sources.list.d/raspi.list也需要配置,网上大部分教程没有涉及这个或者直接说删除这个文件,但是其实各大镜像是有这个的,只不过地址有点奇怪,以中科大源为例,要把这个文件中的http://archive.raspberrypi.org/debian/替换为http://mirrors.ustc.edu.cn/archive.raspberrypi.org/就OK啦。然后就是sudo apt-get update,sudo apt-get dist-upgrade。 接下来,安装USB无线网卡,以前本科毕业的时候,捡了两个TL-WN725N v2的小东西,没想到今天还用上了。然而悲催的是,驱动!这个不是官方支持的USB无线网卡,没有驱动……不过,一番搜索后,还是找到了,下载install即可,也很容易。教程,资源都在这里。唯一需要注意的地方是,文件下载可能需要翻墙,可以先用别的电脑下载对应版本的源码,拷贝到树莓派上install。 接下来就是安装cups,sudo apt-get install cups,然后输入sudo usermod -a -G lpadmin 自己的用户名(默认是pi,或者输入whoami查看),把自己添加到CUPS管理组,打开浏览器,输入127.0.0.1:631进入管理页面。 到Administration页面,添加打印机,添加驱动的时候注意,勾选上shared,并且最好上传ppd文件,不用默认的驱动,因为第一次我就是从页面里选的驱动型号,结果打印奇慢并且效果奇差,后来上传ppd文件就好了,ppd文件获取方式是,首先把打印机连接到计算机(Ubuntu 16.04,Windows不清楚……),然后到/etc/cups/ppd/文件夹下找对应型号的ppd文件,比如这个HP P2015D打印机对应的是:HP-LaserJet-P2015-Series.ppd,拷贝到树莓派上上传即可。 添加完成后即可对打印机配置,比如勾选自动双面等等,不同厂商的打印机有不同的选项,这个就参见说明了。 最后,打印测试页测试一下吧~ […]

在Android端使用TensorFlow

本篇文章中软件的下载需要科学上网支持。 主要参考资料为这篇文章,但是原文章涉及的TF版本已经过旧,有些小坑,例如android工程几个项目文件的修改,已经完全不同了。 TensorFlow的一个很突出的优势是跨平台,但是这方面的资料还比较少。 不过最近随着1.0版本的发布,文档的逐渐完善,在移动端的应用也越来越都多,并且官方增加了两个demo。其实应用在移动端还是比较容易的,只是因为官方的文档还是太省略,并且如果没有前两篇(1,2)的铺垫知识,看起来容易一头雾水。还有一个复杂的地方是,如果需要自定义app需要用到一些Android编程的知识,并且Google的Bazel编译工具也实在是太小众了。鉴于这些坑,将项目的心得分享记录于此,以供参考,节省大家的时间。 通过前两篇博客(1,2),我们通过重新训练获得了权重值文件(retrained_graph.pb)和标签文件(retrained_labels.txt),利用这两个文件和官方给的demo代码,就可以简单实现在移动端(因为我手上只有Android设备,因此仅针对Android)的实时识别。 编译Android端的app需要用到Android的SDK与NDK,首先下载这两个工具集。不过我推荐先下载Android Studio,使用Android Studio管理SDK与NDK,这样下载,管理和升级比较方便,而且毕竟以后可能还要调整demo,要用到Android的开发IDE。下载过程就不详细描述了,Android开发者网站有很详细的步骤。 有了SDK与NDK后,就可以着手利用我们重训练的权重值文件与标签编译app了。首先,需要告诉TensorFlow SDK与NDK的路径。浏览至tensorflow目录,打开WORKSPACE文件,在文件第10行左右,会看到以下代码: # Uncomment and update the paths in these entries to build the Android demo. #android_sdk_repository( # name = “androidsdk”, # […]

本篇文章中软件的下载需要科学上网支持。 主要参考资料为这篇文章,主要步骤相同,对参数,细节做了说明。 一般来讲,深度学习的模型训练需要消耗大量的计算资源,例如Google的Inception模型,使用了8张K40显卡训练了两周,普通开发者一般没有这样强大的计算资源支撑。但是迁移学习提供了捷径,通过重训练已训练模型的最后几层,就可以将模型用于自定义图像的分类。TF提供了用于重训练的工具集。 因此,在尝试自己搭建模型并训练模型之前,应首先尝试使用重训练模型方法,这样的好处是可以先快速评估至少可以达到的准确率,对以后的模型建立,优化提供基线(baseline)。 并且,重训练生成的权重值文件可以用于TF移动端app,移动端app直接加载训练好的权重值,通过摄像头实时识别,这将在下篇博客中讲解。 这次项目中使用的是基金会提供的视网膜病变图像,数据集比较小,只有不到400张,依然达到了不错的准确率(测试集80%左右),本教程中,以开源数据集为例做示范。 开源数据集下载地址: http://download.tensorflow.org/example_images/flower_photos.tgz 首先,下载数据集 $ curl -O http://download.tensorflow.org/example_images/flower_photos.tgz 解压到某一目录下,比如~/Downloads/flower,可以看到,flower_photos文件夹中有5个分类,在重训练过程中,TF提供的工具集会将这五个分类文件夹的名称作为类别标签,因此,若需要修改分类标签,应在这里修改文件夹的名称。 上篇博客讲解了如何从源码安装TF(是本篇博客的基础)。 首先,浏览至源码目录顶层,例如: $ cd ~/tensorflow 然后执行重训练Python程序(这里的参数仅仅是示例,可直接打开源码文件,底部有所有参数以及参数说明,可用于进一步调参使用),注意路径替换为自己的路径: python3 tensorflow/examples/image_retraining/retrain.py \ –bottleneck_dir=/home/hp/Downloads/flower/bottlenecks \ –model_dir=/home/hp/Downloads/flower/inception \ –output_graph=/home/hp/Downloads/flower/retrained_graph.pb \ –output_labels=/home/hp/Downloads/flower/retrained_labels.txt […]

  今天(2017年2月15日),TensorFlow 1.0正式发布,这意味着TF已经可以真正作为生产环境的主力Framework了!向所有开发者致敬! 本篇文章中软件的下载需要科学上网支持。主要参考资料为tensorflow的官方说明文档。 本想在一月份就把近期做的一个有关医疗图像识别的项目以博客的形式记录下来,然而一直拖到现在……计划写一个小系列吧,把配置过程,尝试过的方法分开记录于此。就从从源码安装开始吧。 由于本项目用到了重训练inception和生成Android端app,这个过程需要使用TensorFlow中的一些二进制工具软件,仅仅使用pip安装Python包是不够的,因此,需要通过源码安装TF。并且,通过源码安装可以获得最大性能,可以开启CPU高级指令集(例如sse,avx)的支持。由于我使用的计算机配置的是AMD显卡,并且当时没有OpenCL支持,因此不涉及GPU版本,但步骤都是相似的,配合查阅官方文档很容易安装GPU版本。我使用的操作系统为Ubuntu 16.04(当时TF的版本是0.11,但是写这篇博客的时候1.0已经发布,因此我就以1.0版本为基础复现项目,在写作过程中我尽量每一步都使用1.0版本复现,防止造成困扰) 首先从github clone项目并checkout到1.0版本: $ git clone https://github.com/tensorflow/tensorflow $ cd tensorflow $ git checkout r1.0 安装编译工具Bazel: 首先安装JDK8: $ sudo add-apt-repository ppa:webupd8team/java $ sudo apt-get update […]

今天研分会开了个《掌控资源,助力科研》的讲座,主讲人是图书馆的管理老师陈卫静,讲的非常nice,总结一下(Google keep渣排版……) 主要目标: 检索 分析课题进展 找到课题空白 跟踪课题进展 有序管理已有文献 主要途径: 图书馆数据库 & 学术搜索引擎 馆际互借 文摘数据库为主,全文数据库 & 学术搜索引擎为辅 主要文献类型(中文 & 外文): 文摘 期刊 电子图书 学位论文 数据库类型: 文摘数据库(无全文信息): SCI DII (专利) EI PQDT-B […]