2018/06/25

清理 mac 的儲存空間

一直是習慣用 df 指令查看 disk 使用量,最近發現 disk 可用空間慢慢地不足,就開始清理一些不常用的文件跟軟體。

首先可在左上角的蘋果圖示中,點擊 "關於這台 Mac",然後可以看 "儲存空間" 這個項目,但是卻發現這裡的可用空間跟 df 查詢到的結果差異很大。

接著點擊右邊的 "管理",可看到 "文件"、"GarageBand" 等等項目的資訊,"GarageBand" 可清除 2G 的樂器音檔,文件區可查看佔用空間比較大的檔案資料,自己可以選擇要清除哪些檔案。

但做了這些動作後,df 的資訊還是沒有什麼改變。原因是在 Time Machine 的 Local Snapshots。

在 command line 用 sudo tmutil listlocalsnapshots / 指令,可查看目前 local 硬碟中,包含的 localsnapshot,因為最近頻繁地刪除檔案,導致 localsnapshot 產生了很多快照。

$ sudo tmutil listlocalsnapshots /
com.apple.TimeMachine.2018-06-19-105146
com.apple.TimeMachine.2018-06-19-114843
com.apple.TimeMachine.2018-06-19-125049
com.apple.TimeMachine.2018-06-19-154914
com.apple.TimeMachine.2018-06-19-164914
com.apple.TimeMachine.2018-06-19-175221
com.apple.TimeMachine.2018-06-19-230612
com.apple.TimeMachine.2018-06-20-000523
com.apple.TimeMachine.2018-06-20-093756
com.apple.TimeMachine.2018-06-20-104818

確認這些資料快照沒有回復的需求後,可以下指令逐個刪除 localsnapshot。

sudo tmutil deletelocalsnapshots 2018-06-20-000523

最後比較一下原本的 df 資訊,跟刪除所有 localsnapshots 以後的資訊差異。

$ df -H
Filesystem      Size   Used  Avail Capacity  iused               ifree %iused  Mounted on
/dev/disk1s1    480G   410G    68G    86%  2387622 9223372036852388185    0%   /
devfs           343k   343k     0B   100%     1160                   0  100%   /dev
/dev/disk1s4    480G   1.1G    68G     2%        1 9223372036854775806    0%   /private/var/vm
map -hosts        0B     0B     0B   100%        0                   0  100%   /net
map auto_home     0B     0B     0B   100%        0                   0  100%   /home
$ df -H
Filesystem      Size   Used  Avail Capacity  iused               ifree %iused  Mounted on
/dev/disk1s1    480G   286G   192G    60%  2387620 9223372036852388187    0%   /
devfs           343k   343k     0B   100%     1160                   0  100%   /dev
/dev/disk1s4    480G   1.1G   192G     1%        1 9223372036854775806    0%   /private/var/vm
map -hosts        0B     0B     0B   100%        0                   0  100%   /net
map auto_home     0B     0B     0B   100%        0                   0  100%   /home

References

Mac顯示「系統」佔用太多硬碟空間?試試用這些方法把它清乾淨

【macOS 技巧】如何從 macOS Sierra 內置清理工具掀出塞爆空間的兇手!?

2018/06/11

tmux

習慣使用 linux terminal 遠端處理 server 工作的人,有時會遇到一個問題,就是在遠端 terminal 處理過程中,有時會遇到一些程式處理很久,或是需要同時查看 log,系統 loading 的狀況,這時,就需要再對同一台機器打開另一個 terminal,導致 terminal 的頁籤越來越多。更麻煩的是有時候遇到網路異常斷線,所有 terminal 的連線中斷了,就必須要重新一個一個再連接 server。

tmux 是一個 terminal multiplexer,可讓使用者以單一terminal,連接多個 terminal sessions或是windows。換句話說,就不需要再連接多個 terminal tab。另外,更重要的功能是,tmux 內建了一個 terminal server,即使 terminal 斷線,只要 tmux server 還存活,任何時候再重連,都可以取回剛剛工作中的 terminal sessions/windows,繼續工作。

安裝

在 centos 安裝 tmux

yum install tmux

在 macos 安裝 tmux

sudo port install tmux

tmux 指令

只要在 terminal 執行 tmux,就會啟動 tmux server,另外還有一些常用的指令

# 啟動新的 terminal session
tmux new -s sessionanme
tmux new -s sessionanme -n windowname

# 列出所有 tmux sessions
tmux ls

# a/at/attach session
tmux at -t sessionname
tmux a #

# kill session
tmux kill-session -t sessioname

# 當 session 內所有shell都結束,該 session 就會中止
exit

進入 tmux 後,terminal 下方就會出現一條綠色的 status bar,很明確的顯示目前正在 tmux 工作 session 中。

tmux 專有名詞的概念

  • tmux server

    啟動 tmux 會產生一個 server,負責管理所有 sessions

  • session

    一個 terminal 可以有多個 sessions,通常一個 project 會使用一個 session。

  • window

    一個 session 可以有多個 window,每一個 window 會佔滿整個 terminal 畫面,可以開多個 window,讓某些 window 在背景運作。

  • pane

    每一個 windows 可切割多個區塊,每一個區塊就是一個 pane。通常會將 window 水平或垂直切割,增加多個 pane。

控制指令

進入 tmux 後,跟平常一樣,會在多個 shell 中切換執行工作,如果需要對 tmux 下指令,要用 Ctrl-b 功能鍵啟動。

因為 Ctrl-b 會有點難按,大部分都會改成其他的 function key,在 ~/.tmux.conf 設定檔中,可增加這些設定,將 Ctrl-b 改為 Ctrl-a

set -g prefix C-a
unbind C-b
bind C-a send-prefix

另外可在設定檔中加上快速鍵,以下設定,可以在 Ctrl-a 後,直接按 | ,就會水平方向增加一個 shell pane。

unbind %
bind | split-window -h
bind - split-window -v

啟用滑鼠,可用滑鼠修改 pane 的大小,捲動視窗

set -g mouse on

  • session 處理的指令 大部分都是在原本的 terminal 中,不是 tmux 的 function
tmux ls
tmux attach -t 0
tmux kill-session -t 0

Ctrl-a (由 Ctrl-b 改為 Ctrl-a) 後的 fuction

Ctrl-a 後的 function 功能
d detach session
s list session
:new new session
$ 為 session 命名
  • window 指令
Ctrl-a 後的 function 功能
c 產生新 window
& 關閉目前的 window
p 切換到上一個 window
n 切換到下一個 window
w list windows
f find window
  • pane 指令
Ctrl-a 後的 function 功能
% (改為 |) 水平分割新的 pane
" (改為 -) 垂直分割新的 pane
方向鍵 切換到其他 panes
x 關閉目前的 pane
o 交換 pane
空白鍵 切換 layout
q 顯示每個 pane 的編號,再按編號,可切換到該 pane
{ 跟上一個 pane 交換位置
} 跟下一個 pane 交換位置
z 切換 pane 最大/最小化

~/.tmux.conf 設定的內容

set -g default-terminal "screen-256color"
set -g display-time 3000
set -g escape-time 0
set -g history-limit 65535
set -g base-index 1
set -g pane-base-index 1

# Ctrl-b -> Ctrl-a
set -g prefix C-a
unbind C-b
bind C-a send-prefix

# enable mouse
set -g mouse on

# split window
unbind %
bind | split-window -h
bind - split-window -v

# <prefix> or Ctrl- or <prefix> Ctrl-
#   k --- previous pane
# h   l --- previous window / next window
#   j --- next pane

# navigate windows
unbind-key l
bind-key h select-window -t :-
bind-key C-h select-window -t :-
bind-key -n C-h select-window -t :-
bind-key l select-window -t :+
bind-key C-l select-window -t :+
bind-key -n C-l select-window -t :+

# navigate panes
bind-key j select-pane -t :.-
bind-key C-j select-pane -t :.-
bind-key -n C-j select-pane -t :.-
bind-key k select-pane -t :.+
bind-key C-k select-pane -t :.+
bind-key -n C-k select-pane -t :.+

References

終端機 session 管理神器 — tmux

終端機必備的多工良伴:tmux

tmux ,不只是 terminal multiplexer

Tutorial — tmux Basics

tmux cheatsheet

Tmux 快捷鍵 & 速查表

使用 tmux 與 tmuxifier 打造 Console 開發環境(比 screen 更棒)

2018/06/04

資料科學可以回答的問題

資料科學會使用 Machine Learning 的演算法,這些演算法的使用方式,都是這三個步驟:讀取資料,轉譯,提供答案,但在選擇演算法之前,要先知道這些演算法能回答什麼問題,要問對問題,才能找到答案。

以下這些是可以回答的問題

  1. 這是A,還是B? Is this A or B? (two-class classification)
  2. 這是A、B、C 還是 D? Is this A or B or C or D? (multi-class classification)
  3. 有沒有奇怪的地方? Is this Weird? (anomaly detection)
  4. 這有多少/有幾個? How Much/How Many? (regression)
  5. 用迴歸演算法解決多元分類問題 Multi-Class Classification as Regression
  6. 用迴歸演算法解決二元分類問題 Two-Class Classification as Regression
  7. 資料是由什麼組成的?怎麼分類? How is this Data Organized? (unsupervised learning, clustering)
  8. 接下來該怎麼做? What Should I Do Now? (reinforcement learning)

這是A,還是B? Is this A or B? (two-class classification)

二元分類 two-class classification,用來解決只有兩種答案的問題,例如:

  • 這位客戶會不會續約?
  • 這張照片是貓還是狗?
  • 這位顧客會不會點最上面的連結?
  • 如果再開一千英里,這個輪胎會不會爆胎?
  • 五元折價券或是打七五折,哪一個促銷手段能吸引更多顧客?

這是A、B、C 還是 D? Is this A or B or C or D? (multi-class classification)

多元分類 multi-class classification,用來解決有多種答案的問題,例如:

  • 這是哪種動物的圖片?
  • 這是哪種飛機的雷達訊號?
  • 這篇新聞屬於哪一個主題?
  • 這則 twitter 隱含了哪一種情緒?
  • 這則錄音裡的講者是誰?

有沒有奇怪的地方? Is this Weird? (anomaly detection)

異常偵測 anomaly detection,用來辨別不正常的資料,當分析的情況發生率很低,導致樣本數也很少的時候,異常偵測就顯得特別有用。感覺上跟 二元分類 two-class classification 很像,差別在於二元分類的原始資料中,就包含了兩種答案,但是異常偵測則不一定。

例如:

  • 是不是信用卡盜刷
  • 壓力大小有任何異狀嗎?
  • 這則網路訊息正常嗎?
  • 這些消費記錄跟這位使用者過去的行為落差很大嗎?
  • 這些用電量在這個季節和時間算是正常的嗎?

這有多少/有幾個? How Much/How Many? (regression)

當解決的問題涉及數字而非分類時,這一類的演算法就稱為迴歸(regression),例如:

  • 下週二的氣溫為何?
  • 第四季在葡萄牙的銷售量會有多少?
  • 三十分鐘後,我的風力發電廠會有多少千瓦(kW)的需求?
  • 我下週會獲得多少新追蹤者?
  • 每一千個使用這種軸承的產品裡,有多少個能被使用超過一萬小時?

用迴歸演算法解決多元分類問題 Multi-Class Classification as Regression

有些看起來很像多元分類的問題,但更適合用迴歸解決。例如

  • 讀者對哪則新聞最感興趣

    乍看之下是個分類問題,但如果將問題換成「對讀者來說,每則新聞的有趣程度為何」並為每則新聞評分,接下來就只需要選出最高分的新聞。這類問題通常和排名或對比有關。

  • 我的車隊中,哪台廂型車最需要保養

    可以換成「我的車隊裡,每台廂型車需要保養的程度為何」

  • 哪 5% 的顧客隔年會跳槽到對手公司

    可以換成「每名顧客明年跳槽到對手公司的機率為何」。

用迴歸演算法解決二元分類問題 Two-Class Classification as Regression

二元分類問題也可以換成迴歸問題,這類問題也通常以「有多少可能性」、「有多少比例」開頭。例如:

  • 這位使用者有多大機率會點我的廣告?
  • 這台拉霸機有多少比例的回合會給獎金?
  • 這名員工有多大機率會造成內部安全的威脅?
  • 今天有多少比例的航班會準時抵達?

二元分類、多元分類、異狀偵測和迴歸等四種演算法之間都很相近,它們都是監督式學習(supervised learning)下的演算法。共通之處,在於建模時都用了一組包含回答的資料(這個過程稱作訓練,training),並被用來分類或預測一組不包含回答的資料(這個過程稱作評分,scoring)。

資料是由什麼組成的?怎麼分類? How is this Data Organized? (unsupervised learning, clustering)

這是非監督和強化式學習(unsupervised and reinforcement learning)的演算法。

判斷資料分類的方法有很多,其中一類是聚類法(clustering),包括資料群集(chunking)、分組(grouping)、聚束(bunching)、分段(segmentation)等等。聚類法所分析的資料不包含任何用來引導分群、說明分群意義和數量的數字或名字。聚類法的基礎是衡量資料之間的距離或相似度,也就是距離度量(distance metric)。距離度量可以是任何可測量的數據。

  • 哪些消費者對農產品有相似的品味?
  • 哪些觀眾喜歡同一類電影?
  • 哪些型號的印表機有類似的故障問題?
  • 這間變電所在每週的哪幾天有類似的電力需求?
  • 用什麼方法可以自然地將這些文件分成五類?

另一類演算法稱作降維法(dimensionality reduction)。降維是另一種簡化資料的方法,它可以讓資料的溝通變得更容易、處理變得更快、而且存取變得更簡單。降維的運作原理是創造出一套簡化資料的方法。等第積分平均(GPA)是一個很簡單的例子。

  • 哪幾組飛機引擎偵測器的數據呈同向(和反向)變化?
  • 成功的 CEO 有哪些共通的領導力特質?
  • 全美的油價起伏有哪些相似的特徵?
  • 這些文件裡有哪幾組詞彙常常同時出現?(它們和哪些主題有關?)

接下來該怎麼做? What Should I Do Now? (reinforcement learning)

第三類演算法和行動有關,即強化學習(reinforcement learning)演算法。這些演算法和監督式和非監督式都不太一樣。

比方說,迴歸演算法雖然可以用來預測明天的最高溫為華氏 98 度,但它不能用來判斷該做什麼;另一方面,強化學習演算法就可以用來判斷該採取的行動,例如趁天氣還沒變熱的時候,先開辦公大樓內上半層的冷氣。

強化學習演算法很適合用於需要在無人監督情況下、完成許多簡單決策自動化系統,例如電梯、電熱器、冷氣和照明系統。由於強化學習最初被開發的目的是用來操縱機器人,任何自動物件也能使用這套演算法,像是偵查用無人機或掃地機器人。強化學習的問題總是和該採取什麼行動有關,雖然最後往往還是機器在處理這些問題。

  • 我該把廣告放在網頁何處,才能讓讀者最有機會點到它?
  • 我該把溫度調高或調低一點,還是維持現狀?
  • 我該再掃一次客廳還是繼續充電?
  • 我現在該買入多少股?
  • 看到黃燈時,我該保持當前速度、煞車還是加速?

References

What Types of Questions Can Data Science Answer?

五種可以用機器學習回答的問題

Which Algorithm Family Can Answer My Question?