Monitoring: http://t.cn/Rvqir6J Anomaly Detection Fault Tolerance Anticipation Patterns, 異常檢測與容錯 By John Allspaws,在我眼中,他對運維的思考是最深入的。 http://t.cn/RvqxX2V 基于holt-winters指數移動平均算法做系統的異常檢測. http://t.c
Monitoring:
http://t.cn/Rvqir6J Anomaly Detection Fault Tolerance Anticipation Patterns, 異常檢測與容錯 By John Allspaws,在我眼中,他對運維的思考是最深入的。
http://t.cn/RvqxX2V 基于holt-winters指數移動平均算法做系統的異常檢測.
http://t.cn/RvqxcFM 使用指數移動平均來做時間序列數據的平滑化處理。
http://t.cn/Rvz9GD6 Monitorama會議的Slides集合,monitorama是一個專門針對Monitor領域的技術會議,研討Monitor的工具/方向與新思維。
At VividCortex, our unifying principle is that a system’s purpose is to perform useful work. The consequence of this is that job #1 is measuring and understanding work (not metrics), and making sure it’s done fast, consistently, and without errors. http://t.cn/8sdsDHC
http://t.cn/8s5sU5h Query Time Is Not Server Load, 在MySQL中, 由于缺乏細粒度的Instrument(度量), 不能簡單的通過Query Slow Log或簡單的Top SQL來做性能優化, 查詢時間不能簡單的等同于資源消耗. 【一點修正】: Resource本身有多種,不同的SQL消耗的不同資源未必均衡, 需要更低粒度的度量才能解決
http://t.cn/8sZ38pa Dapper, a Large-Scale Distributed Systems Tracing Infrastructure , Google這套監控系統的論文讀后感, Dapper的主要應用場景是定位大規模業務下的Latency異常問題,設計目標: 低開銷, 對應用透明, 可伸縮性. 作為基礎組建部署, 基于抽樣異步批量收集數據.
http://t.cn/8kMa4aQ 如何設計告警體系。 1. 刪除所有的現有告警,2.每次出現故障時,都將能指示故障發生的指標記下并監控起來,3.更新你的監控系統,收集這些指標并針對其發告警,4. 重復上述步驟,完善可以預防宕機的告警指標
Performance & Scalability:
http://t.cn/RvML72l Applying Optimization Principle Patterns to Component Deployment and Configuration Tools From The Performance of Open Source Applications, 圖片內容為各種性能優化的技巧/方法匯總.
Slide From Neil Gunther 應用Scalability的幾個不同面相,最完美的Scalability來自完全的Share nothing,最差的Scalability來自業務本身的強Share,如訂火車票,如賬務資金處理,如熱點庫存處理。
http://t.cn/Rv7HTMz What-are-some-ways-to-determine-an-engineers-understanding-of-scalability 關于Scalability需要積累的知識,1.一些基本的編程技能,2.較強的分布式系統知識,3. 面對并處理現實世界的Scalability問題,如何滿足不同系統的Scalability問題(交易系統/Feeds系統)
http://t.cn/8FpoxrL 可擴展可交換性法則,If the outcome doesn’t change when you change the order of operations then the order is not important and that means you don’t need to lock anything and you can find a lock-free/wait-free/coordination-free 的實現. 也即有序是可擴展的死敵。
The bucket list of performance gains: – don’t do it – do it only once – do it less often – do it more efficiently
http://t.cn/8FyqADX bad-as-i-wanna-be-coordination-and-consistency-in-distributed-databases, ppt中的主要觀點, coordination才是數據庫Scalability的關鍵瓶頸, 設計Web Scale的系統的關鍵在于, 盡可能只保留必要的coordination, 單向唯一ID,外鍵,單向索引,事務原子性等都屬于協調,要盡量避免.
http://t.cn/8kMCOHI Baron Schwartz使用Neil Gunther的Universal Scalability Law(USL)分析Paypay從Java 遷移到Node.js的博客文章中的數據, 分析兩種情況下系統的Scalability的差異, 同時也吐槽Paypal的博客沒有說清楚問題. 哈哈.
http://t.cn/8kMqDQJ 數據庫如何從一臺服務器擴展到幾百萬個節點, ppt之前@何_登成 已經發過, 不再重復. 簡要說下: 1. 傳統RDBMS重點解決ACID與多個應用對一份數據的并發訪問, 2. Paxos協議與Virtual Synchony的解釋比較詳細了, 3. CAP本身的介紹, 4. 順帶介紹Google的4篇主要論文+Dynamo.
http://t.cn/8kfduwf 《阿姆達爾定律與Little’s Law的解析》Could you talk a little bit more about those different laws that people seem to be ignoring as they’re writing non-reactive systems? There’s some real fundamentals like Little’s law, Amdahl’s law, some basic mathematics. When you apply it to systems design, you see the limitations very, very quickly. Yet we seem to be more interested in fashion than doing some basic sums.
http://t.cn/8sn96d0 (請自備梯子)基于Amazon AWS架構的高可用實踐,介紹高可用的基礎知識與原理,以及AWS提供的基礎服務如何協助提高整個系統的高可用。
http://t.cn/Rvb5rP3 “because architecture is more important than technology.”, Cameron Purdy對于“Why-does-Quora-use-MySQL-as-the-data-store-instead-of-NoSQLs”的答復。
http://t.cn/RvPZBMi 如何確定Web應用的線程池大小, 文中介紹的方法是,基于Little’s Law計算最佳的線程數, 并針對IO密集型業務,CPU密集型業務,以及異步IO型業務(NIO/Nodejs/Ngnix)作了區別對待. 如果能將泊松分布帶來的隨機流給業務的影響一起考慮進去,簡化出一個設置的方法就更加實用了.
http://t.cn/8shpJUn Understanding Throughput and Latency Using Little’s Law, Little’s Law探討的是吞吐量與時延之間的關系.
MySQL:
http://t.cn/Rv4vSsy MySQL to Adopt ACID for System Tables , MySQL計劃使用InnoDB來替代MyISAM存儲數據字典定義的信息,從而確保DDL操作的ACID特性。 這也算是MySQL Server層與Engine層融合的一部分吧。
GTID in Facebook gtid的好處, 來自Facebook在Percona Live關于gtid的ppt, Failover更加容易找到位點; 數據庫恢復更加容易, 也即更加容易確定恢復的位點; 級聯復制更加簡單. 總之, GTID實現了一個類似于Oracle中SCN的基于單庫的邏輯時鐘, 并且所有上述場景可以基于此邏輯時鐘得到一個明確的恢復的位點, 從而簡化維護工作
http://t.cn/8siKfxX Faster Semi-Sync Replication,Enforced Semi-Synchronous Replication Durability On MySQL 5.7.3,Loss-less Semi-Synchronous Replication on MySQL 5.7.2實現的介紹, 最后一篇文章介紹到@蘇普 的工作, 但是由于版本的問題,實際代碼并沒有使用.
http://t.cn/8sVZPuX Percona Live會議熱身,與FB工程師的交流, Our 5.6 deployment step was not all at once. At first rollout, we disabled most major 5.6 features, such as GTID and binlog checksum. We gradually enabled such features in production. 通過做減法使用新版本是個不錯的主意.
http://t.cn/8sfTQDJ innodb-redo-log-archiving, 從代碼層解析InnoDB的日志寫入, 并進一步闡述InnoDB是如何進行恢復的, 在此基礎上講解, 如何基于InnoDB現有的機制設計InnoDB的Archive Log模式, 從而實現InnoDB的物理級恢復/復制. 【很不錯的介紹】, @plinux 看看, 進一步說明下?
http://t.cn/8sZCswc Configuring MySQL to use minimal memory, 那些影響單個MySQL實例內存消耗的參數, 以及可以調整的下限.
http://t.cn/8F14rvF 關于MySQL Client的一些使用提示, “\R \u@\h [\d]“更改命令行提示,”\e” 利用os的編輯器(類似于sqlplus的ed),”\T /tmp/tee.log ” 記錄命令行的所有輸入/輸出(類似于SQLplus的spool), “\! cat /tmp/tee.log”執行os的命令, “\P cat > /tmp/voila.log “管道重定向,”\c” 清楚當前命令
http://t.cn/8Ff9I1P Percona移植的thread pool版本測試, 有興趣的同學可以參考@dbatools 同學的版本對比測試下.
http://t.cn/8FwRh2R MySQL Utility 新版本改進,增加了并行數據導出功能。代碼確認是使用multiprocessing實現的, 導出是基于Database做拆分處理, 導入基于導出文件做拆分. 還需要進一步測試驗證下. 另:1. mysql-utility是基于Oracle的python-connector連接數據庫的(不是Mysqldb), 2. 這套工具的腳本組織的還比較好,比較適合我這種程序菜鳥學習。
http://t.cn/8kM67l7 如何使用MySQL Performance Schema以及ps_helper,在MySQL 5.6中, Performance Schema在功能上有很大的改進, 可以以較細的粒度查看Statement的執行情況(這將顯著的提升SQL優化的實施),可以基于DB/Schema做較好的性能統計,當然,Mutex/Wait Event相關的信息也更加清晰。
http://t.cn/8kM5ro7 如何做MySQL上的封底計算(back-of-the-envelope-calculations), 即如何根據記錄的平均長度, 計算表的大小, 索引的大小. 【感覺很有用的樣子】
http://t.cn/8kMqlrN 針對MySQL的Linux性能調優Tips, 1. 文件系統選擇, IO調度器選擇(ext4(noatime)/Deadline), 2. 內存調整(Swapness與Numa), 3. CPU調整, 最好在BIOS層關閉掉省電模式. 4. Comment中有人提示使用不同的內存分配器(Jemalloc), 不過需要自己驗證下.
Linux & Misc:
UCBerkeley_Gray_FT_Avialiability_talk.ppt Slide From Jim Gray Software Techniques: Learning from Hardware, Software Fault tolerance, By Jim Gram, From Fault tolerance talks
http://t.cn/8slOiu1 Linux /dev/urandom and concurrency, 在Linux,大并發訪問/dev/urandom會遭遇spinlock上的爭用,而此Spinlock是為了保證多個并發的線程/進程獲取到的隨機數據確實是隨機的,否則可能帶來安全性問題。Jeff Bonwick在“magazines and vmem”的論文中介紹了Solaris的解決辦法。
http://t.cn/8s88eGe Amazon Glacier背后的技術, 這篇文章從多個角度聚焦分析了, Amazon的Glacier為什么可以在2012年提供那么便宜的存儲成本, 再通過最近Sony的新聞稿(http://t.cn/8snU8my )聯系到之前James Hamildon介紹的冷數據存儲的光學技術,從上述角度講,國內的公司在這方面的差距起碼有4-5年
http://t.cn/8siz9hq Linux內核的一些隱藏問題, 1. 無論vm.zone_reclaim_mode如何設置,總是傾向于優先回收Local Node的Page, 2. 在非O_DIRECT模式下, 寫入磁盤的page必須先被加載到page cache中, 3. 當同一個文件被以O_DIRECT與非O_DIRECT混合的方式打開時, IO處理的性能會非常糟糕.
http://t.cn/8sq3NMt Linux集群高可用的一些基本概念, 集群消息層(HeartBeat與Corosync), 集群資源管理(PaceMaker), 仲裁(Quorum)與STONITH(Shoot The Other Node In The Head), 以及資源代理(代理管理底層的資源), 這是基本概念介紹, 基本概念.
http://t.cn/8sb4Qmx 復制策略與復制的方式, 詳細介紹了幾種不同的復制方式, 1. 基于Log Shipping的物理復制方式(如Oracle), 2. 基于Operation Record的復制方式(如MongoDB,基于Row模式的binlog的MySQL), 3. 基于協調的多點寫入(類似于HBase), 4. 簡單的多點寫入方式(類似于Cassandra)
http://t.cn/8sZ9lwq 為什么buffered-writes偶爾會寫不下去. 1. 需要先將block/page從磁盤讀取到內存,然后才能更新,2.write操作可能會被flush操作阻塞, 進一步解釋請看Stable Page Write( http://t.cn/8sZ9FDJ ) 等待Ext3/4分配Journal Block, XFS在這方面畢現較好.
http://t.cn/8s7PSiN 騰訊CKV海量分布式存儲系統, 總體的設計很不錯, 支持低成本(非純Cache),可擴展性強(基于Sharding),高性能(網卡優化/訪問優化),可用性超過99.95%(不算夸張,一年250分鐘了),數據持久性超過8個9(這里有困難,多副本也很難做到),完善的運維體系(沒得說).
http://t.cn/8FR5Ikw Square使用libgmp包中的modpow函數, 顯著提升其使用Java計算2048位RSA密鑰的效率, Square為知名無線支付公司.
http://t.cn/8Ff9mjl 零宕機的數據遷移步驟, 1. 初始化, 2. 增量復制, 3. 一致性檢測, 4. 影子寫入(mirror 寫入), 5. 影子寫入+影子讀(校驗) 4. 切換.
http://t.cn/8FytUk1 nosql介紹, 未來的數據持久化方案會向多種持久化方案的結合靠攏.
http://t.cn/8FwQmd1 Brendan Gregg如何測試云主機, 1. 使用sysbench計算質數的方式測試CPU, 配合mpstat, sar, pidstat, and perf驗證, 2. 使用iperf測試單線程以及系統的帶寬/時延,通過nicstat, sar, and pidstat驗證,3. 使用fio(by Jens Axboe)測試文件系統,配合sar, iostat, pidstat,perf驗證.
http://t.cn/8kkB189 Linux memory介紹,Linux系統的各個內存組件的含義介紹,單個進程(Oracle)占用的內存分析介紹, 使用Cgroup之后的內存使用分析。
As I’ve said in my books and elsewhere: “All virtualization is about illusions and although it is perfectly reasonable to perpetrate such illusions on unwitting users, it is entirely unreasonable to propagate those same illusions to the performance analyst.” http://t.cn/8kD1pob
So it turns out that “consistency (predicate)” and “consistency (history)” are two distinct ideas that happen to share a word. It is always an error to substitute the distributed systems definition of “consistency” for the C in ACID. http://t.cn/8krSQu5
http://t.cn/8kNGIQc The fact that Oracle’s policies and management practices are not community friendly is a different matter. But I’d bet that digging deeper into these would reveal that other companies that are perceived as open and community friendly are not very different.
http://t.cn/8kMPA6g 技術晉升的誤區(By 楊衛華)通常TC對專業角度的考察會占到60%以上的權重。直接說出你打了哪幾次勝仗,每場由于環境的變化你靈活使用了哪些兵法來克服困難,在某些特別的條件下,你靈活使用了一些沒用過的兵法取得了良好效果。如果你發現過去缺少獨立打仗的機會,請看下一條。
社科文章摘要:
http://t.cn/RvfrMa7 從哈/維/爾出發。生活在真實中”、“無權者的權力”、“反政治的政治”……呈現了他的觀察、感受和思考,不僅字字句句閃動著批判的鋒芒,而且蘊含著通往未來健康社會的新因素,這些語言的背后是一種強有力的精神力量,這是站在他對面的龐然大物難以想象的力量.
http://t.cn/8snRdid “我接受了自己的局限。”薛憶溈說。在異鄉寫作,他借用的是喬伊斯的三種武器—沉默、流亡和精巧。“沉默是對浮躁的顛覆,流亡是對同化的逃避,而精巧是對粗俗的反抗。在異鄉,寫作的自由和完整因此反而容易保存。”
http://t.cn/8sDZrjv 高華紀念文章, “紅||太||陽||是||怎||樣||升||起||的” 財新傳媒好樣的.
章詒和《順長江,水流殘月》:“我為了寫父輩(章伯鈞、羅隆基……)的故事,曾到民盟中央尋找材料。人家告訴我,由于定期及時上繳中央統戰部,民盟早就沒有自己的檔案了。驚駭萬分:一個政黨的歷史居然由另一個政黨管著。說穿了,就是不要民主黨派有自己的歷史和記憶!”
尤里·德魯日尼科夫《針尖上的天使》的主人公伊戈爾·伊萬諾維奇·馬卡爾采夫是《勞動真理報》的主編。此報并非虛構,蘇聯最著名的《真理報》曾易名《勞動真理報》。它只有一條原則:“無論世界上發生了什么,訂報人應當讀到的是:我們的國家一切正常。”
現今有許多人所以不能獨立,只是因為不能用思考與事實去打破他們的成見;又有一種人所以不能獨立,只是因為他們不能抵御時髦的引誘。……我們不說時髦話,不唱時髦的調子,只要人撇開成見,看看事實,因為我們深信只有事實能給我們真理,只有真理能使我們獨立。——胡適《獨立評論的一周年》
http://t.cn/8FFt1ke 《為奴十二載》:自由是反抗者的戰利品. By 羽戈”有了反抗,未必有自由,沒有反抗,則絕對沒有自由。”, 也許,等到一個國家和民族有資格寫作《自由的故事》之時,他們才能理解這一格言的意義:“自由都是反抗者的戰利品,絕不是掌權者的恩賜物。”(施明德)
http://t.cn/8FH22gZ 創業并快樂著的六個習慣, 1. 早睡早起, 2. 每日健身, 3. 全身心的放松, 4. 幫助他人, 5. 學習新技術, 接受新挑戰, 6. 尋找第二樂趣, 重新定義”贏”或”成功”.
人類的“物理-生理-心理”結構意味著,任何社會得以持續演變或生存,前提是滿足足夠多(可能必須很多)社會成員的安全感,與此同時,滿足足夠多(不必很多)社會成員的好奇心。任何社會制度乃至任何公共政策,都必須或多或少在能夠滿足安全感與能夠滿足好奇心的制度之間權衡。 By 汪丁丁.
“不能用改革開放后的歷史時期否定改革開放前的歷史時期,也不能用改革開放前的歷史時期否定改革開放后的歷史時期。”光明日報刊文解讀時更透露習曾說:“如果當時全盤否定了毛澤東同志,那我們黨還能站得住嗎?我們國家的社會主義制度還能站得住嗎?那就站不住了,站不住就會天下大亂。”
@peakscale: “Engineers like to solve problems. If there are no problems handily available, they will create their own problems” – Scott Adams 是這樣嘛?
It does not matter how intelligent you are, if you guess and that guess cannot be backed up by experimental evidence – then it is still a guess.” – Richard Feynman
http://t.cn/8sIoBW1 on-working-hard, Success doesn’t depend on how much you work, it depends on where you focus your time in the best way possible. Don’t work too hard.
http://t.cn/auGru1 Any organization that designs a system (defined broadly) will produce a design whose structure is a copy of the organization’s communication structure. 組織的通訊架構決定了這個組織設計的產品的架構.
Eric Schmidt said, “Every once in a while a perfect storm occurs. Your competitors make some mistakes. You end up with the right product at the right time. There are really no other good choices of products … That’s what happened with Android.”? http://t.cn/8kD7Wbb
“Redundancy is ambiguous because it seems like a waste if nothing unusual happens. Except that something unusual happens—usually.” @nntaleb 尼古拉斯.塔勒布
No related posts.
原文地址:Jame’s Readings 06-29, 感謝原作者分享。
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。TEL:177 7030 7066 E-MAIL:11247931@qq.com