continuous_evaluation issues

CE 模型重构

3

目前一个模型目录中，所有gpu，cpu场景都配置在里面。导致其中kpi相关配置，以及model中记录kpi的变量越来越多。比如：加一个4卡和8卡需要把kpi配置，启动脚本等，都平铺开来。 ![aa](https://user-images.githubusercontent.com/32069604/41295348-f2546dde-6e8c-11e8-919c-b8c2fe175357.JPG) https://github.com/PaddlePaddle/paddle-ce-latest-kpis/pull/37 随着我们机器型号和模型场景（Gpu单卡、多卡，cpu等）不断扩充，维护起来比较费劲。 ### 计划进行如下重构：每一个模型有一个对应的base模型： ```sh resnet50 ``` base模型里存放的内容有： model.py（模型脚本）, continuous_evaluation.py （kpi 变量），所有模型共用。可以在此基础上定义各种场景模型 ```sh resnet50-p40-card8 resnet50-p40-card4 resnet50-p40-card1 resnet50-v100-card4 resnet50-v100-card1...

guochaorong

CE web 问题修复

1. commit details 和 compare页面不加cache。如果用户请求了一个commit detail页面后再请求另一个commit detail页面，因为缓存的存在，会导致用户看到的页面信息和实际对不上。而且这个响应时间本来比较短，可以不加缓存 ![details](https://user-images.githubusercontent.com/32069604/40790975-e44db604-6528-11e8-9932-c0deb4cfa71c.JPG) 2. compare 显示的commit id信息，目前没有顺序计划将新的commit 显示在上面，老commit在下面的顺序排列，方便选择 3. 对于后来加的模型，以及后来模型新加的kpis，需要判断是否两个commit都有相应的task或kpi，否则会key error ![code](https://user-images.githubusercontent.com/32069604/40793051-02e2ad5e-652e-11e8-9d49-34d3e4be264d.JPG) 例如，选择两个commit 比较，ce server报错： ![error](https://user-images.githubusercontent.com/32069604/40791648-953e399c-652a-11e8-9b40-f088e5f9fe0d.PNG)

guochaorong

CE db优化

1

guochaorong

CE模型PR监控

原来CE模型设置的merge监控，模型需要merge到CE模型库才能暴露问题。本周增加CE 模型repo PR的监控告警。这样能够保证模型在merge到CE模型库之前是功能正确，并且阈值在范围内. 栗子: https://github.com/Superjomn/paddle-ce-latest-kpis/pull/33 效果如下： ![image](https://user-images.githubusercontent.com/32069604/40461460-1f717b3a-5f3e-11e8-84a7-133030dd0de9.PNG) 点击"details" http://18.222.34.7:8080/viewLog.html?buildId=450&buildTypeId=Paddle_CeTaskEvaluation

guochaorong