百度aistudio 安装 pycorrecotor

背景 百度aistudio提供的notebook juypter 免费提供CPU/GPU 资源,可以比较方便的做算法测试。同时提供了aistudio 提供了直接访问服务器的terminal,可以直接登录到虚拟机上安装相关依赖,这个操作比Google的colab只能在notebook上操作要方便不少。但是百度为了推广自家的paddle(飞桨框架),禁止了TensorFlow/pytorch等DeepLearning框架。 虚拟机的shell也禁用了root权限,那么就不能直接执行sudo apt-get install 之类的需要root权限的命令了。 实验 现在有一个在notebook jupyter上安装pycorrector的需求,直接pip install pycorrector »

pandas matplotlib 中文字体支持

下载字体文件 点击下载 simsun.ttc 设置字体 import matplotlib.pyplot as plt import matplotlib.font_manager as fm # 设置字体 font = fm.FontProperties(fname='/your_fonts_directory/simsun. »

川普Twitter超多维度分析

获取Trump最近的Twitter 除了用爬虫去获取Twitter之外,还有一个简单稳定的方案就是通过官方的API,不过最近Twitter官方比较严格,很难申请开放平台很难通过。好在笔者之前申请过一个Twitter的开发者账号。 安装第三方获取Twitter的库python-twitter pip install python-twitter 把Trump最近的Twitter dump 下来 import twitter proxies = { 'http': '', 'https': '' } api = twitter.Api(consumer_key='', »

Elasticsearch Machine Learning AIOps 实践

项目背景 公司内部封装了NLP通用算法的GRPC服务,比如文本情感识别、文本分类、实体识别等, 提供给大数据等其他部门实时调用。 RPC 服务的调用日志,通过Filebeat、Logstash 实时发送到Elasticsearch,现在需要通过对日志的调用情况实时统计分析,判断调用情况是否出现异常,并对异常情况能够实时告警。 业务场景分析 使用ES 的watcher 插件创建一个threshold alert, 设置预警规则,当一个时间周期内的数据量达到阈值, 就进行告警。 这种方案优点是,设置起来比较简单,只要设置query的条件,以及阈值就可以快速完成。 »

如何用python爬取抖音视频列表

导语 如果看到特别感兴趣的抖音vlogger的视频,想全部dump下来,如何操作呢?下面介绍介绍如何使用python导出特定用户所有视频信息 抓包分析 Chrome Deveploer Tools Chrome 浏览器开发者工具 在抖音APP端,复制vlogger主页地址, 比如: http://v.douyin.com/kGcU4y/, 在PC端用chrome浏览器打卡,并模拟手机,这里选择iPhone, 然后把复制的主页地址,放到浏览器进行访问,页面跳转到https://www. »

gRPC 基于zookeeper实现负载均衡

导读 gRPC是一个高性能、通用的开源 RPC 框架,其由 Google 主要面向移动应用开发并基于HTTP/2协议标准而设计,基于ProtoBuf(Protocol Buffers) 序列化协议开发,且支持众多开发语言。 gRPC通过其插件机制,可以很灵活的实现负载均衡、调用链、健康检查、权限认证等模块,本文主要介绍如何通过gRPC定义的接口实现负载均衡功能。 负载均衡方案 RPC服务的除了解决跨语言调用的问题、模块解耦,重要的一点是通过模块的微服务化,可以水平扩展RPC服务的节点,应用层通过异步调用多个服务, »

GRPC 负载均衡实现

导读 gRPC 是google开源的非常优秀的RPC框架,支持PYTHON/JAVA/PHP/GO/C/C++/C#/NODEJS/RUBY 等编程语言,在跨语言调用十分方便。 在产品环境,通常要部署多个RPC服务,已提高可用性,以及响应速度。但是 在负载均衡方面不如dubbo的组件那么丰富,但是其提供了服务发现的接口, 可以通过实现其接口,灵活实现负载均衡功能。 下面通过本地配置文件,启动时注册可用的服务,可以快速实现负载均衡功能。 »

为什么选择Guice框架

使用Guice框架的动机 在应用中组装各个封装好的类,有时候是一件很乏味的事情。有几种办法可以把数据层、业务层、表现层的代码整合在一起。下面通过一个在线披萨下订单的业务来对比这几种实现方法。 // 定义下订单接口 public interface BillingService { /** * Attempts to charge the order to the credit card. Both successful and * failed transactions will »

导出echarts中的图片

echarts提供了很多精美图表插件,通过浏览器来渲染后,用户可以保存图表为图片。但是有些应用场景,需要在用户不打开浏览器的情况下,能把图表保存下来,比如把echarts图表插入到word文档中。这种需求下,我开发了echarts图片导出服务,并提供了相关接口。 提供了两种类型的接口: 把定制页面的echarts图表保存为图片 请求实例: curl http://115.29.188.241:3100/ -d '{"url":"http://115.29. »