实验室数值计算服务器使用说明

1 登录方式
服务器提供SSH方式登录,部分服务器提供VNC方式登录。(考虑到图形界面对计算能力的消耗建议尽量使用SSH方式登录)
1.1 SSH登录
1.2 VNC登录

2 文件传输
服务器提供SFTP方式传输文件,部分服务器提供FTP及NFS网络文件服务。
1.1 SFTP
1.2 FTP
1.3 NFS

3 工具列表
服务器提供一下计算工具或其中几种计算工具
1.1 stata13-MP
1.2 matlab2016b
1.3 python(多个版本)
1.4 julia(0.7或1.0)
1.5 R(多个版本)
1.6 gcc(多个版本)
1.7 Clang(多个版本)
1.8 Anaconda(可实现python,R及Julia)

4 服务器申请方式
提交《实验室服务器使用申请表》,从管理员处获取服务器IP地址及用户名,密码。

[行为和实验经济学研讨会]The Psychology and Economics of a Superstition

行为和实验经济学研讨会
(总第4期)

【时 间】2018年11月5日(周一)12:00—13:30
【地 点】明德主楼734会议室
【主 题】The Psychology and Economics of a Superstition
【主讲人】Joshua Miller(Assistant Professor at the University of Alicante(Spain))
【主持人】陆方文(中国人民大学经济学院教授)
【点评人】代志新(中国人民大学财政金融学院助理教授)
【语 言】英语
【摘 要】We design two field experiments and a laboratory experiment in order to determine if people are willing to incur a cost (qualitative and quantitative) to behave in accordance with their superstitious beliefs. We explore potential mechanisms.
【主讲人简介】Joshua Miller is an economist at the University of Alicante (Spain). He received his PhD in Economics from the University of Minnesota. He works primarily in the areas of behavioral and experimental economics. His current research interests focus on information processing, judgment under uncertainty, and belief aggregation. He has published papers in top journals such as Econometrica, Journal of Political Economy, and Management Science.

[行为和实验经济学研讨会]The role of incentive in promoting cooperation

行为和实验经济学研讨会
(总第3期)

【时 间】2018年11月1日(周四)12:30—14:00
【地 点】明德主楼734会议室
【主 题】The role of incentive in promoting cooperation
【主讲人】张博宇(北京师范大学数学科学学院副教授)
【主持人】陆方文(中国人民大学经济学院教授)
【点评人】王湘红(中国人民大学经济学院教授)
【摘 要】Sustaining cooperation in social dilemmas has been a longstanding and fundamental topic in both the social and biological sciences. In human society, this problem can be solved by establishing incentive mechanisms that reward cooperators and punish free-riders. In this presentation, the role of incentive in promoting cooperation is discussed from both theoretical and experimental perspectives.

【主讲人简介】张博宇,北京师范大学,数学科学学院,副教授,博士生导师。2006年在北京师范大学数学科学学院获学士学位,2009年在北京师范大学数学科学学院获硕士学位,2012年在奥地利维也纳大学数学系获博士学位,后进入北京师范大学数学科学学院工作,2015年晋升副教授。主要研究兴趣包括演化博弈和行为经济学等。在PNAS,Operations Research,Games and Economic Behaviour等国际著名学术期刊上发表论文30余篇。主持国家自然科学基金面上项目等共4项。

【新闻】经济学院举办首期行为和实验经济学研讨会

经济学院举办首期行为和实验经济学研讨会

    97日中午,行为和实验经济学研讨会在明主734教室举行。本次研讨会为首期行为和实验经济学研讨会,采用了圆桌会议的形式。主持人为经济学院王湘红教授,我院陆方文老师,财政金融学院代志新老师,劳动人事学院翁茜老师,以及北京师范大学何浩然老师、张博宇老师,北京交通大学王雅璨老师,北京大学高彧老师等参加了此次会议。

本次研讨会结合改革开放以来行为和实验经济学在中国的发展,总结了目前在研究和教学中的成果和经验,交流了当前行为和实验经济学研究的热点问题以及相关研究方法。在此基础上,共同探讨了如何进一步促进行为和实验经济学在校内、校际以及国际上的深入合作。会议期间,主持人和嘉宾们就合作的形式和内容等等各抒己见,现场氛围十分热烈。

本次研讨会是经济学院行为和实验经济学的首次研讨会,后期我们会继续开展各种形式的研讨会,详情请关注学院官网、海报以及邮件。欢迎大家积极参与、集思广益,共同为促进行为和实验经济学在国内和国际上的发展而努力。

【行为和实验经济学研讨会】“行为和实验经济学的中国发展”圆桌讨论

行为和实验经济学研讨会
(总第1期)

【时 间】2018年9月7日(周五)11:30—14:00
【地 点】明德主楼734会议室
【主 题】“行为和实验经济学的中国发展”圆桌讨论
【主持人】王湘红(中国人民大学经济学院教授)
【参会嘉宾】王雅璨,何浩然,张博宇,高域,陆方文,孙文凯,代志新,翁倩。

欢迎其他老师参加!

【研讨会内容】本研讨会将回顾改革开放以来行为和实验经济学在中国的发展,总结研究和教学的成果、现状和经验,交流当前行为和实验经济学研究的热点问题和研究方法,如何与当前国内经济问题相结合的问题,讨论校内、校际和国际的合作形式,包括在研究、教学和论坛方面的合作,为进一步促进行为和实验经济学在国内和国际上的发展而努力。

【行为和实验经济学研讨会】资产配置与价格泡沫:一项实验经济学研究

行为和实验经济学研讨会
(总第2期)

【时 间】2018年9月11日(周二)12:00—13:30
【地 点】明德主楼734会议室
【主 题】资产配置与价格泡沫:一项实验经济学研究
【主讲人】魏立佳(武汉大学经济与管理学院教授)
【主持人】陆方文(中国人民大学经济学院教授)

【摘 要】这篇论文运用实验经济学的方法探讨了实物资产的泡沫问题。在本文的实验定中,参与者需要重复进行实物资产的购入并进行生产的决策,实验过程中实物资产的基础价值保持不变。实验设计参考了Holt et al(2017)关于风险资产价格泡沫的论文和Holt and Shobe (2016)关于碳排放权市场的论文。我们对之前论文的创新在于:(1)构造了资产供给不变或趋紧的设置;(2)构造了资产基础价值不变的设置;(3)在实验设计中构造的实物资产与金融资产有不同的属性。我们发现,实物资产的供给不变的情况下,其价格会产生泡沫,但泡沫会很快破灭;当实物资产的供给逐渐减少时,参与者无法进行理性的跨期平滑使用,资产价格呈现缓慢上涨至暴涨的现象。根据实验中收集参与者对价格的预期数据,本文发现预期与实际价格的差值驱动了资产价格的上涨和下跌。本文同时还发现,如果允许参与者跨期进行实物资产的借还,将有利于平抑资产的价格泡沫。

【主讲人简介】魏立佳(Lijia Wei),武汉大学经济与管理学院教授,数理经济与数理金融系主任,珞珈青年学者、珞珈领秀人才特聘教授。兼任广东省公共资源交易咨询委员会特聘专家。研究领域为行为与实验经济学、 应用计量经济学。论文发表于 Marketing Science、Econometric Theory、 Journal of Regional Science,Economic Modeling、 Pacific Economic Review 等国际SSCI 学术期刊,以及《经济学(季 刊)》、《中国工业经济》、《系统工程理论与实践》等中文权威学术期刊。主持国家自然科学基金、教育部人文社会科学项目等多个科研项目。

推荐非理工科同学学习python

程序语言从fortran、lisp开始算有近60年的历史了,现代程序语言早已不是人们之前影响中拥有高深数学功底的工科男才能掌握的技能。以python为例,其拥有良好的强制编码风格,广泛的第三方包和适当的高层语法环境*。非常适合非理工科同学学习。尤其是中国人民大学这所以经管类学科见长的学校更应该为经管类学生开设python应用基础及其数据分析方法课程。

但是现在情况如此,而且以实验室名义开设也是前景未知。这里推荐大家学习三本O`reilly的三本动物书,以便自学:

Learning Python (作为入门可以只看前15章)
Web Scraping with Python(作为入门可以只看前7章)
Python for Data Analysis

以上三本书都有中文版。

英文好的同学可以参照 coursera 的 Programming for Everybody (Getting Started with Python)学习。

注*这里高级不是比哪个语言高级,没有高低比较。程序语言越靠近汇编语言,语法层级越低,越靠近自然语言。语法层级越高。这里指python的语法层级适当,适合无计算机学科人学习,又不损害其语法效率。

zt 大数据分析与机器学习领域Python兵器谱

人懒就是没办法,之前一直想写一个汇总,懒阿懒,终于让我懒到有人写了,于是乎,转载!!!
原文地址 http://www.ppvke.com/Answer/question/616
一、Python网页爬虫工具集

个真实的项目,一定是从获取数据开始的。无论文本处理,机器学习和数据挖掘,都需要数据,除了通过一些渠道购买或者下载的专业数据外,常常需要大家自己动
手爬数据,这个时候,爬虫就显得格外重要了,幸好,Python提供了一批很不错的网页爬虫工具框架,既能爬取数据,也能获取和清洗数据,我们也就从这里
开始了:
Scrapy
Scrapy, a fast high-level screen scraping and web crawling framework for Python.
鼎鼎大名的Scrapy,相信不少同学都有耳闻,课程图谱中的很多课程都是依靠Scrapy抓去的,这方面的介绍文章有很多,推荐大牛pluskid早年的一篇文章:《Scrapy 轻松定制网络爬虫》,历久弥新。
官方主页:http://scrapy.org/
Github代码页: https://github.com/scrapy/scrapy
Beautiful Soup
You
didn’t write that awful page. You’re just trying to get some data out
of it. Beautiful Soup is here to help. Since 2004, it’s been saving
programmers hours or days of work on quick-turnaround screen scraping
projects.
读书的时候通过《集体智慧编程》这本书知道Beautiful Soup的,后来也偶尔会用用,非常棒的一套工具。客观的说,Beautifu Soup不完全是一套爬虫工具,需要配合urllib使用,而是一套HTML/XML数据分析,清洗和获取工具。
官方主页:http://www.crummy.com/software/BeautifulSoup/
Python-Goose
Html Content / Article Extractor, web scrapping lib in Python
Goose最早是用Java写得,后来用Scala重写,是一个Scala项目。Python-Goose用Python重写,依赖了Beautiful Soup。前段时间用过,感觉很不错,给定一个文章的URL, 获取文章的标题和内容很方便。
Github主页:https://github.com/grangier/python-goose

二、Python文本处理工具集

网页上获取文本数据之后,依据任务的不同,就需要进行基本的文本处理了,譬如对于英文来说,需要基本的tokenize,对于中文,则需要常见的中文分
词,进一步的话,无论英文中文,还可以词性标注,句法分析,关键词提取,文本分类,情感分析等等。这个方面,特别是面向英文领域,有很多优秀的工具包,我
们一一道来。
NLTK — Natural Language Toolkit
NLTK
is a leading platform for building Python programs to work with human
language data. It provides easy-to-use interfaces to over 50 corpora and
lexical resources such as WordNet, along with a suite of text
processing libraries for classification, tokenization, stemming,
tagging, parsing, and semantic reasoning, and an active discussion
forum.
搞自然语言处理的同学应该没有人不知道NLTK吧,这里也就不多说了。不过推荐
两本书籍给刚刚接触NLTK或者需要详细了解NLTK的同学: 一个是官方的《Natural Language Processing with
Python》,以介绍NLTK里的功能用法为主,同时附带一些Python知识,同时国内陈涛同学友情翻译了一个中文版,这里可以看到:推荐《用
Python进行自然语言处理》中文翻译-NLTK配套书;另外一本是《Python Text Processing with NLTK 2.0
Cookbook》,这本书要深入一些,会涉及到NLTK的代码结构,同时会介绍如何定制自己的语料和模型等,相当不错。
官方主页:http://www.nltk.org/
Github代码页:https://github.com/nltk/nltk
Pattern
Pattern is a web mining module for the Python programming language.
It
has tools for data mining (Google, Twitter and Wikipedia API, a web
crawler, a HTML DOM parser), natural language processing (part-of-speech
taggers, n-gram search, sentiment analysis, WordNet), machine learning
(vector space model, clustering, SVM), network analysis and canvas
visualization.
Pattern由比利时安特卫普大学CLiPS实验室出品,客
观的说,Pattern不仅仅是一套文本处理工具,它更是一套web数据挖掘工具,囊括了数据抓取模块(包括Google, Twitter,
维基百科的API,以及爬虫和HTML分析器),文本处理模块(词性标注,情感分析等),机器学习模块(VSM,
聚类,SVM)以及可视化模块等,可以说,Pattern的这一整套逻辑也是这篇文章的组织逻辑,不过这里我们暂且把Pattern放到文本处理部分。我
个人主要使用的是它的英文处理模块Pattern.en, 有很多很不错的文本处理功能,包括基础的tokenize,
词性标注,句子切分,语法检查,拼写纠错,情感分析,句法分析等,相当不错。
官方主页:http://www.clips.ua.ac.be/pattern
TextBlob: Simplified Text Processing
TextBlob
is a Python (2 and 3) library for processing textual data. It provides a
simple API for diving into common natural language processing (NLP)
tasks such as part-of-speech tagging, noun phrase extraction, sentiment
analysis, classification, translation, and more.
TextBlob
是一个很有意思的Python文本处理工具包,它其实是基于上面两个Python工具包NLKT和Pattern做了封装(TextBlob
stands on the giant shoulders of NLTK and pattern, and plays nicely with

both),同时提供了很多文本处理功能的接口,包括词性标注,名词短语提取,情感分析,文本分类,拼写检查等,甚至包括翻译和语言检测,不过这个是基于
Google的API的,有调用次数限制。TextBlob相对比较年轻,有兴趣的同学可以关注。
官方主页:http://textblob.readthedocs.org/en/dev/
Github代码页:https://github.com/sloria/textblob
MBSP for Python
MBSP
is a text analysis system based on the TiMBL and MBT memory based
learning applications developed at CLiPS and ILK. It provides tools for
Tokenization and Sentence Splitting, Part of Speech Tagging, Chunking,
Lemmatization, Relation Finding and Prepositional Phrase Attachment.
MBSP与Pattern同源,同出自比利时安特卫普大学CLiPS实验室,提供了Word Tokenization, 句子切分,词性标注,Chunking, Lemmatization,句法分析等基本的文本处理功能,感兴趣的同学可以关注。
官方主页:http://www.clips.ua.ac.be/pages/MBSP
Gensim: Topic modeling for humans
Gensim是一个相当专业的主题模型Python工具包,无论是代码还是文档,我们曾经用《如何计算两个文档的相似度》介绍过Gensim的安装和使用过程,这里就不多说了。
官方主页:http://radimrehurek.com/gensim/index.html
github代码页:https://github.com/piskvorky/gensim
langid.py: Stand-alone language identification system

言检测是一个很有意思的话题,不过相对比较成熟,这方面的解决方案很多,也有很多不错的开源工具包,不过对于Python来说,我使用过langid这个
工具包,也非常愿意推荐它。langid目前支持97种语言的检测,提供了很多易用的功能,包括可以启动一个建议的server,通过json调用其
API,可定制训练自己的语言检测模型等,可以说是“麻雀虽小,五脏俱全”。
Github主页:https://github.com/saffsd/langid.py
Jieba: 结巴中文分词
“结
巴”中文分词:做最好的Python中文分词组件 “Jieba” (Chinese for “to stutter”) Chinese text
segmentation: built to be the best Python Chinese word segmentation
module.
好了,终于可以说一个国内的Python文本处理工具包了:结巴分词,其功能包括支持三种分词模式(精确模式、全模式、搜索引擎模式),支持繁体分词,支持自定义词典等,是目前一个非常不错的Python中文分词解决方案。
Github主页:https://github.com/fxsjy/jieba
xTAS
xtas, the eXtensible Text Analysis Suite, a distributed text analysis package based on Celery and Elasticsearch.
感谢微博朋友 @大山坡的春 提供的线索:我们组同事之前发布了xTAS,也是基于python的text mining工具包,欢迎使用,链接:http://t.cn/RPbEZOW。看起来很不错的样子,回头试用一下。
Github代码页:https://github.com/NLeSC/xtas

三、Python科学计算工具包

起科学计算,大家首先想起的是Matlab,集数值计算,可视化工具及交互于一身,不过可惜是一个商业产品。开源方面除了GNU
Octave在尝试做一个类似Matlab的工具包外,Python的这几个工具包集合到一起也可以替代Matlab的相应功
能:NumPy+SciPy+Matplotlib+iPython。同时,这几个工具包,特别是NumPy和SciPy,也是很多Python文本处理
& 机器学习 & 数据挖掘工具包的基础,非常重要。最后再推荐一个系列《用Python做科学计算》,将会涉及到NumPy,
SciPy, Matplotlib,可以做参考。
NumPy
NumPy is the fundamental package for scientific computing with Python. It contains among other things:
1)a powerful N-dimensional array object
2)sophisticated (broadcasting) functions
3)tools for integrating C/C++ and Fortran code
4) useful linear algebra, Fourier transform, and random number capabilities
Besides
its obvious scientific uses, NumPy can also be used as an efficient
multi-dimensional container of generic data. Arbitrary data-types can be
defined. This allows NumPy to seamlessly and speedily integrate with a
wide variety of databases.
NumPy几乎是一个无法回避的科学
计算工具包,最常用的也许是它的N维数组对象,其他还包括一些成熟的函数库,用于整合C/C++和Fortran代码的工具包,线性代数、傅里叶变换和随
机数生成函数等。NumPy提供了两种基本的对象:ndarray(N-dimensional array object)和
ufunc(universal function
object)。ndarray是存储单一数据类型的多维数组,而ufunc则是能够对数组进行处理的函数。
官方主页:http://www.numpy.org/
SciPy:Scientific Computing Tools for Python
SciPy refers to several related but distinct entities:
1)The
SciPy Stack, a collection of open source software for scientific
computing in Python, and particularly a specified set of core packages.
2)The community of people who use and develop this stack.
3)Several conferences dedicated to scientific computing in Python – SciPy, EuroSciPy and SciPy.in.
4)The SciPy library, one component of the SciPy stack, providing many numerical routines.
“SciPy
是一个开源的Python算法库和数学工具包,SciPy包含的模块有最优化、线性代数、积分、插值、特殊函数、快速傅里叶变换、信号处理和图像处理、常
微分方程求解和其他科学与工程中常用的计算。其功能与软件MATLAB、Scilab和GNU Octave类似。
Numpy和Scipy常常结合着使用,Python大多数机器学习库都依赖于这两个模块。”—-引用自“Python机器学习库”
官方主页:http://www.scipy.org/
Matplotlib
matplotlib
is a python 2D plotting library which produces publication quality
figures in a variety of hardcopy formats and interactive environments
across platforms. matplotlib can be used in python scripts, the python
and ipython shell (ala MATLAB®* or Mathematica®†), web application
servers, and six graphical user interface toolkits.
matplotlib

是python最著名的绘图库,它提供了一整套和matlab相似的命令API,十分适合交互式地进行制图。而且也可以方便地将它作为绘图控件,嵌入
GUI应用程序中。Matplotlib可以配合ipython shell使用,提供不亚于Matlab的绘图体验,总之用过了都说好。
官方主页:http://matplotlib.org/
iPython IPython provides a rich architecture for interactive computing with:
1)Powerful interactive shells (terminal and Qt-based).
2)A browser-based notebook with support for code, text, mathematical expressions, inline plots and other rich media.
3)Support for interactive data visualization and use of GUI toolkits.
4)Flexible, embeddable interpreters to load into your own projects.
5)Easy to use, high performance tools for parallel computing.
“iPython
是一个Python 的交互式Shell,比默认的Python Shell 好用得多,功能也更强大。
她支持语法高亮、自动完成、代码调试、对象自省,支持 Bash Shell 命令,内置了许多很有用的功能和函式等,非常容易使用。 ”
启动iPython的时候用这个命令“ipython –pylab”,默认开启了matploblib的绘图交互,用起来很方便。
官方主页:http://ipython.org/

四、Python 机器学习 & 数据挖掘 工具包
机器学习和数据挖掘这两个概念不太好区分,这里就放到一起了。这方面的开源Python工具包有很多,这里先从熟悉的讲起,再补充其他来源的资料,也欢迎大家补充。
scikit-learn: Machine Learning in Python
scikit-learn
(formerly scikits.learn) is an open source machine learning library for
the Python programming language. It features various classification,
regression and clustering algorithms including support vector machines,
logistic regression, naive Bayes, random forests, gradient boosting,
k-means and DBSCAN, and is designed to interoperate with the Python
numerical and scientific libraries NumPy and SciPy.

先推荐大名鼎鼎的scikit-learn,scikit-learn是一个基于NumPy, SciPy,
Matplotlib的开源机器学习工具包,主要涵盖分类,回归和聚类算法,例如SVM,
逻辑回归,朴素贝叶斯,随机森林,k-means等算法,代码和文档都非常不错,在许多Python项目中都有应用。例如在我们熟悉的NLTK中,分类器
方面就有专门针对scikit-learn的接口,可以调用scikit-learn的分类算法以及训练数据来训练分类器模型。这里推荐一个视频,也是我
早期遇到scikit-learn的时候推荐过的:推荐一个Python机器学习工具包Scikit-learn以及相关视频–Tutorial:
scikit-learn – Machine Learning in Python
官方主页:http://scikit-learn.org/
Pandas: Python Data Analysis Library
Pandas
is a software library written for the Python programming language for
data manipulation and analysis. In particular, it offers data structures
and operations for manipulating numerical tables and time series.

一次接触Pandas是由于Udacity上的一门数据分析课程“Introduction to Data Science”
的Project需要用Pandas库,所以学习了一下Pandas。Pandas也是基于NumPy和Matplotlib开发的,主要用于数据分析和
数据可视化,它的数据结构DataFrame和R语言里的data.frame很像,特别是对于时间序列数据有自己的一套分析机制,非常不错。这里推荐一
本书《Python for Data Analysis》,作者是Pandas的主力开发,依次介绍了iPython, NumPy,
Pandas里的相关功能,数据可视化,数据清洗和加工,时间数据处理等,案例包括金融股票数据挖掘等,相当不错。
官方主页:http://pandas.pydata.org/

分割线,以上工具包基本上都是自己用过的,以下来源于其他同学的线索,特别是《Python机器学习库》,《23个python的机器学习包》,做了一点增删修改,欢迎大家补充

mlpy is a Python module for Machine Learning built on top of NumPy/SciPy and the GNU Scientific Libraries.
mlpy
provides a wide range of state-of-the-art machine learning methods for
supervised and unsupervised problems and it is aimed at finding a
reasonable compromise among modularity, maintainability,
reproducibility, usability and efficiency. mlpy is multiplatform, it
works with Python 2 and 3 and it is Open Source, distributed under the
GNU General Public License version 3.
官方主页:http://mlpy.sourceforge.net/
MDP:The Modular toolkit for Data Processing
Modular toolkit for Data Processing (MDP) is a Python data processing framework.
From
the user’s perspective, MDP is a collection of supervised and
unsupervised learning algorithms and other data processing units that
can be combined into data processing sequences and more complex
feed-forward network architectures.
From
the scientific developer’s perspective, MDP is a modular framework,
which can easily be expanded. The implementation of new algorithms is
easy and intuitive. The new implemented units are then automatically
integrated with the rest of the library.
The
base of available algorithms is steadily increasing and includes signal
processing methods (Principal Component Analysis, Independent Component
Analysis, Slow Feature Analysis), manifold learning methods ([Hessian]
Locally Linear Embedding), several classifiers, probabilistic methods
(Factor Analysis, RBM), data pre-processing methods, and many others.
“MDP
用于数据处理的模块化工具包,一个Python数据处理框架。
从用户的观点,MDP是能够被整合到数据处理序列和更复杂的前馈网络结构的一批监督学习和非监督学习算法和其他数据处理单元。计算依照速度和内存需求而高
效的执行。从科学开发者的观点,MDP是一个模块框架,它能够被容易地扩展。新算法的实现是容易且直观的。新实现的单元然后被自动地与程序库的其余部件进
行整合。MDP在神经科学的理论研究背景下被编写,但是它已经被设计为在使用可训练数据处理算法的任何情况中都是有用的。其站在用户一边的简单性,各种不
同的随时可用的算法,及应用单元的可重用性,使得它也是一个有用的教学工具。”
官方主页:http://mdp-toolkit.sourceforge.net/
PyBrain
PyBrain
is a modular Machine Learning Library for Python. Its goal is to offer
flexible, easy-to-use yet still powerful algorithms for Machine Learning
Tasks and a variety of predefined environments to test and compare your
algorithms.
PyBrain
is short for Python-Based Reinforcement Learning, Artificial
Intelligence and Neural Network Library. In fact, we came up with the
name first and later reverse-engineered this quite descriptive
“Backronym”.
“PyBrain(Python-Based
Reinforcement Learning, Artificial Intelligence and Neural
Network)是Python的一个机器学习模块,它的目标是为机器学习任务提供灵活、易应、强大的机器学习算法。(这名字很霸气)
PyBrain正如其名,包括神经网络、强化学习(及二者结合)、无监督学习、进化算法。因为目前的许多问题需要处理连续态和行为空间,必须使用函数逼近(如神经网络)以应对高维数据。PyBrain以神经网络为核心,所有的训练方法都以神经网络为一个实例。”
官方主页:http://www.pybrain.org/
PyML – machine learning in Python
PyML
is an interactive object oriented framework for machine learning
written in Python. PyML focuses on SVMs and other kernel methods. It is
supported on Linux and Mac OS X.
“PyML是一个Python机器学习工具包,为各分类和回归方法提供灵活的架构。它主要提供特征选择、模型选择、组合分类器、分类评估等功能。”
项目主页:http://pyml.sourceforge.net/
Milk:Machine learning toolkit in Python.
Its focus is on supervised classification with several classifiers available:
SVMs (based on libsvm), k-NN, random forests, decision trees. It also performs
feature selection. These classifiers can be combined in many ways to form
different classification systems.
“Milk
是Python的一个机器学习工具箱,其重点是提供监督分类法与几种有效的分类分析:SVMs(基于libsvm),K-NN,随机森林经济和决策树。它
还可以进行特征选择。这些分类可以在许多方面相结合,形成不同的分类系统。对于无监督学习,它提供K-means和affinity
propagation聚类算法。”
官方主页:http://luispedro.org/software/milk
http://luispedro.org/software/milk
PyMVPA: MultiVariate Pattern Analysis (MVPA) in Python
PyMVPA
is a Python package intended to ease statistical learning analyses of
large datasets. It offers an extensible framework with a high-level
interface to a broad range of algorithms for classification, regression,
feature selection, data import and export. It is designed to integrate
well with related software packages, such as scikit-learn, and MDP.
While it is not limited to the neuroimaging domain, it is eminently
suited for such datasets. PyMVPA is free software and requires nothing
but free-software to run.
“PyMVPA(Multivariate Pattern Analysis in Python)是为大数据集提供统计学习分析的Python工具包,它提供了一个灵活可扩展的框架。它提供的功能有分类、回归、特征选择、数据导入导出、可视化等”
官方主页:http://www.pymvpa.org/
Pyrallel – Parallel Data Analytics in Python
Experimental
project to investigate distributed computation patterns for machine
learning and other semi-interactive data analytics tasks.
“Pyrallel(Parallel Data Analytics in Python)基于分布式计算模式的机器学习和半交互式的试验项目,可在小型集群上运行”
Github代码页:http://github.com/pydata/pyrallel
Monte – gradient based learning in Python
Monte
(python) is a Python framework for building gradient based learning
machines, like neural networks, conditional random fields, logistic
regression, etc. Monte contains modules (that hold parameters, a
cost-function and a gradient-function) and trainers (that can adapt a
module’s parameters by minimizing its cost-function on training data).
Modules
are usually composed of other modules, which can in turn contain other
modules, etc. Gradients of decomposable systems like these can be
computed with back-propagation.
“Monte (machine learning in pure Python)是一个纯Python机器学习库。它可以迅速构建神经网络、条件随机场、逻辑回归等模型,使用inline-C优化,极易使用和扩展。”
官方主页:http://montepython.sourceforge.net
Theano
Theano
is a Python library that allows you to define, optimize, and evaluate
mathematical expressions involving multi-dimensional arrays efficiently.
Theano features:
1)tight integration with NumPy – Use numpy.ndarray in Theano-compiled functions.
2)transparent use of a GPU – Perform data-intensive calculations up to 140x faster than with CPU.(float32 only)
3)efficient symbolic differentiation – Theano does your derivatives for function with one or many inputs.
4)speed and stability optimizations – Get the right answer for log(1+x) even when x is really tiny.
5)dynamic C code generation – Evaluate expressions faster.
6) extensive unit-testing and self-verification – Detect and diagnose many types of mistake.
Theano
has been powering large-scale computationally intensive scientific
investigations since 2007. But it is also approachable enough to be used
in the classroom (IFT6266 at the University of Montreal).
“Theano
是一个 Python
库,用来定义、优化和模拟数学表达式计算,用于高效的解决多维数组的计算问题。Theano的特点:紧密集成Numpy;高效的数据密集型GPU计算;高
效的符号微分运算;高速和稳定的优化;动态生成c代码;广泛的单元测试和自我验证。自2007年以来,Theano已被广泛应用于科学运算。theano
使得构建深度学习模型更加容易,可以快速实现多种模型。PS:Theano,一位希腊美女,Croton最有权势的Milo的女儿,后来成为了毕达哥拉斯
的老婆。”
Pylearn2
Pylearn2
is a machine learning library. Most of its functionality is built on
top of Theano. This means you can write Pylearn2 plugins (new models,
algorithms, etc) using mathematical expressions, and theano will
optimize and stabilize those expressions for you, and compile them to a
backend of your choice (CPU or GPU).
“Pylearn2建立在theano上,部分依赖scikit-learn上,目前Pylearn2正处于开发中,将可以处理向量、图像、视频等数据,提供MLP、RBM、SDA等深度学习模型。”
官方主页:http://deeplearning.net/software/pylearn2/