零基础如何优雅入门“网红”Python

新闻资讯2024-06-10 13:27小乐

零基础如何优雅入门“网红”Python

Python 受欢迎的原因是什么?为什么我身边的朋友都开始学习Python?我怎样才能从头开始学习这门语言?学习上有哪些困难? DT财经特邀纽约数据科学学院讲师张泽宇为您一一解答。

流行的Python语言

在国外的StackOverflow(DT君注:StackOverflow是一个程序相关的IT技术问答网站,用户可以在网站上免费提交问题、浏览问题、索引相关内容)网站上,Python已经是增长最快的语言,并将可能成为2020年最流行的语言。

Python最近从Python2过渡到Python3,很多朋友都遇到了问题。这可能是StackOverflow 网站上问题数量激增的原因之一。

在Github(DT注:GitHub是开源和私有软件项目的托管平台)中,JavaScript目前是2014年排名第一的语言,Java排名第二,Python排名第三。随着Python流行度的增长,现在Python的排名已经上升到第二位。

JavaScript 目前是Web 开发的首选语言。有用的框架很多,但是更新速度很快,新手学习起来比较困难。另一方面,Python也从Python2更新到了Python3。所以两种语言都有各自的优点和缺点。

去年,一则新闻引起关注,其中提到Python语言将被纳入高考科目,可见这门语言正在被越来越重视。

在中国,数据分析岗位的需求量非常大。作为数据分析的第一语言,Python 正变得越来越流行。国内很多数据比较杂乱,比如医学分析报告,是很多患者的检测结果拼接在一起的。如果需要从中提取有用的数据,则需要使用Python来处理它们。

学习Python有哪些难点?如何打破零基础?

Python是一门“易学但难掌握”的语言。与C++等语言相比,Python的语言非常精简。有时需要十行C++代码才能解决一个问题,而Python只需要一行。

那么零基础知识的同学如何入门呢?泽宇老师推荐了两门预科课程:完成Codecademy网站和Github网站上的基础课程后,参加纽约数据科学院的训练营会更加顺利。 (DT君注:Codecademy是国外一个学习编程知识的在线网站)Codecademy网站非常适合新手练习。在这个网站上,你可以同时学习和练习,网站会反馈代码的正确性。

在美国学习代码有两个概念:通过编码学习和保持双手肮脏。因此,如果你想学习Python,你必须自己敲代码。为了保证学习效果,训练营要求学员在Codecademy上通过Python相关练习后才能开始参加训练营。

另外,GitHub网站上有一个目录“awesome-python”,里面有很多教程,包括数据分析、数据可视化、机器学习、自然语言处理、网络开发等,涵盖了Python可以应用的所有领域。

泽宇老师再给大家分享一个额外的小技巧:在Github上搜索“awesome-你想学的语言”,比如“awesome-java”,就可以找到对应的目录。

不管听老师讲多少,最实际的还是自己完成一个项目。经验是在一个又一个的坑中积累的,训练营中的每一个通宵都会有回报。

训练营课程有哪些亮点?

英文原版课件翻译

训练营课件采用纽约教育部认证的原版英文课件,中文教学。使用英文原版课件的原因有两个:一是Python代码要求是英文的;二是Python代码需要英文。其次,当学生在StackOverflow和Github上提问时,只有熟悉Python的英文名词才能理解问题。

纯粹的东西,没有废话

泽宇老师的教学风格偏向“相声流”,与早年很受欢迎的新东方英语老师罗永浩的教学风格类似,非常注重与学生的互动。他开玩笑说,他理想的教学方式是直播,学生可以随时发帖提问,还可以双击“666”为他发射火箭。

训练营中的所有课程对项目都有帮助,不会浪费学员的宝贵时间。学生还可以访问纽约数据科学院网站,浏览过去学生完成的数百个项目,其中充满了有用的信息。

有同学可能会问,课程这么多亮点,学完你确定能找到工作吗?我给大家讲一个小故事:罗永浩老师在给老罗进行英语培训的时候,说中国的英语培训主要有三大流派:第一是“魔派”,比如魔法速记,还有千人计划。神奇英语记忆法;是“N天搞定”学校,意味着17天掌握GRE词汇,17天突破托福作文;第三所学校是“不不不学校”,你不需要背英语单词,你也不再需要背英语单词。但纽约数据科学院不会提供这种“十天学会Python”的课程。

训练营的一位毕业生给出了这样的评价:“训练营就像一个放大镜,比如说十倍放大镜,你投资一块钱,得到十块钱,你投资十块钱,得到一百块钱。”所以。学生投入的时间和精力越多,自然获得的回报就越多。

过去的学生项目

泽宇老师给大家分享了一些往届学员的项目。

其中,同学们从招聘网站Glassdoor上爬取了美国各大城市的招聘信息,然后进行了简单的薪资分析。可以看出,加州和圣何塞的工资高于纽约。不过加州的税率和房租都会比纽约高,所以你最终拿到的工资可能不会比纽约高。在这种情况下,老师会建议学生抓一些生活成本、税率等方面的统计数据,综合分析哪个城市最适合数据科学家找工作。

在这个项目中,学生还进行了词频分析。可以看出,各大科技公司的主要产品和语言是,例如苹果的关键词是Siri和机器学习,亚马逊的关键词是AWS云计算服务,Facebook的主要语言是PHP,谷歌的主要关键词是Cloud和Android,微软的关键词是Cloud和Android。专注于Azure。

有同学可能会问:在公司工作会用到网络爬虫吗?公司没有内部数据和现成的数据吗?事实上,好的数据要花很多钱才能买到。

举个具体的例子,上一期训练营与美国最大的制锁公司Masterlock合作。他们提供了数据和要求,训练营的学员们被分成小组,为他们提供一些咨询服务,让学员们在毕业前能够取得联系。来自大公司的真实数据,了解大公司对数据科学工作的要求。

Masterlock非常关注其对各个电商公司的评价,希望训练营的学员搭建一个爬虫软件,每天抓取亚马逊过去24小时的新评论。对于捕获到的新评论,首先要对数据进行清洗,然后使用一些自然语言处理技术来处理,比如深度学习中的递归神经网络技术。

最后,生成的报告告诉Masterlock这次评估的内容是什么,比如锁的颜色、安全性等。使用爬虫软件代替人类阅读评论,正在利用数据科学和机器学习来改变企业处理数据的方式。

Python更高级的应用

学会使用Python进行数据分析后,可以参加Kaggle数据分析比赛。 (DT注:Kaggle是一个数据分析竞赛平台:企业或研究人员可以在Kaggle上发布数据、问题描述和预期指标,以竞赛的形式收集数据科学家的解决方案)

比如,泽宇老师正在参加桑坦德银行的客户价值预测比赛,奖金为6万美元。这次竞赛将解决一个现实问题,其中敏感数据的含义不会被公开,从而不会出现数据泄露的问题。

Kaggle 最近被谷歌收购了。现在该网站每年都会推出近百个竞赛,其中一些竞赛是关于预测两种产品之间的相似性,或者预测哪条生产线发生事故的概率更大。比赛中使用的数据包括数字、文字和图片相关的数据。现在有很多中国学生参加上述比赛,在排行榜上可以看到很多中国ID。

纽约数据训练营的学生在Kaggle比赛中取得了非常好的成绩,获得了多枚银牌和铜牌。泽宇老师还获得过一些金牌和银牌。在Kaggle 上获奖对以后找工作很有帮助,参与项目更是为你的简历加分。

Python也可以用于图像识别。例如,在下图中,识别图片是狗还是猫。图像识别的另一个应用是无人驾驶汽车。

上层建筑必须有基础。只有打下了坚实的基础,我们才有能力去挑战更艰巨的任务。

注:以上内容根据张泽宇在数据人在线实验室的演讲整理。图片来自其现场PPT。本文仅代表作者观点,不代表DT财经立场

编辑|陈静chenjing@dtcj.com

标题图片|扎古海洛

期待数据英雄更多的数据分享、话题讨论、福利发放吗?您可以通过公众号DT数据英雄(ID:DTdatahero)后台回复“数据社区”申请加入DT数据社区。

数据人派

张泽宇是纽约数据科学研究所的数据科学家。主要负责在纽约数据科学研究所训练营教授Python、机器学习、深度学习课程。他拥有上海交通大学工程学士学位和纽约大学电气工程硕士学位。

猜你喜欢