数据的心得体会优质8篇
通过写心得体会,我们能够更好地总结经验,避免重复犯错,实用的心得体会可以激发读者的创造力和思考能力,下面是淘范文小编为您分享的数据的心得体会优质8篇,感谢您的参阅。
数据的心得体会篇1
“数据结构与算法课程设计”是计算机科学与技术专业学生的集中实践性环节之一,是学习“数据结构与算法”理论和实验课程后进行的一次全面的综合练习。其目的是要达到理论与实际应用相结合,提高学生组织数据及编写程序的能力,使学生能够根据问题要求和数据对象的特性,学会数据组织的方法,把现实世界中的实际问题在计算机内部表示出来并用软件解决问题,培养良好的程序设计技能。
当初拿到这次课程设计题目时,似乎无从下手,但是经过分析可知,对于简单文本编辑器来说功能有限,不外乎创作文本、显示文本、统计文本中字母—数字—空格—特殊字符—文本总字数、查找、删除及插入这几项功能。于是,我进行分模块进行编写程序。虽然每个模块程序并不大,但是每个模块都要经过一番思考才能搞清其算法思想,只要有了算法思想,再加上c程序语言基础,基本完成功能,但是,每个模块不可能一次完成而没有一点错误,所以,我给自己定了一个初级目标:用c语言大体描述每个算法,然后经调试后改掉其中明显的错误,并且根据调试结果改正一些算法错误,当然,这一目标实现较难。最后,经过反复思考,看一下程序是否很完善,如果能够达到更完善当然最好。并非我们最初想到的算法就是最好的算法,所以,有事我们会而不得不在编写途中终止换用其他算法,但是,我认为这不是浪费时间,而是一种认识过程,在编写程序中遇到的问题会为我们以后编写程序积累经验,避免再犯同样的错误。但是,有的方法不适用于这个程序,或许会适用于另外一个程序。所以,探索的过程是成长的过程,是为成功做的`铺垫。经过努力后获得成功,会更有成就感。
在课程设计过程中通过独立解决问题,首先分析设计题目中涉及到的数据类型,在我们学习的数据存储结构中不外乎线性存储结构及非线性存储结构,非线性存储结构中有树型,集合型,图型等存储结构,根据数据类型设计数据结点类型。然后根据设计题目的主要任务,设计出程序大体轮廓(包括子函数和主函数),然后对每个子函数进行大体设计,过程中错误在所难免,所以要经过仔细探索,对每个函数进行改进。
程序基本完成后,功能虽然齐全,但是程序是否完善(例如,输入数据时是否在其范围之内,所以加入判断语句是很有必要的)还需运行测试多次,如有发现应该对其进行改善,当然要在力所能及的前提下。
课程设计过程虽然短暂,但是使我深刻理解数据结构和算法课程对编程的重要作用,还有“数据结构与算法”还提供了一些常用的基本算法思想及算法的编写程序。通过独立完成设计题目,使我系统了解编程的基本步骤,提高分析和解决实际问题的能力。通过实践积累经验,才能有所创新。正所谓,良好的基础决定上层建筑。只有基本功做好了,才有可能做出更好的成果。
数据的心得体会篇2
完成了这次的二元多项式加减运算问题的课程设计后,我的心得体会很多,细细梳理一下,有以下几点:
1、程序的编写中的语法错误及修改
因为我在解决二元多项式问题中,使用了链表的方式建立的二元多项式,所以程序的空间是动态的生成的,而且链表可以灵活地添加或删除结点,所以使得程序得到简化。但是出现的语法问题主要在于子函数和变量的定义,降序排序,关键字和函数名称的书写,以及一些库函数的规范使用,这些问题均可以根据编译器的警告提示,对应的将其解决。
2、程序的设计中的逻辑问题及其调整
我在设计程序的过程中遇到许多问题,首先在选择数据结构的时候选择了链表,但是链表的排序比较困难,特别是在多关键字的`情况下,在一种关键字确定了顺序以后,在第一关键字相同的时候,按某种顺序对第二关键字进行排序。在此程序中共涉及到3个量数,即:系数,x的指数和y的指数,而关键字排是按x的指数和y的指数来看,由于要求是降幂排序且含有2个关键字,所以我先选择x的指数作为第一关键字,先按x的降序来排序,当x的指数相同时,再以y为关键字,按照y的指数大小来进行降序排列。
另外,我在加法函数的编写过程中也遇到了大量的问题,由于要同时比较多个关键字,而且设计中涉及了数组和链表的综合运用,导致反复修改了很长的时间才完成了一个加法的设计。但是,现在仍然有一个问题存在:若以0为系数的项是首项则显示含有此项,但是运算后则自动消除此项,这样是正确的。但是当其不是首项的时候,加法函数在显示的时候有0为系数的项时,0前边不显示符号,当然,这样也可以理解成当系数为0时,忽略这一项。这也是本程序中一个不完美的地方。
我在设计减法函数的时候由于考虑不够充分就直接编写程序,走了很多弯路,不得不停下来仔细研究算法,后来发现由于前边的加法函数完全适用于减法,只不过是将二元多项式b的所有项取负再用加法函数即可,可见算法的重要性不低于程序本身。
3、程序的调试中的经验及体会
我在调试过程中,发生了许多小细节上的问题,它们提醒了自己在以后编程的时候要注意细节,即使是一个括号的遗漏或者一个字符的误写都会造成大量的错误,浪费许多时间去寻找并修改,总结的教训就是写程序的时候,一定要仔细、认真、专注。
我还有一个很深的体会就是格式和注释,由于平时不注意格式和注释这方面的要求,导致有的时候在检查和调试的时候很不方便。有的时候甚至刚刚完成一部分的编辑,结果一不注意,就忘记了这一部分程序的功能。修改的时候也有不小心误删的情况出现。如果注意格式风格,并且养成随手加注释的习惯,就能减少这些不必要的反复和波折。还有一点,就是在修改的时候,要注意修改前后的不同点在哪里,改后调试结果要在原有的基础上更加精确。
数据的心得体会篇3
本次课程设计,使我对《数据结构》这门课程有了更深入理解。《数据结构》是一门实践性较强课程,为了学好这门课程,必须在掌握理论知识同时,加强上机实践。
我课程设计题目是线索二叉树运算。刚开始做这个程序时候,感到完全无从下手,甚至让我觉得完成这次程序设计根本就是不可能,于是开始查阅各种资料以及参考文献,之后便开始着手写程序,写完运行时有很多问题。特别是实现线索二叉树删除运算时很多情况没有考虑周全,经常运行出现错误,但通过同学间帮助最终基本解决问题。
在本课程设计中,我明白了理论与实际应用相结合重要性,并提高了自己组织数据及编写大型程序能力。培养了基本、良好程序设计技能以及合作能力。这次课程设计同样提高了我综合运用所学知识能力。并对vc有了更深入了解。《数据结构》是一门实践性很强课程,上机实习是对学生全面综合素质进行训练一种最基本方法,是与课堂听讲、自学和练习相辅相成、必不可少一个教学环节。
上机实习一方面能使书本上知识变“活”,起到深化理解和灵活掌握教学内容目;另一方面,上机实习是对学生软件设计综合能力训练,包括问题分析,总体结构设计,程序设计基本技能和技巧训练。此外,还有更重要一点是:机器是比任何教师更严厉检查者。因此,在“数据结构”学习过程中,必须严格按照老师要求,主动地、积极地、认真地做好每一个实验,以不断提高自己编程能力与专业素质。
通过这段时间课程设计,我认识到数据结构是一门比较难课程。需要多花时间上机练习。这次程序训练培养了我实际分析问题、编程和动手能力,使我掌握了程序设计基本技能,提高了我适应实际,实践编程能力。总来说,这次课程设计让我获益匪浅,对数据结构也有了进一步理解和认识。
一周的课程设计结束了,在这次的课程设计中不仅检验了我所学习的知识,也培养了我如何去把握一件事情,如何去做一件事情,又如何完成一件事情的方法和技巧。在设计过程中,和同学们相互探讨,相互学习,相互监督。我学会了运筹帷幄,学会了宽容,学会了理解,也学会了做人与处世,这次课程设计对我来说受益良多。
课程设计是我们专业课程知识综合应用的实践训练,着是我们迈向社会,从事职业工作前一个必不少的过程。“千里之行始于足下”,通过这次课程设计,我深深体会到这句千古名言的真正含义。我今天认真的进行课程设计,学会脚踏实地迈开这一步,就是为明天能稳健地在社会大潮中奔跑打下坚实的基础。我这次设计的科目是数据结。
数据结构,是一门研究非数值计算的程序设计问题中计算机的操作对象(数据元素)以及它们之间的关系和运算等的学科,而且确保经过这些运算后所得到的新结构仍然是原来的结构类型。“数据结构”在计算机科学中是一门综合性的专业基础课。数据结构是介于数学、计算机硬件和计算机软件三者之间的一门核心课程。数据结构这一门课的内容不仅是一般程序设计(特别是非数值性程序设计)的基础,而且是设计和实现编译程序、操作系统、数据库系统及其他系统程序的重要基础。通过这次模具设计,我在多方面都有所提高。
在界面设置中使用函数调用while。其中文本显示颜色和背景颜色都可以任意按照自己的喜好,任意改变,但改变的时候必须采用标准英文大写,同时在制作显示菜单的窗口,大小根据菜单条数设计。最后采用printf输出程序设计界面。
这次的程序软件基本上运行成功,可以简单的建立链式循环链表,并进行输出,及循环语句的运用和选择语句的控制。由于时间和知识上的限制,使得程序规模相对较小,即功能还不很全面,应用也不很普遍。原来c语言可是涉及很多知识,而不是枯燥无聊的简单的代码部分而已,利用c语言方面的知识,我们可以设计出更完善的软件。
通过这次的课程设计,更是让我深刻认识到自己在学习中的不足,同时也找到了克服这些不足的方法,这也是一笔很大的资源。在以后的时间中,我们应该利用更多的时间去上机实验,加强自学的能力,多编写程序,相信不久后我们的编程能力都会有很大的提高能设计出更多的更有创新的作品。
数据的心得体会篇4
通过本次课程设计,对图的概念有了一个新的认识,在学习离散数学的时候,总觉得图是很抽象的东西,但是在学习了《数据结构与算法》这门课程之后,我慢慢地体会到了其中的奥妙,图能够在计算机中存在,首先要捕捉他有哪些具体化、数字化的信息,比如说权值、顶点个数等,这也就说明了想要把生活中的信息转化到计算机中必须用数字来完整的构成一个信息库,而图的`存在,又涉及到了顶点之间的联系。
图分为有向图和无向图,而无向图又是有向图在权值双向相等下的一种特例,如何能在计算机中表示一个双向权值不同的图,这就是一件很巧妙的事情,经过了思考和老师同学的帮助,我用edges[i][j]=up 和edges[j][i]=up 就能实现了一个双向图信息的存储。
对整个程序而言,dijkstra 算法始终都是核心内容,其实这个算法在实际思考中并不难,也许我们谁都知道找一个路径最短的方法,及从顶点一步一步找最近的路线并与其直接距离相比较,但是,在计算机中实现这么一个很简单的想法就需要涉及到很多专业知识,为了完成设计,在前期工作中,基本都是以学习c 语言为主,所以浪费了很多时间,比如说在程序中,删除顶点和增加顶点的模块中都有和建图模块相互重复的函数,但是由于技术的原因,只能做一些很累赘的函数,可见在调用知识点,我没有掌握好。不过,有了这次课程设计的经验和教训,我能够很清楚的对自己定一个合适的水平,而且在这次课程设计中我学会了运用两个新的函数sprintf()和包涵在#include 头文件中的输入函数。因为课程设计的题目是求最短路径,本来是想通过算法的实现把这个程序与交通情况相连,但是因为来不及查找各地的信息,所以,这个计划就没有实现,我相信在以后有更长时间的情况下,我会做出来的。
数据的心得体会篇5
这本书里主要介绍的是大数据在现代商业运作上的应用,以及它对现代商业运作的影响。
?大数据时代》这本书的结构框架遵从了学术性书籍的普遍方式。也既,从现象入手,继而通过对现象的解剖提出对这一现象的解释。然后在通过解释在对未来进行预测,并对未来可能出现的问题提出自己看法与对策。
下面来重点介绍《大数据时代》这本书的主要内容。
?大数据时代》开篇就讲了google通过人们在搜索引擎上搜索关键字留下的数据提前成功的预测了20__年美国的h1n1的爆发地与传播方向以及可能的潜在患者的事情。google的预测比政府提前将近一个月,相比之下政府只能够在流感爆发一两个周之后才可以弄到相关的数据。同时google的预测与政府数据的相关性高达97%,这也就意味着google预测数据的置信区间为3%,这个数字远远小于传统统计学上的常规置信区间5%!而这个数字就是大数据时代预测结果的相对准确性与事件的可预测性的最好证明!通过这一事以及其他的案例,维克托提出了在大数据时代“样本=总体”的思想。我们都知道当样本无限趋近于总体的时候,通过计算得到的描述性数据将无限的趋近于事件本身的性质。而之前采取的“样本t;总体”的做法很大程度上无法做到更进一步的描述事物,因为之前的时代数据的获取与存储处理本身有很大的难度只导致人们采取抽样的方式来测量事物。而互联网终端与计算机的出现使数据的获取、存储与处理难度大大降低,因而相对准确性更高的“样本=总体”的测算方式将成为大数据时代的主流,同时大数据时代本身也是建立在大批量数据的存储与处理的基础之上的。
接下来,维克多又通过了ibm追求高精确性的电脑翻译计划的失败与google只是将所有出现过的相应的文字语句扫描并储存在词库中,所以无论需要翻译什么,只要有联系google词库就会出现翻译,虽然有的时候的翻译很无厘头,但是大多数时候还是正确的,所以google的电脑翻译的计划的成功,表明大数据时代对准确性的追求并不是特别明显,但是相反大数据时代是建立在大数据的基础住上的,所以大数据时代追求的是全方位覆盖的数字测度而不管其准确性到底有多高,因为大量的数据会湮埋少数有问题的数据所带来的影响。同时大量的数据也会无限的逼近事物的原貌。
之后,维克托又预测了一个在大数据时代催生的重要职业——数据科学家,这是一群数学家、统计学与编程家的综合体,这一群人将能够从获取的数据中得到任何他们想要的结果。换言之,只要数据充足我们的一切外在的与内在的我们不想让他人知道的东西都见会在这一群家伙的面前展现得淋漓尽致。所以为了避免个人隐私在大数据时代被这一群人利用,维克托建议将这一群人分为两部分,一部分使用数据为商业部门服务,而另一群人则负责审查这一些人是否合法的获得与应用数据,是否侵犯了个人隐私。
无论如何,大数据时代将会到来,不管我们接受还是不接受!
我觉得《大数据时代》这本书写的很好,很值得一读。因为会给我们很多启发,比如你在相关的社交网站发表的言论或者照片都很有可能被“数据科学家”们利用,从而再将相关数据卖给各大网店。不过,事实就是我们将会成为被预测被引诱的对象。所以说,小心你在网上留下的痕迹。
我喜欢这本书是因为它给我展现了一个新的世界。
数据的心得体会篇6
做了一个星期的程序设计终于做完了,在这次程序设计课中,真是让我获益匪浅,我突然发现写程序还挺有意思的。
由于上学期的c语言跟这学期的数据结构都算不上真正的懂,对于书上的稍微难点的知识就是是而非的,所以我只是对老师的程序理解,我也试着去改变了一些变量,自己也尽量多的去理解老师做程序的思路。当我第一天坐在那里的时候,我就不知道该做些什么,后来我只有下来自己看了一遍书来熟悉下以前学过的知识。
通过这次的程序设计,发现一个程序设计就是算法与数据结构的结合体,自己也开始对程序产生了前所未有的兴趣,以前偷工减料的学习也不可能一下子写出一个程序出来,于是我就认真看老师写的程序,发现我们看懂了一个程序其实不难,难的是对于一个程序的思想的理解,我们要掌握一个算法,不仅仅限于读懂,主要的是要理解老师的思路,学习老师的解决问题的方法。
这次试验中,我发现书本上的知识是一个基础,但是我基础都没掌握,更别说写出一个整整的程序了。自己在写程序的时候,也发现自己的知识太少了,特别是基础知识很多都是模模糊糊的一个概念,没有落实到真正的程序,所以自己写的时候也感到万分痛苦,基本上涉及一个知识我就会去看看书,对于书本上的知识没掌握好。在饭后闲暇时间我也总结了一下,自己以前上课也认真的听了,但是还是写不出来,这主要归结于自己的练习太少了,而且也总是半懂就不管了。在改写老师的'程序中也出现了很多的问题,不断的修改就是不断的学习过程,当我们全身心的投入其中时,实际上是一件很有乐趣的事情。
对于以后的学习有了几点总结:
第一、熟记各种数据结构类型,定义、特点、基本运算(分开点一点也没多少东西,难度不大,但是基本);
第二、各种常用的排序算法,如冒泡排序、堆排序……,这些是必考的内容,分数不会少于20%;
第三,多做习题,看题型,针对题型来有选择复习;
数据结构看上去很复杂,但你静下心来把书扫上几遍,分解各个知识点,这一下来,学数据结构的思路就会很清晰了。
数据的心得体会篇7
课程设计是计算机科学与技术专业学生的集中实践性环节之一,是学习“数据结构与算法”理论和实验课程后进行的一次全面的综合练习。其目的是要达到理论与实际应用相结合,使学生能够根据问题要求和数据对象的特性,学会数据组织的方法,把现实世界中的实际问题在计算机内部表示出来并用软件解决问题,培养良好的程序设计技能。
在这次课程设计当中,我了解到了我的不足,如算法的不完善、不细心和耐心不是很好等等。不细心的我在调试程序时,老是因为某个书写错误导致错误;对这些错误,我不得不花大量的时间去更正,并且还要重复检查是否出现雷同的错误而导致程序不能运行。但是通过这次课程设计,我的这些缺点有些改善。我在写新的程序时,首先要考虑的深入一点、仔细一点,这样要修改程序的时间就会少很多。并且也不会因为自己不细心而导致的浪费时间的情况出现。
在进行程序设计时,要注意想好思路。即要有恰当模块名、变量名、常量名、子程序名等。将每个功能的模块,即函数名要清晰的表述出来,使用户能够一目了然此程序的功能。当然适当的给写注释,也是方便用户的理解。还有在编写程序时要注意对程序的适当分配,便于用户看懂程序,也便于自己检查城市。但是完成任何一个较大的程序,都需要掌握一定的编程基础,需要不断的探索和求知过程,这样对自己编程能力的提高有较大的帮助。当然,任何程序必须经过计算机的调试,看是否调试成功,发现错误,一个个,一步步去解决,这样就能从错误中进步。
通过课程设计加强了我的动手能力,以及提升了局部和统一考虑问题的思维方式。回顾起此次课程设计,至今我仍感慨颇多,的确,从从拿到题目到完成整个编程,从理论到实践,在整整半个月的日子里,可以学到很多很多的的.东西,同时不仅可以巩固了以前所学过的知识,而且学到了很多在书本上所没有学到过的知识。通过这次课程设计使我懂得了理论与实际相结合是很重要的,只有理论知识是远远不够的,只有把所学的理论知识与实践相结合起来,从理论中得出结论,才能真正为社会服务,从而提高自己的实际动手能力和独立思考的能力。在设计的过程中遇到问题,可以说得是困难重重,这毕竟第一次做的,难免会遇到过各种各样的问题,同时在设计的过程中发现了自己的不足之处,对以前所学过的知识理解得不够深刻,掌握得不够牢固,比如说结构体通过这次课程设计之后,一定把以前所学过的知识重新温故。
通过这次的课程设计,我学到了怎么样从一个实际问题出发,建立模型,找到相应的存储结构和实现方法,实际运行,反复调试和修改,最终实现功能。在程序设计方法以及上机操作等基本技能和科学作风方面受到比较系统和严格的训练,学会数据组织的方法,把现实世界中的实际问题在计算机内部表示出来并用软件解决问题,培养了良好的程序设计技能。
在这次课程设计中,得到了好多同学的帮助以及老师的指导,在此要表达我真诚的谢意!
数据的心得体会篇8
产业勃兴,数据标注员成为新兴职业。目前国内至少有大小近千家标注公司,共20余万名数据标注员。
在上海徐家汇一家广告公司做文案的索琳,从未想过自己也能参与打磨人工智能的应用。她最近接到任务,教一位只存在于手机应用程序里的“老爷爷”与用户对话。比如,当用户问“世界上谁最美”,他就会回答“当然是你最美”。一问一答均由索琳事先写好,再由一家擅长语音识别的人工智能(ai)公司植入。索琳编写了近3000条问答,一心想把“老爷爷”培养得更风趣、睿智。不过,实际上她只是提供了最基础的数据。
一千多公里之外的贵州惠水县百鸟河数字小镇,一家提供数据服务的公司,22岁的吴潘威正对着电脑用鼠标“贴标签”:将一张普通道路交通图中的机动车、行人、非机动车逐一框中……和索琳教机器对话一样,吴潘威贴标签的目的是教人工智能看图识物,他们被叫作“数据标注员”。
当前,以互联网、大数据、人工智能为代表的新一代信息技术日新月异。人工智能在去年、今年两度被写入政府工作报告;而大数据,已经成为世界认识贵州的新名片。在脱贫攻坚主战场的贵州,大数据的经济增速已连续7年位居全国前列。
在百鸟河数字小镇,仅吴潘威所在的梦动科技有限公司就有400多名标注员。他们是踩着信息技术浪潮的流水线工人。
1
“教机器认识这个世界”
这是一张微笑的普通女性的脸,她的鼻子、嘴巴、眼睛、眉毛和脸部轮廓布满了点,一共有149个,它们被叫做“人脸关键点”。
在百鸟河数字小镇,吴潘威与同事们坐在电脑前,将图片放大,用鼠标移动这些小点,使它们落在合适的位置。吴潘威浏览了成千上万张人脸图片,在他的眼中,这些人脸没有肤色、性别、老少之分,只有清晰与模糊的区别,一张像是从监控摄像里截取的模糊图片会让他多花几倍时间。
人工智能本身不会识别物体,而要依靠海量训练。当人脸关键点被一一标注之后,计算机才能建立起对人脸的认知。而人脸关键点的数目并不固定,不同数目的背后连接的是不同的算法。“吴潘威们”只需按照人工智能工程师们设定的数目规范来标注。换言之,这些数据标注员并不需要了解算法之复杂,他们所做的,更像在工厂流水线重复作业。
百度无人驾驶汽车,是梦动科技接手的第一个项目。公司人工智能服务部总监曾芸说:“刚接到无人车项目时,我们所有人都是蒙的,觉得这个事情不大靠谱,毕竟无人驾驶在我们眼里是高精尖的科技。”
2016年5月,百度派技术人员来开讲座,开诚布公——“你们就是在训导机器,教机器认识这个世界。”那时,所有人都不知道有“数据标注员”这个职业,吴潘威和一起实习的小伙伴们互相称呼“画框的”。
可不就是“画框的”?几十个人坐在电脑前按动鼠标画框,机动车分成大型车、小型车,非机动车分成自行车、摩托车、三轮车,还有行人、交通信号灯,都要一一框起来。
“标注员都是‘滚雪球’带教带出来的,那时一个人一天要画几百个框,以至于后来走在路上看什么东西都想画个框把它框住。”曾芸回忆说。
“后来,看到无人驾驶汽车在美国的硅谷跑,在乌镇的世界互联网大会跑,说实话还是蛮振奋的。”吴潘威腼腆地笑着说,不管科技有多先进,至少无人车里出现的路况扫描图像他是熟悉的,“也许那就是我之前标注过的。”
那种感觉,就像一不小心踩到了时代潮流的浪尖上。
2
“指数级增长”
吴潘威是贵州盛华职业学院新近毕业的大学生,2016年初到梦动科技当实习生。在这里,一间办公室大约能容纳60名数据标注员,每张办公桌后面都藏着一张稚嫩的脸,几乎每个人都戴着耳机听音乐,同时不停地切换图片、移动鼠标,在屏幕上打点或者画框。
他们大多是像吴潘威一样年轻的大学生。除了盛华职业学院,还有来自黔南民族医学高等专科学校等4所学校的实习生。
但最早,这项工作并不是由实习生来做,而是那些年薪百万的人工智能工程师。
31岁的杜霖是倍赛(北京深度搜索科技有限公司)的首席执行官,公司在北京、山西、山东、河南、四川、贵州、福建等地建设数据标注工厂,有近3000人的数据标注员团队。“对ai 和数据的研究,我们很早就开始了。”毕业自上海交通大学的杜霖告知,他的创始团队均来自上海交大。
最早在2014年,杜霖注意到,随着人工智能在商业场景的应用逐渐落地,原来由工程师在实验室完成的数据标注呈“指数级增长”,工程师们应接不暇,专业的数据加工服务公司应运而生。
国务院发布的《新一代人工智能发展规划》显示,到2020年,我国人工智能核心产业规模超过1500亿元,带动相关产业规模超过1万亿元。杜霖判断,未来人工智能领域一定会出现巨大缺口——对于由人标注的数据的需求。“因为现在的人工智能还只是两三岁的孩子,需要我们不断地教它认识杯子、水果、玩具和汽车。”
作为人工智能产业的下游端,“吴潘威们”对行业勃兴的感知或许是最敏感的。
“从去年起,一个个项目接踵而至。”曾芸说,“目前梦动所承接的项目几乎囊括所有人工智能领域:图片、文本信息、语音、视频、在线审核等,其中图片是最大的一块。”
吴潘威已经记不清标注过多少项目,“五花八门,难以想象”。无人售货超市里,商品种类数以万计,光背包就有十几种;甚至有美甲店要求训练能识别指甲区域的机器人,那样就不会把指甲油涂到指甲外……
6月29日,在梦动科技,记者看到办公室的柜子上摆放着几十种可口可乐饮料。项目组长蒋纯洁介绍,标注员需要先记住所有产品的类别、口味、容积,同一款产品要仔细看包装颜色和图案细微的不同之处,“否则标注的时候再去看就太慢了”。
“最奇怪的是给猫脸和狗脸打点。”项目主管贾如松说。两个多月前,他们花了整整两个星期给一万多张猫和狗的图片打点,每张脸上要打34个点,“想来想去也没想明白这到底是用来干啥的”。
3
“大学生为什么要来做这个”
吴潘威是最早一批来梦动科技的实习生之一。做数据标注员两年多,当初和他一起实习的同学大多都离开了;而在他实习期间,数不清的实习生来来往往。他们抱怨工作枯燥乏味,没什么前途。
“大学生为什么要来做这个事情?”吴潘威也不止一次问过自己。
出生于1999年的陆森霖是贵州盛华职业学院计算机专业的大一学生,实习近3个月了。学校离公司只有1公里左右,这是学校在产教融合方面的部署。
陆森霖正在做的项目是语音识别,每天的基本任务是将约1800秒的语音输出成文字,将重叠在一起的几个音色分开,这会花费他五六个小时;最麻烦的是专业术语,不懂的名词要上网查;做完之后由质检员核对,如果有错误就会被打回来重新修改。
“我完全不知道意义在哪里。”陆森霖说,“你看我开着音乐,听几百秒就切过来放首歌放松,否则一直听会受不了。”
标注工作单调重复。“再难的项目3天之内就能随便耍了。”标注员梁红说,他是记者碰到的少有的对人工智能感兴趣才来实习的学生。
数据标注行业有一套明确流程:上游的人工智能公司将项目交给中游的数据加工公司或众包平台,后者自行加工或分包给下游的小公司、小作坊,有的小作坊还会分发给“散兵游勇”,比如学生或二三线城市的兼职人员。
而到了下游,项目经过层层转包,利润已经低得吓人。“这与我们一线标注员的付出是不对等的。”曾芸说,早期梦动科技只能从中游的众包平台获取项目,现在则尽量直接对接上游客户。
如今,上游的人工智能公司仍保留少量数据标注员。“我们的全职标注团队主要是处理隐私性高和有特殊要求的数据,比如处理医疗领域的数据就需要有一定专业背景。”云从科技研究院副院长周翔介绍,“其余的数据处理便交给下游几十家数据标注团队。”在被称作“国内首档人工智能挑战类节目”的央视热门节目《机智过人》中,曾与模拟画像专家林宇辉在同一舞台竞技的,就是云从科技所打造的人工智能“御眼重明”。
对一般的数据标注员而言,职业生涯是一眼望得见头的:从一线标注员做起,然后是质培专员(相当于质检)、项目组长、项目主管、项目经理,最后是部门总监。
“简而言之,就像上世纪80年代的来料加工,大工厂可以,家庭作坊也可以。”梦动科技联合创始人农政说,“甚至有人把数据标注员比作流水线上的工人,几个学生、几个零散人员都可以接单。”
农政并不否认目前数据标注确实是一个需要大量劳动力的行业,但他强调,应该看到行业发展的未来,“不能现在看到他们在画框,就判断未来十年他们还在画框。”
今年7月,吴潘威终于作为正式员工与公司签约,成为一名商务助理。实际上,他从未想过自己能留下来。当初一起实习的有近百人,和他一样最终成为正式职工的仅有11人。他们不再做标注员,而是走上项目组长等管理岗位。
“也许这是我们接触最前沿科技唯一的机会。”吴潘威说,他的大多数同学毕业后都去从事销售、中介等工作,而在梦动,他能与最先进的科技公司对接,感受信息技术带来的震撼。
4
“不如我们发明标注机器人来解放自己”
每天早上9时,吴潘威准时到公司。一旦进入工作角色,每个人都是紧张而严肃的,相互之间很少交流,若遇到紧急项目,他们还需要加班加点完成。
短短两年间,从小小的鼠标一端,吴潘威便感受到了另一端世界前沿科技进步的速度,“以前无人驾驶汽车框出基本轮廓就可以了,现在不只是从2d平面进化到3d立体,还要标注车头的方向。”
在梦动科技,“大数据,让一切变得更智慧”等标语随处可见。医疗、金融等人工智能近年来踏进的领域,都在日新月异地改变,而起点就在小镇年轻人的手指尖。百鸟河数字小镇聚集了大数据、教育文化、健康养老、文化旅游等众多公司,是当地着力发展大数据产业所建的新型园区。一幢幢彩色尖顶的欧式小楼,令小镇充满异域风情。
实际上,数据标注本身也是一个要用人工智能来改造的行业,标注工具也正在迭代升级。比如,人脸识别最早均由人工标注关键点,但眼下吴潘威接到的项目里,机器已经打好点,标注员要做的只是最后的校正。
在杜霖看来,其实不必把数据标注看得过于神秘,“说到底人工智能数据标注只是商业外包行业一个非常细的分类,几十年前这种数据外包业务就已存在,比如替银行处理电子表格的公司,但因为人工智能,数据标注才变成了一个独立的行业”。
在数据标注领域,更大的潜在威胁可能并非同行竞争,而是来自机器——当算法足够先进时,少量的数据就能达到效果,到那时,还需要这么多的数据标注员吗?
“也许有一天人工智能会全面取代人类,但数据标注员一定是最后被取代的那批人。”杜霖对此保持乐观态度,“最高明的算法也需要基础的数据学习,而数据标注员,一定是坚持到最后一班岗才把数据交付给机器模型的。”
梦动科技人工智能服务部助理总监龚芳芳也说:“想象把人工智能当作婴儿,而我们可以把他训练成天才。”
人们似乎乐意见到“机器天才”与人类的竞争。根据百度搜索指数,公众对人工智能的关注从2016年起呈显著上升趋势,当年3月的围棋人机大战——alphago击败围棋世界冠军李世石,第一次将人工智能带入大众视野。
5
人工智能是否会替代人类?
对吴潘威来说,这并不是个沉重的话题。“标注员之间还常常开玩笑,不如我们自己发明一个标注机器人来解放我们自己。”他笑着说,“毕竟,人都是懒惰的。”
而在通往未来无限可能性的路上,数据标注员们最大的挑战依旧是克服乏味与寂寞。
一名年轻的标注员说,以前他与一位小伙伴会在一起比,谁今天画的框多,“他框了300个我框了400个,第二天他就不跟我说话,一直框。但是现在,他走了,我才觉得这个工作真是无趣”。