奥尼尔认为,其他形式的输入,例如来自管理员、学生和同伴的老师的精彩评论,应该被纳入与算法相关的数据运算中,也许可以防止这种事件的发生。这是对每一位大数据从业者的给了一个提醒,即分析算法只与其运行的数据一样好。

现在,企业开端意识到剖析算法只与其所针对的数据相同好。以下是一些改善数据质量的方法来取得***的洞察力。

在凯西奥尼尔的作品《数学消灭的兵器》中,解说了假如大数据算法的运转质量不高,那么大数据算法会发生不正确的成果。

奥尼尔以一个学区为列,这个学区运转了一种算法来辨认其200名体现最差的教师,。其间一位被选出的教师实际上是体现最出色的,但是她的班级中有许多学生都是来自体现欠安的校园。成果,教师所教的学生在测验中体现欠安,因而对这位教师点评不高。

奥尼尔以为,其他方式的输入,例如来自管理员、学生和伙伴的教师的精彩谈论,应该被归入与算法相关的数据运算中,或许可以防止这种事情的发生。这是对每一位大数据从业者的给了一个提示,即剖析算法只与其运转的数据相同好。

 保证数据的质量将优化算法的功能的6个技巧(提高数据质量的方法) 数据 优化算法 技巧 第1张

企业怎么保证数据的质量将优化算法的功能,并终究保证从中取得见地?

关键在于数据预备和匹配企业想要使用算法的事务用例。

以下是开发质量数据和算法的六个***实践:

1.“实在”的算法

企业有必要仔细构建算法合适自己的商业事例。假如是医疗保健供给者,而且想要确认服务区域中存在心脏问题高风险人群,则或许需求构建一个算法,问询“65岁以上的人是否已经有心脏手术?”而不仅仅是“谁超过了65岁?

2.使数据完成规范化

为防止获取重复数据并或许会影响剖析成果,重复的记载应该规范化为单一数据事情。

3.修正损坏的数据

在某些情况下,人们需求参加人工纠正损坏的数据,然后才干经过算法查看数据。破碎的数据或许包括拼写错误(例如,缅因州居民的MN替代ME),或许或许是或人的姓氏拼写错误,然后发生不该包括在数据会集的额定记载。数据精确性越好,剖析成果就越精确。

4.消除无关的数据

企业可以越多地将数据规模缩小到其正在查看的特定用例的鸿沟,其算法可以更快地处理数据,算法将供给企业所寻求的见地的或许性越大。

5.取得用户的一致意见

不要在没有首要与用户核对的情况下就将企业要扫除的数据做出单方面决议,由于他们或许知道企业不知道的内容。

6.查看成果

大数据算法和查询的趋势是根据需求修正并从头运转它们,但不一定要记载成果。相反,应该一直设置成果基准并对其进行丈量。例如,假如企业的***个数据算法只会使产品的潜在购买者取得3%的呼应率(终究购买1%的产品),那么需求知道是否修正后的查询是否优于这个。

转载请说明出处
知优网 » 保证数据的质量将优化算法的功能的6个技巧(提高数据质量的方法)

发表评论

您需要后才能发表评论