等离子体科学分享 http://blog.sciencenet.cn/u/等离子体科学 俱怀逸兴壮思飞,欲上青天揽明月

博文

大数据与电影票房的预测 博客记事 2019年7月9日

已有 4283 次阅读 2019-7-10 09:13 |个人分类:学海无涯|系统分类:教学心得

大数据与电影票房的预测  博客记事 2019年7月9日  北京 阴、雨


上次说到:AI“诗人”(或者叫“作诗机器”)作诗已经几近乱真。清华“九歌”作诗系统曾经和北大、清华、复旦才子才女反复比试,均无敌手。只是比起李杜这种高手,还差在“灵性”和“意境”上,比起王维、岑参、王昌龄这些人,也差得挺远。


为什么?无他:高手太少,佳作更是有限,如果限于高手的几首佳作来机器学习,数据量不够。构不成大数据,就玩不转机器学习。所以大数据最重要的标志是临界性——需要达到能产生认识飞跃的临界数据量!


在展示一下另一组的pre: 关于《电影票房预测研究》


早期的预测,基于这样的回归方程式:


Y(票房收入)=-28.482×106+7.232×106(顶级导演)+14.846×106(明星)+11.818×106(科幻)+13.858×106(续集)+24.932×106(奥斯卡提名)-4.966×106(剧情)+6.972×106(影评)+3.814×106(大发行公司)


问题在哪里?一是变量不够,二是变量的定量标准。什么是顶级导演?难以定量。文无第一嘛!即使是公认的顶级,甲导演和乙导演的“输入值”能一样吗?要定量的话,还要一大堆参数,更多的数据。


这种经济、社会科学问题,难就难在复杂性——变量和影响变量的因素太多,所以做AI分析,需要的数据就特别多:不仅量大、而且种类多。大数据时代的到来,为解决这类难题提供了solution!


这是大数据研究最重大的科学意义和实际价值。




https://wap.sciencenet.cn/blog-39346-1188850.html

上一篇:AI“诗人们” 博客记事 2019年7月8日 北京 云、雨
下一篇:贺万东兄科学网开博 7月10日
收藏 IP: 124.205.76.*| 热度|

2 刘勇 段含明

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-8 10:54

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部