找回密码
 立即注册
  • QQ空间
  • 回复
  • 收藏

通过浏览维基百科,算法已能自动生成教科书

admin 2019-2-11 10:59 203人围观 C++相关

作者:DeepTech深科技





《机器学习—完整指南》是一本大部头。该书共6000多页,全面介绍了机器学习,且涵盖了时下最先进的内容,比如人工神经网络、遗传算法和机器视觉。

但这本书可不是普通的出版物。这是一本维基教科书,一本任何人都可以阅读或编辑的教科书,其中的文章皆来自庞大的在线百科全书——维基百科。

这是该书的一大优势。众包的海量信息能够随时更新最近进展,错误和歧义之处也能够不断修改。但同样这也是其弱点所在。由于维基百科资源数目庞大,决定在这样一本教科书中加入什么内容是一项艰巨的任务,正因如此,该书内容庞杂,共有超过550个章节,读起来比较吃力。

由此引发了一个有趣的问题:随着近年来人工智能的进步,有没有一种方法可以自动编辑维基百科的内容,随之生成一本内容连贯的教科书呢?

来自以色列内盖夫本古里安大学( Ben-Gurion University )的沙哈尔阿德马蒂( Shahar Admati )及其同事就挑战了这个任务:他们已经开发出了一种使用机器学习自动生成维基教科书的机器,将其称之为 Wikibook-bot。他们表示:“这项技术的创新之处在于,它的目标是在没有人工参与的情况下,自动生成整本维基教科书。”



(来源:维基百科)

其操作方法相对较为直白易懂。首先,研究人员确定了一组现有的维基教科书,用作训练数据集。在起始阶段,他们选用了维基百科提供的此类学术研究数据集,其中包含 6700 本维基教科书。

由于教科书本身无论是对训练还是测试而言都具有重要意义,因此研究团队必须想方设法来确保质量。他们说:“首先我们假设受欢迎的维基教科书质量更高,因此我们选择重点关注浏览量超过 1000 次的教科书。”

在剩余的 490 本书中,他们又根据诸如涵盖超过十个章节等因素,进行了进一步筛选。最终精选了 407 本教科书用来训练他们的学习机器。

接着,团队将创作维基教科书的任务划分为几个部分,每个部分都需要机器学习的不同技能。任务从人为生成的标题开始,该标题用以描述某种概念,例如机器学习-完整指南。

第一项任务是对所有维基百科文章进行分类,以确定哪些相关内容能够包含在内。阿德马蒂(Admati)和他的同事表示,“由于维基百科中的文章数量庞杂,机器需要在数百万篇文章中选择相关度最高的文章,因此这项任务十分具有挑战性。”

为了帮助完成这项任务,该团队使用了维基百科的网络结构,即文章通常通过超链接指向其他文章,因此我们有理由假设,链接的文章可能具有相关性。所以,他们从一小部分涉及标题中种子概念的文章开始,在网络上搜集出通过点击超链接三次以内得到的所有文章。

但是有多少篇链接的文章应该包括进去呢?为了找到答案,他们从人工编写的407本维基教科书的标题开始,并进行了“三跳”分析,接着计算出自动方法生成的文章能够涵盖多少人工书籍的内容。事实证明,自动化方法通常能够涵盖大部分维基教科书的原始内容,但除此之外还有大量其他信息。因此,团队需要一些其他方式来进一步梳理内容。

网络科学再一次发挥重要作用。每本人工维基教科书都有自己的网络结构,其决定因素包括,引用该文的文章链接数量、指向其他文章的链接数量、所包含文章的页面排名列表等。

因此,团队编写了一个算法,该算法会查看每一篇给定主题筛选出来的文章,接着判断如果将其添加到维基教科书中是否会使该书的网络结构与人工创作的书籍更相似。如果不相似,那么该文章就会排除在外。

下一步是将文章组织成章节。这本质上是一个集群任务;需要查看由整组文章组成的网络,并找出如何将其划分为连贯的集群。许多聚类算法均可用于完成此类任务。

最后一步是确定文章在每个章节中的出现顺序。为此,该团队给文章成对分组,并使用网络模型来确定哪个应该首先出现。通过对所有文章组合不断排序,该算法能够计算出更为理想的文章顺序以及章节顺序。

通过这种方式,该团队能够生成已由人工编写的维基教科书的自动版。这些自动化书籍与人工书籍相比好在哪里仍然难以判断。可以肯定的是,它们包含许多相同的内容,而且通常顺序相似,这无疑是一个良好的开端。

但阿德马蒂(Adamti)及其同事计划证明他们的方法行之有效。他们计划制作一系列维基教科书,且内容涉及人工教科书尚未涵盖的课题。然后,他们将监控页面浏览量和对这些书籍的编辑量,以查看与人工书籍相比,它们有多受欢迎,编辑程度有多高。他们说:“这将是对我们这种方法的一项真实考验。”

这项有趣的工作有可能创作出涵盖广泛且颇具价值的教科书,甚至包括其他类型的文本,如会议论文集等。尽管它们对读者的价值还有待商榷,但我们仍可拭目以待。

-End-

责编:黄珊

参考:

https://www.technologyreview.com/s/612726/this-algorithm-browses-wikipedia-to-auto-generate-textbooks/






-------------------------------------------------------------------------
我们尊重原创,也注重分享,如若侵权请联系qter@qter.org。
-------------------------------------------------------------------------

鲜花

握手

雷人

路过

鸡蛋

yafeilinux和他的朋友们微信公众号二维码

微信公众号

专注于Qt嵌入式Linux开发等。扫一扫立即关注。

Qt开源社区官方QQ群二维码

QQ交流群

欢迎加入QQ群大家庭,一起讨论学习!

我有话说......


关于进行手机实名认证的紧急通知!
按照有关部门要求,论坛类网站必须完成手机实名认证才可以进行发帖等操作。希望大家积极配合,为创建一个和谐文明的社区而贡献自己的力量。我们会对会员的隐私进行严格保密,对大家造成的不便深表歉意! 我知道了