一篇新文章的标题是“通过半字符递归神经网络进行的罗布索罗德(Robsut Wrod)Reocginiton”,这不是印刷错误。了解有关Cmabrigde Uinervtisy效果的信息,以及如何使神经网络成为比您今天能找到的更好的拼写检查器。
众所周知,语言,尤其是英语,在书面形式上是非常多余的。如果您曾经玩过游戏,必须去掉那些常量,然后猜测一些众所周知的短语,那么您会知道,乍一看似乎是随机字母串,乍一看就可以理解。
另一方面,机器语言的理解和处理似乎并没有像我们一样“获得”它。如果您最近使用了拼写包,那么您可能会因无法使用拼写包而感到沮丧似乎为您提供了对拼写错误的明显纠正。当然,这对您来说只是显而易见的,因为您正在应用自己的一些非常特殊的语言处理软件。
真正令人惊讶的是,您运行的特定语言处理软件能够读取因字母换位而严重变形的文本。考虑称为Cmabrigde Uinervtisy效果的经典示例:
“对Cmabrigde Uinervtisy的一名总督来说,它并没有在一大堆杂物中消失,所有的异性恋都是第一个人,而lsat ltteer则是在杂草丛生的地方。该rset可以是toatl mses,您可以将其设置为wathit porbelm。Tihs是bucuseae的huamn mnid deos,不是istlef的ervey lteter,而是作为wlohe的wrod”
如果您是说英语的母语者/阅读者,那么您很容易被这种混乱的阅读方式震惊。字母顺序?谁需要它!
约翰·霍普金斯大学的一个研究团队决定找出多少个字序确实很重要。先前的工作表明,阅读困难随着单词中间,结尾和开头的字母混杂而增加。换句话说,最重要的是单词中的第一个字母。
纠正单词混乱,换句话说就是拼写错误,听起来像是可以教给神经网络的东西,但是我们听到的关于取得如此巨大成功的大多数神经网络都是前馈网络。前馈网络没有任何考虑顺序的方法;为此,您需要一个递归神经网络,其中某些输出作为输入被反馈。众所周知,递归神经网络功能强大,但训练起来却更加困难。在这种情况下,输入的内容是第一个和最后一个字符,然后是一包没有第一个或最后一个字符且没有顺序信息的字符。
经过训练后,神经网络与现有的拼写检查器陷入了我们一直在考虑的单词混杂问题。您也许可以猜测它的性能要好得多。
但是,如果您只是对创建拼写检查器的方法感兴趣,那么这可能不是一个完全公平的测试。拼写检查的传统方法是计算拼写错误的单词和字典条目之间的某种距离度量。检查器为用户提供最接近的选择。如果距离度量的设计考虑到第一个和最后一个字符是正确的,并且仅匹配内部字母,那么结果可能会大不相同。
研究人员建议,相同的方法可能对规范特有的文本(例如文本语音-Cooooolll to Cool)有用。也许可以改善几代人之间的沟通。
当然,它为我们如何阅读提供了思考的条件。有没有人做过任何事情来看看阅读障碍症有何不同?Google如何处理这么多拼写错误的文章?
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。