NLP | 搜索引擎 python

news/2025/2/25 8:04:28

完整代码:https://github.com/9ayhub/nlp-search-engine


题目

在这里插入图片描述


拼写检查

参考 http://norvig.com/spell-correct.html 和 https://github.com/beyondacm/Autochecker4Chinese

倒排索引

参考 https://blog.csdn.net/xn4545945/article/details/8791484

文档排序

使用TF/IDF,参考课件

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

结果

  1. 运行程序,开始初始化(建立倒排索引,计算单个词的tf-idf),用时大概4~6秒
    在这里插入图片描述

  2. 搜索【搜索】,耗时0.000000秒
    在这里插入图片描述

  3. 输入错别字,将自动纠正,搜索【本科专业】,耗时0.000998秒
    在这里插入图片描述

  4. 输入多个错别字,将自动纠正,搜索【杭州八大古都 人间天堂】,耗时0.000000秒
    在这里插入图片描述

  5. 输入带多个错别字的长句子,将自动纠正,本次搜索耗时0.000997秒
    在这里插入图片描述


http://www.niftyadmin.cn/n/697848.html

相关文章

大型网站运维探讨和心得

一、什么是大型网站运维?首先明确一下,全文所讲的”运维“是指:大型网站运维,与其它运维的区别还是蛮大的;然后我们再对大型网站与小型网站进行范围定义,此定义主要从运维复杂 性角度考虑,如网站规范、知名…

在SQL中插入临时表时使用自动增长的数据字段

select identity(int,1,1) id ,* into #tmp from tablename

深入浅出Java多线程(2)-Swing中的EDT(事件分发线程)

看到了吧,我们写的那个getFileLock 是由AWT-EventQueue-0 线程执行,看右下角调用关系, EventDispathThread 启动 Run方法, 然后pumpEvents 取事件,然后从EventQueue取到InvocationEvent 执行Dispath Dispath调用的就是…

NHibernate 2.1.1.GA发布

NHibernate 2.1.1.GA发布 Fabio Maulo 大牛通过几个月的fix,修复了大量的BUG,今天编译并发布了NHibernate 2.1.1.GA版本,这次Fabio Maulo 好像很低调,没有在官方宣布,不过在twitter上记录了整个过程,这暗示…

NLP | 自动问答练习(DEEPQA调参)

最好结果 所做工作 主要对chatbot.py的network options和training options部分的参数进行了修改。 每个参数都调过,最后numLayers从2调为10,learningRate为0.0001,其他的都还是原来的值。 感觉对结果影响较大的是learningRate和dropout&…

【AS3笔记】屏蔽影片剪辑鼠标事件

在制作Flash的过程上,经常会遇到要使用自定义鼠标的情况。实现这种效果的方法有好多,最简单的一种就是先将系统鼠标隐藏,然后用一个影片剪辑做一个鼠标跟随效果就可以了。 不过这样就会出现一个问题,就是鼠标点击事件不能正常触发…

解决firefox疯狂读硬盘的问题

今天发现firefox打开、使用、关闭都很慢,我用的版本是3.5.5。从任务管理器中看到firefox打开后不久,它的I/O读取字节就攀升到了几十GBytes。网上有人说是places.sqlite太大的原因,查了一下,我的C:\Documents and Settings\liq\App…

bootstrap |学习笔记

创建项目 index.js <!DOCTYPE html> <html lang"zh-CN"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0,user-scalableno"><meta http-equiv&quo…