Use este identificador para citar ou linkar para este item:
http://hdl.handle.net/123456789/6379
Registro completo de metadados
Campo DC | Valor | Idioma |
---|---|---|
dc.contributor.author | PAIVA, Thiago Gustavo Vieira de | - |
dc.date.accessioned | 2023-05-24T18:08:53Z | - |
dc.date.available | 2023-05-24T18:08:53Z | - |
dc.date.issued | 2021 | - |
dc.identifier.uri | http://hdl.handle.net/123456789/6379 | - |
dc.description | Abstract In this work we present a novel approach for query expansion. This approach incorporates word embedding features and expressions to build a query expansion model, in order to retrieve relevant documents considering the similarity of terms to the original query. By using Word2Vec’s CBOW embedding approach, we select terms that are semantically related to the expressions and keywords from the document URLs, title and document content. The scores obtained by Word2Vec are used to select the best candidate terms for the expanded queries. We also re-rank documents based on where the relevant context was found in each document. The proposed method is evaluated using a dataset containing news articles, The New York Times Annotated Corpus which demonstrates the features used for the query expansion to increase the precision of retrieved documents in comparison to the retrieved documents from the original query. | pt_BR |
dc.description.abstract | Resumo Neste trabalho, uma nova abordagem para expansão de queries é apresentada usando word embeddings. Esta abordagem incorpora recursos presentes em expressões para construir um modelo de expansão de queries, a fim de recuperar documentos relevantes considerando a similaridade entre os termos e a query original. Através do modelo CBOW do Word2Vec, os termos selecionados são semanticamente relacionados às expressões, além de keywords extraídas de URLs, títulos e dentro do próprio conteúdo de texto dos documentos. Os scores obtidos pelo Word2Vec para esses termos são usados para selecionar os melhores termos candidatos para compor as queries expandidas. Também realizamos o re-ranqueamento dos documentos baseado no local de contexto onde os termos foram encontrados em cada documento. O método proposto é avaliado num dataset de artigos de notícias, The New York Times Annotated Corpus e demonstra que os recursos propostos usados para expansão podem efetivamente aumentar a precisão dos documentos recuperados em comparação com os documentos recuperados pela query original. | pt_BR |
dc.language.iso | other | pt_BR |
dc.publisher | Universidade Federal do Maranhão | pt_BR |
dc.subject | recuperação de Informação; | pt_BR |
dc.subject | word embeddings; | pt_BR |
dc.subject | expansão de queries. | pt_BR |
dc.subject | information retrieval; | pt_BR |
dc.subject | word embeddings; | pt_BR |
dc.subject | query expansion. | pt_BR |
dc.title | Expansão de queries com word embeddings | pt_BR |
dc.title.alternative | Expanding queries with word embeddings | pt_BR |
dc.type | Other | pt_BR |
Aparece nas coleções: | TCCs de Graduação em Ciência da Computação do Campus do Bacanga |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
ThiagoGustavoVieiradePaiva.pdf | Trabalho de Conclusão de Curso | 1,19 MB | Adobe PDF | Visualizar/Abrir |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.