Anabela Barreiro

Human Language Technology Lab


Human Language Technology * Language Learning * Machine Translation * Multilingualism * Cross-Language NLP * Language Varieties * Paraphrasing * Corporate Language * Linguistic Resources * Ontologies * Linguistic Humor


Scopus Publications

Scopus Publications

  • Multi3Generation: Multitask, Multilingual, and Multimodal Language Generation
    Elena Lloret, Anabela Barreiro, Mehul Bhatt, Alberto Bugarín-Diz, Gianfranco E. Modoni, Max Silberztein, Iacer Calixto, Grazina Korvel, Konstantinos Diamantaras, Alkiviadis Katsalis,et al.

    F1000 Research Ltd
    The purpose of this article is to highlight the critical importance of language generation today. In particular, language generation is explored from the following three aspects: multi-modality, multilinguality, which play crucial role for NLG community. We present the activities conducted within the Multi3Generation COST Action (CA18231), as well as current trends and future perspectives for multitask, multilingual and multimodal language generation.

  • Linguistic resources for paraphrase generation in portuguese: a lexicon-grammar approach
    Anabela Barreiro, Cristina Mota, Jorge Baptista, Lucília Chacoto, and Paula Carvalho

    Springer Science and Business Media LLC
    This paper presents a new linguistic resource for the generation of paraphrases in Portuguese, based on the lexicon-grammar framework. The resource components include (i) a lexicon-grammar based dictionary of 2.100 predicate nouns co-occurring with the support verb ser de (‘be of’), such as in ser de uma ajuda inestimável (‘be of invaluable help’); (ii) a lexicon-grammar based dictionary of 6.000 predicate nouns co-occurring with the support verb fazer (‘do’ or ‘make’), such as in fazer uma comparação (‘make a comparison’); and (iii) a lexicon-grammar based dictionary of 5.000 human intransitive adjectives, co-occurring with the copula verbs ser and/or estar (‘be’), such as in ser simpático (‘be kind’) or estar entusiasmado (‘be enthusiastic’). A set of local grammars explore the properties described in these linguistic resources, enabling a variety of text transformation tasks for paraphrasing applications. The paper highlights the complementary and synergistic components and inA. Barreiro INESC-ID Lisboa E-mail: C. Mota INESC-ID Lisboa E-mail: J. Baptista Universidade do Algarve INESC-ID Lisboa E-mail: L. Chacoto Universidade do Algarve IELT E-mail: P. Carvalho INESC-ID Lisboa E-mail: 2 Anabela Barreiro et al. tegration efforts, and presents some preliminary evaluation results on the inclusion of such resources in the eSPERTo paraphrase generation system.

  • Multi3Generation: Multitask, Multilingual, Multimodal Language Generation

  • Introducing an implicit crowdsourcing opportunity to teachers

  • Paraphrasing Emotions in Portuguese
    Cristina Mota, Diana Santos, and Anabela Barreiro

    Springer International Publishing

  • Creating expert knowledge by relying on language learners: A generic approach for mass-producing language resources by combining implicit crowdsourcing and language learning

  • One book, two language varieties
    Anabela Barreiro, Ida Rebelo-Arnold, Fernando Batista, Isabel Garcez, and Tanara Zingano Kuhn

    Springer International Publishing
    This paper presents a comparative study of alignment pairs, either contrasting expressions or stylistic variants of the same expression in the European (EP) and the Brazilian (BP) varieties of Portuguese. The alignments were collected semi-automatically using the CLUE-Aligner tool, which allows to record all pairs of paraphrastic units resulting from the alignment task in a database. The corpus used was a children’s literature book Os Livros Que Devoraram o Meu Pai (The Books that Devoured My Father) by the Portuguese author Afonso Cruz and the Brazilian adaptation of this book. The main goal of the work presented here is to gather equivalent phrasal expressions and different syntactic constructions, which convey the same meaning in EP and BP, and contribute to the optimisation of editorial processes compulsory in the adaptation of texts, but which are suitable for any type of editorial process. This study provides a scientific basis for future work in the area of editing, proofreading and converting text to and from any variety of Portuguese from a computational point of view, namely to be used in a paraphrasing system with a variety adaptation functionality, even in the case of a literary text. We contemplate “challenging” cases, from a literary point of view, looking for alternatives that do not tamper with the imagery richness of the original version .

  • Causal Discourse Connectors in the Teaching of Spanish as a Foreign Language (SLF) for Portuguese Learners Using NooJ
    Andrea Rodrigo, Silvia Reyes, Cristina Mota, and Anabela Barreiro

    Springer International Publishing
    Our paper focuses on the teaching of causal discourse connectors to learners of Spanish as a foreign language (SFL) whose mother tongue is Portuguese. It relies on the project about the pedagogical application of NooJ carried out by the IES_UNR research group since 2015, which mainly follows [11] and [12], and which makes use of [13]. The contrastive analysis in Portuguese is based on [14]. To develop discourse strategies for text comprehension and production, we implemented tags related to discursiveness and causality. Discourse connectors or markers may be understood as “constituents that exceed the limit of units such as the word, the phrase or the sentence” [7]. As cause and consequence concur, they involve the use of causal discourse connectors such as porque, ya que, gracias a, in Spanish, and porque, ja que, gracas a, in Portuguese (because, since, thanks to). We created dictionaries and grammars including two new features: Connector [C] (to name discourse connectors), and causal [+caus] (to identify causal discourse connectors). These features can be more effective for learners of Spanish, especially the one related to causality, since they refer to more general semantic knowledge.

  • In Other Words (POP)
    Anabela Marques Barreiro, Jorge Baptista, Renata Vieira, and Paulo Quaresma

    University of Minho
    Este volume contém os trabalhos apresentados no POP -- Por Outras Palavras, o 1º seminário sobre Ferramentas e Recursos Linguísticos para Parafraseamento em Português, realizado a 24 de Setembro de 2018 em Canela (RS), Brasil. O seminário teve como objetivo reunir investigadores linguistas e que trabalham na área do Processamento de Linguagem Natural interessados em discutir novas ideias sobre o desenvolvimento e uso de recursos linguísticos orientados para pararafraseamento em português com aplicações do mundo real.
 As paráfrases são extremamente importantes na comunicação humana, tanto na produção como na compreensão da linguagem, e assumem um papel cada vez mais importante em atividades e projetos de investigação. Diversas experiências linguísticas mostraram a viabilidade de usar recursos parafrásticos numa ampla variedade de aplicações de software, pois permitem reconhecer e gerar formas equivalentes de expressar o mesmo conteúdo, permitindo que os sistemas forneçam ao utilizador sugestões para dizer e escrever a mesma coisa / ideia por outras palavras, aumentar a fluência, a criatividade e a diversidade estilística. No atual estágio de desenvolvimento, os sistemas de parafraseamento exigem conhecimento linguístico e ``inteligência'' sensível ao contexto para ``compreender'' e reconhecer uma ampla variedade de expressões. Para o português, a utilidade dos recursos parafrásticos já foi explorada em cenários aplicativos, como um sistema de diálogo, para aumentar o conhecimento linguístico de um agente virtual inteligente, em ferramentas de sumarização e simplificação e também em ferramentas que visam obter tradução automática de qualidade superior. No entanto, é necessária mais investigação para a viabilidade e sucesso de um sistema de parafraseamento a longo prazo nas áreas de produção e revisão de texto, nomeadamente no desenvolvimento e melhoria de plataformas de autoria online, desenvolvendo programas interativos para ajudar os estudantes de português como língua estrangeira a produzir frases diferentes mas equivalentes ou até para estudantes nativos, para os auxiliar nas tarefas de produção e revisão dos seus textos.
 Ao propor o seminário POP, queríamos (i) reunir investigadores com interesse no campo das paráfrases, e com especial enfoque no português, para aprender e partilhar informação sobre o tema; (ii) reunir um conjunto de artigos de boa qualidade que discutam as últimas tendências na área e contribuam para melhorar o estado da arte das paráfrases em português; (iii) trocar ideias e disseminar as melhores práticas para ajudar a fomentar a investigação nesta área; (iv) fomentar uma convergência de esforços de investigação para uma definição consensual dos métodos científicos, e incentivar a cooperação internacional, a fim de alcançar estratégias comuns que respondam às necessidades tecnológicas atuais; (v) discutir novas metodologias, como redes neuronais, etc., e aprender a combinar essas metodologias com esforços linguísticos; (vi) discutir desafios futuros e trocar informação sobre aspetos científicos e tecnológicos; (vii) incentivar e reforçar a criação de corpora paralelos de paráfrases para o português como conjuntos de dados para a coleta de recursos de alinhamento parafrástico para treino e teste de sistemas de parafraseamento; e (viii) localizar fontes de financiamento para impulsionar ainda mais a investigação, apoiar a inovação e desenvolver esta tecnologia capacitante essencial.
 O Comité do Programa era composto por 22 membros de Portugal (8), Brasil (7), Espanha (4), França (2) e Noruega (1), e todos os membros são especialistas de renome em Processamento de Linguagem Natural, Linguística Computacional, Engenharia da Linguagem, e áreas afins, com ampla experiência no processamento da língua portuguesa e especificamente em tópicos relacionados à paráfrase.
 Os organizadores do seminário POP gostariam de reconhecer publicamente várias instituições e pessoas cuja ajuda foi imprescindível para o sucesso do seminário: a Organização do PROPOR’2018, por aceitar a proposta de integrar o POP nos eventos satélite da principal conferência internacional sobre Processamento da Língua Portuguesa, bem como pelo seu apoio constante e colaboração; todos os membros do Comité de Programa, cuja colaboração inestimável foi fundamental para o sucesso do seminário e para a sua qualidade científica; as diferentes instituições que apoiaram, de diferentes formas, a participação de autores e organizadores na conferência.

  • Automated paraphrasing of Portuguese informal into formal language
    Anabela Marques Barreiro, Ida Rebelo-Arnold, Jorge Baptista, Cristina Mota, and Isabel Garcez

    University of Minho
    Este artigo apresenta o processo de automatização de parafraseamento em português e conversão de construções típicas do registo informal ou da linguagem falada em construções de registo formal usadas na linguagem escrita. Ilustraremos o processo de automatização com exemplos extraídos do corpus e-PACT, que envolvem a colocação normalizada de pronomes clíticos quando co-ocorrem com compostos verbais. A tarefa consiste em parafrasear e normalizar, entre outras, construções como vou-lhe/posso-lhe fazer uma surpresa em vou/posso fazer\\-lhe uma surpresa, em que o pronome clítico lhe migra de uma posição enclítica imediatamente a seguir ao primeiro verbo do composto verbal para uma posição enclítica a seguir ao verbo principal, que é o verbo responsável pela seleção do argumento pronominal. O primeiro verbo é um verbo auxiliar ou um verbo volitivo, e.g., querer. Este é um procedimento padronizado no processo de revisão em português europeu. Casos como este representam fenómenos linguísticos em que os estudantes de língua portuguesa e falantes em geral se confundem ou onde "tropeçam". O artigo enfatiza a língua padrão em que os fenómenos observados ocorrem, descreve exemplos de interesse encontrados no corpus e apresenta uma solução automática, baseada na aplicação de gramáticas transformacionais genéricas, que facilitam a normalização de inadequações ou falhas sintáticas (registos informais) encontradas nas construções pesquisadas em construções padronizadas típicas da escrita formal ou escrita profissional.

  • Ep–BP paraphrastic alignments of verbal constructions involving the clitic pronoun LHe
    Ida Rebelo-Arnold, Anabela Marques Barreiro, Paulo Quaresma, and Cristina Mota

    University of Minho
    Este artigo apresenta o alinhamento de construções contendo predicados verbais com o clítico lhe nas variedades de Português Europeu (PE) e Português do Brasil (PB), como nas frases Já lhe arrumaram a bagagem --- Sua bagagem está seguramente guardada, onde a próclise do dativo lhe em PE contrasta com o pronome possessivo sua em PB. Selecionámos vários pares contrastivos de paráfrases, tais como pronomes clíticos em próclise e ênclise, pronomes ocorrendo em presença de pronomes relativos e de advérbios de negação, entre outras construções a fim de ilustrar esse fenómeno linguístico. Algumas diferenças correspondem a contrastes reais entre as duas variedades de Português, enquanto que outras representam escolhas puramente estilísticas. As variantes contrastivas foram alinhadas manualmente a fim de estabelecer um conjunto padrão, e a tipologia estabelecida de forma a poder ser futuramente ampliada e disponibilizada ao público. Os alinhamentos dos pares de paráfrases foram executados no corpus e-PACT usando a ferramenta CLUE-Aligner. Esta pesquisa foi desenvolvida no âmbito do projeto eSPERTo.

  • The Lexicon-Grammar of Predicate Nouns with ser de in Port4NooJ
    Cristina Mota, Jorge Baptista, and Anabela Barreiro

    Springer International Publishing
    This paper provides continuity for previous efforts on the integration of complementary lexicon-grammars to expand the paraphrastic capabilities of Port4NooJ, the Portuguese module of NooJ (Silberztein 2016). We describe the integration of the lexicon-grammar of 2,085 predicate nouns, which co-occur in constructions with the support verb ser de ‘be of’ in European Portuguese, such as in O Pedro e de uma coragem extraordinaria ‘Peter is of an extraordinary courage’, studied, classified and formalized by Baptista (2005b). This led to a 20% increase in the number of predicate nouns. We also extended previously created paraphrasing grammars, such as the grammars that paraphrase symmetric predicates, as well as the grammars that handle the substitution of the support verb by another support verb. Furthermore, we created new grammars to paraphrase negative constructions, appropriate noun constructions, adjectival constructions, and manner sub-clauses. The paraphrastic capabilities acquired have been integrated in the eSPERTo system.

  • Paraphrastic Variance between European and Brazilian Portuguese

  • Integrating the Lexicon-Grammar of Predicate Nouns with Support Verb fazer into Port4NooJ
    Cristina Mota, Lucília Chacoto, and Anabela Barreiro

    Springer International Publishing
    This paper describes the ongoing process of integrating approximately 3,000 predicate nouns into Port4NooJ, the Portuguese module for NooJ. The integration of these resources enables us to further extend the paraphrastic capabilities of eSPERTo paraphrasing system developed in the scope of a project with the same name. The integrated predicate nouns co-occur with the support verb fazer (do or make) and their syntactic and distributional properties are formalized in lexicon-grammar tables. These lexicon-grammar tables resulted in a standalone dictionary of predicate noun constructions and a few new grammars that can be used in paraphrase analysis and generation.

  • eSPERTo’s paraphrastic knowledge applied to question-answering and summarization
    Cristina Mota, Anabela Barreiro, Francisco Raposo, Ricardo Ribeiro, Sérgio Curto, and Luísa Coheur

    Springer International Publishing
    This paper reports our first attempt of integrating eSPERTo’s paraphrastic engine, which is based on NooJ platform, with two application scenarios: a conversational agent, and a summarization system. We briefly describe eSPERTo’s base resources, and the necessary modifications to these resources that enabled the production of paraphrases required to feed both systems. Although the improvement observed in both scenarios is not significant, we present a detailed error analysis to further improve the achieved results in future experiments.

  • Port4NooJ v3.0: Integrated linguistic resources for Portuguese NLP

  • Generating paraphrases of human intransitive adjective constructions with Port4NooJ
    Cristina Mota, Paula Carvalho, Francisco Raposo, and Anabela Barreiro

    Springer International Publishing
    This paper details the integration into Port4NooJ of 15 lexicon-grammar tables describing the distributional properties of 4,248 human intransitive adjectives. The properties described in these tables enable the recognition and generation of adjectival constructions where the adjective has a predicative function. These properties also establish semantic relationships between adjective, noun and verb predicates, allowing new paraphrasing capabilities that were described in NooJ grammars. The new dictionary of human intransitive adjectives created by merging the information on those tables with the Port4NooJ homograph adjectives is comprised of 5,177 entries. The enhanced Port4NooJ is being used in eSPERTo, a NooJ-based paraphrase generation platform.

  • Linguistic evaluation of support verb constructions by openlogos and google translate

  • OpenLogos semantico-syntactic knowledge-rich bilingual dictionaries

  • Preface

  • Cross-language semantic relations between english and portuguese

  • OpenLogos machine translation: Philosophy, model, resources and customization
    Anabela Barreiro, Bernard Scott, Walter Kasper, and Bernd Kiefer

    Springer Science and Business Media LLC
    This paper reviews the OpenLogos rule-based machine translation system, and describes its model architecture as an incremental pipeline process. The paper also describes OpenLogos resources and their customization to specific application domains. One of the key aspects of rule-based machine translation systems intelligence is the symbology employed by these systems in representing natural language internally. The paper offers details about the OpenLogos semantico-syntactic abstract representation language known as SAL. The paper also shows how OpenLogos has addressed classic problems of rule-based machine translation, such as the cognitive complexity and ambiguity encountered in natural language processing, illustrating how SAL helps overcome them in ways distinct from other existing rule-based machine translation systems. The paper illustrates how the intelligence inherent in SAL contributes to translation quality, presenting examples of OpenLogos output of a kind that non-linguistic systems would likely have difficulty emulating. The paper shows the unique manner in which OpenLogos applies the rulebase to the input stream and the kind of results produced that are characteristic of the OpenLogos output. Finally, the paper deals with an important advantage of rule-based machine translation systems, namely, the customization and adaption to application-specific needs with respect to their special terminology and transfer requirements. OpenLogos offers users a set of comfortable customization tools that do not require special knowledge of the system internals. An overview of the possibilities that these tools provide will be presented.

  • SPIDER: A system for paraphrasing in document editing and revision - Applicability in machine translation pre-editing
    Anabela Barreiro

    Springer Berlin Heidelberg
    This paper presents SPIDER, a system for paraphrasing in document editing and revision with applicability in machine translation pre-editing. SPIDER applies its linguistic knowledge (dictionaries and grammars) to create paraphrases of distinct linguistic phenomena. The first version of this tool was initially developed for Portuguese (ReEscreve v01), but it is extensible to different languages and can also operate across languages. SPIDER has a totally new interface, new resources which contemplate a wider coverage of linguistic phenomena, and applicability to legal terminology, which is described here.

  • Syntactic parsing for bio-molecular event detection from scientific literature
    Sérgio Matos, Anabela Barreiro, and José Luis Oliveira

    Springer Berlin Heidelberg
    Rapid advances in science and in laboratorial and computing methods are generating vast amounts of data and scientific literature. In order to keep up-to-date with the expanding knowledge in their field of study, researchers are facing an increasing need for tools that help manage this information. In the genomics field, various databases have been created to save information in a formalized and easily accessible form. However, human curators are not capable of updating these databases at the same rate new studies are published. Advanced and robust text mining tools that automatically extract newly published information from scientific articles are required. This paper presents a methodology, based on syntactic parsing, for identification of gene events from the scientific literature. Evaluation of the proposed approach, based on the BioNLP shared task on event extraction, produced an average F-score of 47.1, for six event types.

  • ParaMT: A paraphraser for machine translation
    Anabela Barreiro

    Springer Berlin Heidelberg
    In this paper we present ParaMT, a bilingual/multilingual paraphraser to be applied in machine translation. We select paraphrases of support verb constructions and use the NooJ linguistic environment to formalize and generate translation equivalences through the use of dictionary and local grammars with syntactic and semantic content. Our research shows that linguistic paraphrasal knowledge constitutes a key element in conversion of source language into controlled language text that presents more successful translation results.