{"id":14921,"date":"2025-11-25T14:00:43","date_gmt":"2025-11-25T14:00:43","guid":{"rendered":"https:\/\/alcantara.pro.br\/portal\/?p=14921"},"modified":"2025-11-26T18:09:44","modified_gmt":"2025-11-26T18:09:44","slug":"processamento-de-linguagem-natural-na-deteccao-de-fraudes-em-notasfiscais-do-municipio-de-sao-paulo","status":"publish","type":"post","link":"https:\/\/alcantara.pro.br\/portal\/2025\/11\/25\/processamento-de-linguagem-natural-na-deteccao-de-fraudes-em-notasfiscais-do-municipio-de-sao-paulo\/","title":{"rendered":"Processamento de linguagem natural na detec\u00e7\u00e3o de fraudes em notas fiscais do munic\u00edpio de S\u00e3o Paulo"},"content":{"rendered":"<p style=\"text-align: right;\"><em>Por Augusto Cezar Garcia Lozano e Andr\u00e9 Ippolito<\/em><\/p>\n<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_82_2 counter-hierarchy ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<div class=\"ez-toc-title-container\">\n<p class=\"ez-toc-title\" style=\"cursor:inherit\">\u00cdndice<\/p>\n<span class=\"ez-toc-title-toggle\"><a href=\"#\" class=\"ez-toc-pull-right ez-toc-btn ez-toc-btn-xs ez-toc-btn-default ez-toc-toggle\" aria-label=\"Alternar tabela de conte\u00fado\"><span class=\"ez-toc-js-icon-con\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Toggle<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewBox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewBox=\"0 0 24 24\" version=\"1.2\" baseProfile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/span><\/a><\/span><\/div>\n<nav><ul class='ez-toc-list ez-toc-list-level-1 ' ><li class='ez-toc-page-1 ez-toc-heading-level-1'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/alcantara.pro.br\/portal\/2025\/11\/25\/processamento-de-linguagem-natural-na-deteccao-de-fraudes-em-notasfiscais-do-municipio-de-sao-paulo\/#1_Introducao\" >1.\u00a0Introdu\u00e7\u00e3o<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-1'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/alcantara.pro.br\/portal\/2025\/11\/25\/processamento-de-linguagem-natural-na-deteccao-de-fraudes-em-notasfiscais-do-municipio-de-sao-paulo\/#2_Quadro_Teorico\" >2.\u00a0Quadro Te\u00f3rico<\/a><ul class='ez-toc-list-level-2' ><li class='ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/alcantara.pro.br\/portal\/2025\/11\/25\/processamento-de-linguagem-natural-na-deteccao-de-fraudes-em-notasfiscais-do-municipio-de-sao-paulo\/#21_Hadoop\" >2.1\u00a0Hadoop<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-4\" href=\"https:\/\/alcantara.pro.br\/portal\/2025\/11\/25\/processamento-de-linguagem-natural-na-deteccao-de-fraudes-em-notasfiscais-do-municipio-de-sao-paulo\/#22_Processamento_de_Linguagem_Natural\" >2.2\u00a0Processamento de Linguagem Natural<\/a><ul class='ez-toc-list-level-3' ><li class='ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-5\" href=\"https:\/\/alcantara.pro.br\/portal\/2025\/11\/25\/processamento-de-linguagem-natural-na-deteccao-de-fraudes-em-notasfiscais-do-municipio-de-sao-paulo\/#221_Pre-processamento_de_texto\" >2.2.1\u00a0Pr\u00e9-processamento de texto<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-3'><a class=\"ez-toc-link ez-toc-heading-6\" href=\"https:\/\/alcantara.pro.br\/portal\/2025\/11\/25\/processamento-de-linguagem-natural-na-deteccao-de-fraudes-em-notasfiscais-do-municipio-de-sao-paulo\/#222_Representacao_Vetorial\" >2.2.2\u00a0Representa\u00e7\u00e3o Vetorial<\/a><\/li><\/ul><\/li><\/ul><\/li><li class='ez-toc-page-1 ez-toc-heading-level-1'><a class=\"ez-toc-link ez-toc-heading-7\" href=\"https:\/\/alcantara.pro.br\/portal\/2025\/11\/25\/processamento-de-linguagem-natural-na-deteccao-de-fraudes-em-notasfiscais-do-municipio-de-sao-paulo\/#3_Metodologia\" >3. Metodologia<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-1'><a class=\"ez-toc-link ez-toc-heading-8\" href=\"https:\/\/alcantara.pro.br\/portal\/2025\/11\/25\/processamento-de-linguagem-natural-na-deteccao-de-fraudes-em-notasfiscais-do-municipio-de-sao-paulo\/#4_Resultados_e_Discussao\" >4. Resultados e Discuss\u00e3o<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-1'><a class=\"ez-toc-link ez-toc-heading-9\" href=\"https:\/\/alcantara.pro.br\/portal\/2025\/11\/25\/processamento-de-linguagem-natural-na-deteccao-de-fraudes-em-notasfiscais-do-municipio-de-sao-paulo\/#5_Conclusoes\" >5. Conclus\u00f5es<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-1'><a class=\"ez-toc-link ez-toc-heading-10\" href=\"https:\/\/alcantara.pro.br\/portal\/2025\/11\/25\/processamento-de-linguagem-natural-na-deteccao-de-fraudes-em-notasfiscais-do-municipio-de-sao-paulo\/#Referencias\" >Refer\u00eancias<\/a><\/li><\/ul><\/nav><\/div>\n<h1><span class=\"ez-toc-section\" id=\"1_Introducao\"><\/span><em><span dir=\"auto\">1.\u00a0<\/span><strong><span dir=\"auto\">Introdu\u00e7\u00e3o<\/span><\/strong><\/em><span class=\"ez-toc-section-end\"><\/span><\/h1>\n<p style=\"text-align: justify;\"><span dir=\"auto\">A Intelig\u00eancia Artificial (IA) tem sido explorada para solucionar problemas em diversas \u00e1reas do conhecimento. No contexto da Administra\u00e7\u00e3o P\u00fablica, a IA pode proporcionar automa\u00e7\u00e3o e efici\u00eancia em tarefas rotineiras de planejamento e economia de recursos (Souza et al., 2022). As administra\u00e7\u00f5es tribut\u00e1rias enfrentam muitos desafios. Para cumprir suas miss\u00f5es institucionais, as autoridades fiscais podem aplicar a IA para aprimorar as auditorias fiscais (Nunes; Delgado, 2023).<\/span><\/p>\n<p style=\"text-align: justify;\"><span dir=\"auto\">A motiva\u00e7\u00e3o para o uso de IA \u00e9 percept\u00edvel no trabalho di\u00e1rio da Administra\u00e7\u00e3o Tribut\u00e1ria da cidade de S\u00e3o Paulo. No setor de fiscaliza\u00e7\u00e3o, a an\u00e1lise de notas fiscais eletr\u00f4nicas (NFS-e) permite a verifica\u00e7\u00e3o do comportamento de certos contribuintes. No preenchimento da NFS-e, s\u00e3o utilizados textos que descrevem servi\u00e7os tributados em 5%, mas aplicam c\u00f3digos de servi\u00e7o com al\u00edquota inferior, resultando em menor arrecada\u00e7\u00e3o.<\/span><\/p>\n<p style=\"text-align: justify;\"><span dir=\"auto\">Precisamos lidar com o grande volume de notas fiscais e contribuintes. Analisando o territ\u00f3rio brasileiro, as estat\u00edsticas indicam a emiss\u00e3o de 40,394 bilh\u00f5es de notas fiscais desde 2006 para um total de 226,5 milh\u00f5es de contribuintes (Receita Federal do Brasil 2024). No munic\u00edpio de S\u00e3o Paulo, dados da Secretaria Municipal da Fazenda registraram, para o ano de 2023, 664.215.745 notas fiscais emitidas para um total de 825.013 contribuintes. A an\u00e1lise manual desse volume \u00e9 custosa, e a tend\u00eancia \u00e9 que os contribuintes se aproveitem dessa dificuldade para fraudar a Receita Federal, como explicado anteriormente. Conjuntos de dados como o descrito s\u00e3o dif\u00edceis de processar, sendo considerados um problema de Big Data (SAS 2024a). Esse contexto exige an\u00e1lise automatizada, que possibilita decis\u00f5es mais r\u00e1pidas e cronogramas tribut\u00e1rios mais assertivos, alavancando a arrecada\u00e7\u00e3o de impostos.<\/span><\/p>\n<p style=\"text-align: justify;\"><span dir=\"auto\">Isso motiva o uso de t\u00e9cnicas de IA e Big Data. O Processamento de Linguagem Natural (PLN, ou Natural Language Processing &#8211; NLP) fornece uma estrutura de t\u00e9cnicas para an\u00e1lise de texto (Jurafsky; Martin 2008). Assim, o objetivo deste trabalho \u00e9 aplicar PLN para descobrir quais s\u00e3o os termos mais frequentes usados \u200b\u200bem descri\u00e7\u00f5es de servi\u00e7os de tarifa mais alta, mas que tamb\u00e9m s\u00e3o usados \u200b\u200bem notas com c\u00f3digos de servi\u00e7o de tarifa mais baixa.<\/span><\/p>\n<p style=\"text-align: justify;\"><span dir=\"auto\">Foram desenvolvidos trabalhos relacionados \u00e0 aplica\u00e7\u00e3o de PLN na detec\u00e7\u00e3o de fraudes em notas fiscais. Marinho (2023) realizou um estudo com 10.000 notas fiscais do Distrito Federal. Foram calculadas as similaridades entre o texto descritivo do produto na nota e a nomenclatura oficial da mercadoria pelo Mercosul. Notas fiscais com baixa similaridade foram consideradas inconsistentes, o que auxiliou a an\u00e1lise dos auditores. Darraz\u00e3o et al. (2023) basearam seu estudo em um conjunto de notas fiscais do Piau\u00ed. No trabalho, partindo de uma lista de 1.000.506 notas, 200 foram selecionadas aleatoriamente e categorizadas manualmente. Algoritmos de classifica\u00e7\u00e3o foram aplicados e os resultados avaliados. Santos (2022) desenvolveu um trabalho para classificar textos descritivos de notas fiscais. O banco de dados utilizado, com 30.000 notas fiscais, foi fornecido pelo Minist\u00e9rio P\u00fablico da Para\u00edba. Uma amostra dos dados foi classificada manualmente. T\u00e9cnicas de PLN foram aplicadas para classificar as categorias.<\/span><\/p>\n<p style=\"text-align: justify;\"><span dir=\"auto\">As solu\u00e7\u00f5es mais modernas dependem de trabalho manual e utilizam conjuntos de dados com representatividade reduzida em rela\u00e7\u00e3o ao volume de notas fiscais existentes. Al\u00e9m disso, n\u00e3o foram encontrados estudos que visassem detectar fraudes no uso indevido de al\u00edquotas de impostos e que considerassem a an\u00e1lise dos termos mais frequentes nas descri\u00e7\u00f5es de servi\u00e7os.<\/span><\/p>\n<h1><span class=\"ez-toc-section\" id=\"2_Quadro_Teorico\"><\/span><em><span dir=\"auto\">2.\u00a0<\/span><strong><span dir=\"auto\">Quadro Te\u00f3rico<\/span><\/strong><\/em><span class=\"ez-toc-section-end\"><\/span><\/h1>\n<p style=\"text-align: justify;\"><span dir=\"auto\">Nesta se\u00e7\u00e3o, s\u00e3o explicados os conceitos relacionados ao Hadoop e ao PLN (Processamento de Linguagem Natural).<\/span><\/p>\n<h2><span class=\"ez-toc-section\" id=\"21_Hadoop\"><\/span><em><span dir=\"auto\">2.1\u00a0<\/span><strong><span dir=\"auto\">Hadoop<\/span><\/strong><\/em><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p style=\"text-align: justify;\"><span dir=\"auto\">O Hadoop (Apache Hadoop 2006) \u00e9 um sistema que extrai, armazena e analisa grandes volumes de dados (SAS 2024b). De acordo com a Figura 1, a arquitetura do Hadoop \u00e9 formada por uma rede de computadores que distribui o armazenamento e o processamento de dados (Machado 2017).<\/span><\/p>\n<p>&nbsp;<\/p>\n<p style=\"text-align: center;\"><strong><em><span dir=\"auto\">Figura 1<\/span><\/em><span dir=\"auto\">\u00a0\u2013 Arquitetura do Hadoop<\/span><\/strong><\/p>\n<p><code><\/code><\/p>\n<p><img loading=\"lazy\" decoding=\"async\" class=\"wp-image-41176 alignnone aligncenter\" src=\"https:\/\/www.ciat.org\/wp-content\/uploads\/2024\/06\/Picture1spes.png\" alt=\"\" width=\"350\" height=\"228\" \/><\/p>\n<p style=\"text-align: center;\"><em><strong><span dir=\"auto\">Fonte:<\/span><\/strong><\/em><span dir=\"auto\">\u00a0Machado (2017).<\/span><\/p>\n<p style=\"text-align: justify;\"><span dir=\"auto\">\u00c9 poss\u00edvel acoplar o componente Spark ao sistema Hadoop, conforme mostrado na Figura 2, o que complementa o sistema com streaming e IA (Techvidvan 2024).<\/span><\/p>\n<p style=\"text-align: center;\"><strong><em><span dir=\"auto\">Figura 2<\/span><\/em><span dir=\"auto\">\u00a0\u2013 Integra\u00e7\u00e3o entre Hadoop e Spark<\/span><\/strong><\/p>\n<p style=\"text-align: center;\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone wp-image-41179\" src=\"https:\/\/www.ciat.org\/wp-content\/uploads\/2024\/06\/foto2spes.jpg\" alt=\"\" width=\"438\" height=\"233\" \/><\/p>\n<p style=\"text-align: center;\"><em><strong><span dir=\"auto\">Fonte:<\/span><\/strong><\/em><span dir=\"auto\">\u00a0Techvidvan (2024).<\/span><\/p>\n<h2><span class=\"ez-toc-section\" id=\"22_Processamento_de_Linguagem_Natural\"><\/span><em><span dir=\"auto\">2.2\u00a0<\/span><strong><span dir=\"auto\">Processamento de Linguagem Natural<\/span><\/strong><\/em><span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p style=\"text-align: justify;\"><span dir=\"auto\">O PLN (Processamento de Linguagem Natural) (Jurafsky; Martin 2008) permite que os computadores realizem tarefas envolvendo a linguagem humana e se aplica a \u00e1reas como reconhecimento de fala e an\u00e1lise sem\u00e2ntica (Steedman 1996).<\/span><\/p>\n<h3><span class=\"ez-toc-section\" id=\"221_Pre-processamento_de_texto\"><\/span><em><span dir=\"auto\">2.2.1\u00a0<\/span><strong><span dir=\"auto\">Pr\u00e9-processamento de texto<\/span><\/strong><\/em><span class=\"ez-toc-section-end\"><\/span><\/h3>\n<p style=\"text-align: justify;\"><span dir=\"auto\">A primeira t\u00e9cnica utilizada em PLN \u00e9 a tokeniza\u00e7\u00e3o, que divide um texto em unidades; estas podem ser palavras ou n\u00fameros (Manning; Sch\u00fctze 1999). Uma vez que o texto \u00e9 tokenizado, aplicam-se t\u00e9cnicas de redu\u00e7\u00e3o de palavras, como stemming e lematiza\u00e7\u00e3o. Na primeira, prefixos e sufixos s\u00e3o eliminados. Na segunda, uma palavra \u00e9 reduzida ao seu lema: por exemplo, a palavra &#8216;amigos&#8217; torna-se &#8216;amigo&#8217;. Palavras que n\u00e3o s\u00e3o \u00fateis, como artigos e preposi\u00e7\u00f5es, s\u00e3o removidas e chamadas de stopwords.<\/span><\/p>\n<h3><span class=\"ez-toc-section\" id=\"222_Representacao_Vetorial\"><\/span><em><span dir=\"auto\">2.2.2\u00a0<\/span><strong><span dir=\"auto\">Representa\u00e7\u00e3o Vetorial<\/span><\/strong><\/em><span class=\"ez-toc-section-end\"><\/span><\/h3>\n<p style=\"text-align: justify;\"><span dir=\"auto\">O modelo utilizado \u00e9 o de saco de palavras, que cria um vetor com uma dimens\u00e3o dada pelo n\u00famero de palavras diferentes, armazenando em cada espa\u00e7o do vetor a frequ\u00eancia da respectiva palavra (Feldman; Sanger 2006). Alguns modelos s\u00e3o baseados na coocorr\u00eancia de palavras, utilizando uma matriz na qual cada linha \u00e9 uma palavra e as colunas s\u00e3o documentos, sendo a c\u00e9lula da matriz a frequ\u00eancia da palavra por documento (Jurafsky; Martin 2008).<\/span><\/p>\n<p style=\"text-align: justify;\"><span dir=\"auto\">O modelo de frequ\u00eancia do termo-frequ\u00eancia inversa do documento (TF-IDF) baseia-se na coocorr\u00eancia de palavras. O TF calcula a frequ\u00eancia com que um determinado termo t aparece em um documento d, e o IDF pondera essa frequ\u00eancia com base no n\u00famero total de documentos e no n\u00famero de documentos em que o termo aparece. O IDF \u00e9 dado por:<\/span><\/p>\n<p><img loading=\"lazy\" decoding=\"async\" class=\"wp-image-41210 aligncenter\" src=\"https:\/\/www.ciat.org\/wp-content\/uploads\/2024\/06\/formula-en.png\" alt=\"\" width=\"386\" height=\"270\" \/><\/p>\n<h1><span class=\"ez-toc-section\" id=\"3_Metodologia\"><\/span><em><strong><span dir=\"auto\">3. Metodologia<\/span><\/strong><\/em><span class=\"ez-toc-section-end\"><\/span><\/h1>\n<p><span dir=\"auto\">Os estudos para solucionar o problema apresentado neste estudo come\u00e7aram em 2019. Naquela \u00e9poca, a unidade de Intelig\u00eancia Tribut\u00e1ria possu\u00eda um computador e uma ferramenta visual com 2 GB de RAM. O tempo de processamento era de uma semana.<\/span><\/p>\n<p style=\"text-align: justify;\"><span dir=\"auto\">A solu\u00e7\u00e3o atual representa uma evolu\u00e7\u00e3o. Ela foi desenvolvida em um ambiente configur\u00e1vel, adequado para problemas de Big Data. A plataforma de desenvolvimento Jupyter (Jupyter, 2015) foi utilizada, juntamente com o sistema Hadoop. Rotinas de programa\u00e7\u00e3o foram desenvolvidas nas linguagens Sqoop e Python para armazenar e preparar dados e modelar textos utilizando PLN (Processamento de Linguagem Natural). O ambiente foi configurado com 20 GB de RAM. Entre as vantagens, destacam-se a capacidade de distribuir o processamento e o armazenamento de dados e de desenvolver c\u00f3digo flex\u00edvel.<\/span><\/p>\n<p style=\"text-align: justify;\"><span dir=\"auto\">Os bancos de dados utilizados foram tabelas da NFS-e da Secretaria Municipal de Finan\u00e7as de S\u00e3o Paulo, referentes ao per\u00edodo de 2019 a 2022. As etapas da solu\u00e7\u00e3o seguem o fluxograma da Figura 1. Os seguintes passos foram realizados:<\/span><\/p>\n<ol>\n<li style=\"text-align: justify;\"><span dir=\"auto\">Importe as notas fiscais com a al\u00edquota de imposto mais alta para o sistema ADO Hadoop.<\/span><\/li>\n<li style=\"text-align: justify;\"><span dir=\"auto\">Use o Spark para processar texto de servi\u00e7os de anota\u00e7\u00f5es:<\/span>\n<ul>\n<li><span dir=\"auto\">Normalizar os termos para min\u00fasculas.<\/span><\/li>\n<li><span dir=\"auto\">Remova os espa\u00e7os em branco.<\/span><\/li>\n<li><span dir=\"auto\">Remova caracteres especiais, sinais de pontua\u00e7\u00e3o, acentos e palavras-chave.<\/span><\/li>\n<li><span dir=\"auto\">Radicaliza\u00e7\u00e3o e lematiza\u00e7\u00e3o.<\/span><\/li>\n<\/ul>\n<\/li>\n<li style=\"text-align: justify;\"><span dir=\"auto\">Crie uma tabela com as palavras obtidas e seus respectivos valores TF-IDF.<\/span><\/li>\n<li style=\"text-align: justify;\"><span dir=\"auto\">Selecione as notas do c\u00f3digo de taxa inferior que contenham os termos mais frequentes do c\u00f3digo de taxa superior obtido no item 4. Os termos mais frequentes foram considerados os 100 termos com o maior valor TF-IDF.<\/span><\/li>\n<\/ol>\n<p>&nbsp;<\/p>\n<p style=\"text-align: center;\"><strong><em><span dir=\"auto\">Figura 1:<\/span><\/em>\u00a0<\/strong><span dir=\"auto\">Fluxograma das etapas da solu\u00e7\u00e3o<\/span><\/p>\n<p><img loading=\"lazy\" decoding=\"async\" class=\"alignnone size-full wp-image-41194 aligncenter\" src=\"https:\/\/www.ciat.org\/wp-content\/uploads\/2024\/06\/photo6spe.png\" sizes=\"auto, (max-width: 485px) 100vw, 485px\" srcset=\"https:\/\/www.ciat.org\/wp-content\/uploads\/2024\/06\/photo6spe.png 485w, https:\/\/www.ciat.org\/wp-content\/uploads\/2024\/06\/photo6spe-300x167.png 300w\" alt=\"\" width=\"485\" height=\"270\" \/><\/p>\n<ul>\n<li><span dir=\"auto\">-Importar NFS-e do c\u00f3digo de al\u00edquota mais alto para o sistema de arquivos Hadoop<\/span><\/li>\n<li><span dir=\"auto\">-Pr\u00e9-processar os textos de descri\u00e7\u00e3o do servi\u00e7o NFS-e usando o Spark<\/span><\/li>\n<li><span dir=\"auto\">-Classifique as palavras de acordo com o n\u00famero de ocorr\u00eancias usando o Spark.<\/span><\/li>\n<li><span dir=\"auto\">-Selecione as NFS-e v\u00e1lidas, tributadas em S\u00e3o Paulo e com al\u00edquota normal de imposto de menor valor, que apresentem os termos mais frequentes da al\u00edquota de maior valor.<\/span><\/li>\n<\/ul>\n<h1><span class=\"ez-toc-section\" id=\"4_Resultados_e_Discussao\"><\/span><em><strong><span dir=\"auto\">4. Resultados e Discuss\u00e3o<\/span><\/strong><\/em><span class=\"ez-toc-section-end\"><\/span><\/h1>\n<p style=\"text-align: justify;\"><span dir=\"auto\">Foram analisadas as transa\u00e7\u00f5es relacionadas a impostos resultantes da aplica\u00e7\u00e3o da metodologia neste estudo. Observou-se uma tend\u00eancia crescente de 2019 a 2022, per\u00edodo em que a metodologia foi aplicada. No total, foram realizadas 27 transa\u00e7\u00f5es, sendo 23 conclu\u00eddas e 4 em andamento, abrangendo 27 empresas, conforme ilustrado na Figura 1.<\/span><\/p>\n<p style=\"text-align: center;\"><strong><em><span dir=\"auto\">Gr\u00e1fico 1<\/span><\/em><span dir=\"auto\">\u00a0\u2013<\/span><\/strong><span dir=\"auto\">\u00a0Opera\u00e7\u00f5es de controle emitidas<\/span><\/p>\n<p style=\"text-align: center;\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone wp-image-41186\" src=\"https:\/\/www.ciat.org\/wp-content\/uploads\/2024\/06\/photo1spen.png\" alt=\"\" width=\"498\" height=\"276\" \/><\/p>\n<p style=\"text-align: center;\"><strong><em><span dir=\"auto\">Fonte<\/span><\/em><span dir=\"auto\">\u00a0:<\/span><\/strong><span dir=\"auto\">\u00a0Elaborado pelos autores (2024).<\/span><\/p>\n<p style=\"text-align: justify;\"><span dir=\"auto\">Os n\u00fameros relativos \u00e0s notifica\u00e7\u00f5es de infra\u00e7\u00e3o s\u00e3o apresentados no Gr\u00e1fico 2, sendo que 72% do valor total das notifica\u00e7\u00f5es j\u00e1 foi pago. De acordo com o Gr\u00e1fico 3, foram emitidas 249 notifica\u00e7\u00f5es. Ao avaliar o percentual de quita\u00e7\u00e3o de impostos em rela\u00e7\u00e3o ao faturamento da empresa, esse n\u00famero chega a 65%.<\/span><\/p>\n<p style=\"text-align: center;\"><strong><em><span dir=\"auto\">Gr\u00e1fico 2<\/span><\/em><span dir=\"auto\">\u00a0\u2013<\/span><\/strong><span dir=\"auto\">\u00a0Valores das notifica\u00e7\u00f5es de infra\u00e7\u00e3o<\/span><\/p>\n<p style=\"text-align: center;\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone wp-image-41187\" src=\"https:\/\/www.ciat.org\/wp-content\/uploads\/2024\/06\/photo2spen.png\" alt=\"\" width=\"414\" height=\"271\" \/><\/p>\n<p style=\"text-align: center;\"><strong><em><span dir=\"auto\">Fonte<\/span><\/em><span dir=\"auto\">\u00a0:<\/span><\/strong><span dir=\"auto\">\u00a0Elaborado pelos autores (2024).<\/span><\/p>\n<p style=\"text-align: center;\"><strong><em><span dir=\"auto\">Gr\u00e1fico 3<\/span><\/em><span dir=\"auto\">\u00a0\u2013<\/span><\/strong><span dir=\"auto\">\u00a0N\u00famero de notifica\u00e7\u00f5es de infra\u00e7\u00e3o<\/span><\/p>\n<p style=\"text-align: center;\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone wp-image-41188\" src=\"https:\/\/www.ciat.org\/wp-content\/uploads\/2024\/06\/photo3spen.png\" alt=\"\" width=\"465\" height=\"290\" \/><\/p>\n<p style=\"text-align: center;\"><strong><em><span dir=\"auto\">Fonte<\/span><\/em><span dir=\"auto\">\u00a0:<\/span><\/strong><span dir=\"auto\">\u00a0Elaborado pelos autores (2024).<\/span><\/p>\n<p style=\"text-align: justify;\"><span dir=\"auto\">Em rela\u00e7\u00e3o ao volume de notas analisadas, um total de 38.727.247 notas foram processadas. Essa an\u00e1lise foi dividida em dois grupos: um grupo de notas com taxas de imposto mais altas e outro de notas com taxas de imposto mais baixas. O Gr\u00e1fico 4 mostra a tend\u00eancia anual desses valores.<\/span><\/p>\n<p style=\"text-align: center;\"><strong><em><span dir=\"auto\">Gr\u00e1fico 4<\/span><\/em><span dir=\"auto\">\u00a0\u2013<\/span><\/strong><span dir=\"auto\"> N\u00famero de notas fiscais analisadas<\/span><\/p>\n<p style=\"text-align: center;\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone wp-image-41189\" src=\"https:\/\/www.ciat.org\/wp-content\/uploads\/2024\/06\/photo4spen.png\" alt=\"\" width=\"478\" height=\"296\" \/><\/p>\n<p style=\"text-align: center;\"><strong><em><span dir=\"auto\">Fonte<\/span><\/em><span dir=\"auto\">\u00a0:<\/span><\/strong><span dir=\"auto\">\u00a0Elaborado pelos autores (2024).<\/span><\/p>\n<p style=\"text-align: justify;\"><span dir=\"auto\">Analisou-se a evolu\u00e7\u00e3o do ISS (Imposto Municipal sobre Servi\u00e7os) pago pelos contribuintes, retroagindo a 2015, para mensurar o efeito da metodologia. Observou-se um aumento nos valores, com pico em 2019, ano de implementa\u00e7\u00e3o da metodologia, conforme demonstra a Figura 5. Analisando o per\u00edodo de 2015 a 2018, anterior \u00e0 aplica\u00e7\u00e3o da metodologia, o ISS m\u00e9dio pago foi de 7.732.552,89 reais. No per\u00edodo de 2019 a 2022, o valor m\u00e9dio foi de 11.422.897,19 reais, representando um aumento de 48% na arrecada\u00e7\u00e3o.<\/span><\/p>\n<p style=\"text-align: center;\"><strong><em><span dir=\"auto\">Gr\u00e1fico 5<\/span><\/em><span dir=\"auto\">\u00a0\u2013<\/span><\/strong><span dir=\"auto\">\u00a0ISS pago<\/span><\/p>\n<p style=\"text-align: center;\"><img loading=\"lazy\" decoding=\"async\" class=\"alignnone wp-image-41190\" src=\"https:\/\/www.ciat.org\/wp-content\/uploads\/2024\/06\/photo5spen.png\" alt=\"\" width=\"475\" height=\"282\" \/><\/p>\n<p style=\"text-align: center;\"><strong><em><span dir=\"auto\">Fonte<\/span><\/em><span dir=\"auto\">\u00a0:<\/span><\/strong><span dir=\"auto\">\u00a0Elaborado pelos autores (2024).<\/span><\/p>\n<h1><span class=\"ez-toc-section\" id=\"5_Conclusoes\"><\/span><strong><em><span dir=\"auto\">5. Conclus\u00f5es<\/span><\/em><\/strong><span class=\"ez-toc-section-end\"><\/span><\/h1>\n<p style=\"text-align: justify;\"><span dir=\"auto\">Na \u00e1rea da administra\u00e7\u00e3o p\u00fablica, a IA pode aprimorar as auditorias. Existe um grande volume de contribuintes e notas fiscais cuja an\u00e1lise manual exige um trabalho extenso. Alguns contribuintes se aproveitam dessa dificuldade para sonegar o NFS-e (notas fiscais eletr\u00f4nicas). Consequentemente, h\u00e1 uma demanda por solu\u00e7\u00f5es que automatizem a an\u00e1lise de grandes volumes de dados, acelerando as decis\u00f5es e tornando as a\u00e7\u00f5es tribut\u00e1rias mais eficazes, aumentando assim a arrecada\u00e7\u00e3o de impostos.<\/span><\/p>\n<p style=\"text-align: justify;\"><span dir=\"auto\">Os estudos relacionados baseiam-se em solu\u00e7\u00f5es manuais e em conjuntos de dados n\u00e3o representativos. N\u00e3o foram encontrados estudos que se concentrem na detec\u00e7\u00e3o de fraudes por meio do uso indevido de taxas de impostos e que se baseiem na an\u00e1lise da frequ\u00eancia de termos NFS-e.<\/span><\/p>\n<p style=\"text-align: justify;\"><span dir=\"auto\">Neste trabalho, t\u00e9cnicas de PLN foram aplicadas aos textos descritivos de 38.727.247 NFS-e da Prefeitura de S\u00e3o Paulo no per\u00edodo de 2019 a 2022. Foram identificados os termos mais frequentes utilizados para detalhar servi\u00e7os tributados com al\u00edquotas mais altas, mas aplicados a NFS-e com c\u00f3digo de servi\u00e7o de al\u00edquota mais baixa.<\/span><\/p>\n<p style=\"text-align: justify;\"><span dir=\"auto\">A descoberta desses termos possibilitou a identifica\u00e7\u00e3o de contribuintes que emitiam documentos NFS-e fraudulentos, permitindo o agendamento eficiente de a\u00e7\u00f5es de auditoria. Isso resultou em maior efic\u00e1cia das a\u00e7\u00f5es de fiscaliza\u00e7\u00e3o, atingindo uma taxa de pagamento de 72% para notifica\u00e7\u00f5es de infra\u00e7\u00e3o. Um grande volume de documentos NFS-e foi analisado e um n\u00famero crescente de pagamentos do ISS foi verificado durante o per\u00edodo em an\u00e1lise. A ado\u00e7\u00e3o de PLN (Processamento de Linguagem Natural) e de uma infraestrutura de Big Data acelerou a detec\u00e7\u00e3o de fraudes e impulsionou a arrecada\u00e7\u00e3o.<\/span><\/p>\n<p><span dir=\"auto\">Em trabalhos futuros, pretendemos aplicar t\u00e9cnicas de Aprendizado de M\u00e1quina (Mitchell, 1997) aos dados obtidos com PLN para classificar o NFS-e. Essa abordagem poder\u00e1 gerar resultados mais promissores do que os obtidos neste estudo em termos de efic\u00e1cia das opera\u00e7\u00f5es de verifica\u00e7\u00e3o, precis\u00e3o das notifica\u00e7\u00f5es de infra\u00e7\u00e3o e aumento da arrecada\u00e7\u00e3o tribut\u00e1ria.<\/span><\/p>\n<hr \/>\n<h1><span class=\"ez-toc-section\" id=\"Referencias\"><\/span><em><strong><span dir=\"auto\">Refer\u00eancias<\/span><\/strong><\/em><span class=\"ez-toc-section-end\"><\/span><\/h1>\n<p><span dir=\"auto\">APACHE HADOOP. O que \u00e9 o Apache Hadoop? Site. Dispon\u00edvel em &lt;\u00a0<\/span><a href=\"https:\/\/hadoop.apache.org\/\"><span dir=\"auto\">https:\/\/hadoop.apache.org\/<\/span><\/a><span dir=\"auto\">\u00a0&gt;. Acesso em 08\/02\/2024. Elaborado em 2006.<\/span><\/p>\n<p><span dir=\"auto\">DARRAZ\u00c3O, E.; AMORIM V.; OLIVEIRA, K.; Gomes-Jr, L. Engenharia e avalia\u00e7\u00e3o de recursos para extra\u00e7\u00e3o de informa\u00e7\u00f5es em faturas. In: Anais da XVIII Escola Regional de Banco de Dados. SBC, 2023. pp. 80-89.<\/span><\/p>\n<p><span dir=\"auto\">FELDMAN, R.; SANGER, J. Manual de Minera\u00e7\u00e3o de Texto: Abordagens Avan\u00e7adas na An\u00e1lise de Dados N\u00e3o Estruturados. Cambridge University Press, 2006.<\/span><\/p>\n<p><span dir=\"auto\">JUPYTER. Documenta\u00e7\u00e3o do Projeto Jupyter. Site. Dispon\u00edvel em <\/span><a href=\"https:\/\/docs.jupyter.org\/en\/latest\/\" target=\"_new\"><span dir=\"auto\">https:\/\/docs.jupyter.org\/en\/latest\/<\/span><\/a><span dir=\"auto\">\u00a0. Acesso em 09\/02\/2024. Preparado em 2015.<\/span><\/p>\n<p><span dir=\"auto\">JURAFSKY, D.; MARTIN, JH. Processamento de Fala e Linguagem: Uma Introdu\u00e7\u00e3o ao Processamento de Linguagem Natural, Lingu\u00edstica Computacional e Reconhecimento de Fala. 2\u00aa\u00a0<\/span><sup><span dir=\"auto\">ed<\/span><\/sup><span dir=\"auto\">\u00a0. EUA: Prentice Hall PTR, 2008.<\/span><\/p>\n<p><span dir=\"auto\">MACHADO, a. Guia passo a passo para criar um cluster Hadoop com 3 n\u00f3s. Artigo dispon\u00edvel em &lt;\u00a0<\/span><a href=\"https:\/\/blog.4linux.com.br\/hadoop-cluster\/\"><span dir=\"auto\">https:\/\/blog.4linux.com.br\/hadoop-cluster\/<\/span><\/a><span dir=\"auto\">\u00a0&gt;. Acesso em: 15\/02\/2024. Elaborado em 06\/06\/2017.<\/span><\/p>\n<p><span dir=\"auto\">MANNING, CD; SCH\u00dcTZE, H. Fundamentos do Processamento Estat\u00edstico da Linguagem Natural. Cambridge, MA: MIT Press, 1999.<\/span><\/p>\n<p><span dir=\"auto\">MARINE, MC. Estrat\u00e9gias computacionais baseadas na similaridade de textos e visualiza\u00e7\u00e3o explorat\u00f3ria para a identifica\u00e7\u00e3o de inconsist\u00eancias em faturas eletr\u00f4nicas. Monografia. Departamento de Ci\u00eancia da Computa\u00e7\u00e3o, Universidade de Bras\u00edlia, 2023.<\/span><\/p>\n<p><span dir=\"auto\">MITCHELL, TM Aprendizado de M\u00e1quina. Nova York, 1997.<\/span><\/p>\n<p><span dir=\"auto\">NUNES, F. de HP; DELGADO, J. de S. A utiliza\u00e7\u00e3o da Intelig\u00eancia Artificial pelas Administra\u00e7\u00f5es Fiscais. Revista Tribut\u00e1ria e de Finan\u00e7as P\u00fablicas, v. 155, N.30, p.73\u201386, 2023.<\/span><\/p>\n<p><span dir=\"auto\">RECEITA FEDERAL DO BRASIL. Portal da Nota Fiscal Eletr\u00f4nica. 2024. Dispon\u00edvel em:&lt;\u00a0<\/span><a href=\"https:\/\/www.nfe.fazenda.gov.br\/portal\/sobreNFe.aspx?tipoConteudo=PEhYdxncZBE=&amp;AspxAutoDetectCookieSupport=1\"><span dir=\"auto\">https:\/\/www.nfe.fazenda.gov.br\/portal\/sobreNFe.aspx?tipoConteudo=PEhYdxncZBE=&amp;AspxAutoDetectCookieSupport=1<\/span><\/a><span dir=\"auto\">\u00a0&gt;. Acesso em: 07 fev. 2024.<\/span><\/p>\n<p><span dir=\"auto\">SANTOS, MTM Classifica\u00e7\u00e3o de produtos em notas fiscais eletr\u00f4nicas utilizando descri\u00e7\u00f5es textuais n\u00e3o estruturadas. Monografia. Instituto de Computa\u00e7\u00e3o da Universidade Federal de Alagoas, 2022.<\/span><\/p>\n<p><span dir=\"auto\">SAS. Big Data: O que \u00e9 e por que \u00e9 importante. 2024a. Dispon\u00edvel em: &lt;\u00a0<\/span><a href=\"https:\/\/www.sas.com\/pt_br\/insights\/big-data\/what-is-big-data.html\"><span dir=\"auto\">https:\/\/www.sas.com\/pt_br\/insights\/big-data\/what-is-big-data.html<\/span><\/a><span dir=\"auto\">\u00a0&gt;. Acesso em: 15 de fev. de 2024.<\/span><\/p>\n<p><span dir=\"auto\">SAS. Hadoop: O que \u00e9 e por que \u00e9 importante. 2024b. Dispon\u00edvel em: &lt;\u00a0<\/span><a href=\"https:\/\/www.sas.com\/en_us\/insights\/big-data\/hadoop.html\"><span dir=\"auto\">https:\/\/www.sas.com\/en_us\/insights\/big-data\/hadoop.html<\/span><\/a><span dir=\"auto\">\u00a0&gt;. Acesso em: 15 de fev. de 2024.<\/span><\/p>\n<p><span dir=\"auto\">SOUZA, AMA; SADDY, A.; SEYLLER, ADM; BERARDINELLI, AL; ARA\u00daJO, CM; SOUZA, DAVG; PESSANHA, DP; COIMBRA, EM; L\u00d4BO, FLA; TEIXEIRA, G.; SOUSA, PRESUNTO; TORRES, IM; CAMPOS, A.; SILVA, JE; PEREIRA, JSSS; GALIL, JVT; ARGENTO, JRO; PINTO, J\u00d3; FREIRE, K.A; SILVA, LFB; PEIXOTO, LB; SILVA, LC Jr.; DAHER, LESLT; SILVA, MAM; TEMER, M. C.; TEIXEIRA, RLCJ; STRAUCH, TSR; SOUZA, WVS Intelig\u00eancia Artificial e Direito Administrativo. Centro para Estudos Emp\u00edrico-Jur\u00eddicos (CEEJ), 2022.<\/span><\/p>\n<p><span dir=\"auto\">STEEDMAN, M. Processamento de linguagem natural. San Diego: Academic Press, 1996.<\/span><\/p>\n<p><span dir=\"auto\">TECHVIDVAN. Integra\u00e7\u00e3o Hadoop Spark: Guia R\u00e1pido. Artigo dispon\u00edvel em &lt; <\/span><a href=\"https:\/\/techvidvan.com\/tutorials\/hadoop-spark-integration\/\"><span dir=\"auto\">https:\/\/techvidvan.com\/tutorials\/hadoop-spark-integration\/<\/span><\/a><span dir=\"auto\">\u00a0&gt;. Acesso em: 15\/02\/2024.<\/span><\/p>\n<hr \/>\n<p><span style=\"font-size: 10pt;\">Texto publicado originalmente em ingl\u00eas\/espanhol no Portal do CIAT, em 17 e 18 de junho de 2025, traduzido via Google Translator, com breves ajustes ortogr\u00e1ficos. No original \u00e9 citado a palavra &#8220;fatura&#8221;, na tradu\u00e7\u00e3o usamos &#8220;nota fiscal&#8221;.<\/span><\/p>\n<ul>\n<li><span style=\"font-size: 10pt;\"><a href=\"https:\/\/www.ciat.org\/ciatblog-procesamiento-de-lenguaje-natural-en-la-deteccion-de-fraudes-en-facturas-del-municipio-de-sao-paulo-parte-1\/\" target=\"_blank\" rel=\"noopener\">https:\/\/www.ciat.org\/ciatblog-procesamiento-de-lenguaje-natural-en-la-deteccion-de-fraudes-en-facturas-del-municipio-de-sao-paulo-parte-1\/<\/a><\/span><\/li>\n<li><span style=\"font-size: 10pt;\"><a href=\"https:\/\/www.ciat.org\/ciatblog-procesamiento-de-lenguaje-natural-en-la-deteccion-de-fraudes-en-facturas-del-municipio-de-sao-paulo-parte-2\/\" target=\"_blank\" rel=\"noopener\">https:\/\/www.ciat.org\/ciatblog-procesamiento-de-lenguaje-natural-en-la-deteccion-de-fraudes-en-facturas-del-municipio-de-sao-paulo-parte-2\/<\/a><\/span><\/li>\n<\/ul>\n<p style=\"text-align: justify;\"><span style=\"font-size: 10pt;\"><strong><span dir=\"auto\">Aviso Legal disponibilizado no site do CIAT em rela\u00e7\u00e3o ao texto publicado.<\/span><\/strong><span dir=\"auto\">\u00a0Os leitores devem estar cientes de que as vis\u00f5es, pensamentos e opini\u00f5es expressas no texto pertencem exclusivamente ao autor e n\u00e3o necessariamente ao seu empregador, organiza\u00e7\u00e3o, comit\u00ea ou outro grupo ao qual o autor possa estar associado, nem \u00e0 Secretaria Executiva do CIAT. O autor tamb\u00e9m \u00e9 respons\u00e1vel pela precis\u00e3o e exatid\u00e3o dos dados e fontes.<\/span><\/span><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Por Augusto Cezar Garcia Lozano e Andr\u00e9 Ippolito 1.\u00a0Introdu\u00e7\u00e3o A Intelig\u00eancia Artificial (IA) tem sido<\/p>\n","protected":false},"author":1,"featured_media":14922,"comment_status":"closed","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[17,264,124],"tags":[],"class_list":["post-14921","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-c42-auditoria-fiscal","category-ciat","category-inteligencia-fiscal"],"_links":{"self":[{"href":"https:\/\/alcantara.pro.br\/portal\/wp-json\/wp\/v2\/posts\/14921","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/alcantara.pro.br\/portal\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/alcantara.pro.br\/portal\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/alcantara.pro.br\/portal\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/alcantara.pro.br\/portal\/wp-json\/wp\/v2\/comments?post=14921"}],"version-history":[{"count":10,"href":"https:\/\/alcantara.pro.br\/portal\/wp-json\/wp\/v2\/posts\/14921\/revisions"}],"predecessor-version":[{"id":14968,"href":"https:\/\/alcantara.pro.br\/portal\/wp-json\/wp\/v2\/posts\/14921\/revisions\/14968"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/alcantara.pro.br\/portal\/wp-json\/wp\/v2\/media\/14922"}],"wp:attachment":[{"href":"https:\/\/alcantara.pro.br\/portal\/wp-json\/wp\/v2\/media?parent=14921"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/alcantara.pro.br\/portal\/wp-json\/wp\/v2\/categories?post=14921"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/alcantara.pro.br\/portal\/wp-json\/wp\/v2\/tags?post=14921"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}