Remember to maintain security and privacy. Do not share sensitive information. Procedimento.com.br may make mistakes. Verify important information. Termo de Responsabilidade
Data Cleaning, ou limpeza de dados, é um processo crucial em qualquer projeto de análise de dados. Envolve a remoção ou correção de dados incorretos, incompletos, irrelevantes, duplicados ou mal formatados. No ambiente Linux, há diversas ferramentas e comandos que podem ser utilizados para realizar Data Cleaning de maneira eficiente, como AWK, sed, grep, e Python. Este artigo abordará como utilizar essas ferramentas para executar tarefas comuns de limpeza de dados diretamente via linha de comando (CMD).
Exemplos:
Remover Linhas Duplicadas com sort
e uniq
:
sort inputfile.txt | uniq > outputfile.txt
Este comando ordena o arquivo inputfile.txt
e remove as linhas duplicadas, salvando o resultado em outputfile.txt
.
Filtrar Linhas com grep
:
grep 'pattern' inputfile.txt > outputfile.txt
Este comando filtra as linhas do arquivo inputfile.txt
que contêm o padrão especificado e salva o resultado em outputfile.txt
.
Substituir Texto com sed
:
sed 's/oldtext/newtext/g' inputfile.txt > outputfile.txt
Este comando substitui todas as ocorrências de oldtext
por newtext
no arquivo inputfile.txt
e salva o resultado em outputfile.txt
.
Processar Dados com awk
:
awk '{ if ($3 > 100) print $0 }' inputfile.txt > outputfile.txt
Este comando usa awk
para filtrar linhas em que o terceiro campo é maior que 100 e salva o resultado em outputfile.txt
.
Limpeza de Dados com Python:
import pandas as pd
# Carregar dados
df = pd.read_csv('inputfile.csv')
# Remover linhas duplicadas
df = df.drop_duplicates()
# Remover valores nulos
df = df.dropna()
# Salvar o resultado
df.to_csv('outputfile.csv', index=False)
Este script Python utiliza a biblioteca pandas
para realizar operações comuns de limpeza de dados em um arquivo CSV.